作者:hooly
微信公號:一口袋星光
image.png
首先我們需要確認,是在training data上的performance差還是在testing data上的 performance 差踊淳,從而選擇合適的方法歼指。
image.png
在training data上的performance差怎么辦呀伙?
New activation function
我們發(fā)現(xiàn)奏窑,在同一時刻些椒,越靠后的網(wǎng)絡(luò)層的學(xué)習(xí)速率越快扶歪,而越靠前的網(wǎng)絡(luò)層的學(xué)習(xí)速率反而越慢!我們可以有一個直觀的印象雏亚,error項在向后傳播的過程中缨硝,逐漸變小,使得越靠前的網(wǎng)絡(luò)層的學(xué)習(xí)速率越來越低罢低,這種現(xiàn)象被稱為vanishing gradient problem。
image.png
解決這個問題胖笛,我們可以改變activation function
ReLU
image.png
Maxout
image.png
Adaptive Learning Rate
兩種方法
RMSProp
image.png
Momentum
image.png
在testing data上的performance差怎么辦网持?
Early Stopping
image.png
我們想要的是 在testing data上的效果最好,也就是loss最小长踊。如果在Validation set你的loss已經(jīng)不再下降功舀,你就應(yīng)該停下來。
Regularization
image.png
我們修改了loss function身弊,希望我們的參數(shù)越小越好辟汰。
Dropout
image.png
- testing的時候是不dropout的
- If the dropout rate at training is p%,all the weights times 1-p%
- Assume that the dropout rate is 50%.If a weight w = 1 by training, set ?? = 0.5 for testing.
作者:hooly
微信公號:一口袋星光
我會在微信公號上持續(xù)更新我的文章,你來討論我很歡迎阱佛。