作者:hooly
微信公號:一口袋星光
首先我們需要確認,是在training data上的performance差還是在testing data上的 performance 差踊淳,從而選擇合適的方法歼指。
在training data上的performance差怎么辦呀伙?
New activation function
我們發(fā)現(xiàn)奏窑,在同一時刻些椒,越靠后的網(wǎng)絡(luò)層的學(xué)習(xí)速率越快扶歪,而越靠前的網(wǎng)絡(luò)層的學(xué)習(xí)速率反而越慢!我們可以有一個直觀的印象雏亚,error項在向后傳播的過程中缨硝,逐漸變小,使得越靠前的網(wǎng)絡(luò)層的學(xué)習(xí)速率越來越低罢低,這種現(xiàn)象被稱為vanishing gradient problem。
解決這個問題胖笛,我們可以改變activation function
ReLU
Maxout
Adaptive Learning Rate
兩種方法
RMSProp
Momentum
在testing data上的performance差怎么辦网持?
Early Stopping
我們想要的是 在testing data上的效果最好,也就是loss最小长踊。如果在Validation set你的loss已經(jīng)不再下降功舀,你就應(yīng)該停下來。
Regularization
我們修改了loss function身弊,希望我們的參數(shù)越小越好辟汰。
Dropout
- testing的時候是不dropout的
- If the dropout rate at training is p%,all the weights times 1-p%
- Assume that the dropout rate is 50%.If a weight w = 1 by training, set ?? = 0.5 for testing.
作者:hooly
微信公號:一口袋星光
我會在微信公號上持續(xù)更新我的文章,你來討論我很歡迎阱佛。