姓名:馮坤 學(xué)號(hào):16050310070 物理與光電工程學(xué)院
【嵌牛導(dǎo)讀】:說到這些參數(shù)就會(huì)想到Stochastic Gradient Descent (SGD)扶供!其實(shí)這些參數(shù)在caffe.proto中 對caffe網(wǎng)絡(luò)中出現(xiàn)的各項(xiàng)參數(shù)做了詳細(xì)的解釋乏奥。
【嵌牛鼻子】:深度學(xué)習(xí)超參數(shù)
【嵌牛提問】:深度學(xué)習(xí)超參數(shù)該如何理解?
【嵌牛正文】:
學(xué)習(xí)率決定了權(quán)值更新的速度心剥,設(shè)置得太大會(huì)使結(jié)果超過最優(yōu)值牵署,太小會(huì)使下降速度過慢。僅靠人為干預(yù)調(diào)整參數(shù)需要不斷修改學(xué)習(xí)率羡榴,因此后面3種參數(shù)都是基于自適應(yīng)的思路提出的解決方案择懂。后面3中參數(shù)分別為:Weight Decay 權(quán)值衰減,Momentum 動(dòng)量和Learning Rate Decay 學(xué)習(xí)率衰減邑遏。
Weight decay
在實(shí)際應(yīng)用中佣赖,為了避免網(wǎng)絡(luò)的過擬合,必須對價(jià)值函數(shù)(Cost function)加入一些正則項(xiàng)记盒,在SGD中加入
這一正則項(xiàng)對這個(gè)Cost function進(jìn)行規(guī)范化:
上面這個(gè)公式基本思想就是減小不重要的參數(shù)對最后結(jié)果的影響憎蛤,網(wǎng)絡(luò)中有用的權(quán)重則不會(huì)收到Weight decay影響。
在機(jī)器學(xué)習(xí)或者模式識(shí)別中纪吮,會(huì)出現(xiàn)overfitting俩檬,而當(dāng)網(wǎng)絡(luò)逐漸overfitting時(shí)網(wǎng)絡(luò)權(quán)值逐漸變大栏豺,因此,為了避免出現(xiàn)overfitting,會(huì)給誤差函數(shù)添加一個(gè)懲罰項(xiàng)豆胸,常用的懲罰項(xiàng)是所有權(quán)重的平方乘以一個(gè)衰減常量之和奥洼。其用來懲罰大的權(quán)值。
Momentum
動(dòng)量來源于牛頓定律晚胡,基本思想是為了找到最優(yōu)加入“慣性”的影響灵奖,當(dāng)誤差曲面中存在平坦區(qū)域,SGD就可以更快的學(xué)習(xí)估盘。
Learning Rate Decay
該方法是為了提高SGD尋優(yōu)能力瓷患,具體就是每次迭代的時(shí)候減少學(xué)習(xí)率的大小。
接下來是我在知乎查詢到的一點(diǎn)資料(整理了供大家參考學(xué)習(xí)):
weight decay(權(quán)值衰減)的使用既不是為了提高收斂精確度也不是為了提高收斂速度遣妥,其最終目的是防止過擬合擅编。在損失函數(shù)中,weight decay是放在正則項(xiàng)(regularization)前面的一個(gè)系數(shù)箫踩,正則項(xiàng)一般指示模型的復(fù)雜度爱态,所以weight decay的作用是調(diào)節(jié)模型復(fù)雜度對損失函數(shù)的影響,若weight decay很大境钟,則復(fù)雜的模型損失函數(shù)的值也就大锦担。
momentum是梯度下降法中一種常用的加速技術(shù)。對于一般的SGD慨削,其表達(dá)式為
,沿負(fù)梯度方向下降洞渔。而帶momentum項(xiàng)的SGD則寫生如下形式:
其中
即momentum系數(shù),通俗的理解上面式子就是缚态,如果上一次的momentum(即
)與這一次的負(fù)梯度方向是相同的磁椒,那這次下降的幅度就會(huì)加大,所以這樣做能夠達(dá)到加速收斂的過程玫芦。
normalization(batch normalization)浆熔。batch normalization的是指在神經(jīng)網(wǎng)絡(luò)中激活函數(shù)的前面,將
按照特征進(jìn)行normalization姨俩,這樣做的好處有三點(diǎn):
提高梯度在網(wǎng)絡(luò)中的流動(dòng)蘸拔。Normalization能夠使特征全部縮放到[0,1]师郑,這樣在反向傳播時(shí)候的梯度都是在1左右环葵,避免了梯度消失現(xiàn)象。
提升學(xué)習(xí)速率宝冕。歸一化后的數(shù)據(jù)能夠快速的達(dá)到收斂张遭。
減少模型訓(xùn)練對初始化的依賴。