三.過/欠擬合娶眷,梯度爆炸/消失

1.1過擬合和欠擬合

接下來偎行,我們將探究模型訓(xùn)練中經(jīng)常出現(xiàn)的兩類典型問題:

  • 一類是模型無法得到較低的訓(xùn)練誤差饰序,我們將這一現(xiàn)象稱作欠擬合(underfitting)领虹;
  • 另一類是模型的訓(xùn)練誤差遠(yuǎn)小于它在測(cè)試數(shù)據(jù)集上的誤差,我們稱該現(xiàn)象為過擬合(overfitting)求豫。
    在實(shí)踐中塌衰,我們要盡可能同時(shí)應(yīng)對(duì)欠擬合和過擬合。雖然有很多因素可能導(dǎo)致這兩種擬合問題蝠嘉,在這里我們重點(diǎn)討論兩個(gè)因素:模型復(fù)雜度和訓(xùn)練數(shù)據(jù)集大小最疆。

1.2模型復(fù)雜度

為了解釋模型復(fù)雜度,我們以多項(xiàng)式函數(shù)擬合為例蚤告。給定一個(gè)由標(biāo)量數(shù)據(jù)特征x和對(duì)應(yīng)的標(biāo)量標(biāo)簽y組成的訓(xùn)練數(shù)據(jù)集努酸,多項(xiàng)式函數(shù)擬合的目標(biāo)是找一個(gè)K階多項(xiàng)式函數(shù)

\hat{y} = b + \sum_{k=1}^K x^k w_k

來近似 y。在上式中杜恰,w_k是模型的權(quán)重參數(shù)获诈,b是偏差參數(shù)。與線性回歸相同心褐,多項(xiàng)式函數(shù)擬合也使用平方損失函數(shù)舔涎。特別地,一階多項(xiàng)式函數(shù)擬合又叫線性函數(shù)擬合逗爹。

給定訓(xùn)練數(shù)據(jù)集亡嫌,模型復(fù)雜度和誤差之間的關(guān)系:

image

1.3訓(xùn)練數(shù)據(jù)集大小

影響欠擬合和過擬合的另一個(gè)重要因素是訓(xùn)練數(shù)據(jù)集的大小。一般來說,如果訓(xùn)練數(shù)據(jù)集中樣本數(shù)過少昼伴,特別是比模型參數(shù)數(shù)量(按元素計(jì))更少時(shí)匾旭,過擬合更容易發(fā)生。此外圃郊,泛化誤差不會(huì)隨訓(xùn)練數(shù)據(jù)集里樣本數(shù)量增加而增大价涝。因此,在計(jì)算資源允許的范圍之內(nèi)持舆,我們通常希望訓(xùn)練數(shù)據(jù)集大一些色瘩,特別是在模型復(fù)雜度較高時(shí),例如層數(shù)較多的深度學(xué)習(xí)模型逸寓。

1.4權(quán)重衰減

方法

權(quán)重衰減等價(jià)于 L_2 范數(shù)正則化(regularization)居兆。正則化通過為模型損失函數(shù)添加懲罰項(xiàng)使學(xué)出的模型參數(shù)值較小,是應(yīng)對(duì)過擬合的常用手段竹伸。

L2 范數(shù)正則化(regularization)

L_2范數(shù)正則化在模型原損失函數(shù)基礎(chǔ)上添加L_2范數(shù)懲罰項(xiàng)泥栖,從而得到訓(xùn)練所需要最小化的函數(shù)。L_2范數(shù)懲罰項(xiàng)指的是模型權(quán)重參數(shù)每個(gè)元素的平方和與一個(gè)正的常數(shù)的乘積勋篓。以線性回歸中的線性回歸損失函數(shù)為例

\ell(w_1, w_2, b) = \frac{1}{n} \sum_{i=1}^n \frac{1}{2}\left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}\right)^2

其中w_1, w_2是權(quán)重參數(shù)吧享,b是偏差參數(shù),樣本i的輸入為x_1^{(i)}, x_2^{(i)}譬嚣,標(biāo)簽為y^{(i)}钢颂,樣本數(shù)為n。將權(quán)重參數(shù)用向量\boldsymbol{w} = [w_1, w_2]表示拜银,帶有L_2范數(shù)懲罰項(xiàng)的新?lián)p失函數(shù)為

\ell(w_1, w_2, b) + \frac{\lambda}{2n} |\boldsymbol{w}|^2,

其中超參數(shù)\lambda > 0殊鞭。當(dāng)權(quán)重參數(shù)均為0時(shí),懲罰項(xiàng)最小尼桶。當(dāng)\lambda較大時(shí)操灿,懲罰項(xiàng)在損失函數(shù)中的比重較大,這通常會(huì)使學(xué)到的權(quán)重參數(shù)的元素較接近0疯汁。當(dāng)\lambda設(shè)為0時(shí)牲尺,懲罰項(xiàng)完全不起作用。上式中L_2范數(shù)平方|\boldsymbol{w}|^2展開后得到w_1^2 + w_2^2幌蚊。
有了L_2范數(shù)懲罰項(xiàng)后谤碳,在小批量隨機(jī)梯度下降中,我們將線性回歸一節(jié)中權(quán)重w_1w_2的迭代方式更改為

\begin{aligned} w_1 &\leftarrow \left(1- \frac{\eta\lambda}{|\mathcal{B}|} \right)w_1 - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}}x_1^{(i)} \left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}\right),\\ w_2 &\leftarrow \left(1- \frac{\eta\lambda}{|\mathcal{B}|} \right)w_2 - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}}x_2^{(i)} \left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}\right). \end{aligned}

可見溢豆,L_2范數(shù)正則化令權(quán)重w_1w_2先自乘小于1的數(shù)蜒简,再減去不含懲罰項(xiàng)的梯度。因此漩仙,L_2范數(shù)正則化又叫權(quán)重衰減搓茬。權(quán)重衰減通過懲罰絕對(duì)值較大的模型參數(shù)為需要學(xué)習(xí)的模型增加了限制犹赖,這可能對(duì)過擬合有效。

1.5丟棄法

多層感知機(jī)中神經(jīng)網(wǎng)絡(luò)圖描述了一個(gè)單隱藏層的多層感知機(jī)卷仑。其中輸入個(gè)數(shù)為4峻村,隱藏單元個(gè)數(shù)為5,且隱藏單元h_ii=1, \ldots, 5)的計(jì)算表達(dá)式為

h_i = \phi\left(x_1 w_{1i} + x_2 w_{2i} + x_3 w_{3i} + x_4 w_{4i} + b_i\right)

這里\phi是激活函數(shù)锡凝,x_1, \ldots, x_4是輸入粘昨,隱藏單元i的權(quán)重參數(shù)為w_{1i}, \ldots, w_{4i},偏差參數(shù)為b_i窜锯。當(dāng)對(duì)該隱藏層使用丟棄法時(shí)张肾,該層的隱藏單元將有一定概率被丟棄掉。設(shè)丟棄概率為p锚扎,那么有p的概率h_i會(huì)被清零吞瞪,有1-p的概率h_i會(huì)除以1-p做拉伸。丟棄概率是丟棄法的超參數(shù)驾孔。具體來說芍秆,設(shè)隨機(jī)變量\xi_i為0和1的概率分別為p1-p。使用丟棄法時(shí)我們計(jì)算新的隱藏單元h_i'

h_i' = \frac{\xi_i}{1-p} h_i

由于E(\xi_i) = 1-p翠勉,因此

E(h_i') = \frac{E(\xi_i)}{1-p}h_i = h_i

即丟棄法不改變其輸入的期望值浪听。讓我們對(duì)之前多層感知機(jī)的神經(jīng)網(wǎng)絡(luò)中的隱藏層使用丟棄法,一種可能的結(jié)果如圖所示眉菱,其中h_2h_5被清零。這時(shí)輸出值的計(jì)算不再依賴h_2h_5掉分,在反向傳播時(shí)俭缓,與這兩個(gè)隱藏單元相關(guān)的權(quán)重的梯度均為0。由于在訓(xùn)練中隱藏層神經(jīng)元的丟棄是隨機(jī)的酥郭,即h_1, \ldots, h_5都有可能被清零华坦,輸出層的計(jì)算無法過度依賴h_1, \ldots, h_5中的任一個(gè),從而在訓(xùn)練模型時(shí)起到正則化的作用不从,并可以用來應(yīng)對(duì)過擬合惜姐。在測(cè)試模型時(shí),我們?yōu)榱四玫礁哟_定性的結(jié)果椿息,一般不使用丟棄法

image

2.梯度消失和梯度爆炸

深度模型有關(guān)數(shù)值穩(wěn)定性的典型問題是消失(vanishing)和爆炸(explosion)歹袁。

當(dāng)神經(jīng)網(wǎng)絡(luò)的層數(shù)較多時(shí),模型的數(shù)值穩(wěn)定性容易變差寝优。

假設(shè)一個(gè)層數(shù)為L的多層感知機(jī)的第l\boldsymbol{H}^{(l)}的權(quán)重參數(shù)為\boldsymbol{W}^{(l)}条舔,輸出層\boldsymbol{H}^{(L)}的權(quán)重參數(shù)為\boldsymbol{W}^{(L)}。為了便于討論乏矾,不考慮偏差參數(shù)孟抗,且設(shè)所有隱藏層的激活函數(shù)為恒等映射(identity mapping)\phi(x) = x迁杨。給定輸入\boldsymbol{X},多層感知機(jī)的第l層的輸出\boldsymbol{H}^{(l)} = \boldsymbol{X} \boldsymbol{W}^{(1)} \boldsymbol{W}^{(2)} \ldots \boldsymbol{W}^{(l)}凄硼。此時(shí)铅协,如果層數(shù)l較大,\boldsymbol{H}^{(l)}的計(jì)算可能會(huì)出現(xiàn)衰減或爆炸摊沉。舉個(gè)例子狐史,假設(shè)輸入和所有層的權(quán)重參數(shù)都是標(biāo)量,如權(quán)重參數(shù)為0.2和5坯钦,多層感知機(jī)的第30層輸出為輸入\boldsymbol{X}分別與0.2^{30} \approx 1 \times 10^{-21}(消失)和5^{30} \approx 9 \times 10^{20}(爆炸)的乘積预皇。當(dāng)層數(shù)較多時(shí),梯度的計(jì)算也容易出現(xiàn)消失或爆炸婉刀。

2.1隨機(jī)初始化模型參數(shù)

在神經(jīng)網(wǎng)絡(luò)中吟温,通常需要隨機(jī)初始化模型參數(shù)。下面我們來解釋這樣做的原因突颊。

回顧多層感知機(jī)一節(jié)描述的多層感知機(jī)鲁豪。為了方便解釋,假設(shè)輸出層只保留一個(gè)輸出單元o_1(刪去o_2o_3以及指向它們的箭頭)律秃,且隱藏層使用相同的激活函數(shù)爬橡。如果將每個(gè)隱藏單元的參數(shù)都初始化為相等的值,那么在正向傳播時(shí)每個(gè)隱藏單元將根據(jù)相同的輸入計(jì)算出相同的值棒动,并傳遞至輸出層糙申。在反向傳播中,每個(gè)隱藏單元的參數(shù)梯度值相等船惨。因此柜裸,這些參數(shù)在使用基于梯度的優(yōu)化算法迭代后值依然相等。之后的迭代也是如此粱锐。在這種情況下疙挺,無論隱藏單元有多少,隱藏層本質(zhì)上只有1個(gè)隱藏單元在發(fā)揮作用怜浅。因此铐然,正如在前面的實(shí)驗(yàn)中所做的那樣,我們通常將神經(jīng)網(wǎng)絡(luò)的模型參數(shù)恶座,特別是權(quán)重參數(shù)搀暑,進(jìn)行隨機(jī)初始化涨共。

Image Name

2.2PyTorch的默認(rèn)隨機(jī)初始化

隨機(jī)初始化模型參數(shù)的方法有很多影晓。在線性回歸的簡(jiǎn)潔實(shí)現(xiàn)中沿后,我們使用torch.nn.init.normal_()使模型net的權(quán)重參數(shù)采用正態(tài)分布的隨機(jī)初始化方式奏属。不過其馏,PyTorch中nn.Module的模塊參數(shù)都采取了較為合理的初始化策略(不同類型的layer具體采樣的哪一種初始化方法的可參考源代碼)偷卧,因此一般不用我們考慮久锥。

2.3Xavier隨機(jī)初始化

還有一種比較常用的隨機(jī)初始化方法叫作Xavier隨機(jī)初始化镇饺。
假設(shè)某全連接層的輸入個(gè)數(shù)為a,輸出個(gè)數(shù)為b埠啃,Xavier隨機(jī)初始化將使該層中權(quán)重參數(shù)的每個(gè)元素都隨機(jī)采樣于均勻分布

U\left(-\sqrt{\frac{6}{a+b}}, \sqrt{\frac{6}{a+b}}\right).

它的設(shè)計(jì)主要考慮到死宣,模型參數(shù)初始化后,每層輸出的方差不該受該層輸入個(gè)數(shù)影響碴开,且每層梯度的方差也不該受該層輸出個(gè)數(shù)影響毅该。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市潦牛,隨后出現(xiàn)的幾起案子眶掌,更是在濱河造成了極大的恐慌,老刑警劉巖巴碗,帶你破解...
    沈念sama閱讀 221,695評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件朴爬,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡橡淆,警方通過查閱死者的電腦和手機(jī)召噩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,569評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來逸爵,“玉大人具滴,你說我怎么就攤上這事∈螅” “怎么了构韵?”我有些...
    開封第一講書人閱讀 168,130評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)趋艘。 經(jīng)常有香客問我贞绳,道長(zhǎng),這世上最難降的妖魔是什么致稀? 我笑而不...
    開封第一講書人閱讀 59,648評(píng)論 1 297
  • 正文 為了忘掉前任,我火速辦了婚禮俱尼,結(jié)果婚禮上抖单,老公的妹妹穿的比我還像新娘。我一直安慰自己遇八,他們只是感情好矛绘,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,655評(píng)論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著刃永,像睡著了一般货矮。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上斯够,一...
    開封第一講書人閱讀 52,268評(píng)論 1 309
  • 那天囚玫,我揣著相機(jī)與錄音喧锦,去河邊找鬼。 笑死抓督,一個(gè)胖子當(dāng)著我的面吹牛燃少,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播铃在,決...
    沈念sama閱讀 40,835評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼阵具,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了定铜?” 一聲冷哼從身側(cè)響起阳液,我...
    開封第一講書人閱讀 39,740評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎揣炕,沒想到半個(gè)月后帘皿,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,286評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡祝沸,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,375評(píng)論 3 340
  • 正文 我和宋清朗相戀三年矮烹,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片罩锐。...
    茶點(diǎn)故事閱讀 40,505評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡奉狈,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出涩惑,到底是詐尸還是另有隱情仁期,我是刑警寧澤,帶...
    沈念sama閱讀 36,185評(píng)論 5 350
  • 正文 年R本政府宣布竭恬,位于F島的核電站跛蛋,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏痊硕。R本人自食惡果不足惜赊级,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,873評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望岔绸。 院中可真熱鬧理逊,春花似錦、人聲如沸盒揉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,357評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽刚盈。三九已至羡洛,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間藕漱,已是汗流浹背欲侮。 一陣腳步聲響...
    開封第一講書人閱讀 33,466評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工崭闲, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人锈麸。 一個(gè)月前我還...
    沈念sama閱讀 48,921評(píng)論 3 376
  • 正文 我出身青樓镀脂,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親忘伞。 傳聞我的和親對(duì)象是個(gè)殘疾皇子薄翅,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,515評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容