1.1過擬合和欠擬合
接下來偎行,我們將探究模型訓(xùn)練中經(jīng)常出現(xiàn)的兩類典型問題:
- 一類是模型無法得到較低的訓(xùn)練誤差饰序,我們將這一現(xiàn)象稱作欠擬合(underfitting)领虹;
- 另一類是模型的訓(xùn)練誤差遠(yuǎn)小于它在測(cè)試數(shù)據(jù)集上的誤差,我們稱該現(xiàn)象為過擬合(overfitting)求豫。
在實(shí)踐中塌衰,我們要盡可能同時(shí)應(yīng)對(duì)欠擬合和過擬合。雖然有很多因素可能導(dǎo)致這兩種擬合問題蝠嘉,在這里我們重點(diǎn)討論兩個(gè)因素:模型復(fù)雜度和訓(xùn)練數(shù)據(jù)集大小最疆。
1.2模型復(fù)雜度
為了解釋模型復(fù)雜度,我們以多項(xiàng)式函數(shù)擬合為例蚤告。給定一個(gè)由標(biāo)量數(shù)據(jù)特征和對(duì)應(yīng)的標(biāo)量標(biāo)簽
組成的訓(xùn)練數(shù)據(jù)集努酸,多項(xiàng)式函數(shù)擬合的目標(biāo)是找一個(gè)
階多項(xiàng)式函數(shù)
來近似 。在上式中杜恰,
是模型的權(quán)重參數(shù)获诈,
是偏差參數(shù)。與線性回歸相同心褐,多項(xiàng)式函數(shù)擬合也使用平方損失函數(shù)舔涎。特別地,一階多項(xiàng)式函數(shù)擬合又叫線性函數(shù)擬合逗爹。
給定訓(xùn)練數(shù)據(jù)集亡嫌,模型復(fù)雜度和誤差之間的關(guān)系:
1.3訓(xùn)練數(shù)據(jù)集大小
影響欠擬合和過擬合的另一個(gè)重要因素是訓(xùn)練數(shù)據(jù)集的大小。一般來說,如果訓(xùn)練數(shù)據(jù)集中樣本數(shù)過少昼伴,特別是比模型參數(shù)數(shù)量(按元素計(jì))更少時(shí)匾旭,過擬合更容易發(fā)生。此外圃郊,泛化誤差不會(huì)隨訓(xùn)練數(shù)據(jù)集里樣本數(shù)量增加而增大价涝。因此,在計(jì)算資源允許的范圍之內(nèi)持舆,我們通常希望訓(xùn)練數(shù)據(jù)集大一些色瘩,特別是在模型復(fù)雜度較高時(shí),例如層數(shù)較多的深度學(xué)習(xí)模型逸寓。
1.4權(quán)重衰減
方法
權(quán)重衰減等價(jià)于 范數(shù)正則化(regularization)居兆。正則化通過為模型損失函數(shù)添加懲罰項(xiàng)使學(xué)出的模型參數(shù)值較小,是應(yīng)對(duì)過擬合的常用手段竹伸。
L2 范數(shù)正則化(regularization)
范數(shù)正則化在模型原損失函數(shù)基礎(chǔ)上添加
范數(shù)懲罰項(xiàng)泥栖,從而得到訓(xùn)練所需要最小化的函數(shù)。
范數(shù)懲罰項(xiàng)指的是模型權(quán)重參數(shù)每個(gè)元素的平方和與一個(gè)正的常數(shù)的乘積勋篓。以線性回歸中的線性回歸損失函數(shù)為例
其中是權(quán)重參數(shù)吧享,
是偏差參數(shù),樣本
的輸入為
譬嚣,標(biāo)簽為
钢颂,樣本數(shù)為
。將權(quán)重參數(shù)用向量
表示拜银,帶有
范數(shù)懲罰項(xiàng)的新?lián)p失函數(shù)為
其中超參數(shù)殊鞭。當(dāng)權(quán)重參數(shù)均為0時(shí),懲罰項(xiàng)最小尼桶。當(dāng)
較大時(shí)操灿,懲罰項(xiàng)在損失函數(shù)中的比重較大,這通常會(huì)使學(xué)到的權(quán)重參數(shù)的元素較接近0疯汁。當(dāng)
設(shè)為0時(shí)牲尺,懲罰項(xiàng)完全不起作用。上式中
范數(shù)平方
展開后得到
幌蚊。
有了范數(shù)懲罰項(xiàng)后谤碳,在小批量隨機(jī)梯度下降中,我們將線性回歸一節(jié)中權(quán)重
和
的迭代方式更改為
可見溢豆,范數(shù)正則化令權(quán)重
和
先自乘小于1的數(shù)蜒简,再減去不含懲罰項(xiàng)的梯度。因此漩仙,
范數(shù)正則化又叫權(quán)重衰減搓茬。權(quán)重衰減通過懲罰絕對(duì)值較大的模型參數(shù)為需要學(xué)習(xí)的模型增加了限制犹赖,這可能對(duì)過擬合有效。
1.5丟棄法
多層感知機(jī)中神經(jīng)網(wǎng)絡(luò)圖描述了一個(gè)單隱藏層的多層感知機(jī)卷仑。其中輸入個(gè)數(shù)為4峻村,隱藏單元個(gè)數(shù)為5,且隱藏單元(
)的計(jì)算表達(dá)式為
這里是激活函數(shù)锡凝,
是輸入粘昨,隱藏單元
的權(quán)重參數(shù)為
,偏差參數(shù)為
窜锯。當(dāng)對(duì)該隱藏層使用丟棄法時(shí)张肾,該層的隱藏單元將有一定概率被丟棄掉。設(shè)丟棄概率為
锚扎,那么有
的概率
會(huì)被清零吞瞪,有
的概率
會(huì)除以
做拉伸。丟棄概率是丟棄法的超參數(shù)驾孔。具體來說芍秆,設(shè)隨機(jī)變量
為0和1的概率分別為
和
。使用丟棄法時(shí)我們計(jì)算新的隱藏單元
由于翠勉,因此
即丟棄法不改變其輸入的期望值浪听。讓我們對(duì)之前多層感知機(jī)的神經(jīng)網(wǎng)絡(luò)中的隱藏層使用丟棄法,一種可能的結(jié)果如圖所示眉菱,其中和
被清零。這時(shí)輸出值的計(jì)算不再依賴
和
掉分,在反向傳播時(shí)俭缓,與這兩個(gè)隱藏單元相關(guān)的權(quán)重的梯度均為0。由于在訓(xùn)練中隱藏層神經(jīng)元的丟棄是隨機(jī)的酥郭,即
都有可能被清零华坦,輸出層的計(jì)算無法過度依賴
中的任一個(gè),從而在訓(xùn)練模型時(shí)起到正則化的作用不从,并可以用來應(yīng)對(duì)過擬合惜姐。在測(cè)試模型時(shí),我們?yōu)榱四玫礁哟_定性的結(jié)果椿息,一般不使用丟棄法
2.梯度消失和梯度爆炸
深度模型有關(guān)數(shù)值穩(wěn)定性的典型問題是消失(vanishing)和爆炸(explosion)歹袁。
當(dāng)神經(jīng)網(wǎng)絡(luò)的層數(shù)較多時(shí),模型的數(shù)值穩(wěn)定性容易變差寝优。
假設(shè)一個(gè)層數(shù)為的多層感知機(jī)的第
層
的權(quán)重參數(shù)為
条舔,輸出層
的權(quán)重參數(shù)為
。為了便于討論乏矾,不考慮偏差參數(shù)孟抗,且設(shè)所有隱藏層的激活函數(shù)為恒等映射(identity mapping)
迁杨。給定輸入
,多層感知機(jī)的第
層的輸出
凄硼。此時(shí)铅协,如果層數(shù)
較大,
的計(jì)算可能會(huì)出現(xiàn)衰減或爆炸摊沉。舉個(gè)例子狐史,假設(shè)輸入和所有層的權(quán)重參數(shù)都是標(biāo)量,如權(quán)重參數(shù)為0.2和5坯钦,多層感知機(jī)的第30層輸出為輸入
分別與
(消失)和
(爆炸)的乘積预皇。當(dāng)層數(shù)較多時(shí),梯度的計(jì)算也容易出現(xiàn)消失或爆炸婉刀。
2.1隨機(jī)初始化模型參數(shù)
在神經(jīng)網(wǎng)絡(luò)中吟温,通常需要隨機(jī)初始化模型參數(shù)。下面我們來解釋這樣做的原因突颊。
回顧多層感知機(jī)一節(jié)描述的多層感知機(jī)鲁豪。為了方便解釋,假設(shè)輸出層只保留一個(gè)輸出單元(刪去
和
以及指向它們的箭頭)律秃,且隱藏層使用相同的激活函數(shù)爬橡。如果將每個(gè)隱藏單元的參數(shù)都初始化為相等的值,那么在正向傳播時(shí)每個(gè)隱藏單元將根據(jù)相同的輸入計(jì)算出相同的值棒动,并傳遞至輸出層糙申。在反向傳播中,每個(gè)隱藏單元的參數(shù)梯度值相等船惨。因此柜裸,這些參數(shù)在使用基于梯度的優(yōu)化算法迭代后值依然相等。之后的迭代也是如此粱锐。在這種情況下疙挺,無論隱藏單元有多少,隱藏層本質(zhì)上只有1個(gè)隱藏單元在發(fā)揮作用怜浅。因此铐然,正如在前面的實(shí)驗(yàn)中所做的那樣,我們通常將神經(jīng)網(wǎng)絡(luò)的模型參數(shù)恶座,特別是權(quán)重參數(shù)搀暑,進(jìn)行隨機(jī)初始化涨共。
2.2PyTorch的默認(rèn)隨機(jī)初始化
隨機(jī)初始化模型參數(shù)的方法有很多影晓。在線性回歸的簡(jiǎn)潔實(shí)現(xiàn)中沿后,我們使用torch.nn.init.normal_()
使模型net
的權(quán)重參數(shù)采用正態(tài)分布的隨機(jī)初始化方式奏属。不過其馏,PyTorch中nn.Module
的模塊參數(shù)都采取了較為合理的初始化策略(不同類型的layer具體采樣的哪一種初始化方法的可參考源代碼)偷卧,因此一般不用我們考慮久锥。
2.3Xavier隨機(jī)初始化
還有一種比較常用的隨機(jī)初始化方法叫作Xavier隨機(jī)初始化镇饺。
假設(shè)某全連接層的輸入個(gè)數(shù)為,輸出個(gè)數(shù)為
埠啃,Xavier隨機(jī)初始化將使該層中權(quán)重參數(shù)的每個(gè)元素都隨機(jī)采樣于均勻分布
它的設(shè)計(jì)主要考慮到死宣,模型參數(shù)初始化后,每層輸出的方差不該受該層輸入個(gè)數(shù)影響碴开,且每層梯度的方差也不該受該層輸出個(gè)數(shù)影響毅该。