學(xué)習(xí)筆記
一频丘、循環(huán)神經(jīng)網(wǎng)絡(luò)
LSTM
長(zhǎng)短期記憶(Long short-term memory, LSTM)是一種特殊的RNN奄毡,主要是為了解決長(zhǎng)序列訓(xùn)練過(guò)程中的梯度消失和梯度爆炸問(wèn)題立叛。簡(jiǎn)單來(lái)說(shuō)患蹂,就是相比普通的RNN夭禽,LSTM能夠在更長(zhǎng)的序列中有更好的表現(xiàn)霞掺。通過(guò)門控狀態(tài)來(lái)控制傳輸狀態(tài),記住需要長(zhǎng)時(shí)間記憶的讹躯,忘記不重要的信息菩彬,對(duì)很多需要“長(zhǎng)期記憶”的任務(wù)來(lái)說(shuō),尤其好用潮梯。
其中:
遺忘門:控制上一時(shí)間步的記憶細(xì)胞 輸入門:控制當(dāng)前時(shí)間步的輸入
輸出門:控制從記憶細(xì)胞到隱藏狀態(tài)
記憶細(xì)胞:?種特殊的隱藏狀態(tài)的信息的流動(dòng)
GNU
GRU(Gate Recurrent Unit)是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)的一種骗灶。和LSTM(Long-Short Term Memory)一樣,也是為了解決長(zhǎng)期記憶和反向傳播中的梯度等問(wèn)題而提出來(lái)的秉馏。相比LSTM耙旦,使用GRU能夠達(dá)到相當(dāng)?shù)男Ч⑶蚁啾戎赂菀走M(jìn)行訓(xùn)練萝究,能夠很大程度上提高訓(xùn)練效率免都,因此很多時(shí)候會(huì)更傾向于使用GRU。
其中:
重置門有助于捕捉時(shí)間序列里短期的依賴關(guān)系帆竹;
更新門有助于捕捉時(shí)間序列里長(zhǎng)期的依賴關(guān)系绕娘。
深度循環(huán)神經(jīng)網(wǎng)絡(luò)和雙向循環(huán)神經(jīng)網(wǎng)絡(luò)
1.深度循環(huán)神經(jīng)網(wǎng)絡(luò)不是越深越好,越深對(duì)于數(shù)據(jù)集要求更高栽连;
2.雙向循環(huán)神經(jīng)網(wǎng)絡(luò)中兩者隱藏狀態(tài)H的連接是1維連接险领,也就是concat中參數(shù)dim=1,最后1維的維度變?yōu)閮烧?維維度之和。
二舷暮、梯度消失和梯度爆炸
梯度消失和梯度爆炸
tanh态罪、sigmoid等存在飽和的激活函數(shù)會(huì)出現(xiàn)梯度消失
深度模型有關(guān)數(shù)值穩(wěn)定性的典型問(wèn)題是梯度消失和梯度爆炸。當(dāng)神經(jīng)網(wǎng)絡(luò)的層數(shù)較多時(shí)下面,模型的數(shù)值穩(wěn)定性更容易變差复颈。
層數(shù)較多時(shí),梯度的計(jì)算也容易出現(xiàn)消失或爆炸沥割。
隨機(jī)初始化模型參數(shù):
在神經(jīng)網(wǎng)絡(luò)中耗啦,需要隨機(jī)初始化參數(shù)。因?yàn)榛牛窠?jīng)網(wǎng)絡(luò)模型在層之間各個(gè)單元具有對(duì)稱性帜讲。否則會(huì)出錯(cuò)。
若將每個(gè)隱藏單元參數(shù)都初始化為相等的值椒拗,則在正向傳播時(shí)每個(gè)隱藏單元將根據(jù)相同的輸入計(jì)算出相同的值似将,并傳遞至輸出層。在反向傳播中蚀苛,每個(gè)隱藏單元的參數(shù)梯度相等在验。因此,這些參數(shù)在使用基于梯度的優(yōu)化算法迭代后值依然相等堵未。之后的迭代亦是如此腋舌。 據(jù)此,無(wú)論隱藏單元有幾個(gè)渗蟹,隱藏層本質(zhì)上只有一個(gè)隱藏單元在發(fā)揮作用块饺。所以,通常將神經(jīng)網(wǎng)絡(luò)的模型參數(shù)雌芽,進(jìn)行隨機(jī)初始化以避免上述問(wèn)題授艰。
例如:PyTorch的默認(rèn)隨機(jī)初始化、Xavier隨機(jī)初始化膘怕。
環(huán)境因素
- 協(xié)變量偏移:
輸入分布 P(x)改變想诅,條件分布 P(y∣x)不改變
如貓和狗中,訓(xùn)練數(shù)據(jù)使用的是貓和狗的真實(shí)的照片岛心,但是在測(cè)試時(shí)来破,我們被要求對(duì)貓和狗的卡通圖片進(jìn)行分類。這就是輸入特征發(fā)生了變化 - 標(biāo)簽偏移:
標(biāo)簽P(y)上的邊緣分布的變化忘古,但類條件分布P(x∣y)是不變的
如訓(xùn)練數(shù)據(jù)集徘禁,數(shù)據(jù)很少只包含流感p(y)的樣本。 而測(cè)試數(shù)據(jù)集有流感p(y)和流感q(y)髓堪,其中不變的是流感癥狀p(x|y)送朱。 - 概念偏移:
條件分布 P(y∣x)發(fā)生了變化
如在建立一個(gè)機(jī)器翻譯系統(tǒng)中娘荡,分布P(y∣x)可能因我們的位置的不同而發(fā)生變化。
三驶沼、過(guò)擬合和欠擬合
一類是模型無(wú)法得到較低的訓(xùn)練誤差炮沐,我們將這一現(xiàn)象稱作欠擬合(underfitting);
另一類是模型的訓(xùn)練誤差遠(yuǎn)小于它在測(cè)試數(shù)據(jù)集上的誤差回怜,我們稱該現(xiàn)象為過(guò)擬合(overfitting)大年。 在實(shí)踐中,我們要盡可能同時(shí)應(yīng)對(duì)欠擬合和過(guò)擬合玉雾。雖然有很多因素可能導(dǎo)致這兩種擬合問(wèn)題翔试,在這里我們重點(diǎn)討論兩個(gè)因素:模型復(fù)雜度和訓(xùn)練數(shù)據(jù)集大小。
解決方法:
1.盡量大一點(diǎn)的訓(xùn)練集复旬;
2.正則化懲罰項(xiàng)(權(quán)重衰減)減少過(guò)擬合: 范數(shù)正則化等
3.丟棄法減少系數(shù)垦缅,但在測(cè)試模型時(shí),我們?yōu)榱四玫礁哟_定性的結(jié)果驹碍,一般不使用丟棄法壁涎。
4.留出法和交叉驗(yàn)證法處理數(shù)據(jù)集(oob)。