pytorch中LSTM的一些感悟
https://zhuanlan.zhihu.com/p/41261640怎棱,(https://zhuanlan.zhihu.com/p/47802053)--采用pytorch進(jìn)行了一些簡(jiǎn)明的說(shuō)明
前饋網(wǎng)絡(luò):對(duì)前饋網(wǎng)絡(luò)比較熟悉了炕置,就是網(wǎng)絡(luò)中不會(huì)保存狀態(tài)帆赢,然而,在自然語(yǔ)言處理中,序列模型是一個(gè)核心概念。
序列模型:所謂序列模型衙传,即輸入依賴于時(shí)間信息的模型,一個(gè)典型的序列模型是隱馬爾可夫模型厕九,另一個(gè)序列模型是條件隨機(jī)場(chǎng)CRF
循環(huán)神經(jīng)網(wǎng)絡(luò):可以保存某種狀態(tài)的神經(jīng)網(wǎng)絡(luò)蓖捶,比如上個(gè)時(shí)刻的輸出可以作為下個(gè)時(shí)刻的輸入的一部分,以此信息就可以通過(guò)序列在網(wǎng)絡(luò)中一直往后傳遞止剖,對(duì)于LSTM來(lái)說(shuō)腺阳,序列中的每個(gè)元素都有一個(gè)相應(yīng)的隱狀態(tài)
門控循環(huán)單元GRU:當(dāng)時(shí)間步數(shù)較大或者時(shí)間步數(shù)較小時(shí),循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度較容易出現(xiàn)衰減或爆炸穿香,雖然裁剪梯度可以應(yīng)對(duì)梯度爆炸亭引,但無(wú)法解決梯度衰減的問(wèn)題,通常由于這個(gè)原因皮获,循環(huán)神經(jīng)網(wǎng)絡(luò)在實(shí)際中較難捕捉時(shí)間序列中時(shí)間步距離較大的依賴關(guān)系焙蚓。而門控循環(huán)單元正是為了更好地捕捉時(shí)間序列中時(shí)間步距離較大的依賴關(guān)系。
LSTM:
lstm的隱藏層輸出包括隱藏狀態(tài)和記憶細(xì)胞洒宝,只有隱藏狀態(tài)會(huì)傳遞到輸出層
lstm的輸入門购公、遺忘門和輸出門可以控制信息的流動(dòng),對(duì)于多層的循環(huán)神經(jīng)網(wǎng)絡(luò)雁歌,如下體所示:
總之宏浩,在深度循環(huán)神經(jīng)網(wǎng)絡(luò)中,隱藏狀態(tài)的信息不斷傳遞至當(dāng)前層的下一時(shí)間步和當(dāng)前時(shí)間步的下一層靠瞎。