本文轉(zhuǎn)載自:作者:gzj_1101
來(lái)源:CSDN
原文:https://blog.csdn.net/gzj_1101/article/details/79376798
內(nèi)容目錄
前面我們介紹了RNN兼贡,現(xiàn)在我們來(lái)介紹一種特殊的RNN結(jié)構(gòu),LSTM網(wǎng)絡(luò)桶良。我們將逐步介紹LSTM的結(jié)構(gòu),原理,以及利用LSTM識(shí)別手寫數(shù)字的demo跟深刻的理解LSTM。
LSTM網(wǎng)絡(luò)
long short term memory沉颂,即我們所稱呼的LSTM,是為了解決長(zhǎng)期以來(lái)問(wèn)題而專門設(shè)計(jì)出來(lái)的悦污,所有的RNN都具有一種重復(fù)神經(jīng)網(wǎng)絡(luò)模塊的鏈?zhǔn)叫问街搿T跇?biāo)準(zhǔn)RNN中,這個(gè)重復(fù)的結(jié)構(gòu)模塊只有一個(gè)非常簡(jiǎn)單的結(jié)構(gòu)切端,例如一個(gè)tanh層彻坛。
LSTM 同樣是這樣的結(jié)構(gòu),但是重復(fù)的模塊擁有一個(gè)不同的結(jié)構(gòu)踏枣。不同于單一神經(jīng)網(wǎng)絡(luò)層昌屉,這里是有四個(gè),以一種非常特殊的方式進(jìn)行交互茵瀑。
不必?fù)?dān)心這里的細(xì)節(jié)间驮。我們會(huì)一步一步地剖析 LSTM 解析圖。現(xiàn)在马昨,我們先來(lái)熟悉一下圖中使用的各種元素的圖標(biāo)竞帽。
在上面的圖例中,每一條黑線傳輸著一整個(gè)向量鸿捧,從一個(gè)節(jié)點(diǎn)的輸出到其他節(jié)點(diǎn)的輸入屹篓。粉色的圈代表 pointwise 的操作,諸如向量的和笛谦,而黃色的矩陣就是學(xué)習(xí)到的神經(jīng)網(wǎng)絡(luò)層抱虐。合在一起的線表示向量的連接,分開(kāi)的線表示內(nèi)容被復(fù)制饥脑,然后分發(fā)到不同的位置恳邀。
LSTM核心思想
LSTM的關(guān)鍵在于細(xì)胞的狀態(tài)整個(gè)(如下圖)懦冰,和穿過(guò)細(xì)胞的那條水平線。
細(xì)胞狀態(tài)類似于傳送帶谣沸。直接在整個(gè)鏈上運(yùn)行刷钢,只有一些少量的線性交互。信息在上面流傳保持不變會(huì)很容易乳附。
門可以實(shí)現(xiàn)選擇性地讓信息通過(guò)内地,主要是通過(guò)一個(gè) sigmoid 的神經(jīng)層 和一個(gè)逐點(diǎn)相乘的操作來(lái)實(shí)現(xiàn)的。
sigmoid 層輸出(是一個(gè)向量)的每個(gè)元素都是一個(gè)在 0 和 1 之間的實(shí)數(shù)赋除,表示讓對(duì)應(yīng)信息通過(guò)的權(quán)重(或者占比)阱缓。比如, 0 表示“不讓任何信息通過(guò)”举农, 1 表示“讓所有信息通過(guò)”荆针。
LSTM通過(guò)三個(gè)這樣的本結(jié)構(gòu)來(lái)實(shí)現(xiàn)信息的保護(hù)和控制。這三個(gè)門分別輸入門颁糟、遺忘門和輸出門航背。
逐步理解LSTM
現(xiàn)在我們就開(kāi)始通過(guò)三個(gè)門逐步的了解LSTM的原理
遺忘門
在我們 LSTM 中的第一步是決定我們會(huì)從細(xì)胞狀態(tài)中丟棄什么信息。這個(gè)決定通過(guò)一個(gè)稱為忘記門層完成棱貌。該門會(huì)讀取和
玖媚,輸出一個(gè)在 0到 1之間的數(shù)值給每個(gè)在細(xì)胞狀態(tài)
中的數(shù)字。1 表示“完全保留”婚脱,0 表示“完全舍棄”今魔。
讓我們回到語(yǔ)言模型的例子中來(lái)基于已經(jīng)看到的預(yù)測(cè)下一個(gè)詞。在這個(gè)問(wèn)題中起惕,細(xì)胞狀態(tài)可能包含當(dāng)前主語(yǔ)的性別涡贱,因此正確的代詞可以被選擇出來(lái)。當(dāng)我們看到新的主語(yǔ)惹想,我們希望忘記舊的主語(yǔ)问词。
其中
輸入門
下一步是決定讓多少新的信息加入到 cell 狀態(tài) 中來(lái)。實(shí)現(xiàn)這個(gè)需要包括兩個(gè)步驟:首先锋叨,一個(gè)叫做“input gate layer ”的 sigmoid 層決定哪些信息需要更新垄分;一個(gè) tanh 層生成一個(gè)向量,也就是備選的用來(lái)更新的內(nèi)容娃磺,
薄湿。在下一步,我們把這兩部分聯(lián)合起來(lái),對(duì) cell 的狀態(tài)進(jìn)行一個(gè)更新豺瘤。
現(xiàn)在是更新舊細(xì)胞狀態(tài)的時(shí)間了吆倦,
我們把舊狀態(tài)與相乘,丟棄掉我們確定需要丟棄的信息桥嗤。接著加上
须妻。這就是新的候選值,根據(jù)我們決定更新每個(gè)狀態(tài)的程度進(jìn)行變化泛领。
在語(yǔ)言模型的例子中荒吏,這就是我們實(shí)際根據(jù)前面確定的目標(biāo),丟棄舊代詞的性別信息并添加新的信息的地方师逸。
輸出門
最終司倚,我們需要確定輸出什么值。這個(gè)輸出將會(huì)基于我們的細(xì)胞狀態(tài)篓像,但是也是一個(gè)過(guò)濾后的版本。首先皿伺,我們運(yùn)行一個(gè) sigmoid 層來(lái)確定細(xì)胞狀態(tài)的哪個(gè)部分將輸出出去员辩。接著,我們把細(xì)胞狀態(tài)通過(guò) tanh 進(jìn)行處理(得到一個(gè)在 -1 到 1 之間的值)并將它和 sigmoid 門的輸出相乘鸵鸥,最終我們僅僅會(huì)輸出我們確定輸出的那部分奠滑。
在語(yǔ)言模型的例子中,因?yàn)樗涂吹搅艘粋€(gè)代詞妒穴,可能需要輸出與一個(gè)動(dòng)詞相關(guān)的信息宋税。例如,可能輸出是否代詞是單數(shù)還是負(fù)數(shù)讼油,這樣如果是動(dòng)詞的話杰赛,我們也知道動(dòng)詞需要進(jìn)行的詞形變化。
LSTM實(shí)現(xiàn)手寫數(shù)字
這里我們利用的數(shù)據(jù)集是tensorflow提供的一個(gè)手寫數(shù)字?jǐn)?shù)據(jù)集矮台。該數(shù)據(jù)集是一個(gè)包含n張28*28的數(shù)據(jù)集乏屯。
源代碼:
https://github.com/geroge-gao/deeplearning/tree/master/LSTM
參考資料
[1].http://www.reibang.com/p/9dc9f41f0b29
[2].http://blog.csdn.net/Jerr__y/article/details/58598296
[3].Stacked Long Short-Term Memory Networks