CS224N(6)-語言模型和循環(huán)神經(jīng)網(wǎng)絡(luò)

語言模型和循環(huán)神經(jīng)網(wǎng)絡(luò)

一侵浸、語言模型

1宁仔、簡介

簡單來講玩敏，語言模型就是通過對預測接下來會出現(xiàn)什么詞這個任務(wù)建模得到的一個模型鸭叙。
下圖就是一個簡單的語言建模的示例：

語言模型示例

同時還可以將語言模型視為將概率分配給一段文本的系統(tǒng)霹娄，例如如果我們有部分文本 $x^{(1)}$ ,..., $x^{(T)}$ ,那么根據(jù)語言模型能犯，下一段文本的概率為：

2、n-gram語言模型

在深度學習應用于NLP之前犬耻，n-gram語言模型是是使用的最為廣泛的模型踩晶。n-gram是由多個連續(xù)的單詞組成的塊。

下一段文本的概率

n-gram語言模型的核心思想在于：收集有關(guān)不同n-gram的頻率的統(tǒng)計數(shù)據(jù)枕磁，并使用這些來預測下一個單詞渡蜻。

n-gram模型做了一個簡單的假設(shè)：第n個詞出現(xiàn)的概率只與前n-1個詞相關(guān)。

n-gram示例

為了方便計算n-gram和(n-1)-gram的概率,一般通過在大型的語料中得到它們近似統(tǒng)計數(shù)據(jù)來作為它們概率的近似值。

近似計算概率值

假設(shè)現(xiàn)在我們擁有一個4-gram語言模型茸苇，那么下面這個句子的概率計算公式為：

簡單假設(shè)

現(xiàn)在假設(shè)排苍，stdudents opened their出現(xiàn)了1000次。
stdudents opened their books出現(xiàn)了400次学密，那么P(books|students opened their) = 0.4淘衙。
stdudents opened their exams出現(xiàn)了400次，那么P(exams|students opened their) = 0.1腻暮。

3幔翰、n-gram語言模型的稀疏性問題

若分子中的句子沒有在語料中出現(xiàn)過，那么P(w|students opened their)就會為零西壮，為了避免這個問題遗增，一般用一個很小的值來代替值為0的P，這被稱之為平滑款青。

若分母中的句子沒有在語料中出現(xiàn)過做修，那么整個式子就變得無意義了，為了避免這個問題抡草，一般會盡可能地用最高階組合計算概率饰及，當高階組合不存在時，退而求其次找次低階康震，直到找到非零組合為止燎含。這被稱之為回溯法。

一般來說腿短，n-gram中n值的增加會使稀疏性問題變的更加嚴重屏箍，因此在實際使用的過程中n的值一般不超過5。除此之外橘忱，n-gram的另一個問題就是需要大量的存儲空間赴魁，它需要存儲您在語料庫中看到的所有n-gram的計數(shù)。因此當增加n或者語料庫的大小時钝诚，模型的大小也會隨之增加颖御。

二、循環(huán)神經(jīng)網(wǎng)絡(luò)

1凝颇、基于固定窗口的語言模型

在介紹循環(huán)神經(jīng)網(wǎng)絡(luò)之前潘拱，我們首先介紹基于固定窗口的語言模型拧略。其結(jié)構(gòu)圖如下：

基于固定窗口的語言模型

這種模型的優(yōu)點如下：

1.解決了n-gram模型存在的稀疏性問題
2.無需存儲所有被觀察到的n-gram值

但是它還存在這一些問題：

1.固定窗口太小，擴大窗口將會使W增大盔腔，且對于該模型來說窗口永遠不夠大杠茬。
2.在W中弛随， $x^{(1)}$ 和 $x^{(2)}$ 乘以完全不同的權(quán)重。在輸入的處理方式上沒有對稱性舀透。

因此我們需要一個能夠處理任意長度輸入的模型，也就是我們所熟知的RNN愕够。

2、RNN模型

RNN模型的結(jié)構(gòu)示意圖如下：

RNN模型的結(jié)構(gòu)示意圖

總的來說RNN模型有如下的優(yōu)點：

1.能處理任意長度的輸入
2.計算時間步t時佛猛，可以（理論上）利用來自許多先前時間步的信息
3.當模型輸入比較長時惑芭，模型的大小也不會改變
4.每個時間步都應用相同的權(quán)重，因此輸入的處理方式是對稱的继找。

雖然RNN模型很優(yōu)秀遂跟，但其依然存在一些不足，

1.循環(huán)計算速度太慢
2.在實際應用中婴渡，很難獲取到許多先前時間步的信息

3幻锁、訓練RNN語言模型

當我們自己需要訓練一個RNN的語言模型時，其一般步驟如下：

1.獲取一個比較大的文本語料
2.將語料輸入到模型中边臼，計算每個時間步的輸出分布 $\hat{y}^{(t)}$
3.計算時間步t的損失函數(shù) $J(\theta)$ ,其中 $\hat{y}^{(t)}$ 為預測概率分布哄尔， $y^{(t)}$ 為下一個真實單詞

損失函數(shù)

4.計算整個訓練集總體損失的平均值

計算整個訓練集總體損失的平均值

整個過程的計算流程如下圖所示：

計算流程

計算整個語料庫每個詞的損失和梯度代價太大！因此柠并，在實踐中岭接，通常考慮計算句子（或文檔）的損失和梯度臼予。隨機梯度下降在此處是一種比較合適的方法亿傅，它允許我們計算小塊數(shù)據(jù)的損失和梯度，并進行更新瘟栖。

4葵擎、RNN中的反向傳播

RNN方向傳播計算公式的證明草圖如下：

RNN方向傳播計算公式的證明草圖

三、評估語言模型

PPL(Perplexity)是用在自然語言處理領(lǐng)域（NLP）中半哟，衡量語言模型好壞的指標酬滤。它主要是根據(jù)每個詞來估計一句話出現(xiàn)的概率，并用句子長度作normalize寓涨，公式為：

評估語言模型的方法

Perplexity的值越低盯串，代表語言模型的效果越好。

語言建模是一項基準任務(wù)戒良，可幫助我們衡量我們理解語言的進度体捏。因此做好這一步對于我們做好其他下游任務(wù)(如文本生成、語音識別等)至關(guān)重要。

四几缭、總結(jié)

1.語言模型是預測下一個詞的系統(tǒng)
2.RNN：1河泳、能夠接受任意長度的序列輸入，2年栓、每個時間步共享權(quán)重W拆挥，3、可以選擇在每一步產(chǎn)生輸出
3.循環(huán)神經(jīng)網(wǎng)絡(luò) 某抓！= 語言模型
4.RNN是一種構(gòu)建語言模型的好方法

最后編輯于：2019.04.26 19:49:23

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末纸兔，一起剝皮案震驚了整個濱河市否副，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌负甸，老刑警劉巖痹届，帶你破解...
沈念sama閱讀 217,277評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件队腐，死亡現(xiàn)場離奇詭異，居然都是意外死亡柴淘，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,689評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門敛熬，熙熙樓的掌柜王于貴愁眉苦臉地迎上來应民，“玉大人诲锹，你說我怎么就攤上這事涉馅。” “怎么了庸诱？”我有些...
開封第一講書人閱讀 163,624評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長朱灿。經(jīng)常有香客問我聚谁，道長滞诺，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,356評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任朵耕，我火速辦了婚禮阎曹，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘处嫌。我一直安慰自己斟湃，他們只是感情好，可當我...
茶點故事閱讀 67,402評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布注暗。她就那樣靜靜地躺著捆昏，像睡著了一般毙沾。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上膨俐，一...
開封第一講書人閱讀 51,292評論 1贊 301
城市分裂傳說
那天焚刺，我揣著相機與錄音，去河邊找鬼乳愉。笑死，一個胖子當著我的面吹牛蔓姚，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播坡脐，決...
沈念sama閱讀 40,135評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼晌端，長吁一口氣：“原來是場噩夢啊……” “哼恬砂！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起漆羔，我...
開封第一講書人閱讀 38,992評論 0贊 275
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤演痒，失蹤者是張志新（化名）和其女友劉穎趋惨，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體诊沪，經(jīng)...
沈念sama閱讀 45,429評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡端姚，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,636評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年渐裸，在試婚紗的時候發(fā)現(xiàn)自己被綠了装悲。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,785評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡洞渤，死狀恐怖载迄，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情护昧，我是刑警寧澤，帶...
沈念sama閱讀 35,492評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布捣炬，位于F島的核電站绽榛，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏稿械。R本人自食惡果不足惜冲粤，卻給世界環(huán)境...
茶點故事閱讀 41,092評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一页眯、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧傀顾，春花似錦碌奉、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,723評論 0贊 22
一樁弒父案魁兼，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至盖呼，卻和暖如春化撕，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背植阴。一陣腳步聲響...
開封第一講書人閱讀 32,858評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留热芹，地道東北人。一個月前我還...
沈念sama閱讀 47,891評論 2贊 370
代替公主和親
正文我出身青樓府寒，卻偏偏與公主長得像报腔，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子纤房，可洞房花燭夜當晚...
茶點故事閱讀 44,713評論 2贊 354