CS224N(6)-語言模型和循環(huán)神經(jīng)網(wǎng)絡(luò)

語言模型和循環(huán)神經(jīng)網(wǎng)絡(luò)

一侵浸、語言模型

1宁仔、簡介

簡單來講玩敏,語言模型就是通過對預測接下來會出現(xiàn)什么詞這個任務(wù)建模得到的一個模型鸭叙。
下圖就是一個簡單的語言建模的示例:

語言模型示例

同時還可以將語言模型視為將概率分配給一段文本的系統(tǒng)霹娄,例如如果我們有部分文本x^{(1)},...,x^{(T)},那么根據(jù)語言模型能犯,下一段文本的概率為:

2、n-gram語言模型

在深度學習應用于NLP之前犬耻,n-gram語言模型是是使用的最為廣泛的模型踩晶。n-gram是由多個連續(xù)的單詞組成的塊。

下一段文本的概率

n-gram語言模型的核心思想在于:收集有關(guān)不同n-gram的頻率的統(tǒng)計數(shù)據(jù)枕磁,并使用這些來預測下一個單詞渡蜻。

n-gram模型做了一個簡單的假設(shè):第n個詞出現(xiàn)的概率只與前n-1個詞相關(guān)。

n-gram示例

為了方便計算n-gram和(n-1)-gram的概率,一般通過在大型的語料中得到它們近似統(tǒng)計數(shù)據(jù)來作為它們概率的近似值。

近似計算概率值

假設(shè)現(xiàn)在我們擁有一個4-gram語言模型茸苇,那么下面這個句子的概率計算公式為:

簡單假設(shè)

現(xiàn)在假設(shè)排苍,stdudents opened their出現(xiàn)了1000次。
stdudents opened their books出現(xiàn)了400次学密,那么P(books|students opened their) = 0.4淘衙。
stdudents opened their exams出現(xiàn)了400次,那么P(exams|students opened their) = 0.1腻暮。

3幔翰、n-gram語言模型的稀疏性問題

若分子中的句子沒有在語料中出現(xiàn)過,那么P(w|students opened their)就會為零西壮,為了避免這個問題遗增,一般用一個很小的值來代替值為0的P,這被稱之為平滑款青。

若分母中的句子沒有在語料中出現(xiàn)過做修,那么整個式子就變得無意義了,為了避免這個問題抡草,一般會盡可能地用最高階組合計算概率饰及,當高階組合不存在時,退而求其次找次低階康震,直到找到非零組合為止燎含。這被稱之為回溯法。

一般來說腿短,n-gram中n值的增加會使稀疏性問題變的更加嚴重屏箍,因此在實際使用的過程中n的值一般不超過5。除此之外橘忱,n-gram的另一個問題就是需要大量的存儲空間赴魁,它需要存儲您在語料庫中看到的所有n-gram的計數(shù)。因此當增加n或者語料庫的大小時钝诚,模型的大小也會隨之增加颖御。

二、循環(huán)神經(jīng)網(wǎng)絡(luò)

1凝颇、基于固定窗口的語言模型

在介紹循環(huán)神經(jīng)網(wǎng)絡(luò)之前潘拱,我們首先介紹基于固定窗口的語言模型拧略。其結(jié)構(gòu)圖如下:

基于固定窗口的語言模型

這種模型的優(yōu)點如下:

1.解決了n-gram模型存在的稀疏性問題
2.無需存儲所有被觀察到的n-gram值

但是它還存在這一些問題:

1.固定窗口太小,擴大窗口將會使W增大盔腔,且對于該模型來說窗口永遠不夠大杠茬。
2.在W中弛随,x^{(1)}x^{(2)}乘以完全不同的權(quán)重。在輸入的處理方式上沒有對稱性舀透。

因此我們需要一個能夠處理任意長度輸入的模型,也就是我們所熟知的RNN愕够。

2、RNN模型

RNN模型的結(jié)構(gòu)示意圖如下:

RNN模型的結(jié)構(gòu)示意圖

總的來說RNN模型有如下的優(yōu)點:

1.能處理任意長度的輸入
2.計算時間步t時佛猛,可以(理論上)利用來自許多先前時間步的信息
3.當模型輸入比較長時惑芭,模型的大小也不會改變
4.每個時間步都應用相同的權(quán)重,因此輸入的處理方式是對稱的继找。

雖然RNN模型很優(yōu)秀遂跟,但其依然存在一些不足,

1.循環(huán)計算速度太慢
2.在實際應用中婴渡,很難獲取到許多先前時間步的信息

3幻锁、訓練RNN語言模型

當我們自己需要訓練一個RNN的語言模型時,其一般步驟如下:

1.獲取一個比較大的文本語料
2.將語料輸入到模型中边臼,計算每個時間步的輸出分布\hat{y}^{(t)}
3.計算時間步t的損失函數(shù)J(\theta),其中\hat{y}^{(t)}為預測概率分布哄尔,y^{(t)}為下一個真實單詞

損失函數(shù)

4.計算整個訓練集總體損失的平均值
計算整個訓練集總體損失的平均值

整個過程的計算流程如下圖所示:

計算流程

計算整個語料庫每個詞的損失和梯度代價太大!因此柠并,在實踐中岭接,通常考慮計算句子(或文檔)的損失和梯度臼予。隨機梯度下降在此處是一種比較合適的方法亿傅,它允許我們計算小塊數(shù)據(jù)的損失和梯度,并進行更新瘟栖。

4葵擎、RNN中的反向傳播

RNN方向傳播計算公式的證明草圖如下:

RNN方向傳播計算公式的證明草圖

三、評估語言模型

PPL(Perplexity)是用在自然語言處理領(lǐng)域(NLP)中半哟,衡量語言模型好壞的指標酬滤。它主要是根據(jù)每個詞來估計一句話出現(xiàn)的概率,并用句子長度作normalize寓涨,公式為:

評估語言模型的方法

Perplexity的值越低盯串,代表語言模型的效果越好。

語言建模是一項基準任務(wù)戒良,可幫助我們衡量我們理解語言的進度体捏。因此做好這一步對于我們做好其他下游任務(wù)(如文本生成、語音識別等)至關(guān)重要。

四几缭、總結(jié)

1.語言模型是預測下一個詞的系統(tǒng)
2.RNN:1河泳、能夠接受任意長度的序列輸入,2年栓、每個時間步共享權(quán)重W拆挥,3、可以選擇在每一步產(chǎn)生輸出
3.循環(huán)神經(jīng)網(wǎng)絡(luò) 某抓!= 語言模型
4.RNN是一種構(gòu)建語言模型的好方法

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末纸兔,一起剝皮案震驚了整個濱河市否副,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌负甸,老刑警劉巖痹届,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件队腐,死亡現(xiàn)場離奇詭異,居然都是意外死亡柴淘,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進店門敛熬,熙熙樓的掌柜王于貴愁眉苦臉地迎上來应民,“玉大人诲锹,你說我怎么就攤上這事涉馅。” “怎么了庸诱?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長朱灿。 經(jīng)常有香客問我聚谁,道長滞诺,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任朵耕,我火速辦了婚禮阎曹,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘处嫌。我一直安慰自己斟湃,他們只是感情好,可當我...
    茶點故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布注暗。 她就那樣靜靜地躺著捆昏,像睡著了一般毙沾。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上膨俐,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天焚刺,我揣著相機與錄音,去河邊找鬼乳愉。 笑死,一個胖子當著我的面吹牛蔓姚,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播坡脐,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼晌端,長吁一口氣:“原來是場噩夢啊……” “哼恬砂!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起漆羔,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤演痒,失蹤者是張志新(化名)和其女友劉穎趋惨,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體诊沪,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡端姚,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年渐裸,在試婚紗的時候發(fā)現(xiàn)自己被綠了装悲。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡洞渤,死狀恐怖载迄,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情护昧,我是刑警寧澤,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布捣炬,位于F島的核電站绽榛,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏稿械。R本人自食惡果不足惜冲粤,卻給世界環(huán)境...
    茶點故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一页眯、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧傀顾,春花似錦碌奉、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至盖呼,卻和暖如春化撕,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背植阴。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留热芹,地道東北人。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓府寒,卻偏偏與公主長得像报腔,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子纤房,可洞房花燭夜當晚...
    茶點故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容