動手學(xué)深度學(xué)習(xí)(day2)

語言模型

一段自然語言文本可以看作是一個離散時間序列硅蹦,給定一個長度為TT的詞的序列w1,w2,…,wTw1,w2,…,wT颅悉,語言模型的目標(biāo)就是評估該序列是否合理嘀粱,即計算該序列的概率:

P(w1,w2,…,wT).P(w1,w2,…,wT).

本節(jié)我們介紹基于統(tǒng)計的語言模型,主要是nn元語法(nn-gram)爬迟。在后續(xù)內(nèi)容中,我們將會介紹基于神經(jīng)網(wǎng)絡(luò)的語言模型菊匿。

語言模型

假設(shè)序列w1,w2,…,wTw1,w2,…,wT中的每個詞是依次生成的付呕,我們有

P(w1,w2,…,wT)=∏t=1TP(wt∣w1,…,wt?1)=P(w1)P(w2∣w1)?P(wT∣w1w2?wT?1)P(w1,w2,…,wT)=∏t=1TP(wt∣w1,…,wt?1)=P(w1)P(w2∣w1)?P(wT∣w1w2?wT?1)

例如,一段含有4個詞的文本序列的概率

P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w1,w2)P(w4∣w1,w2,w3).P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w1,w2)P(w4∣w1,w2,w3).

語言模型的參數(shù)就是詞的概率以及給定前幾個詞情況下的條件概率跌捆。設(shè)訓(xùn)練數(shù)據(jù)集為一個大型文本語料庫徽职,如維基百科的所有條目,詞的概率可以通過該詞在訓(xùn)練數(shù)據(jù)集中的相對詞頻來計算佩厚,例如姆钉,w1w1的概率可以計算為:

P^(w1)=n(w1)nP^(w1)=n(w1)n

其中n(w1)n(w1)為語料庫中以w1w1作為第一個詞的文本的數(shù)量,nn為語料庫中文本的總數(shù)量。

類似的潮瓶,給定w1w1情況下陶冷,w2w2的條件概率可以計算為:

P^(w2∣w1)=n(w1,w2)n(w1)P^(w2∣w1)=n(w1,w2)n(w1)

其中n(w1,w2)n(w1,w2)為語料庫中以w1w1作為第一個詞,w2w2作為第二個詞的文本的數(shù)量毯辅。

n元語法

序列長度增加埂伦,計算和存儲多個詞共同出現(xiàn)的概率的復(fù)雜度會呈指數(shù)級增加。nn元語法通過馬爾可夫假設(shè)簡化模型思恐,馬爾科夫假設(shè)是指一個詞的出現(xiàn)只與前面nn個詞相關(guān)沾谜,即nn階馬爾可夫鏈(Markov chain of order?nn),如果n=1n=1胀莹,那么有P(w3∣w1,w2)=P(w3∣w2)P(w3∣w1,w2)=P(w3∣w2)基跑。基于n?1n?1階馬爾可夫鏈描焰,我們可以將語言模型改寫為

P(w1,w2,…,wT)=∏t=1TP(wt∣wt?(n?1),…,wt?1).P(w1,w2,…,wT)=∏t=1TP(wt∣wt?(n?1),…,wt?1).

以上也叫nn元語法(nn-grams)媳否,它是基于n?1n?1階馬爾可夫鏈的概率語言模型。例如栈顷,當(dāng)n=2n=2時逆日,含有4個詞的文本序列的概率就可以改寫為:

P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w1,w2)P(w4∣w1,w2,w3)=P(w1)P(w2∣w1)P(w3∣w2)P(w4∣w3)P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w1,w2)P(w4∣w1,w2,w3)=P(w1)P(w2∣w1)P(w3∣w2)P(w4∣w3)

當(dāng)nn分別為1、2和3時萄凤,我們將其分別稱作一元語法(unigram)室抽、二元語法(bigram)和三元語法(trigram)。例如靡努,長度為4的序列w1,w2,w3,w4w1,w2,w3,w4在一元語法坪圾、二元語法和三元語法中的概率分別為

P(w1,w2,w3,w4)P(w1,w2,w3,w4)P(w1,w2,w3,w4)=P(w1)P(w2)P(w3)P(w4),=P(w1)P(w2∣w1)P(w3∣w2)P(w4∣w3),=P(w1)P(w2∣w1)P(w3∣w1,w2)P(w4∣w2,w3).P(w1,w2,w3,w4)=P(w1)P(w2)P(w3)P(w4),P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w2)P(w4∣w3),P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w1,w2)P(w4∣w2,w3).

當(dāng)nn較小時,nn元語法往往并不準(zhǔn)確惑朦。例如兽泄,在一元語法中,由三個詞組成的句子“你走先”和“你先走”的概率是一樣的病梢。然而蜓陌,當(dāng)nn較大時,nn元語法需要計算并存儲大量的詞頻和多詞相鄰頻率飒责。

思考:nn元語法可能有哪些缺陷?

參數(shù)空間過大

數(shù)據(jù)稀疏

語言模型數(shù)據(jù)集

讀取數(shù)據(jù)集

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子篡石,更是在濱河造成了極大的恐慌,老刑警劉巖武通,帶你破解...
    沈念sama閱讀 211,376評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件囚枪,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機疾捍,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,126評論 2 385
  • 文/潘曉璐 我一進店門咙鞍,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了怀浆?”我有些...
    開封第一講書人閱讀 156,966評論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長怕享。 經(jīng)常有香客問我执赡,道長,這世上最難降的妖魔是什么函筋? 我笑而不...
    開封第一講書人閱讀 56,432評論 1 283
  • 正文 為了忘掉前任沙合,我火速辦了婚禮,結(jié)果婚禮上驻呐,老公的妹妹穿的比我還像新娘灌诅。我一直安慰自己,他們只是感情好含末,可當(dāng)我...
    茶點故事閱讀 65,519評論 6 385
  • 文/花漫 我一把揭開白布猜拾。 她就那樣靜靜地躺著,像睡著了一般佣盒。 火紅的嫁衣襯著肌膚如雪挎袜。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,792評論 1 290
  • 那天肥惭,我揣著相機與錄音盯仪,去河邊找鬼。 笑死蜜葱,一個胖子當(dāng)著我的面吹牛全景,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播牵囤,決...
    沈念sama閱讀 38,933評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼爸黄,長吁一口氣:“原來是場噩夢啊……” “哼滞伟!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起炕贵,我...
    開封第一講書人閱讀 37,701評論 0 266
  • 序言:老撾萬榮一對情侶失蹤梆奈,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后称开,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體亩钟,經(jīng)...
    沈念sama閱讀 44,143評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,488評論 2 327
  • 正文 我和宋清朗相戀三年鳖轰,在試婚紗的時候發(fā)現(xiàn)自己被綠了清酥。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,626評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡脆霎,死狀恐怖总处,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情睛蛛,我是刑警寧澤鹦马,帶...
    沈念sama閱讀 34,292評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站忆肾,受9級特大地震影響荸频,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜客冈,卻給世界環(huán)境...
    茶點故事閱讀 39,896評論 3 313
  • 文/蒙蒙 一旭从、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧场仲,春花似錦和悦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,742評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至亦鳞,卻和暖如春馍忽,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背燕差。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工遭笋, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人徒探。 一個月前我還...
    沈念sama閱讀 46,324評論 2 360
  • 正文 我出身青樓瓦呼,卻偏偏與公主長得像,于是被迫代替她去往敵國和親测暗。 傳聞我的和親對象是個殘疾皇子央串,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,494評論 2 348

推薦閱讀更多精彩內(nèi)容