語言模型
一段自然語言文本可以看作是一個(gè)離散時(shí)間序列豪嚎,給定一個(gè)長度為T的詞的序列w1,w2,…,wT,語言模型的目標(biāo)就是評估該序列是否合理捆憎,即計(jì)算該序列的概率:
P(w1,w2,…,wT).
本節(jié)我們介紹基于統(tǒng)計(jì)的語言模型握恳,主要是n元語法(n-gram)。在后續(xù)內(nèi)容中完丽,我們將會(huì)介紹基于神經(jīng)網(wǎng)絡(luò)的語言模型恋技。
語言模型
假設(shè)序列w1,w2,…,wT中的每個(gè)詞是依次生成的,我們有
P(w1,w2,…,wT)=T∏t=1P(wt∣w1,…,wt?1)=P(w1)P(w2∣w1)?P(wT∣w1w2?wT?1)
例如逻族,一段含有4個(gè)詞的文本序列的概率
P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w1,w2)P(w4∣w1,w2,w3).
語言模型的參數(shù)就是詞的概率以及給定前幾個(gè)詞情況下的條件概率蜻底。設(shè)訓(xùn)練數(shù)據(jù)集為一個(gè)大型文本語料庫,如維基百科的所有條目聘鳞,詞的概率可以通過該詞在訓(xùn)練數(shù)據(jù)集中的相對詞頻來計(jì)算薄辅,例如,w1的概率可以計(jì)算為:
?P(w1)=n(w1)n
其中n(w1)為語料庫中以w1作為第一個(gè)詞的文本的數(shù)量搁痛,n為語料庫中文本的總數(shù)量长搀。
類似的,給定w1情況下鸡典,w2的條件概率可以計(jì)算為:
?P(w2∣w1)=n(w1,w2)n(w1)
其中n(w1,w2)為語料庫中以w1作為第一個(gè)詞源请,w2作為第二個(gè)詞的文本的數(shù)量。