自然語言處理——5.3 語言模型(數(shù)據(jù)平滑)

基本思想

  • 數(shù)據(jù)平滑的基本思想
    調(diào)整最大似然估計的概率值,使零概率增值罗洗,使非零概率下調(diào),“劫富濟(jì)貧”,消除零概率捏鱼,改進(jìn)模型的整體正確率。

  • 基本目標(biāo)
    測試樣本的語言模型困惑度越小越好酪耕。

  • 基本約束
    \sum\limits_{{\omega _i}} {p({\omega _i}|{\omega _1},{\omega _2},...,{\omega _{i - 1}})} = 1

困惑度定義:

  • 對于一個平滑的 n-gram穷躁,其概率為p({\omega _i}|\omega _{i - n + 1}^{i - 1}),可以計算句子的概率:p(s) = \mathop \prod \limits_{i = 1}^{m + 1} p({\omega _i}|\omega _{i - n + 1}^{i - 1})
  • 假定測試語料Tl_T個句子構(gòu)成(t_1,...,t_{l_T}),那么整個測試集的概率為:p(T) = \mathop \prod \limits_{i = 1}^{{l_T}} p({t_i})
  • 模型p({\omega _i}|\omega _{i - n + 1}^{i - 1})對于測試語料的交叉熵:
    {H_p}(T) = - \frac{1}{{{W_T}}}{\log _2}p(T)
    其中因妇,W_T 是測試文本 T 的詞數(shù)问潭。
  • 模型 p 的困惑度PP_p(T) 定義為: P{P_p}(T) = {2^{{H_p}(T)}}
    PS: n-gram 對于英語文本的困惑度范圍一般為50~1000,對應(yīng)于交叉熵范圍為6~10 bits/word婚被。

數(shù)據(jù)平滑方法1——加1法(Additive smoothing )

  • 基本思想: 每一種情況出現(xiàn)的次數(shù)加1狡忙。
    例如,對于 uni-gram址芯,設(shè) w_1, w_2, w_3 三個詞灾茁,概率分別為:1/3, 0, 2/3,加1后情況谷炸?
  • 舉例
    <BOS>John read Moby Dick<EOS>
    <BOS>Mary read a different book<EOS>
    <BOS>She read a book by Cher<EOS>
    詞匯量:|V|=11
    平滑以后:
    p(Cher|<BOS>) = (0+1)/(11+3) = 1/14
    p(read|Cher) = (0+1)/(11+1) = 1/12
    p(a|read) = (1+2)/(11+3) = 3/14
    p(book|a) = (1+1)/(11+2) = 2/13
    p(<EOS>|book)= (1+1)/(11+2) = 2/13
    p(Cher{\text{ read a book}}) = \frac{1}{{14}} \times \frac{1}{{12}} \times \frac{3}{{14}} \times \frac{2}{{13}} \times \frac{2}{{13}} \approx 0.00003

數(shù)據(jù)平滑方法2——減值法/折扣法(Discounting)

1. 基本思想:

修改訓(xùn)練樣本中事件的實際計數(shù)北专,使樣本中(實際出現(xiàn)的)不同事件的概率之和小于1,剩余的概率量分配給未見概率旬陡。

2. Good-Turing 估計
  • 基本思想

假設(shè) N 是原來訓(xùn)練樣本數(shù)據(jù)的大小拓颓, n_r 是在樣本中正好出現(xiàn) r次的事件的數(shù)目(此處事件為 n-gram),即出現(xiàn) 1 次的n-gram有 n_1個描孟,出現(xiàn) 2 次的 n-gram 有n_2個, ……驶睦,出現(xiàn) r 次的有 n_r 個砰左。
那么:N = \sum\limits_{r = 1}^\infty {{n_r}r} = \sum\limits_{r = 0}^\infty {{n_{r+1}}(r+1)}
由于我們要減小r,記為:r^*N = \sum\limits_{r = 1}^\infty {{n_r}r^*},所以:r^* = (r + 1)\frac{{{n_{r + 1}}}}{{{n_r}}}
那么场航,Good-Turing估計在樣本中出現(xiàn)r次的事件的概率為:{p_r} = \frac{{{r^*}}}{N}

  • 舉例說明

假設(shè)有如下英語文本缠导,估計2-gram概率:
<BOS>John read Moby Dick<EOS>
<BOS>Mary read a different book<EOS>
<BOS>She read a book by Cher<EOS>
……
從文本中統(tǒng)計出不同 2-gram 出現(xiàn)的次數(shù):
<BOS> John 15
<BOS> Mary 10
……
read Moby 5
……

假設(shè)要估計以 read 開始的 2-gram 概率,列出以read開始的所有 2-gram溉痢,并轉(zhuǎn)化為頻率信息:


得到r^*后僻造,便可計算概率:{p_r} = \frac{{{r^*}}}{N}

其中,N 為以 read 開始的bigram的總數(shù)(樣本空間)孩饼,即read出現(xiàn)的次數(shù)嫡意。那么,以 read開始捣辆,沒有出現(xiàn)過的 2-gram的概率總和為:{p_0} = \frac{{{n_1}}}{N}

以read作為開始蔬螟,沒有出現(xiàn)過的 2-gram的個數(shù)等于:{n_0} = |{V_T}| - \sum\limits_{r > 0} {{n_r}},其中汽畴,|V_T|為語料的詞匯量旧巾。

那么,沒有出現(xiàn)過的那些 以read為開始的概率平均為:\frac{{{p_0}}}{{{n_0}}}


注意:
\sum\limits_{r = 0}^7 {{\operatorname{P} _r}} \ne 1

因此忍些,需要歸一化處理:
{{\hat P}_r} = \frac{{{\operatorname{P} _r}}}{{\sum\nolimits_r {{\operatorname{P} _r}} }}

3. Back-off (后備/后退)方法
  • 基本思想

S. M. Katz于1987年提出鲁猩,所以又稱Katz后退法。
當(dāng)某一事件在樣本中出現(xiàn)的頻率大于閾值K (通常取K 為0 或1)時罢坝,運用最大似然估計的減值法來估計其概率廓握,否則,使用低階的嘁酿,即(n-1)gram 的
概率替代n-gram 概率隙券,而這種替代需受歸一化因子\alpha的作用。

  • Back-off 方法的另一種理解:

對于每個計數(shù) r > 0 的n元文法的出現(xiàn)次數(shù)減值, 把因減值而節(jié)省下來的剩余概率根據(jù)低階的(n-1)gram 分配給未見事件闹司。

  • 舉例說明

4. 絕對減值法(Absolute discounting )
  • 基本思想

從每個計數(shù)r 中減去同樣的量娱仔,剩余的概率量由未見事件均分。
設(shè)R 為所有可能事件的數(shù)目(當(dāng)事件為n-gram 時游桩,如果統(tǒng)計基元為詞牲迫,且詞匯集的大小為L, 則R=L^n )。

那么借卧,樣本出現(xiàn)了r次的事件的概率可以由如下公式估計:


其中盹憎,n_0 為樣本中未出現(xiàn)的事件的數(shù)目。b 為減去的常量铐刘,b ≤ 1陪每。b(R - n_0)/N 是由于減值而產(chǎn)生的剩余概率量。N 為樣本中出現(xiàn)了r 次的事件總次數(shù):n_r \times r

b 為自由參數(shù)奶稠,可以通過留存數(shù)據(jù)(heldout data)方法求得 b 的上限為:b \leqslant \frac{{{n_1}}}{{{n_1} + 2{n_2}}} < 1

5. 線性減值法(Linear discounting )
  • 基本思想

從每個計數(shù)r 中減去與該計數(shù)成正比的量(減值函數(shù)為線性的),剩余概率量\alphan_0個未見事件均分捡遍。
{p_r} = \left\{ {\begin{array}{*{20}{c}} {\frac{{(1 - \alpha )r}}{N}{\text{ r > 0}}} \\ {\frac{\alpha }{{{n_0}}}{\text{ r = 0}}} \end{array}} \right.
自由參數(shù)α 的優(yōu)化值為:{\frac{{{n_1}}}{N}}

絕對減值法產(chǎn)生的n-gram 通常優(yōu)于線性減值法锌订。
6. 四種減值法的比較

數(shù)據(jù)平滑方法3——刪除插值法(Deleted interpolation)

  • 基本思想:
    用低階語法估計高階語法,即當(dāng) 3-gram 的值不能從訓(xùn)練數(shù)據(jù)中準(zhǔn)確估計時画株,用 2-gram 來替代辆飘, 同樣,當(dāng) 2-gram 的值不能從訓(xùn)練語料中準(zhǔn)確估計時谓传, 可以用 1-gram 的值來代替蜈项。插值公式:
    p({\omega _3}|{\omega _1}{\omega _2}) = {\lambda _3}p'({\omega _3}|{\omega _1}{\omega _2}) + {\lambda _2}p'({\omega _3}|{\omega _2}) + {\lambda _1}p'({\omega _3})
    其中\lambda_1+\lambda_2+\lambda_3=1

  • \lambda_1,\lambda_2续挟,\lambda_3的確定

將訓(xùn)練語料分為兩部分紧卒,即從原始語料中刪除一部分作為留存數(shù)據(jù)(heldout data)。
第一部分用于估計p '(w_3 | w_1w_2 )诗祸,p '(w_3 | w_2 )p '(w_3) 跑芳。
第二部分用于計算\lambda_1,\lambda_2直颅,\lambda_3:使語言模型對留存數(shù)據(jù)的困惑度最小博个。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市功偿,隨后出現(xiàn)的幾起案子盆佣,更是在濱河造成了極大的恐慌,老刑警劉巖械荷,帶你破解...
    沈念sama閱讀 221,548評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件共耍,死亡現(xiàn)場離奇詭異,居然都是意外死亡吨瞎,警方通過查閱死者的電腦和手機(jī)征堪,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來关拒,“玉大人佃蚜,你說我怎么就攤上這事∽虐恚” “怎么了谐算?”我有些...
    開封第一講書人閱讀 167,990評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長归露。 經(jīng)常有香客問我洲脂,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,618評論 1 296
  • 正文 為了忘掉前任恐锦,我火速辦了婚禮往果,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘一铅。我一直安慰自己陕贮,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 68,618評論 6 397
  • 文/花漫 我一把揭開白布潘飘。 她就那樣靜靜地躺著肮之,像睡著了一般。 火紅的嫁衣襯著肌膚如雪卜录。 梳的紋絲不亂的頭發(fā)上戈擒,一...
    開封第一講書人閱讀 52,246評論 1 308
  • 那天,我揣著相機(jī)與錄音艰毒,去河邊找鬼筐高。 笑死,一個胖子當(dāng)著我的面吹牛丑瞧,可吹牛的內(nèi)容都是我干的凯傲。 我是一名探鬼主播,決...
    沈念sama閱讀 40,819評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼嗦篱,長吁一口氣:“原來是場噩夢啊……” “哼冰单!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起灸促,我...
    開封第一講書人閱讀 39,725評論 0 276
  • 序言:老撾萬榮一對情侶失蹤诫欠,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后浴栽,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體荒叼,經(jīng)...
    沈念sama閱讀 46,268評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,356評論 3 340
  • 正文 我和宋清朗相戀三年典鸡,在試婚紗的時候發(fā)現(xiàn)自己被綠了被廓。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,488評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡萝玷,死狀恐怖嫁乘,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情球碉,我是刑警寧澤蜓斧,帶...
    沈念sama閱讀 36,181評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站睁冬,受9級特大地震影響挎春,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,862評論 3 333
  • 文/蒙蒙 一直奋、第九天 我趴在偏房一處隱蔽的房頂上張望能庆。 院中可真熱鬧,春花似錦脚线、人聲如沸搁胆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽丰涉。三九已至拓巧,卻和暖如春斯碌,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背肛度。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評論 1 272
  • 我被黑心中介騙來泰國打工傻唾, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人承耿。 一個月前我還...
    沈念sama閱讀 48,897評論 3 376
  • 正文 我出身青樓冠骄,卻偏偏與公主長得像,于是被迫代替她去往敵國和親加袋。 傳聞我的和親對象是個殘疾皇子凛辣,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,500評論 2 359

推薦閱讀更多精彩內(nèi)容