NLP中的平滑技術(shù)

以Bigram為例缤底,闡述平滑需要解決的問(wèn)題,如下圖所示

image.png

對(duì)于所有的grams均存在于語(yǔ)料中自娩,有如下的計(jì)算值用踩。

image.png

可以看到渠退, 可以計(jì)算出給定句子的概率忙迁。

再看另外一個(gè)例子,如下圖所示

image.png

對(duì)于未出現(xiàn)過(guò)的grams碎乃, 例如上圖中的?? CHER姊扔,表示CHER作為第一個(gè)單詞出現(xiàn),在語(yǔ)料中找不到對(duì)應(yīng)的次數(shù)梅誓。與此同時(shí)恰梢,對(duì)于CHER READ也找不到。因此這兩項(xiàng)為零梗掰。那么總體該句子的概率也為0, 這樣看來(lái)很顯然是不對(duì)的嵌言。這時(shí)候就需要采用相應(yīng)的平滑技術(shù)去解決上述的困境。

下面主要提及一些常見(jiàn)的平滑技術(shù)及穗。

Add-one smooothing

image.png

經(jīng)過(guò)Add-one修正以后摧茴,有下圖的計(jì)算結(jié)果:

image.png

但是該平滑技術(shù)的主要漏洞是,不同的grams之間埂陆,即便他們都是以UNK形式存在苛白,也即未登陸詞的形式,但是他們理論上出現(xiàn)的可能性卻不能執(zhí)一而論焚虱。因此下面將會(huì)介紹其他的平滑方法购裙。

Additive smoothing

image.png

Good-Turing estimate

要理解圖靈估計(jì),先理解下面的幾個(gè)概念


image.png
image.png

N_1表示計(jì)數(shù)為1的grams的個(gè)數(shù)鹃栽,例如上圖中躏率,trout, salmon, eel每一個(gè)的計(jì)數(shù)均為1,那么計(jì)數(shù)為1的grams出現(xiàn)了三次,因此N_1=3禾锤, 理解了這個(gè)后私股,下圖中的n_r就表示計(jì)數(shù)為r的grams出現(xiàn)了n_r

image.png

可以看出對(duì)于計(jì)數(shù)為0的gram,我只需要計(jì)算前一個(gè)計(jì)數(shù)狀態(tài)出現(xiàn)的次數(shù)恩掷,即我去計(jì)算計(jì)數(shù)為1的情形出現(xiàn)了幾次倡鲸。但是這樣存在一個(gè)問(wèn)題,如果n_{r+1} = 0怎么辦黄娘?此時(shí)需要考慮其他的方法峭状,但是圖靈估計(jì)是其他估計(jì)的基礎(chǔ)。

image.png

Jelinek-Mercer smoothing (interpolation)

Katz smoothing (backoff)

Witten-Bell smoothing

Absolute discounting

Kneser-Ney smoothing

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末逼争,一起剝皮案震驚了整個(gè)濱河市优床,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌誓焦,老刑警劉巖胆敞,帶你破解...
    沈念sama閱讀 207,113評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異杂伟,居然都是意外死亡移层,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評(píng)論 2 381
  • 文/潘曉璐 我一進(jìn)店門(mén)赫粥,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)观话,“玉大人,你說(shuō)我怎么就攤上這事越平∑祷祝” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,340評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵秦叛,是天一觀的道長(zhǎng)晦溪。 經(jīng)常有香客問(wèn)我,道長(zhǎng)挣跋,這世上最難降的妖魔是什么三圆? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,449評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮浆劲,結(jié)果婚禮上嫌术,老公的妹妹穿的比我還像新娘。我一直安慰自己牌借,他們只是感情好度气,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,445評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著膨报,像睡著了一般磷籍。 火紅的嫁衣襯著肌膚如雪适荣。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,166評(píng)論 1 284
  • 那天院领,我揣著相機(jī)與錄音弛矛,去河邊找鬼。 笑死比然,一個(gè)胖子當(dāng)著我的面吹牛丈氓,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播强法,決...
    沈念sama閱讀 38,442評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼万俗,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了饮怯?” 一聲冷哼從身側(cè)響起闰歪,我...
    開(kāi)封第一講書(shū)人閱讀 37,105評(píng)論 0 261
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蓖墅,沒(méi)想到半個(gè)月后库倘,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,601評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡论矾,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,066評(píng)論 2 325
  • 正文 我和宋清朗相戀三年教翩,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片拇囊。...
    茶點(diǎn)故事閱讀 38,161評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡迂曲,死狀恐怖靶橱,靈堂內(nèi)的尸體忽然破棺而出寥袭,到底是詐尸還是另有隱情,我是刑警寧澤关霸,帶...
    沈念sama閱讀 33,792評(píng)論 4 323
  • 正文 年R本政府宣布传黄,位于F島的核電站,受9級(jí)特大地震影響队寇,放射性物質(zhì)發(fā)生泄漏膘掰。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,351評(píng)論 3 307
  • 文/蒙蒙 一佳遣、第九天 我趴在偏房一處隱蔽的房頂上張望识埋。 院中可真熱鬧,春花似錦零渐、人聲如沸窒舟。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,352評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)惠豺。三九已至银还,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間洁墙,已是汗流浹背蛹疯。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,584評(píng)論 1 261
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留热监,地道東北人捺弦。 一個(gè)月前我還...
    沈念sama閱讀 45,618評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像孝扛,于是被迫代替她去往敵國(guó)和親羹呵。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,916評(píng)論 2 344

推薦閱讀更多精彩內(nèi)容