NLP系列學(xué)習(xí):數(shù)據(jù)平滑

各位小伙伴們大家好,數(shù)據(jù)平滑這個(gè)地方我想使用宗成慶老師的書中的一個(gè)例子進(jìn)行開始,從而引出這一篇文章的主題,我們?yōu)槭裁匆枰獢?shù)據(jù)平滑以及常用的數(shù)據(jù)平滑的模型,話不多說,開始行動(dòng):

請(qǐng)看這個(gè)例子:

假設(shè)語料是由下面的三個(gè)句子構(gòu)成:

①:BROWN READ HOLY BIBLE

②:MARK READ A TEXT BOOK

③:HE READ A BOOK BY DAVID

如果按照最大似然估計(jì)的方法計(jì)算p(BROWN READ A BOOK)的話:

因此:

但是這時(shí)候問題來了:

如果我們這時(shí)候要求p(David read a book),這時(shí)候概率是多少呢?

但是根據(jù)我們自己積累的知識(shí),Brown和David都是人,Brown可以看書,為啥David不可以看書,這個(gè)顯然是不對(duì)的,而造成這個(gè)方法的主要原因還是因?yàn)槲覀兊恼Z料庫太小,不夠豐富,事實(shí)上我們是希望我們的語料庫越大越好,越全越給力,不然一旦給定你的語句的概率是0,無論你的句子書寫的多么優(yōu)美,也是達(dá)不到我們?nèi)祟惖钠谕男Ч?所以這時(shí)候我們需要給所有可能出現(xiàn)的字符串一個(gè)非零的概率值來去解決這樣的問題,這就是所謂的平滑.

平滑的目的在上邊我們已經(jīng)所說,總結(jié)概括就是解決由于數(shù)據(jù)匱乏(稀疏)引起的零概率的問題,而所采用的方法就是從高概率語句中分出微小的概率給予零概率的句子,在宗成慶老師的書中形象的說明是”劫富濟(jì)貧”,而數(shù)據(jù)平滑是語言模型的核心的問題,宗成慶老師的書中給出了太多的算法,在這里我只記錄幾種算法,然后貫通思路,如果大家深入了解的話可以自己讀書和讀宗老師提供的論文:

一:加法平滑方法

算法的基本思想是:在這里先說一下加一法,加一法其實(shí)是每一種情況出現(xiàn)之后次數(shù)加1,即假設(shè)每個(gè)二元語法出現(xiàn)的次數(shù)比實(shí)際出現(xiàn)的次數(shù)多一次,這樣就叫做了加一法,而加法平滑其實(shí)就是不是讓每一個(gè)n元語法發(fā)生的次數(shù)比實(shí)際的統(tǒng)計(jì)次數(shù)多一次,而是假設(shè)比實(shí)際出現(xiàn)的情況多發(fā)生△次,并且0<△<1,這就有公式:

二:Good Turing估計(jì)法:

這個(gè)方法是很多平滑技術(shù)的核心

在上邊為什么會(huì)是小于1,在這里我證明了一下:

缺陷:

三:Jelinek-Merer平滑方法

基本思想:主要利用低元N-gram模型對(duì)高元N-gram模型進(jìn)行線性插值

四:絕對(duì)減值法

各種平滑方法的比較:

不管訓(xùn)練語料規(guī)模多大,對(duì)于二元語法和三元語法而言控乾,Kneser-Ney平滑方法和修正的Kneser-Ney平滑方法的效果都好于其他所有的平滑方法抢蚀。Katz平滑方法和Jelinek- Mercer平滑方法次之边败。

在稀疏數(shù)據(jù)的情況下趴梢,Jelinek-Mercer平滑方法優(yōu)于Katz平滑方法;而在有大量數(shù)據(jù) 的情況下噩峦,Katz平滑方法則優(yōu)于Jelinek-Mercer平滑方法薪捍。

這里我畫了一張圖:

這里淺談一下我在讀宗成慶老師這本書的時(shí)候的一點(diǎn)點(diǎn)小看法,讀宗老師的書總是感覺太過于全,但是很多東西都講得不夠透徹,并且很多地方也是有趕工的痕跡,不過總體上的路線都能夠總結(jié)出來,但是其中宗老師提供了很多的論文地址,大家可以去搜一搜然后在去詳細(xì)深入.

影響平滑算法性能的因素:

平滑方法的相對(duì)性能不訓(xùn)練語料的規(guī)模笼痹、n元語法模型的階數(shù)和訓(xùn)練語料本身有較大 的關(guān)系,其效果可能會(huì)隨著這些因素的丌同而出現(xiàn)很大的變化酪穿。

語言模型的缺陷 :

1:在訓(xùn)練語言模型時(shí)所采用的語料往往來自多種丌同的領(lǐng)域凳干,這些綜合性語料難以反映在不同領(lǐng)域之間在語言使用規(guī)律上的差異,而語言模型恰恰對(duì)于訓(xùn)練文本的類型被济、主題 和風(fēng)格等都十分敏感;

2:n 元語言模型的獨(dú)立性假設(shè)的前提是一個(gè)文本中的當(dāng)前詞出現(xiàn)的概率只不它前面相鄰 的n-1 個(gè)詞相關(guān)救赐,但這種假設(shè)在很多情況下是明顯不成立的。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末只磷,一起剝皮案震驚了整個(gè)濱河市净响,隨后出現(xiàn)的幾起案子少欺,更是在濱河造成了極大的恐慌,老刑警劉巖馋贤,帶你破解...
    沈念sama閱讀 216,744評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件赞别,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡配乓,警方通過查閱死者的電腦和手機(jī)仿滔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,505評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來犹芹,“玉大人崎页,你說我怎么就攤上這事⊙。” “怎么了飒焦?”我有些...
    開封第一講書人閱讀 163,105評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)屿笼。 經(jīng)常有香客問我牺荠,道長(zhǎng),這世上最難降的妖魔是什么驴一? 我笑而不...
    開封第一講書人閱讀 58,242評(píng)論 1 292
  • 正文 為了忘掉前任休雌,我火速辦了婚禮,結(jié)果婚禮上肝断,老公的妹妹穿的比我還像新娘杈曲。我一直安慰自己,他們只是感情好胸懈,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,269評(píng)論 6 389
  • 文/花漫 我一把揭開白布担扑。 她就那樣靜靜地躺著,像睡著了一般趣钱。 火紅的嫁衣襯著肌膚如雪涌献。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,215評(píng)論 1 299
  • 那天羔挡,我揣著相機(jī)與錄音,去河邊找鬼间唉。 笑死绞灼,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的呈野。 我是一名探鬼主播低矮,決...
    沈念sama閱讀 40,096評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼被冒!你這毒婦竟也來了军掂?” 一聲冷哼從身側(cè)響起轮蜕,我...
    開封第一講書人閱讀 38,939評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蝗锥,沒想到半個(gè)月后跃洛,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,354評(píng)論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡终议,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,573評(píng)論 2 333
  • 正文 我和宋清朗相戀三年汇竭,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片穴张。...
    茶點(diǎn)故事閱讀 39,745評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡细燎,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出皂甘,到底是詐尸還是另有隱情玻驻,我是刑警寧澤,帶...
    沈念sama閱讀 35,448評(píng)論 5 344
  • 正文 年R本政府宣布偿枕,位于F島的核電站璧瞬,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏益老。R本人自食惡果不足惜彪蓬,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,048評(píng)論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望捺萌。 院中可真熱鬧档冬,春花似錦、人聲如沸桃纯。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,683評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽态坦。三九已至盐数,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間伞梯,已是汗流浹背玫氢。 一陣腳步聲響...
    開封第一講書人閱讀 32,838評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留谜诫,地道東北人漾峡。 一個(gè)月前我還...
    沈念sama閱讀 47,776評(píng)論 2 369
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像喻旷,于是被迫代替她去往敵國(guó)和親生逸。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,652評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容