NLP系列學(xué)習(xí):生成型模型和判別型模型

在學(xué)習(xí)機器學(xué)習(xí)的過程中我們總會遇見一些模型,而其中的一些模型其實可以歸類于生成模型或者是判別模型中去,而這一篇文章我將會簡單的概述下我最近所遇到的一些模型,并且按照自己的理解去記錄下來,其中肯定會有差錯,如果那里不對,還請各位多多指教.

1:演變關(guān)系

上邊的圖是

這一篇論文中的一個截圖,而第一張圖其實講的是幾種模型的演進(jìn)的一個過程,而這個過程如果加以簡單的概括的話,可以歸類于上邊的一欄為產(chǎn)生型模型,下邊的一欄為判別型模型,那這兩種模型有什么區(qū)別,這兩種模型又是什么?接下來我們分別來掰扯掰扯這兩種模型.

1:產(chǎn)生型模型

定義: 由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率密度分布P(X,Y)酬姆，然后求出條件概率分布P(Y|X)作為預(yù)測的模型奥溺，即生成模型：P(Y|X)= P(X,Y)/ P(X).

那產(chǎn)生型模型的典型代表其實就是樸素貝葉斯.這一種的模型的主要思想是先估算聯(lián)合概率密度p(x,y),再通過貝葉斯公式求出p(y|x).那現(xiàn)在我們就以之前文章中所說過的垃圾郵件分類的例子再來講一下產(chǎn)生型模型的處理方法.

現(xiàn)在我們假設(shè)要分類垃圾郵件和正常的郵件(分類處理郵件是文本分類和模式識別的一種典型應(yīng)用),現(xiàn)在我們假設(shè)采用最簡單的特征描述的方法,首先我們先去找一個詞庫,然后把詞庫中的單詞都?xì)w類起來,然后把每一封郵件表示成一個向量,向量中的每一維都是詞庫中一個詞的0-1值,1表示出現(xiàn)這個詞語,0表示沒有出現(xiàn)這個詞語.

比如一封郵件出現(xiàn)了”偉哥”,”理財”,”投資”,卻沒有出現(xiàn)”邀請”,”還款”,”金融”這樣的詞語,我們就可以把這個向量表示為:(mathtype沒法輸入中文,所以用拼音代替了)

如果這個詞庫里的詞語過多,我們的x的維度也會很大,這時候我們就應(yīng)該要采取一些比如多項式分布模型的方法來去簡化計算,這個我們就不多做討論.

回到上邊的垃圾郵件問題中來,對于郵件,我們大致上可以將每一封郵件看作是相互獨立的,這樣每一次我們?nèi)∫环忄]件就可以看作是一次隨機事件,那么我們的可能性就會有2的n次方種可能性,這樣我們處理起來參數(shù)過多,那也就沒有什么實用價值.

那這時候我們?nèi)绻蒙赡Ｐ腿プ?就會有新的思路,我們要求的是p(y|x),那么按照條件概率公式可以的到,我們只需要求p(x|y),p(z),那么如果假設(shè)郵件x之間是相互獨立的,這個就可以說符合貝葉斯假設(shè),舉個例子說:

假設(shè)我們?nèi)ヅ袆e一封郵件已經(jīng)是垃圾郵件了(y=1),并且這個郵件出現(xiàn)”偉哥”和出現(xiàn)其他的詞是無關(guān)的,那么就說”偉哥”和其他的詞是相互獨立的.

那現(xiàn)在我們假設(shè):

給定條件z,使得X,Y條件獨立,那形式化可以表示為:

那如果詞庫中出現(xiàn)了5000個詞語,我們?nèi)堪言~語放進(jìn)來,這時候我們再回到問題中,就可以根據(jù)上式列出公式來:

而這一步的處理其實和我們之前的文章的n元語法模型是類似的,但是這里邊說的是每個詞語之間是相互獨立的,而”偉哥”和”性”,一般來說是有很大的關(guān)系的,這樣的詞匯會經(jīng)常出現(xiàn)在垃圾郵件中.

那現(xiàn)在我們建立形式化的模型:

這時候我們想要的是需要模型能夠在訓(xùn)練數(shù)據(jù)上獲得的概率值能夠足夠的精確,這時候我們使用極大似然估計:

從上式中我們看見,我們要求的是聯(lián)合概率密度,這樣從側(cè)面來佐證了樸素貝葉斯是生成模型.這時候我們帶入求解:

這樣我們求出這個公式的意義是,前兩個表示的是在y=1和0的樣本中,特征x的比例,最后一個式子表示的是y=1的樣本數(shù)占全部樣本數(shù)的比例,這時候我們再去變化一下.

就能夠給去判別一封郵件是垃圾郵件還是有用的郵件,需不需要進(jìn)行處理,當(dāng)然這當(dāng)中需要一些數(shù)學(xué)上面的技巧,這個是我們需要的關(guān)注的.

而從上邊的一堆公式最后推出這最后的一個模型,是不是有一種感覺是產(chǎn)生了一種模型的感覺,這其實就是產(chǎn)生型模型的由來.

2:判別型模型

定義:由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)Y=f(X)或者條件概率分布P(Y|X)作為預(yù)測的模型层亿，即判別模型》皆郑基本思想是有限樣本條件下建立判別函數(shù)碌更，不考慮樣本的產(chǎn)生模型裕偿，直接研究預(yù)測模型痛单。

還是上邊的這個例子:

如果我們要判別一封郵件是不是垃圾郵件,用判別型模型的方法就是從歷史數(shù)據(jù)中學(xué)習(xí)到模型,然后我們再去從新的郵件中去提取一些新的特征,比如包含不包含”偉哥”,”投資”,這樣的詞語,然后根據(jù)之前的學(xué)習(xí)到的模型直接進(jìn)行判別就行了,由于我們關(guān)注的是y的離散結(jié)果那個正確率高,而不是關(guān)心當(dāng)中每一個部分的概率,這樣的話式子就可以直接寫成:

而這里判別模型求得是條件概率,而生成模型求得是聯(lián)合概率.

3:判別模型和生成模型的區(qū)別:

常見的判別模型有線性回歸旭绒、對數(shù)回歸焦人、線性判別分析、支持向量機花椭、boosting房午、條件隨機場、神經(jīng)網(wǎng)絡(luò)等歪沃。

常見的生產(chǎn)模型有隱馬爾科夫模型、樸素貝葉斯模型沪曙、高斯混合模型、LDA碳默、Restricted Boltzmann Machine等缘眶。

特點:

一般認(rèn)為判別式模型更受喜愛，“人們應(yīng)該更直接去解決問題巷懈，永進(jìn)丌要把求解更復(fù) 雜的問題作為中間階段”(Vapnik)，吳恩達(dá)的論文作了較全面的分析凑保，產(chǎn)生式模型 (樸素貝葉斯)在少量樣本的情況下，可以取得更好的精確率欧引，判別式模型(logistics 回歸)在樣本增加的情況下恳谎，逐漸逼近前者的精確率.

而在吳恩達(dá)這一篇論文中詳細(xì)概述了這件事情,推薦大家有時間好好閱讀一番:

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末因痛，一起剝皮案震驚了整個濱河市婚苹，隨后出現(xiàn)的幾起案子婚肆，更是在濱河造成了極大的恐慌，老刑警劉巖用僧，帶你破解...
沈念sama閱讀 211,123評論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異责循，居然都是意外死亡，警方通過查閱死者的電腦和手機秸抚，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,031評論 2贊 384
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門歹垫，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人排惨，你說我怎么就攤上這事∧喊牛” “怎么了？”我有些...
開封第一講書人閱讀 156,723評論 0贊 345
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵畜晰，是天一觀的道長瑞筐。經(jīng)常有香客問我，道長聚假，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,357評論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮河胎，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘政敢。我一直安慰自己胚迫，他們只是感情好喷户，可當(dāng)我...
茶點故事閱讀 65,412評論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布褪尝。她就那樣靜靜地躺著闹获，像睡著了一般河哑。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上沙庐，一...
開封第一講書人閱讀 49,760評論 1贊 289
城市分裂傳說
那天佳吞，我揣著相機與錄音，去河邊找鬼底扳。笑死，一個胖子當(dāng)著我的面吹牛花盐，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播算芯，決...
沈念sama閱讀 38,904評論 3贊 405
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼熙揍，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了届囚？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,672評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤泥耀，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后痰催，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體迎瞧，經(jīng)...
沈念sama閱讀 44,118評論 1贊 303
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,456評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年缝裁，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片捷绑。...
茶點故事閱讀 38,599評論 1贊 340
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖扰才，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情衩匣，我是刑警寧澤粥航，帶...
沈念sama閱讀 34,264評論 4贊 328
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站递雀，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏缀程。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 39,857評論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一滤奈、第九天我趴在偏房一處隱蔽的房頂上張望撩满。院中可真熱鬧蜒程，春花似錦伺帘、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,731評論 0贊 21
一樁弒父案张咳，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽驹吮。三九已至晶伦，卻和暖如春啄枕，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背频祝。一陣腳步聲響...
開封第一講書人閱讀 31,956評論 1贊 264
情欲美人皮
我被黑心中介騙來泰國打工脆淹，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留沽一，地道東北人。一個月前我還...
沈念sama閱讀 46,286評論 2贊 360
代替公主和親
正文我出身青樓铣缠，卻偏偏與公主長得像，于是被迫代替她去往敵國和親蝇庭。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,465評論 2贊 348

NLP系列學(xué)習(xí):生成型模型和判別型模型

推薦閱讀更多精彩內(nèi)容