1:演變關(guān)系
上邊的圖是
這一篇論文中的一個(gè)截圖,而第一張圖其實(shí)講的是幾種模型的演進(jìn)的一個(gè)過(guò)程,而這個(gè)過(guò)程如果加以簡(jiǎn)單的概括的話(huà),可以歸類(lèi)于上邊的一欄為產(chǎn)生型模型,下邊的一欄為判別型模型,那這兩種模型有什么區(qū)別,這兩種模型又是什么?接下來(lái)我們分別來(lái)掰扯掰扯這兩種模型.
1:產(chǎn)生型模型
定義: 由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率密度分布P(X,Y),然后求出條件概率分布P(Y|X)作為預(yù)測(cè)的模型,即生成模型:P(Y|X)= P(X,Y)/ P(X).
那產(chǎn)生型模型的典型代表其實(shí)就是樸素貝葉斯.這一種的模型的主要思想是先估算聯(lián)合概率密度p(x,y),再通過(guò)貝葉斯公式求出p(y|x).那現(xiàn)在我們就以之前文章中所說(shuō)過(guò)的垃圾郵件分類(lèi)的例子再來(lái)講一下產(chǎn)生型模型的處理方法.
現(xiàn)在我們假設(shè)要分類(lèi)垃圾郵件和正常的郵件(分類(lèi)處理郵件是文本分類(lèi)和模式識(shí)別的一種典型應(yīng)用),現(xiàn)在我們假設(shè)采用最簡(jiǎn)單的特征描述的方法,首先我們先去找一個(gè)詞庫(kù),然后把詞庫(kù)中的單詞都?xì)w類(lèi)起來(lái),然后把每一封郵件表示成一個(gè)向量,向量中的每一維都是詞庫(kù)中一個(gè)詞的0-1值,1表示出現(xiàn)這個(gè)詞語(yǔ),0表示沒(méi)有出現(xiàn)這個(gè)詞語(yǔ).
比如一封郵件出現(xiàn)了”偉哥”,”理財(cái)”,”投資”,卻沒(méi)有出現(xiàn)”邀請(qǐng)”,”還款”,”金融”這樣的詞語(yǔ),我們就可以把這個(gè)向量表示為:(mathtype沒(méi)法輸入中文,所以用拼音代替了)
如果這個(gè)詞庫(kù)里的詞語(yǔ)過(guò)多,我們的x的維度也會(huì)很大,這時(shí)候我們就應(yīng)該要采取一些比如多項(xiàng)式分布模型的方法來(lái)去簡(jiǎn)化計(jì)算,這個(gè)我們就不多做討論.
回到上邊的垃圾郵件問(wèn)題中來(lái),對(duì)于郵件,我們大致上可以將每一封郵件看作是相互獨(dú)立的,這樣每一次我們?nèi)∫环忄]件就可以看作是一次隨機(jī)事件,那么我們的可能性就會(huì)有2的n次方種可能性,這樣我們處理起來(lái)參數(shù)過(guò)多,那也就沒(méi)有什么實(shí)用價(jià)值.
那這時(shí)候我們?nèi)绻蒙赡P腿プ?就會(huì)有新的思路,我們要求的是p(y|x),那么按照條件概率公式可以的到,我們只需要求p(x|y),p(z),那么如果假設(shè)郵件x之間是相互獨(dú)立的,這個(gè)就可以說(shuō)符合貝葉斯假設(shè),舉個(gè)例子說(shuō):
假設(shè)我們?nèi)ヅ袆e一封郵件已經(jīng)是垃圾郵件了(y=1),并且這個(gè)郵件出現(xiàn)”偉哥”和出現(xiàn)其他的詞是無(wú)關(guān)的,那么就說(shuō)”偉哥”和其他的詞是相互獨(dú)立的.
那現(xiàn)在我們假設(shè):
給定條件z,使得X,Y條件獨(dú)立,那形式化可以表示為:
那如果詞庫(kù)中出現(xiàn)了5000個(gè)詞語(yǔ),我們?nèi)堪言~語(yǔ)放進(jìn)來(lái),這時(shí)候我們?cè)倩氐絾?wèn)題中,就可以根據(jù)上式列出公式來(lái):
而這一步的處理其實(shí)和我們之前的文章的n元語(yǔ)法模型是類(lèi)似的,但是這里邊說(shuō)的是每個(gè)詞語(yǔ)之間是相互獨(dú)立的,而”偉哥”和”性”,一般來(lái)說(shuō)是有很大的關(guān)系的,這樣的詞匯會(huì)經(jīng)常出現(xiàn)在垃圾郵件中.
那現(xiàn)在我們建立形式化的模型: