十、貝葉斯分析

貝葉斯統(tǒng)計(jì)學(xué)

? ? 基于(總體信息+樣本信息+先驗(yàn)信息)進(jìn)行統(tǒng)計(jì)推斷的方法和理論

先驗(yàn)信息:抽樣之前终抽,有關(guān)推斷問(wèn)題中未知參數(shù)的一些信息庞瘸,通常來(lái)自于經(jīng)驗(yàn)或歷史資料

貝葉斯定理

????P(H \vert X) = \frac {P(X \vert H)P(H)}{P(X)}

P(H \vert X)給定觀測(cè)數(shù)據(jù)樣本X,假設(shè)H是成立的概率许赃,是后驗(yàn)概率,比如一份特定郵件中馆类,P(X \vert H)是垃圾郵件的概率

P(H)H的先驗(yàn)概率混聊,比如總體郵件中垃圾郵件的概率,P(X)X的先驗(yàn)概率乾巧,比如總體郵件中帶有特定特征的郵件概率

可以通過(guò)抽樣來(lái)計(jì)算先驗(yàn)概率

eg:

總體100句喜,正常70,垃圾30沟于,辦證在正常郵件中出現(xiàn)10次咳胃,垃圾郵件中出現(xiàn)15次。

設(shè)X為辦證旷太,H為垃圾郵件

P(X \vert H) = 25/30 = 5/6

P(H) = 30/100 = 3/10

P(X) = 35/100 = 7/20

P(H\vert X) = \frac {P(X \vert H)P(H)}{P(X)} = \frac{\frac{5}{6}* \frac{3}{10}}{\frac{7}{20}}=\frac{5}{7}

包含辦證這個(gè)詞的郵件屬于垃圾郵件的概率為\frac{5}{7}

多個(gè)特征會(huì)使統(tǒng)計(jì)量巨大展懈,所有特征需要計(jì)算2^{n-1}次销睁,n是特征數(shù)


樸素貝葉斯(Naive Bayes)

? ? 假設(shè):特征X_1,X_2,X_3,...之間都是相互獨(dú)立的

P(H \vert X) = \frac {P(X \vert H)P(H)}{P(X)}= \frac {P(X_1 \vert H)P(X_2 \vert H)...P(H)}{P(X_1)P(X_2)...P(X_n)}

多項(xiàng)式模型:重復(fù)的詞語(yǔ)我們視其出現(xiàn)多次('a','b'存崖,'c'冻记,'a','d'来惧,'a')

eg:P("發(fā)票"\vert S)=\frac{每封垃圾郵件中出現(xiàn)"發(fā)票"的次數(shù)之和}{每封垃圾郵件中所有詞出現(xiàn)次數(shù)(計(jì)算重復(fù)次數(shù))之和}

伯努利模型:重復(fù)的詞我們視其為出現(xiàn)一次('a'冗栗,'b','c'供搀,'d')

eg:P("發(fā)票"\vert S)=\frac{出現(xiàn)"發(fā)票"的垃圾郵件的封數(shù)}{每封垃圾郵件中所有詞出現(xiàn)次數(shù)(出現(xiàn)只計(jì)算一次)之和}

混合模型:在計(jì)算句子概率時(shí)隅居,不考慮重復(fù)詞語(yǔ)出現(xiàn)的次數(shù),但是在統(tǒng)計(jì)計(jì)算詞語(yǔ)的概率P("詞語(yǔ)"\vert S)時(shí)葛虐,卻考慮重復(fù)詞語(yǔ)出現(xiàn)的次數(shù)

高斯模型:連續(xù)型變量胎源,轉(zhuǎn)換成離散型的值


詞袋模型(Bag of Words)

BoW模型最早出現(xiàn)在自然語(yǔ)言處理(Natural Language Processing)和信息檢索(Information Retrieval)領(lǐng)域。該模型忽略掉文本的語(yǔ)法和語(yǔ)序等要素挡闰,將其僅僅看作是若干個(gè)詞匯的集合乒融,文檔中每個(gè)單詞的出現(xiàn)都是獨(dú)立的。BoW使用一組無(wú)序的單詞來(lái)表達(dá)一段文字或一個(gè)文檔摄悯。

eg:John likes to watch movies,Marry likes too.John also likes to watch football games.

構(gòu)成詞典:

{"John" : 1 , "likes" 2 , "to" : 3 , "watch" : 4 , "movies" : 5 , "also" : 6 , "football" : 7 , "games" : 8 , "Marry" : 9 , "too" : 10}

則上述兩個(gè)文本可用向量表示:

[ 1 , 2 , 1 , 1 , 1 , 0 , 0 , 0 , 1 , 1 ]

[ 1 , 1 , 1 , 1 , 0 , 1 , 1 , 1 , 0 , 0 ]

向量與原來(lái)文本中單詞出現(xiàn)的順序無(wú)關(guān)赞季,而是詞典中每個(gè)單詞在文本中出現(xiàn)的頻率

python中使用CountVictorizer方法構(gòu)建單詞的字典,每個(gè)單詞實(shí)例被轉(zhuǎn)換為向量的一個(gè)數(shù)值特征奢驯,每個(gè)元素是特定單詞在文本中出現(xiàn)的次數(shù)

from sklearn.feature-extraction.text import CountVectorizer


TF-IDF

提取文章關(guān)鍵詞:

1申钩、提取詞頻(Term Frequency,TF)瘪阁,但出現(xiàn)最多的詞可能是“的撒遣,是,在”等對(duì)文章分類或搜索沒(méi)有幫助的停用詞(stop words)

2管跺、假設(shè)停用詞都過(guò)濾掉了义黎,但仍會(huì)有關(guān)鍵詞排序問(wèn)題,比如“中國(guó)”豁跑,“蜜蜂”廉涕,“養(yǎng)殖”三個(gè)詞TF相同,但相對(duì)而言艇拍,后兩個(gè)比前一個(gè)不那么常見(jiàn)狐蜕,對(duì)于一篇文章,三者TF相同卸夕,那么在關(guān)鍵詞排序上层释,后兩者應(yīng)該在“中國(guó)”之前,所以需要一個(gè)重要性調(diào)整系數(shù)快集,衡量一個(gè)詞是否是常見(jiàn)詞贡羔。常見(jiàn)詞的權(quán)重 < 不常見(jiàn)詞的權(quán)重廉白,這個(gè)權(quán)重叫做“逆文本頻率(Inverse Document Frequency,IDF)”其大小與一個(gè)詞的常見(jiàn)程度成反比治力。

詞頻(TF) = 某個(gè)詞在文章中的出現(xiàn)次數(shù)

詞頻(TF) =?\frac{某個(gè)詞在文章中的出現(xiàn)次數(shù)}{文章總詞數(shù)}

詞頻(TF) =?\frac{某個(gè)詞在文章中的出現(xiàn)次數(shù)}{該文出現(xiàn)次數(shù)最多的詞的出現(xiàn)次數(shù)}

TF-IDF = TF * IDF

sklearn實(shí)現(xiàn)蒙秒,可以使用 TfidfVectorizer()

from sklearn.feature-extraction.text import TfidfVectorizer


代碼:

import numpyas np

from sklearnimport datasets

from sklearn.model_selectionimport train_test_split

from sklearn.metricsimport classification_report, confusion_matrix

from sklearn.naive_bayesimport MultinomialNB, BernoulliNB, GaussianNB

# 載入數(shù)據(jù)

iris = datasets.load_iris()

x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target)

mul_nb = MultinomialNB()

mul_nb.fit(x_train, y_train)

print(classification_report(mul_nb.predict(x_test), y_test))

print(confusion_matrix(mul_nb.predict(x_test), y_test))

Ber_nb = BernoulliNB()

Ber_nb.fit(x_train, y_train)

print(classification_report(Ber_nb.predict(x_test), y_test))

print(confusion_matrix(Ber_nb.predict(x_test), y_test))

Gau_nb = GaussianNB()

Gau_nb.fit(x_train, y_train)

print(classification_report(Gau_nb.predict(x_test), y_test))

print(confusion_matrix(Gau_nb.predict(x_test), y_test))

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市宵统,隨后出現(xiàn)的幾起案子晕讲,更是在濱河造成了極大的恐慌,老刑警劉巖马澈,帶你破解...
    沈念sama閱讀 218,607評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件瓢省,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡痊班,警方通過(guò)查閱死者的電腦和手機(jī)勤婚,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,239評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)涤伐,“玉大人馒胆,你說(shuō)我怎么就攤上這事∧” “怎么了祝迂?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,960評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)器净。 經(jīng)常有香客問(wèn)我型雳,道長(zhǎng),這世上最難降的妖魔是什么山害? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,750評(píng)論 1 294
  • 正文 為了忘掉前任纠俭,我火速辦了婚禮,結(jié)果婚禮上浪慌,老公的妹妹穿的比我還像新娘冤荆。我一直安慰自己,他們只是感情好权纤,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,764評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布钓简。 她就那樣靜靜地躺著,像睡著了一般妖碉。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上芥被,一...
    開(kāi)封第一講書(shū)人閱讀 51,604評(píng)論 1 305
  • 那天欧宜,我揣著相機(jī)與錄音,去河邊找鬼拴魄。 笑死冗茸,一個(gè)胖子當(dāng)著我的面吹牛席镀,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播夏漱,決...
    沈念sama閱讀 40,347評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼豪诲,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了挂绰?” 一聲冷哼從身側(cè)響起屎篱,我...
    開(kāi)封第一講書(shū)人閱讀 39,253評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎葵蒂,沒(méi)想到半個(gè)月后交播,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,702評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡践付,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,893評(píng)論 3 336
  • 正文 我和宋清朗相戀三年秦士,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片永高。...
    茶點(diǎn)故事閱讀 40,015評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡隧土,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出命爬,到底是詐尸還是另有隱情曹傀,我是刑警寧澤,帶...
    沈念sama閱讀 35,734評(píng)論 5 346
  • 正文 年R本政府宣布遇骑,位于F島的核電站卖毁,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏落萎。R本人自食惡果不足惜亥啦,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,352評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望练链。 院中可真熱鬧翔脱,春花似錦、人聲如沸媒鼓。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,934評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)绿鸣。三九已至疚沐,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間潮模,已是汗流浹背亮蛔。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,052評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留擎厢,地道東北人究流。 一個(gè)月前我還...
    沈念sama閱讀 48,216評(píng)論 3 371
  • 正文 我出身青樓辣吃,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親芬探。 傳聞我的和親對(duì)象是個(gè)殘疾皇子神得,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,969評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容