十、貝葉斯分析

貝葉斯統(tǒng)計(jì)學(xué)

? ? 基于（總體信息+樣本信息+先驗(yàn)信息）進(jìn)行統(tǒng)計(jì)推斷的方法和理論

先驗(yàn)信息：抽樣之前终抽，有關(guān)推斷問(wèn)題中未知參數(shù)的一些信息庞瘸，通常來(lái)自于經(jīng)驗(yàn)或歷史資料

貝葉斯定理：

???? $P(H \vert X) = \frac {P(X \vert H)P(H)}{P(X)}$

$P(H \vert X)$ 給定觀測(cè)數(shù)據(jù)樣本 $X$ ，假設(shè) $H$ 是成立的概率许赃，是后驗(yàn)概率，比如一份特定郵件中馆类， $P(X \vert H)$ 是垃圾郵件的概率

$P(H)$ 是 $H$ 的先驗(yàn)概率混聊，比如總體郵件中垃圾郵件的概率， $P(X)$ 是 $X$ 的先驗(yàn)概率乾巧，比如總體郵件中帶有特定特征的郵件概率

可以通過(guò)抽樣來(lái)計(jì)算先驗(yàn)概率

eg：

總體100句喜，正常70，垃圾30沟于，辦證在正常郵件中出現(xiàn)10次咳胃，垃圾郵件中出現(xiàn)15次。

設(shè)X為辦證旷太，H為垃圾郵件

$P(X \vert H) = 25/30 = 5/6$

$P(H) = 30/100 = 3/10$

$P(X) = 35/100 = 7/20$

$P(H\vert X) = \frac {P(X \vert H)P(H)}{P(X)} = \frac{\frac{5}{6}* \frac{3}{10}}{\frac{7}{20}}=\frac{5}{7}$

包含辦證這個(gè)詞的郵件屬于垃圾郵件的概率為 $\frac{5}{7}$

多個(gè)特征會(huì)使統(tǒng)計(jì)量巨大展懈，所有特征需要計(jì)算 $2^{n-1}$ 次销睁，n是特征數(shù)

樸素貝葉斯（Naive Bayes）

? ? 假設(shè)：特征 $X_1,X_2,X_3,...$ 之間都是相互獨(dú)立的

$P(H \vert X) = \frac {P(X \vert H)P(H)}{P(X)}= \frac {P(X_1 \vert H)P(X_2 \vert H)...P(H)}{P(X_1)P(X_2)...P(X_n)}$

多項(xiàng)式模型：重復(fù)的詞語(yǔ)我們視其出現(xiàn)多次（'a'，'b'存崖，'c'冻记，'a'，'d'来惧，'a'）

eg： $P("發(fā)票"\vert S)=\frac{每封垃圾郵件中出現(xiàn)"發(fā)票"的次數(shù)之和}{每封垃圾郵件中所有詞出現(xiàn)次數(shù)（計(jì)算重復(fù)次數(shù)）之和}$

伯努利模型：重復(fù)的詞我們視其為出現(xiàn)一次（'a'冗栗，'b'，'c'供搀，'d'）

eg： $P("發(fā)票"\vert S)=\frac{出現(xiàn)"發(fā)票"的垃圾郵件的封數(shù)}{每封垃圾郵件中所有詞出現(xiàn)次數(shù)（出現(xiàn)只計(jì)算一次）之和}$

混合模型：在計(jì)算句子概率時(shí)隅居，不考慮重復(fù)詞語(yǔ)出現(xiàn)的次數(shù)，但是在統(tǒng)計(jì)計(jì)算詞語(yǔ)的概率 $P("詞語(yǔ)"\vert S)$ 時(shí)葛虐，卻考慮重復(fù)詞語(yǔ)出現(xiàn)的次數(shù)

高斯模型：連續(xù)型變量胎源，轉(zhuǎn)換成離散型的值

詞袋模型（Bag of Words）

BoW模型最早出現(xiàn)在自然語(yǔ)言處理（Natural Language Processing）和信息檢索（Information Retrieval）領(lǐng)域。該模型忽略掉文本的語(yǔ)法和語(yǔ)序等要素挡闰，將其僅僅看作是若干個(gè)詞匯的集合乒融，文檔中每個(gè)單詞的出現(xiàn)都是獨(dú)立的。BoW使用一組無(wú)序的單詞來(lái)表達(dá)一段文字或一個(gè)文檔摄悯。

eg：John likes to watch movies,Marry likes too.John also likes to watch football games.

構(gòu)成詞典：

{"John" : 1 , "likes" 2 , "to" : 3 , "watch" : 4 , "movies" : 5 , "also" : 6 , "football" : 7 , "games" : 8 , "Marry" : 9 , "too" : 10}

則上述兩個(gè)文本可用向量表示：

[ 1 , 2 , 1 , 1 , 1 , 0 , 0 , 0 , 1 , 1 ]

[ 1 , 1 , 1 , 1 , 0 , 1 , 1 , 1 , 0 , 0 ]

向量與原來(lái)文本中單詞出現(xiàn)的順序無(wú)關(guān)赞季，而是詞典中每個(gè)單詞在文本中出現(xiàn)的頻率

python中使用CountVictorizer方法構(gòu)建單詞的字典，每個(gè)單詞實(shí)例被轉(zhuǎn)換為向量的一個(gè)數(shù)值特征奢驯，每個(gè)元素是特定單詞在文本中出現(xiàn)的次數(shù)

from sklearn.feature-extraction.text import CountVectorizer

TF-IDF

提取文章關(guān)鍵詞：

1申钩、提取詞頻（Term Frequency，TF）瘪阁，但出現(xiàn)最多的詞可能是“的撒遣，是，在”等對(duì)文章分類或搜索沒(méi)有幫助的停用詞（stop words）

2管跺、假設(shè)停用詞都過(guò)濾掉了义黎，但仍會(huì)有關(guān)鍵詞排序問(wèn)題，比如“中國(guó)”豁跑，“蜜蜂”廉涕，“養(yǎng)殖”三個(gè)詞TF相同，但相對(duì)而言艇拍，后兩個(gè)比前一個(gè)不那么常見(jiàn)狐蜕，對(duì)于一篇文章，三者TF相同卸夕，那么在關(guān)鍵詞排序上层释，后兩者應(yīng)該在“中國(guó)”之前，所以需要一個(gè)重要性調(diào)整系數(shù)快集，衡量一個(gè)詞是否是常見(jiàn)詞贡羔。常見(jiàn)詞的權(quán)重 < 不常見(jiàn)詞的權(quán)重廉白，這個(gè)權(quán)重叫做“逆文本頻率（Inverse Document Frequency，IDF）”其大小與一個(gè)詞的常見(jiàn)程度成反比治力。

詞頻（TF） = 某個(gè)詞在文章中的出現(xiàn)次數(shù)

詞頻（TF） =? $\frac{某個(gè)詞在文章中的出現(xiàn)次數(shù)}{文章總詞數(shù)}$

詞頻（TF） =? $\frac{某個(gè)詞在文章中的出現(xiàn)次數(shù)}{該文出現(xiàn)次數(shù)最多的詞的出現(xiàn)次數(shù)}$

TF-IDF = TF * IDF

sklearn實(shí)現(xiàn)蒙秒，可以使用 TfidfVectorizer()

from sklearn.feature-extraction.text import TfidfVectorizer

代碼：

import numpyas np

from sklearnimport datasets

from sklearn.model_selectionimport train_test_split

from sklearn.metricsimport classification_report, confusion_matrix

from sklearn.naive_bayesimport MultinomialNB, BernoulliNB, GaussianNB

# 載入數(shù)據(jù)

iris = datasets.load_iris()

x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target)

mul_nb = MultinomialNB()

mul_nb.fit(x_train, y_train)

print(classification_report(mul_nb.predict(x_test), y_test))

print(confusion_matrix(mul_nb.predict(x_test), y_test))

Ber_nb = BernoulliNB()

Ber_nb.fit(x_train, y_train)

print(classification_report(Ber_nb.predict(x_test), y_test))

print(confusion_matrix(Ber_nb.predict(x_test), y_test))

Gau_nb = GaussianNB()

Gau_nb.fit(x_train, y_train)

print(classification_report(Gau_nb.predict(x_test), y_test))

print(confusion_matrix(Gau_nb.predict(x_test), y_test))

最后編輯于：2020.04.14 14:38:24

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市宵统，隨后出現(xiàn)的幾起案子晕讲，更是在濱河造成了極大的恐慌，老刑警劉巖马澈，帶你破解...
沈念sama閱讀 218,607評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件瓢省，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡痊班，警方通過(guò)查閱死者的電腦和手機(jī)勤婚，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,239評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)涤伐，“玉大人馒胆，你說(shuō)我怎么就攤上這事∧” “怎么了祝迂？”我有些...
開(kāi)封第一講書(shū)人閱讀 164,960評(píng)論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)器净。經(jīng)常有香客問(wèn)我型雳，道長(zhǎng)，這世上最難降的妖魔是什么山害？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,750評(píng)論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任纠俭，我火速辦了婚禮，結(jié)果婚禮上浪慌，老公的妹妹穿的比我還像新娘冤荆。我一直安慰自己，他們只是感情好权纤，可當(dāng)我...
茶點(diǎn)故事閱讀 67,764評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布钓简。她就那樣靜靜地躺著，像睡著了一般妖碉。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上芥被，一...
開(kāi)封第一講書(shū)人閱讀 51,604評(píng)論 1贊 305
城市分裂傳說(shuō)
那天欧宜，我揣著相機(jī)與錄音，去河邊找鬼拴魄。笑死冗茸，一個(gè)胖子當(dāng)著我的面吹牛席镀，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播夏漱，決...
沈念sama閱讀 40,347評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼豪诲，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了挂绰？” 一聲冷哼從身側(cè)響起屎篱，我...
開(kāi)封第一講書(shū)人閱讀 39,253評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎葵蒂，沒(méi)想到半個(gè)月后交播，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,702評(píng)論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡践付，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,893評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年秦士，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片永高。...
茶點(diǎn)故事閱讀 40,015評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡隧土，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出命爬，到底是詐尸還是另有隱情曹傀，我是刑警寧澤，帶...
沈念sama閱讀 35,734評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布遇骑，位于F島的核電站卖毁，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏落萎。R本人自食惡果不足惜亥啦，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,352評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望练链。院中可真熱鬧翔脱，春花似錦、人聲如沸媒鼓。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,934評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)绿鸣。三九已至疚沐，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間潮模，已是汗流浹背亮蛔。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,052評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留擎厢，地道東北人究流。一個(gè)月前我還...
沈念sama閱讀 48,216評(píng)論 3贊 371
代替公主和親
正文我出身青樓辣吃，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親芬探。傳聞我的和親對(duì)象是個(gè)殘疾皇子神得，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,969評(píng)論 2贊 355

十矮锈、貝葉斯分析

十、貝葉斯分析

貝葉斯統(tǒng)計(jì)學(xué)

樸素貝葉斯（Naive Bayes）

詞袋模型（Bag of Words）

TF-IDF

推薦閱讀更多精彩內(nèi)容