07 主題模型 - 知識(shí)補(bǔ)充 - 概率知識(shí)夸楣、二項(xiàng)\多項(xiàng)\Beta\Dirichlet分布

06 主題模型 - pLSA又稱pLSI - 基于概率的潛在語(yǔ)義分析模型

為了講后續(xù)的LDA算法宾抓,需要補(bǔ)充一點(diǎn)數(shù)學(xué)知識(shí)子漩。大綱如下:

概率知識(shí)
二項(xiàng)分布
多項(xiàng)分布
Beta分布
Beta分布和二項(xiàng)分布
Dirichlet分布


一、概率知識(shí)

先驗(yàn)概率: 在事情尚未發(fā)生前石洗,對(duì)該事件發(fā)生概率的估計(jì)幢泼。利用過(guò)去歷史資料計(jì)算出來(lái)得到的先驗(yàn)概率叫做客觀先驗(yàn)概率;憑主觀經(jīng)驗(yàn)來(lái)判斷而得到的先驗(yàn)概率叫做主觀先驗(yàn)概率讲衫。

后驗(yàn)概率: 通過(guò)調(diào)查或其它方式獲取新的附加信息缕棵,利用貝葉斯公式對(duì)先驗(yàn)概率進(jìn)行修正后,而得到的概率涉兽。

似然函數(shù): 給定模型參數(shù)θ的條件下招驴,樣本數(shù)據(jù)服從這一概率模型的相似程度。

先驗(yàn)分布:反映在進(jìn)行統(tǒng)計(jì)試驗(yàn)之前根據(jù)其他有關(guān)參數(shù)知識(shí)得到的分布枷畏;也就是說(shuō)在觀測(cè)獲取樣本之前别厘,人們對(duì)θ已經(jīng)有一些知識(shí),此時(shí)這個(gè)θ的分布函數(shù)為H(θ)拥诡,θ的密度函數(shù)為h(θ)触趴,分別稱為先驗(yàn)分布函數(shù)和先驗(yàn)密度函數(shù),統(tǒng)稱先驗(yàn)分布渴肉。

后驗(yàn)分布:根據(jù)樣本X的分布以及θ的先驗(yàn)分布π(θ)冗懦,使用概率論中求解條件概率的方式可以計(jì)算出來(lái)已知X的條件下,θ的條件分布π(θ|x)宾娜。因?yàn)樵摲植际窃讷@取樣本x之后計(jì)算出來(lái)的批狐,所以稱為后驗(yàn)分布。
后驗(yàn)分布 = 歷史數(shù)據(jù)(先驗(yàn)概率) + 樣本(似然函數(shù))

共軛分布:如果先驗(yàn)分布和后驗(yàn)分布具有相同的形式前塔,那么先驗(yàn)分布和似然函數(shù)被稱為共軛分布嚣艇。
如:先驗(yàn)分布是一個(gè)正太分布,加上似然函數(shù)后形成的后驗(yàn)分布也是一個(gè)正太分布华弓,那么先驗(yàn)分布似然函數(shù)稱為共軛分布食零。

分析: 也許讀者會(huì)困惑先驗(yàn)分布后驗(yàn)分布到底是個(gè)什么意思?這里我舉個(gè)栗子寂屏。
假如現(xiàn)在有一個(gè)硬幣贰谣,我剛拿到硬幣的時(shí)候心里有個(gè)數(shù):拋硬幣正面反面的概率都是50%,這是我根據(jù)以往經(jīng)驗(yàn)得到的一個(gè)先驗(yàn)分布迁霎。
現(xiàn)在我開始拋硬幣吱抚,我拋硬幣的過(guò)程就是在獲取樣本X的過(guò)程,X= {正面考廉,反面秘豹,反面,反面昌粤,正面....} 既绕; 如果我扔了10次硬幣啄刹,正面7次反面3次。這是似然函數(shù)得到的結(jié)果凄贩。
現(xiàn)在預(yù)測(cè)是正面的概率:先驗(yàn)分布=0.5誓军,似然函數(shù)預(yù)測(cè)的概率=0.7。
兩個(gè)分布相加后的結(jié)果:12/20 就是后驗(yàn)分布預(yù)測(cè)下次是正面的概率疲扎。


二昵时、二項(xiàng)分布

二項(xiàng)分布是從伯努利分布推導(dǎo)過(guò)來(lái)的。伯努利分布评肆,又稱兩點(diǎn)分布或0-1分布债查,是一個(gè)離散型的隨機(jī)分布,其中的隨機(jī)變量只有兩類取值瓜挽,非正即負(fù){+盹廷,-}。

而二項(xiàng)分布即重復(fù)n次的伯努利試驗(yàn)久橙,記為 X ~ b(n,p)俄占;

簡(jiǎn)言之,只做一次實(shí)驗(yàn)淆衷,是伯努利分布缸榄,重復(fù)做了n次,是二項(xiàng)分布祝拯。

期望E(x) = np 方差 D(x) = np(1-p)

拿拋硬幣舉例子甚带,正面概率p,反面概率1-0佳头。我拋了n次鹰贵。
pk(1-p)n-k 表示其中p的概率取到了k次,1-p的概率取到了n-k次康嘉。即意味著k次正面碉输,n-k次反面。

下面的公式即Cnk亭珍,比如一共抽了10次敷钾,其中k次出現(xiàn)正面的情況。


例子: 做了若干次的拋100回硬幣的實(shí)驗(yàn)肄梨,若正的情況記為1阻荒,負(fù)的情況記為0,結(jié)果如圖所示众羡,發(fā)現(xiàn)正面的概率是0.9财松。
其中12%的實(shí)驗(yàn)結(jié)果證明拋100次后是正面的次數(shù)正好是90。而在坐標(biāo)軸的左右兩側(cè)纱控,有趨向于0的概率發(fā)現(xiàn)拋100次硬幣是正面的結(jié)果分別為75和100%辆毡。

如果拋無(wú)數(shù)輪,每輪拋100次硬幣甜害,最后是正面朝上的均值是多少呢舶掖?
np = 100×0.9 = 90;
圖中最高的那個(gè)點(diǎn)對(duì)應(yīng)的是眾數(shù)尔店,眾數(shù)對(duì)應(yīng)的橫坐標(biāo)就是我們的期望眨攘,可以看到期望幾乎就等于90。


三嚣州、多項(xiàng)分布

多項(xiàng)分布(Multinomial Distribution)是二項(xiàng)分布的推廣鲫售。

多項(xiàng)分布是指單次試驗(yàn)中的隨機(jī)變量的取值不再是0/1的,而是有多種離散值可能(1,2,3...,k)该肴。比如投擲6個(gè)面的骰子實(shí)驗(yàn)情竹,N次實(shí)驗(yàn)結(jié)果服從K=6的多項(xiàng)分布。其中K個(gè)離散值的概率為:


四匀哄、Beta分布

Beta分布是二項(xiàng)分布的共軛分布秦效,是指一組定義在(0,1)區(qū)間的連續(xù)概率分布,具有兩個(gè)參數(shù):α,β>0;

\color{red}{PS:下面比較繞涎嚼,好好理解阱州。}
共軛分布: 如果先驗(yàn)分布和后驗(yàn)分布具有相同的形式,那么先驗(yàn)分布和似然函數(shù)被稱為共軛分布法梯。
這里我們認(rèn)為當(dāng)Beta分布作為先驗(yàn)分布苔货,二項(xiàng)分布作為條件分布(似然函數(shù)),最終得到的后驗(yàn)分布的分布和Beta分布的分布形式相同立哑。
\color{red}{即夜惭,Beta分布作為其后驗(yàn)分布的分布形式。}

Beta分布

Beta分布是指一組定義在(0,1)區(qū)間的連續(xù)概率分布刁憋,什么意思滥嘴?
當(dāng)你不知道一件事情發(fā)生的具體概率是多少時(shí),Beta分布可以給出所有概率出現(xiàn)的可能性大小至耻。


舉例:
姚明罰球若皱,投籃命中率高。
體育老師尘颓,投籃命中率中走触。
柔弱女生,投籃命中率低疤苹。
那么讓柔弱女生去投籃互广,她投不進(jìn)的概率會(huì)更高。

Beta分布描述的是投籃命中率的分布情況。
Beta分布中存在α,β惫皱,我們認(rèn)為α是正例發(fā)生的頻數(shù)像樊,β是負(fù)例發(fā)生的頻數(shù)。
讓任何一個(gè)人投籃這件事情發(fā)生之前旅敷,有一個(gè)他們是否會(huì)投進(jìn)的先驗(yàn)概率生棍,即我們?nèi)藶榈慕?jīng)驗(yàn)。

回到剛才舉的例子媳谁,現(xiàn)在姚明開始投籃了涂滴,他投進(jìn)了5次,1次沒(méi)有投進(jìn)晴音。
我們?nèi)藶橐γ髅新蕿?0%的概率非常高柔纵。

姚明投籃 - 藍(lán)線

柔弱女生開始投籃了,她投進(jìn)了1次锤躁,3次沒(méi)進(jìn)搁料。
我們?nèi)藶榕痘@命中率打到70%的可能性非常低。

女生投籃 - 綠線

Beta分布計(jì)算的是什么进苍?
是我們投籃命中率為0%~100%區(qū)間內(nèi)加缘,各個(gè)情況(..1%,2%...,99%...)分別發(fā)生的概率。是關(guān)于連續(xù)概率的概率觉啊。

\color{red}{Beta分布拣宏,決定了我們LDA模型建立時(shí)需要考慮的因素。}


五杠人、Beta分布和二項(xiàng)分布

除去系數(shù)不看勋乾,Beta分布二項(xiàng)分布具有相同的形式。將Beta分布當(dāng)做先驗(yàn)分布嗡善,將二項(xiàng)分布當(dāng)做似然函數(shù)辑莫。


六、Dirichlet分布

Dirichlet分布是由Beta分布推廣而來(lái)的罩引,是多項(xiàng)式分布的共軛分布各吨。

08 主題模型 - LDA

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市袁铐,隨后出現(xiàn)的幾起案子揭蜒,更是在濱河造成了極大的恐慌,老刑警劉巖剔桨,帶你破解...
    沈念sama閱讀 216,997評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件屉更,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡洒缀,警方通過(guò)查閱死者的電腦和手機(jī)瑰谜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,603評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門欺冀,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人萨脑,你說(shuō)我怎么就攤上這事隐轩。” “怎么了砚哗?”我有些...
    開封第一講書人閱讀 163,359評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵龙助,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我蛛芥,道長(zhǎng),這世上最難降的妖魔是什么军援? 我笑而不...
    開封第一講書人閱讀 58,309評(píng)論 1 292
  • 正文 為了忘掉前任仅淑,我火速辦了婚禮,結(jié)果婚禮上胸哥,老公的妹妹穿的比我還像新娘涯竟。我一直安慰自己,他們只是感情好空厌,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,346評(píng)論 6 390
  • 文/花漫 我一把揭開白布庐船。 她就那樣靜靜地躺著,像睡著了一般嘲更。 火紅的嫁衣襯著肌膚如雪筐钟。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,258評(píng)論 1 300
  • 那天赋朦,我揣著相機(jī)與錄音篓冲,去河邊找鬼。 笑死宠哄,一個(gè)胖子當(dāng)著我的面吹牛壹将,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播毛嫉,決...
    沈念sama閱讀 40,122評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼诽俯,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了承粤?” 一聲冷哼從身側(cè)響起暴区,我...
    開封第一講書人閱讀 38,970評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎密任,沒(méi)想到半個(gè)月后颜启,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,403評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡浪讳,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,596評(píng)論 3 334
  • 正文 我和宋清朗相戀三年缰盏,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,769評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡口猜,死狀恐怖负溪,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情济炎,我是刑警寧澤川抡,帶...
    沈念sama閱讀 35,464評(píng)論 5 344
  • 正文 年R本政府宣布,位于F島的核電站须尚,受9級(jí)特大地震影響崖堤,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜耐床,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,075評(píng)論 3 327
  • 文/蒙蒙 一密幔、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧撩轰,春花似錦胯甩、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,705評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至皆串,卻和暖如春淹办,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背愚战。 一陣腳步聲響...
    開封第一講書人閱讀 32,848評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工娇唯, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人寂玲。 一個(gè)月前我還...
    沈念sama閱讀 47,831評(píng)論 2 370
  • 正文 我出身青樓塔插,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親拓哟。 傳聞我的和親對(duì)象是個(gè)殘疾皇子想许,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,678評(píng)論 2 354