06 主題模型 - pLSA又稱pLSI - 基于概率的潛在語(yǔ)義分析模型
為了講后續(xù)的LDA算法宾抓,需要補(bǔ)充一點(diǎn)數(shù)學(xué)知識(shí)子漩。大綱如下:
概率知識(shí)
二項(xiàng)分布
多項(xiàng)分布
Beta分布
Beta分布和二項(xiàng)分布
Dirichlet分布
一、概率知識(shí)
先驗(yàn)概率: 在事情尚未發(fā)生前石洗,對(duì)該事件發(fā)生概率的估計(jì)幢泼。利用過(guò)去歷史資料計(jì)算出來(lái)得到的先驗(yàn)概率叫做客觀先驗(yàn)概率;憑主觀經(jīng)驗(yàn)來(lái)判斷而得到的先驗(yàn)概率叫做主觀先驗(yàn)概率讲衫。
后驗(yàn)概率: 通過(guò)調(diào)查或其它方式獲取新的附加信息缕棵,利用貝葉斯公式對(duì)先驗(yàn)概率進(jìn)行修正后,而得到的概率涉兽。
似然函數(shù): 給定模型參數(shù)θ的條件下招驴,樣本數(shù)據(jù)服從這一概率模型的相似程度。
先驗(yàn)分布:反映在進(jìn)行統(tǒng)計(jì)試驗(yàn)之前根據(jù)其他有關(guān)參數(shù)知識(shí)得到的分布枷畏;也就是說(shuō)在觀測(cè)獲取樣本之前别厘,人們對(duì)θ已經(jīng)有一些知識(shí),此時(shí)這個(gè)θ的分布函數(shù)為H(θ)拥诡,θ的密度函數(shù)為h(θ)触趴,分別稱為先驗(yàn)分布函數(shù)和先驗(yàn)密度函數(shù),統(tǒng)稱先驗(yàn)分布渴肉。
后驗(yàn)分布:根據(jù)樣本X的分布以及θ的先驗(yàn)分布π(θ)冗懦,使用概率論中求解條件概率的方式可以計(jì)算出來(lái)已知X的條件下,θ的條件分布π(θ|x)宾娜。因?yàn)樵摲植际窃讷@取樣本x之后計(jì)算出來(lái)的批狐,所以稱為后驗(yàn)分布。
后驗(yàn)分布 = 歷史數(shù)據(jù)(先驗(yàn)概率) + 樣本(似然函數(shù))
共軛分布:如果先驗(yàn)分布和后驗(yàn)分布具有相同的形式前塔,那么先驗(yàn)分布和似然函數(shù)被稱為共軛分布嚣艇。
如:先驗(yàn)分布是一個(gè)正太分布,加上似然函數(shù)后形成的后驗(yàn)分布也是一個(gè)正太分布华弓,那么先驗(yàn)分布和似然函數(shù)稱為共軛分布食零。
分析: 也許讀者會(huì)困惑先驗(yàn)分布和后驗(yàn)分布到底是個(gè)什么意思?這里我舉個(gè)栗子寂屏。
假如現(xiàn)在有一個(gè)硬幣贰谣,我剛拿到硬幣的時(shí)候心里有個(gè)數(shù):拋硬幣正面反面的概率都是50%,這是我根據(jù)以往經(jīng)驗(yàn)得到的一個(gè)先驗(yàn)分布迁霎。
現(xiàn)在我開始拋硬幣吱抚,我拋硬幣的過(guò)程就是在獲取樣本X的過(guò)程,X= {正面考廉,反面秘豹,反面,反面昌粤,正面....} 既绕; 如果我扔了10次硬幣啄刹,正面7次反面3次。這是似然函數(shù)得到的結(jié)果凄贩。
現(xiàn)在預(yù)測(cè)是正面的概率:先驗(yàn)分布=0.5誓军,似然函數(shù)預(yù)測(cè)的概率=0.7。
兩個(gè)分布相加后的結(jié)果:12/20 就是后驗(yàn)分布預(yù)測(cè)下次是正面的概率疲扎。
二昵时、二項(xiàng)分布
二項(xiàng)分布是從伯努利分布推導(dǎo)過(guò)來(lái)的。伯努利分布评肆,又稱兩點(diǎn)分布或0-1分布债查,是一個(gè)離散型的隨機(jī)分布,其中的隨機(jī)變量只有兩類取值瓜挽,非正即負(fù){+盹廷,-}。
而二項(xiàng)分布即重復(fù)n次的伯努利試驗(yàn)久橙,記為 X ~ b(n,p)俄占;
簡(jiǎn)言之,只做一次實(shí)驗(yàn)淆衷,是伯努利分布缸榄,重復(fù)做了n次,是二項(xiàng)分布祝拯。
拿拋硬幣舉例子甚带,正面概率p,反面概率1-0佳头。我拋了n次鹰贵。
pk(1-p)n-k 表示其中p的概率取到了k次,1-p的概率取到了n-k次康嘉。即意味著k次正面碉输,n-k次反面。
下面的公式即Cnk亭珍,比如一共抽了10次敷钾,其中k次出現(xiàn)正面的情況。
例子: 做了若干次的拋100回硬幣的實(shí)驗(yàn)肄梨,若正的情況記為1阻荒,負(fù)的情況記為0,結(jié)果如圖所示众羡,發(fā)現(xiàn)正面的概率是0.9财松。
其中12%的實(shí)驗(yàn)結(jié)果證明拋100次后是正面的次數(shù)正好是90。而在坐標(biāo)軸的左右兩側(cè)纱控,有趨向于0的概率發(fā)現(xiàn)拋100次硬幣是正面的結(jié)果分別為75和100%辆毡。
如果拋無(wú)數(shù)輪,每輪拋100次硬幣甜害,最后是正面朝上的均值是多少呢舶掖?
np = 100×0.9 = 90;
圖中最高的那個(gè)點(diǎn)對(duì)應(yīng)的是眾數(shù)尔店,眾數(shù)對(duì)應(yīng)的橫坐標(biāo)就是我們的期望眨攘,可以看到期望幾乎就等于90。
三嚣州、多項(xiàng)分布
多項(xiàng)分布(Multinomial Distribution)是二項(xiàng)分布的推廣鲫售。
多項(xiàng)分布是指單次試驗(yàn)中的隨機(jī)變量的取值不再是0/1的,而是有多種離散值可能(1,2,3...,k)该肴。比如投擲6個(gè)面的骰子實(shí)驗(yàn)情竹,N次實(shí)驗(yàn)結(jié)果服從K=6的多項(xiàng)分布。其中K個(gè)離散值的概率為:
四匀哄、Beta分布
Beta分布是二項(xiàng)分布的共軛分布秦效,是指一組定義在(0,1)區(qū)間的連續(xù)概率分布,具有兩個(gè)參數(shù):α,β>0;
共軛分布: 如果先驗(yàn)分布和后驗(yàn)分布具有相同的形式,那么先驗(yàn)分布和似然函數(shù)被稱為共軛分布法梯。
這里我們認(rèn)為當(dāng)Beta分布作為先驗(yàn)分布苔货,二項(xiàng)分布作為條件分布(似然函數(shù)),最終得到的后驗(yàn)分布的分布和Beta分布的分布形式相同立哑。
Beta分布是指一組定義在(0,1)區(qū)間的連續(xù)概率分布刁憋,什么意思滥嘴?
當(dāng)你不知道一件事情發(fā)生的具體概率是多少時(shí),Beta分布可以給出所有概率出現(xiàn)的可能性大小至耻。
舉例:
姚明罰球若皱,投籃命中率高。
體育老師尘颓,投籃命中率中走触。
柔弱女生,投籃命中率低疤苹。
那么讓柔弱女生去投籃互广,她投不進(jìn)的概率會(huì)更高。
Beta分布描述的是投籃命中率的分布情況。
Beta分布中存在α,β惫皱,我們認(rèn)為α是正例發(fā)生的頻數(shù)像樊,β是負(fù)例發(fā)生的頻數(shù)。
讓任何一個(gè)人投籃這件事情發(fā)生之前旅敷,有一個(gè)他們是否會(huì)投進(jìn)的先驗(yàn)概率生棍,即我們?nèi)藶榈慕?jīng)驗(yàn)。
回到剛才舉的例子媳谁,現(xiàn)在姚明開始投籃了涂滴,他投進(jìn)了5次,1次沒(méi)有投進(jìn)晴音。
我們?nèi)藶橐γ髅新蕿?0%的概率非常高柔纵。
柔弱女生開始投籃了,她投進(jìn)了1次锤躁,3次沒(méi)進(jìn)搁料。
我們?nèi)藶榕痘@命中率打到70%的可能性非常低。
Beta分布計(jì)算的是什么进苍?
是我們投籃命中率為0%~100%區(qū)間內(nèi)加缘,各個(gè)情況(..1%,2%...,99%...)分別發(fā)生的概率。是關(guān)于連續(xù)概率的概率觉啊。
五杠人、Beta分布和二項(xiàng)分布
除去系數(shù)不看勋乾,Beta分布和二項(xiàng)分布具有相同的形式。將Beta分布當(dāng)做先驗(yàn)分布嗡善,將二項(xiàng)分布當(dāng)做似然函數(shù)辑莫。
六、Dirichlet分布
Dirichlet分布是由Beta分布推廣而來(lái)的罩引,是多項(xiàng)式分布的共軛分布各吨。