一個函數(shù):
-
gamma函數(shù)
四個分布:
- 二項分布、多項分布、beta分布糜值、Dirichlet分布
伯努利分布,n重伯努利試驗得到二項分布
二項分布坯墨,增加試驗結(jié)果寂汇,推廣到多維度,得到多項分布
Gamma變形導(dǎo)出Beta分布
Beta分布是二項分布的共軛先驗分布
Dirichlet分布是Beta分布在高維度上的推廣
最后得到Dirirchlet-Multinomial結(jié)構(gòu) -
二項分布
二項分布是從伯努利分布推進的捣染。伯努利分布骄瓣,又稱兩點分布或0-1分布,是一個離散型的隨機分布耍攘,其中的隨機變量只有兩類取值榕栏,非正即負{+,-}蕾各。而二項分布即重復(fù)n次的伯努利試驗臼膏。
-
多項分布
多項分布是指單次試驗中的隨機變量的取值不再是0-1的,而是有多種離散值可能(1,2,3...,k)示损。比如投擲6個面的骰子實驗,N次實驗結(jié)果服從K=6的多項分布嚷硫。其中
多項分布的概率密度函數(shù)為:
-
Beta分布
給定參數(shù) ??和 ?? 检访,取值范圍為[0,1]的隨機變量 x 的概率密度函數(shù)
其中
-
Dirichlet分布
Beta分布在高維度上的推廣
Dirichlet分布密度函數(shù):
其中
-
Dirichlet分布 VS Beta分布:
對于Beta分布而言,服從該分布的隨機變量仔掸,期望可以用
來估計脆贵。類似的,若
兩個派別:
- 頻率派
把需要推斷的參數(shù)θ看做是固定的未知常數(shù)起暮,即概率 θ雖然是未知的卖氨,但最起碼是確定的一個值,同時负懦,樣本X是隨機的筒捺,所以頻率派重點研究樣本空間,大部分的概率計算都是針對樣本X 的分布纸厉; - 貝葉斯派
而貝葉斯派的觀點則截然相反系吭,他們認為待估計的參數(shù)θ是隨機變量,服從一定的分布颗品,而樣本X是固定的肯尺,由于樣本是固定的沃缘,所以他們重點研究的是參數(shù)θ的分布。
兩個結(jié)構(gòu):
-
貝葉斯框架
- 共軛先驗分布:
在貝葉斯概率理論中则吟,如果后驗概率P(θ|x)和先驗概率p(θ)滿足同樣的分布律槐臀,那么,先驗分布和后驗分布被叫做共軛分布氓仲,同時水慨,先驗分布叫做似然函數(shù)的共軛先驗分布。 -
Beta-Binomial 共軛:
其中 (m1,m2)對應(yīng)的是二項分布 B(m1+m2,p)的計數(shù)寨昙。針對于這種觀測到的數(shù)據(jù)符合二項分布讥巡,參數(shù)的先驗分布和后驗分布都是Beta分布的情況,就是Beta-Binomial 共軛舔哪。
-
Dirichlet-Multinomial 共軛:
針對于這種觀測到的數(shù)據(jù)符合多項分布欢顷,參數(shù)的先驗分布和后驗分布都是Dirichlet 分布的情況,就是Dirichlet-Multinomial 共軛捉蚤。意味著抬驴,如果我們?yōu)槎囗椃植嫉膮?shù)p選取的先驗分布是Dirichlet分布,那么以p為參數(shù)的多項分布用貝葉斯估計得到的后驗分布仍然服從Dirichlet分布缆巧。
小白學(xué)習 無關(guān)利益
感謝:
Gamma 函數(shù) - CSDN博客
利用Gamma函數(shù)求積分的幾種形式_百度文庫
通俗理解LDA主題模型 - CSDN博客
LDA_gensim實現(xiàn)
概率語言模型及其變形系列(5)-LDA Gibbs Sampling 的JAVA實現(xiàn) - CSDN博客
Jupyter Notebook Viewer