Dirichlet分布(Dirichelt Distribution)和Dirichlet過程 (Dirichlet Process)廣泛應(yīng)用于信息檢索病毡、自然語(yǔ)言處理等領(lǐng)域诱鞠,是理解主題模型的重要一步。而且它作為一種非參數(shù)模型(non-paramatric model)膝蜈,和參數(shù)模型一樣有著越來越廣泛的應(yīng)用乙漓。
文本提供了一種對(duì)Dirichlet 過程的理解。本文適合了解高斯過程互婿,對(duì)Dirichlet過程有一定了解捣郊,但又有些困惑的同學(xué)。希望讀完這篇文章能進(jìn)一步提升對(duì)Dirichlet的理解擒悬。
隨機(jī)過程
粗略地說模她,隨機(jī)過程是概率分布的擴(kuò)展。我們一般講概率分布懂牧,是有限維的隨機(jī)變量的概率分布侈净,而隨機(jī)過程所研究的對(duì)象是無限維的尊勿。因此,也把隨機(jī)過程所研究的對(duì)象稱作隨機(jī)函數(shù)畜侦。
隨機(jī)變量之于概率分布元扔,就像隨機(jī)函數(shù)之于隨機(jī)過程。
機(jī)器學(xué)習(xí)領(lǐng)域常見的隨機(jī)過程有:Gaussian Process, Dirichlet Process, Beta Process, Gamma Process等等旋膳。
高斯過程
理解Dirichlet過程澎语,可以類比高斯過程。高斯過程(GP)是定義在函數(shù)上的概率分布验懊。
這里的f(x)被稱作隨機(jī)函數(shù)擅羞,每一個(gè)x對(duì)應(yīng)的f(x)都是一個(gè)隨機(jī)變量,可以將這個(gè)隨機(jī)函數(shù)看做是多維隨機(jī)變量的擴(kuò)展义图。由于我們一般考慮的函數(shù)的定義域都包含無限個(gè)自變量(如定義域?yàn)閷?shí)數(shù)域)减俏,無法顯式地寫出其聯(lián)合概率密度函數(shù),因普通的多維隨機(jī)變量的定義無法表示高斯過程的定義碱工。
所以娃承,一般的隨機(jī)過程包括高斯過程,都是通過一個(gè)邊緣概率密度函數(shù)(f(x1), f(x2), ..., f(xn))來定義的怕篷。
這相當(dāng)于我們無法一次看完一個(gè)無限的東西历筝,所以想了個(gè)辦法,對(duì)它的局部照相廊谓。對(duì)于任何局部(x1, x2, ..., xn)梳猪,我們都有一個(gè)相片(f(x1), f(x2), ..., f(xn))。這里蒸痹,均值m和協(xié)方差c唯一地決定一個(gè)GP舔示。
Dirichlet分布
Dirichlet分布是定義在K維概率單純形(K-dimentional probability simplex)上的分布。
K維概率單純形电抚,說的好像很復(fù)雜惕稻,其實(shí)就是和為1,因此可以將pi看作是一個(gè)概率分布蝙叛。
Dirichlet分布的概率密度函數(shù)是
Dirichlet有很多優(yōu)美的性質(zhì)俺祠,比如將這里的隨機(jī)變量的元素拆分或者合并,結(jié)果還是服從Dirichelt分布借帘。如下
Dirichlet過程
Dirichlet過程(DP)是定義在概率測(cè)度上的分布蜘渣。
概率測(cè)度也就是概率,它是定義在樣本空間的sigam域上的函數(shù)肺然,滿足一定的性質(zhì)蔫缸。樣本空間就是我們要研究的空間 ,比如主題模型中所有的詞構(gòu)成的空間就是我們的樣本空間际起。sigma域也很簡(jiǎn)單拾碌,就是該空間的所有的子集構(gòu)成的空間吐葱。對(duì)于有n個(gè)元素的樣本空間 ,它的sigma域有2^n個(gè)元素校翔。這里的“滿足一定的性質(zhì)”弟跑,主要指可列可加性。通俗地說防症,即一些不相交集合的并的概率等于對(duì)每個(gè)集合的概率作和孟辑。
和GP類似,我們無法顯式地定義DP蔫敲。那只能對(duì)DP的局部“照相”饲嗽。如何照相呢?
設(shè)G是一個(gè)隨機(jī)概率測(cè)度奈嘿,對(duì)樣本空間做一個(gè)劃分(A1, A2, ..., Ak)喝噪,(G(A1), G(A2), ..., G(Ak))就可以看做一張相片。這里的 G(A1), G(A2), ..., G(Ak)也是一個(gè)多維隨機(jī)變量指么,和高斯過程中的f(x1), f(x2), ..., f(xn)相當(dāng)。而且由于G是概率測(cè)度榴鼎,我們還能得出G(A1)+G(A2)+...+G(Ak)=1伯诬,即一個(gè)劃分和一個(gè)概率測(cè)度唯一地決定了一個(gè)概率分布。
如果對(duì)樣本空間的任意一個(gè)劃分(A1, A2, ..., Ak)巫财,都有(G(A1), G(A2), ..., G(Ak))滿足Dirichlet分布盗似。那么我們稱G是一個(gè)Dirichlet過程。
記為
H是一個(gè)基分布(base distribution)平项,可以看做G的期望赫舒;alpha是系數(shù),可以看做G的方差的“倒數(shù)”闽瓢。
參考文獻(xiàn)
https://www.stats.ox.ac.uk/~teh/teaching/npbayes/mlss2007.pdf