深入理解Dirichlet過程

Dirichlet分布(Dirichelt Distribution)和Dirichlet過程 (Dirichlet Process)廣泛應(yīng)用于信息檢索病毡、自然語(yǔ)言處理等領(lǐng)域诱鞠,是理解主題模型的重要一步。而且它作為一種非參數(shù)模型(non-paramatric model)膝蜈,和參數(shù)模型一樣有著越來越廣泛的應(yīng)用乙漓。

文本提供了一種對(duì)Dirichlet 過程的理解。本文適合了解高斯過程互婿,對(duì)Dirichlet過程有一定了解捣郊,但又有些困惑的同學(xué)。希望讀完這篇文章能進(jìn)一步提升對(duì)Dirichlet的理解擒悬。

隨機(jī)過程

粗略地說模她,隨機(jī)過程是概率分布的擴(kuò)展。我們一般講概率分布懂牧,是有限維的隨機(jī)變量的概率分布侈净,而隨機(jī)過程所研究的對(duì)象是無限維的尊勿。因此,也把隨機(jī)過程所研究的對(duì)象稱作隨機(jī)函數(shù)畜侦。

隨機(jī)變量之于概率分布元扔,就像隨機(jī)函數(shù)之于隨機(jī)過程

機(jī)器學(xué)習(xí)領(lǐng)域常見的隨機(jī)過程有:Gaussian Process, Dirichlet Process, Beta Process, Gamma Process等等旋膳。

高斯過程

理解Dirichlet過程澎语,可以類比高斯過程。高斯過程(GP)是定義在函數(shù)上的概率分布验懊。

這里的f(x)被稱作隨機(jī)函數(shù)擅羞,每一個(gè)x對(duì)應(yīng)的f(x)都是一個(gè)隨機(jī)變量,可以將這個(gè)隨機(jī)函數(shù)看做是多維隨機(jī)變量的擴(kuò)展义图。由于我們一般考慮的函數(shù)的定義域都包含無限個(gè)自變量(如定義域?yàn)閷?shí)數(shù)域)减俏,無法顯式地寫出其聯(lián)合概率密度函數(shù),因普通的多維隨機(jī)變量的定義無法表示高斯過程的定義碱工。

所以娃承,一般的隨機(jī)過程包括高斯過程,都是通過一個(gè)邊緣概率密度函數(shù)(f(x1), f(x2), ..., f(xn))來定義的怕篷。

這相當(dāng)于我們無法一次看完一個(gè)無限的東西历筝,所以想了個(gè)辦法,對(duì)它的局部照相廊谓。對(duì)于任何局部(x1, x2, ..., xn)梳猪,我們都有一個(gè)相片(f(x1), f(x2), ..., f(xn))。這里蒸痹,均值m和協(xié)方差c唯一地決定一個(gè)GP舔示。

Dirichlet分布

Dirichlet分布是定義在K維概率單純形(K-dimentional probability simplex)上的分布

K維概率單純形电抚,說的好像很復(fù)雜惕稻,其實(shí)就是和為1,因此可以將pi看作是一個(gè)概率分布蝙叛。

Dirichlet分布的概率密度函數(shù)是

Dirichlet有很多優(yōu)美的性質(zhì)俺祠,比如將這里的隨機(jī)變量的元素拆分或者合并,結(jié)果還是服從Dirichelt分布借帘。如下

Dirichlet過程

Dirichlet過程(DP)是定義在概率測(cè)度上的分布蜘渣。

概率測(cè)度也就是概率,它是定義在樣本空間sigam域上的函數(shù)肺然,滿足一定的性質(zhì)蔫缸。樣本空間就是我們要研究的空間 ,比如主題模型中所有的詞構(gòu)成的空間就是我們的樣本空間际起。sigma域也很簡(jiǎn)單拾碌,就是該空間的所有的子集構(gòu)成的空間吐葱。對(duì)于有n個(gè)元素的樣本空間 ,它的sigma域有2^n個(gè)元素校翔。這里的“滿足一定的性質(zhì)”弟跑,主要指可列可加性。通俗地說防症,即一些不相交集合的并的概率等于對(duì)每個(gè)集合的概率作和孟辑。

和GP類似,我們無法顯式地定義DP蔫敲。那只能對(duì)DP的局部“照相”饲嗽。如何照相呢?

設(shè)G是一個(gè)隨機(jī)概率測(cè)度奈嘿,對(duì)樣本空間做一個(gè)劃分(A1, A2, ..., Ak)喝噪,(G(A1), G(A2), ..., G(Ak))就可以看做一張相片。這里的 G(A1), G(A2), ..., G(Ak)也是一個(gè)多維隨機(jī)變量指么,和高斯過程中的f(x1), f(x2), ..., f(xn)相當(dāng)。而且由于G是概率測(cè)度榴鼎,我們還能得出G(A1)+G(A2)+...+G(Ak)=1伯诬,即一個(gè)劃分和一個(gè)概率測(cè)度唯一地決定了一個(gè)概率分布。

如果對(duì)樣本空間的任意一個(gè)劃分(A1, A2, ..., Ak)巫财,都有(G(A1), G(A2), ..., G(Ak))滿足Dirichlet分布盗似。那么我們稱G是一個(gè)Dirichlet過程。

記為

H是一個(gè)基分布(base distribution)平项,可以看做G的期望赫舒;alpha是系數(shù),可以看做G的方差的“倒數(shù)”闽瓢。


參考文獻(xiàn)

https://www.stats.ox.ac.uk/~teh/teaching/npbayes/mlss2007.pdf

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末接癌,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子扣讼,更是在濱河造成了極大的恐慌缺猛,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,104評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件椭符,死亡現(xiàn)場(chǎng)離奇詭異荔燎,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)销钝,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,816評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門有咨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人蒸健,你說我怎么就攤上這事座享⊥裆蹋” “怎么了?”我有些...
    開封第一講書人閱讀 168,697評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵征讲,是天一觀的道長(zhǎng)据某。 經(jīng)常有香客問我,道長(zhǎng)诗箍,這世上最難降的妖魔是什么癣籽? 我笑而不...
    開封第一講書人閱讀 59,836評(píng)論 1 298
  • 正文 為了忘掉前任,我火速辦了婚禮滤祖,結(jié)果婚禮上筷狼,老公的妹妹穿的比我還像新娘。我一直安慰自己匠童,他們只是感情好埂材,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,851評(píng)論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著汤求,像睡著了一般俏险。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上扬绪,一...
    開封第一講書人閱讀 52,441評(píng)論 1 310
  • 那天竖独,我揣著相機(jī)與錄音,去河邊找鬼挤牛。 笑死莹痢,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的墓赴。 我是一名探鬼主播竞膳,決...
    沈念sama閱讀 40,992評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼诫硕!你這毒婦竟也來了坦辟?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,899評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤章办,失蹤者是張志新(化名)和其女友劉穎长窄,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體纲菌,經(jīng)...
    沈念sama閱讀 46,457評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡挠日,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,529評(píng)論 3 341
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了翰舌。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片嚣潜。...
    茶點(diǎn)故事閱讀 40,664評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖椅贱,靈堂內(nèi)的尸體忽然破棺而出懂算,到底是詐尸還是另有隱情只冻,我是刑警寧澤,帶...
    沈念sama閱讀 36,346評(píng)論 5 350
  • 正文 年R本政府宣布计技,位于F島的核電站喜德,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏垮媒。R本人自食惡果不足惜舍悯,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,025評(píng)論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望睡雇。 院中可真熱鬧萌衬,春花似錦、人聲如沸它抱。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,511評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)观蓄。三九已至混移,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間侮穿,已是汗流浹背歌径。 一陣腳步聲響...
    開封第一講書人閱讀 33,611評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留撮珠,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,081評(píng)論 3 377
  • 正文 我出身青樓金矛,卻偏偏與公主長(zhǎng)得像芯急,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子驶俊,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,675評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容