注:此文非本人所寫译秦,來(lái)源于http://blog.csdn.net/u014114990/article/details/47808183
僅供自己學(xué)習(xí)參考裤纹,其中問(wèn)題還有待驗(yàn)證,
如果對(duì)文章著作權(quán)有任何問(wèn)題把跨,聯(lián)系本人人弓,本人將立即刪除
0 引言
寫完SVM之后,一直想繼續(xù)寫機(jī)器學(xué)習(xí)的系列着逐,無(wú)奈一直時(shí)間不穩(wěn)定且對(duì)各個(gè)模型算法的理解尚不夠崔赌,所以導(dǎo)致遲遲未動(dòng)筆。無(wú)獨(dú)有偶耸别,重寫KMP得益于今年4月個(gè)人組織的算法班健芭,而動(dòng)筆繼續(xù)寫這個(gè)機(jī)器學(xué)習(xí)系列,正得益于今年10月組織的機(jī)器學(xué)習(xí)班秀姐。
10月26日機(jī)器學(xué)習(xí)班第6次課慈迈,鄒講最大熵模型,從熵的概念省有,講到為何要最大熵痒留、最大熵的推導(dǎo),以及求解參數(shù)的IIS方法蠢沿,整個(gè)過(guò)程講得非常流暢伸头,特別是其中的數(shù)學(xué)推導(dǎo)。晚上我把上課PPT 在微博上公開(kāi)分享了出來(lái)舷蟀,但對(duì)于沒(méi)有上過(guò)課的朋友直接看PPT 會(huì)感到非常跳躍恤磷,因此我打算針對(duì)機(jī)器學(xué)習(xí)班的某些次課寫一系列博客,剛好也算繼續(xù)博客中未完的機(jī)器學(xué)習(xí)系列雪侥。
綜上碗殷,本文結(jié)合10月機(jī)器學(xué)習(xí)班最大熵模型的PPT和其它相關(guān)資料寫就,可以看成是課程筆記或?qū)W習(xí)心得速缨,著重推導(dǎo)。有何建議或意見(jiàn)代乃,歡迎隨時(shí)于本文評(píng)論下指出旬牲,thanks。
1 預(yù)備知識(shí)
為了更好的理解本文搁吓,需要了解的概率必備知識(shí)有:
大寫字母X表示隨機(jī)變量原茅,小寫字母x表示隨機(jī)變量X的某個(gè)具體的取值;
P(X)表示隨機(jī)變量X的概率分布堕仔,P(X,Y)表示隨機(jī)變量X擂橘、Y的聯(lián)合概率分布,P(Y|X)表示已知隨機(jī)變量X的情況下隨機(jī)變量Y的條件概率分布摩骨;
p(X = x)表示隨機(jī)變量X取某個(gè)具體值的概率通贞,簡(jiǎn)記為p(x)朗若;
p(X = x, Y = y) 表示聯(lián)合概率,簡(jiǎn)記為p(x,y)昌罩,p(Y = y|X = x)表示條件概率哭懈,簡(jiǎn)記為p(y|x),且有:p(x,y) = p(x) * p(y|x)茎用。
需要了解的有關(guān)函數(shù)求導(dǎo)遣总、求極值的知識(shí)點(diǎn)有:
如果函數(shù)y=f(x)在[a, b]上連續(xù),且其在(a,b)上可導(dǎo)轨功,如果其導(dǎo)數(shù)f’(x) >0旭斥,則代表函數(shù)f(x)在[a,b]上單調(diào)遞增,否則單調(diào)遞減古涧;如果函數(shù)的二階導(dǎo)f''(x) > 0垂券,則函數(shù)在[a,b]上是凹的,反之蒿褂,如果二階導(dǎo)f''(x) < 0圆米,則函數(shù)在[a,b]上是凸的。
設(shè)函數(shù)f(x)在x0處可導(dǎo)啄栓,且在x處取得極值娄帖,則函數(shù)的導(dǎo)數(shù)F’(x0) = 0。
以二元函數(shù)z = f(x,y)為例昙楚,固定其中的y近速,把x看做唯一的自變量,此時(shí)堪旧,函數(shù)對(duì)x的導(dǎo)數(shù)稱為二元函數(shù)z=f(x,y)對(duì)x的偏導(dǎo)數(shù)削葱。
為了把原帶約束的極值問(wèn)題轉(zhuǎn)換為無(wú)約束的極值問(wèn)題,一般引入拉格朗日乘子淳梦,建立拉格朗日函數(shù)析砸,然后對(duì)拉格朗日函數(shù)求導(dǎo),令求導(dǎo)結(jié)果等于0爆袍,得到極值首繁。
更多請(qǐng)查看《高等數(shù)學(xué)上下冊(cè)》、《概率論與數(shù)理統(tǒng)計(jì)》等教科書陨囊,或參考本博客中的:[數(shù)據(jù)挖掘中所需的概率論與數(shù)理統(tǒng)計(jì)知識(shí)](http://blog.csdn.net/v_july_v/article/details/8308762)弦疮。
2 何謂熵?
從名字上來(lái)看蜘醋,熵給人一種很玄乎胁塞,不知道是啥的感覺(jué)。其實(shí),熵的定義很簡(jiǎn)單啸罢,即用來(lái)表示隨機(jī)變量的不確定性编检。之所以給人玄乎的感覺(jué),大概是因?yàn)闉楹我∵@樣的名字伺糠,以及怎么用蒙谓。
熵的概念最早起源于物理學(xué),用于度量一個(gè)熱力學(xué)系統(tǒng)的無(wú)序程度训桶。在信息論里面累驮,熵是對(duì)不確定性的測(cè)量。
2.1 熵的引入
事實(shí)上舵揭,熵的英文原文為entropy谤专,最初由德國(guó)物理學(xué)家魯?shù)婪颉た藙谛匏固岢觯浔磉_(dá)式為:
它表示一個(gè)系統(tǒng)在不受外部干擾時(shí)午绳,其內(nèi)部最穩(wěn)定的狀態(tài)置侍。后來(lái)一中國(guó)學(xué)者翻譯entropy時(shí),考慮到entropy是能量Q跟溫度T的商拦焚,且跟火有關(guān)蜡坊,便把entropy形象的翻譯成“熵”。
我們知道赎败,任何粒子的常態(tài)都是隨機(jī)運(yùn)動(dòng)秕衙,也就是"無(wú)序運(yùn)動(dòng)",如果讓粒子呈現(xiàn)"有序化"僵刮,必須耗費(fèi)能量据忘。所以,溫度(熱能)可以被看作"有序化"的一種度量搞糕,而"熵"可以看作是"無(wú)序化"的度量勇吊。
如果沒(méi)有外部能量輸入,封閉系統(tǒng)趨向越來(lái)越混亂(熵越來(lái)越大)窍仰。比如汉规,如果房間無(wú)人打掃,不可能越來(lái)越干凈(有序化)驹吮,只可能越來(lái)越亂(無(wú)序化)鲫忍。而要讓一個(gè)系統(tǒng)變得更有序,必須有外部能量的輸入钥屈。
1948年,香農(nóng)Claude E. Shannon引入信息(熵)坝辫,將其定義為離散隨機(jī)事件的出現(xiàn)概率篷就。一個(gè)系統(tǒng)越是有序,信息熵就越低近忙;反之竭业,一個(gè)系統(tǒng)越是混亂智润,信息熵就越高。所以說(shuō)未辆,信息熵可以被認(rèn)為是系統(tǒng)有序化程度的一個(gè)度量窟绷。 若無(wú)特別指出,下文中所有提到的熵均為信息熵咐柜。
2.2 熵的定義
下面分別給出熵兼蜈、聯(lián)合熵、條件熵拙友、相對(duì)熵为狸、互信息的定義。
**熵**:如果一個(gè)隨機(jī)變量X的可能取值為X = {x1, x2,…, xk}遗契,其概率分布為P(X = xi) = pi(i = 1,2, ..., n)辐棒,則隨機(jī)變量X的熵定義為:
把最前面的負(fù)號(hào)放到最后,便成了:![](http://upload-images.jianshu.io/upload_images/2316162-ac578675a93aa0a3?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
上面兩個(gè)熵的公式牍蜂,無(wú)論用哪個(gè)都行漾根,而且兩者等價(jià),一個(gè)意思(這兩個(gè)公式在下文中都會(huì)用到)鲫竞。 **聯(lián)合熵**:兩個(gè)隨機(jī)變量X辐怕,Y的聯(lián)合分布,可以形成聯(lián)合熵Joint Entropy贡茅,用H(X,Y)表示秘蛇。 **條件熵**:在隨機(jī)變量X發(fā)生的前提下,隨機(jī)變量Y發(fā)生所新帶來(lái)的熵定義為Y的條件熵顶考,用H(Y|X)表示赁还,用來(lái)衡量在已知隨機(jī)變量X的條件下隨機(jī)變量Y的不確定性。
且有此式子成立:H(Y|X) = H(X,Y) – H(X)驹沿,整個(gè)式子表示(X,Y)發(fā)生所包含的熵減去X單獨(dú)發(fā)生包含的熵艘策。至于怎么得來(lái)的請(qǐng)看推導(dǎo):
簡(jiǎn)單解釋下上面的推導(dǎo)過(guò)程。整個(gè)式子共6行渊季,其中
第二行推到第三行的依據(jù)是邊緣分布p(x)等于聯(lián)合分布p(x,y)的和朋蔫;
第三行推到第四行的依據(jù)是把公因子logp(x)乘進(jìn)去,然后把x,y寫在一起却汉;
第四行推到第五行的依據(jù)是:因?yàn)閮蓚€(gè)sigma都有p(x,y)驯妄,故提取公因子p(x,y)放到外邊,然后把里邊的-(log p(x,y) - log p(x))寫成- log (p(x,y)/p(x) ) 合砂;
第五行推到第六行的依據(jù)是:p(x,y) = p(x) * p(y|x)青扔,故p(x,y) / p(x) = p(y|x)。
**相對(duì)熵:**又稱互熵,交叉熵微猖,鑒別信息谈息,Kullback熵,Kullback-Leible散度等凛剥。設(shè)p(x)侠仇、q(x)是X中取值的兩個(gè)概率分布,則p對(duì)q的相對(duì)熵是:
在一定程度上犁珠,相對(duì)熵可以度量?jī)蓚€(gè)隨機(jī)變量的“距離”逻炊,且有D(p||q) ≠D(q||p)。另外盲憎,值得一提的是嗅骄,D(p||q)是必然大于等于0的。
**互信息**:兩個(gè)隨機(jī)變量X饼疙,Y的互信息定義為X溺森,Y的聯(lián)合分布和各自獨(dú)立分布乘積的相對(duì)熵,用I(X,Y)表示:
且有I(X,Y)=D(P(X,Y) || P(X)P(Y))窑眯。下面屏积,咱們來(lái)計(jì)算下H(Y)-I(X,Y)的結(jié)果,如下:
通過(guò)上面的計(jì)算過(guò)程磅甩,我們發(fā)現(xiàn)竟然有H(Y)-I(X,Y) = H(Y|X)炊林。故通過(guò)條件熵的定義,有:H(Y|X) = H(X,Y) - H(X)卷要,而根據(jù)互信息定義展開(kāi)得到H(Y|X) = H(Y) - I(X,Y)渣聚,把前者跟后者結(jié)合起來(lái),便有I(X,Y)= H(X) + H(Y) - H(X,Y)僧叉,此結(jié)論被多數(shù)文獻(xiàn)作為互信息的定義奕枝。
3 最大熵
熵是隨機(jī)變量不確定性的度量,不確定性越大瓶堕,熵值越大隘道;若隨機(jī)變量退化成定值,熵為0郎笆。如果沒(méi)有外界干擾谭梗,隨機(jī)變量總是趨向于無(wú)序,在經(jīng)過(guò)足夠時(shí)間的穩(wěn)定演化宛蚓,它應(yīng)該能夠達(dá)到的最大程度的熵激捏。
為了準(zhǔn)確的估計(jì)隨機(jī)變量的狀態(tài),我們一般習(xí)慣性最大化熵凄吏,認(rèn)為在所有可能的概率模型(分布)的集合中缩幸,熵最大的模型是最好的模型壹置。換言之,在已知部分知識(shí)的前提下表谊,關(guān)于未知分布最合理的推斷就是符合已知知識(shí)最不確定或最隨機(jī)的推斷,其原則是承認(rèn)已知事物(知識(shí))盖喷,且對(duì)未知事物不做任何假設(shè)爆办,沒(méi)有任何偏見(jiàn)。
例如课梳,投擲一個(gè)骰子距辆,如果問(wèn)"每個(gè)面朝上的概率分別是多少",你會(huì)說(shuō)是等概率暮刃,即各點(diǎn)出現(xiàn)的概率均為1/6跨算。因?yàn)閷?duì)這個(gè)"一無(wú)所知"的色子,什么都不確定椭懊,而假定它每一個(gè)朝上概率均等則是最合理的做法诸蚕。從投資的角度來(lái)看,這是風(fēng)險(xiǎn)最小的做法氧猬,而從信息論的角度講背犯,就是保留了最大的不確定性,也就是說(shuō)讓熵達(dá)到最大盅抚。
3.1 無(wú)偏原則
下面再舉個(gè)大多數(shù)有關(guān)最大熵模型的文章中都喜歡舉的一個(gè)例子漠魏。
例如,一篇文章中出現(xiàn)了“學(xué)習(xí)”這個(gè)詞妄均,那這個(gè)詞是主語(yǔ)柱锹、謂語(yǔ)、還是賓語(yǔ)呢丰包?換言之禁熏,已知“學(xué)習(xí)”可能是動(dòng)詞,也可能是名詞烫沙,故“學(xué)習(xí)”可以被標(biāo)為主語(yǔ)匹层、謂語(yǔ)、賓語(yǔ)锌蓄、定語(yǔ)等等升筏。
因?yàn)闆](méi)有任何的先驗(yàn)知識(shí),所以這種判斷是合理的瘸爽。如果有了一定的先驗(yàn)知識(shí)呢您访?
實(shí)踐經(jīng)驗(yàn)和理論計(jì)算都告訴我們,在完全無(wú)約束狀態(tài)下剪决,均勻分布等價(jià)于熵最大(有約束的情況下灵汪,不一定是概率相等的均勻分布檀训。 比如,給定均值和方差享言,熵最大的分布就變成了正態(tài)分布 )峻凫。
于是,問(wèn)題便轉(zhuǎn)化為了:計(jì)算X和Y的分布览露,使得H(Y|X)達(dá)到最大值荧琼,并且滿足下述條件:
因此,也就引出了**最大熵模型的本質(zhì)差牛,它要解決的問(wèn)題就是已知X命锄,計(jì)算Y的概率,且盡可能讓Y的概率最大**(實(shí)踐中偏化,X可能是某單詞的上下文信息脐恩,Y是該單詞翻譯成me,I侦讨,us驶冒、we的各自概率),從而根據(jù)已有信息搭伤,盡可能最準(zhǔn)確的推測(cè)未知信息只怎,這就是最大熵模型所要解決的問(wèn)題。
相當(dāng)于已知X怜俐,計(jì)算Y的最大可能的概率身堡,轉(zhuǎn)換成公式,便是要最大化下述式子**H(Y|X)**:
且滿足以下4個(gè)約束條件:
3.2 最大熵模型的表示
至此拍鲤,有了目標(biāo)函數(shù)跟約束條件贴谎,我們可以寫出最大熵模型的一般表達(dá)式了,如下:
其中季稳,P={p | p是X上滿足條件的概率分布}
繼續(xù)闡述之前擅这,先定義下特征、樣本和特征函數(shù)。
特征:(x,y)y:這個(gè)特征中需要確定的信息
x:這個(gè)特征中的上下文信息
樣本:關(guān)于某個(gè)特征(x,y)的樣本,特征所描述的語(yǔ)法現(xiàn)象在標(biāo)準(zhǔn)集合里的分布:(xi,yi)對(duì)莉御,其中情组,yi是y的一個(gè)實(shí)例阳欲,xi是yi的上下文。
對(duì)于一個(gè)特征(x0,y0),定義特征函數(shù):
特征函數(shù)關(guān)于模型P(Y|X)與經(jīng)驗(yàn)分布P-(X)的期望值為:
換言之,如果能夠獲取訓(xùn)練數(shù)據(jù)中的信息玫坛,那么上述這兩個(gè)期望值相等,即:
不過(guò)包晰,因?yàn)閷?shí)踐中p(x)不好求湿镀,所以一般用樣本中x出現(xiàn)的概率"p(x)-"代替x在總體中的分布概率“p(x)”炕吸,從而得到最大熵模型的完整表述如下:
其約束條件為:
![](http://upload-images.jianshu.io/upload_images/2316162-675abfa32735c6f1?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
該問(wèn)題已知若干條件,要求若干變量的值使到目標(biāo)函數(shù)(熵)最大勉痴,其數(shù)學(xué)本質(zhì)是最優(yōu)化問(wèn)題(Optimization Problem)赫模,其約束條件是線性的等式,而目標(biāo)函數(shù)是非線性的蚀腿,所以該問(wèn)題屬于非線性規(guī)劃(線性約束)(non-linear programming with linear constraints)問(wèn)題嘴瓤,故可通過(guò)引入Lagrange函數(shù)將原帶約束的最優(yōu)化問(wèn)題轉(zhuǎn)換為無(wú)約束的最優(yōu)化的對(duì)偶問(wèn)題。
3.3 凸優(yōu)化中的對(duì)偶問(wèn)題
考慮到機(jī)器學(xué)習(xí)里莉钙,不少問(wèn)題都在圍繞著一個(gè)“最優(yōu)化”打轉(zhuǎn),而最優(yōu)化中凸優(yōu)化最為常見(jiàn)筛谚,所以為了過(guò)渡自然磁玉,這里簡(jiǎn)單闡述下凸優(yōu)化中的對(duì)偶問(wèn)題。
一般優(yōu)化問(wèn)題可以表示為下述式子:
其中驾讲,subject to導(dǎo)出的是約束條件蚊伞,f(x)表示不等式約束,h(x)表示等式約束吮铭。
然后可通過(guò)引入拉格朗日乘子λ和v时迫,建立拉格朗日函數(shù),如下:
對(duì)固定的x谓晌,Lagrange函數(shù)L(x,λ,v)為關(guān)于λ和v的仿射函數(shù)掠拳。
3.4 對(duì)偶問(wèn)題極大化的指數(shù)解
針對(duì)原問(wèn)題,首先引入拉格朗日乘子λ0,λ1,λ2, ..., λi纸肉,定義拉格朗日函數(shù)溺欧,轉(zhuǎn)換為對(duì)偶問(wèn)題求其極大化:
然后求偏導(dǎo),:
注:上面這里是對(duì)P(y|x)求偏導(dǎo),即只把P(y|x)當(dāng)做未知數(shù)柏肪,其他都是常數(shù)姐刁。因此,求偏導(dǎo)時(shí)烦味,只有跟P(y0|x0)相等的那個(gè)"(x0,y0)"才會(huì)起作用聂使,其他的(x,y)都不是關(guān)于P(y0|x0)的系數(shù),是常數(shù)項(xiàng)谬俄,而常數(shù)項(xiàng)一律被“偏導(dǎo)掉”了柏靶。
令上述的偏導(dǎo)結(jié)果等于0,解得:
進(jìn)一步轉(zhuǎn)換:
其中凤瘦,Z(x)稱為規(guī)范化因子宿礁。
根據(jù)之前的約束條件之一:![](http://upload-images.jianshu.io/upload_images/2316162-82357bf450c76d74?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) = 1,所以有
從而有
現(xiàn)將求得的最優(yōu)解P*(y|x)帶回之前建立的拉格朗日函數(shù)L
得到關(guān)于λ的式子:
注:最后一步的推導(dǎo)中蔬芥,把之前得到的結(jié)果![](http://upload-images.jianshu.io/upload_images/2316162-e92839686a10940b?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)代入計(jì)算即可梆靖。
接下來(lái)控汉,再回過(guò)頭來(lái)看這個(gè)式子:
![](http://upload-images.jianshu.io/upload_images/2316162-7776dbcb46c6436e?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
可知,最大熵模型模型屬于對(duì)數(shù)線性模型返吻,因?yàn)槠浒?*指數(shù)**函數(shù)姑子,所以幾乎不可能有解析解。換言之测僵,即便有了解析解街佑,仍然需要數(shù)值解。那么捍靠,能不能找到另一種逼近沐旨?構(gòu)造函數(shù)f(λ),求其最大/最小值榨婆?
相當(dāng)于問(wèn)題轉(zhuǎn)換成了尋找與樣本的分布最接近的概率分布模型磁携,如何尋找呢?你可能想到了極大似然估計(jì)良风。
3.5 最大熵模型的極大似然估計(jì)
記得13年1月份在微博上說(shuō)過(guò):所謂最大似然谊迄,即最大可能,在“模型已定烟央,參數(shù)θ未知”的情況下统诺,通過(guò)觀測(cè)數(shù)據(jù)估計(jì)參數(shù)θ的一種思想或方法,換言之疑俭,解決的是取怎樣的參數(shù)θ使得產(chǎn)生已得觀測(cè)數(shù)據(jù)的概率最大的問(wèn)題粮呢。
舉個(gè)例子,假設(shè)我們要統(tǒng)計(jì)全國(guó)人口的身高怠硼,首先假設(shè)這個(gè)身高服從服從正態(tài)分布鬼贱,但是該分布的均值與方差未知。由于沒(méi)有足夠的人力和物力去統(tǒng)計(jì)全國(guó)每個(gè)人的身高香璃,但是可以通過(guò)采樣(所有的采樣要求都是獨(dú)立同分布的)这难,獲取部分人的身高,然后通過(guò)最大似然估計(jì)來(lái)獲取上述假設(shè)中的正態(tài)分布的均值與方差葡秒。
極大似然估計(jì)MLE的一般形式表示為:
其中姻乓,![](http://upload-images.jianshu.io/upload_images/2316162-27fcca7d3bb4b467?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)是對(duì)模型進(jìn)行估計(jì)的概率分布,![](http://upload-images.jianshu.io/upload_images/2316162-17c010a81cb6a037?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)是實(shí)驗(yàn)結(jié)果得到的概率分布眯牧。
進(jìn)一步轉(zhuǎn)換蹋岩,可得:
![](http://upload-images.jianshu.io/upload_images/2316162-a73355cf80607c8d?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
對(duì)上式兩邊取對(duì)數(shù)可得:
因上述式子最后結(jié)果的第二項(xiàng)是常數(shù)項(xiàng)(因?yàn)榈诙?xiàng)是關(guān)于樣本的聯(lián)合概率和樣本自變量的式子,都是定值)学少,所以最終結(jié)果為:
至此剪个,我們發(fā)現(xiàn)極大似然估計(jì)和條件熵的定義式具有極大的相似性,故可以大膽猜測(cè)它們極有可能殊途同歸版确,使得它們建立的目標(biāo)函數(shù)也是相同的扣囊。 我們來(lái)推導(dǎo)下乎折,驗(yàn)證下這個(gè)猜測(cè)。
將之前得到的最大熵的解帶入MLE侵歇,計(jì)算得到(右邊在左邊的基礎(chǔ)上往下再多推導(dǎo)了幾步):
注:其中![](http://upload-images.jianshu.io/upload_images/2316162-7776dbcb46c6436e?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)骂澄,且P~(x,y) = P~(x) * P(y|x), ![](http://upload-images.jianshu.io/upload_images/2316162-82357bf450c76d74?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) = 1惕虑。
然后拿這個(gè)通過(guò)極大似然估計(jì)得到的結(jié)果
![](http://upload-images.jianshu.io/upload_images/2316162-7c85b286f30f6dc1?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
跟之前得到的對(duì)偶問(wèn)題的極大化解
只差一個(gè)“-”號(hào)坟冲,所以只要把原對(duì)偶問(wèn)題的極大化解也加個(gè)負(fù)號(hào),等價(jià)轉(zhuǎn)換為對(duì)偶問(wèn)題的極小化解:
則與極大似然估計(jì)的結(jié)果具有完全相同的目標(biāo)函數(shù)溃蔫。
換言之健提,之前最大熵模型的對(duì)偶問(wèn)題的極小化等價(jià)于最大熵模型的極大似然估計(jì)。
且根據(jù)MLE的正確性伟叛,可以斷定:最大熵的解(無(wú)偏的對(duì)待不確定性)同時(shí)是最符合樣本數(shù)據(jù)分布的解矩桂,進(jìn)一步證明了最大熵模型的合理性。兩相對(duì)比痪伦,熵是表示不確定性的度量,似然表示的是與知識(shí)的吻合程度雹锣,進(jìn)一步网沾,最大熵模型是對(duì)不確定度的無(wú)偏分配,最大似然估計(jì)則是對(duì)知識(shí)的無(wú)偏理解蕊爵。
4 參數(shù)求解法:IIS
回顧下之前最大熵模型的解:
其中
對(duì)數(shù)似然函數(shù)為:
相當(dāng)于現(xiàn)在的問(wèn)題轉(zhuǎn)換成:通過(guò)極大似然函數(shù)求解最大熵模型的參數(shù)辉哥,即求上述對(duì)數(shù)似然函數(shù)參數(shù)λ 的極大值。此時(shí)攒射,通常通過(guò)迭代算法求解醋旦,比如改進(jìn)的迭代尺度法IIS、梯度下降法会放、牛頓法或擬牛頓法饲齐。這里主要介紹下其中的改進(jìn)的迭代尺度法IIS。
改進(jìn)的迭代尺度法IIS的核心思想是:假設(shè)最大熵模型當(dāng)前的參數(shù)向量是λ咧最,希望找到一個(gè)新的參數(shù)向量λ+δ捂人,使得當(dāng)前模型的對(duì)數(shù)似然函數(shù)值L增加。重復(fù)這一過(guò)程矢沿,直至找到對(duì)數(shù)似然函數(shù)的最大值滥搭。
下面,咱們來(lái)計(jì)算下參數(shù)λ 變到λ+δ的過(guò)程中捣鲸,對(duì)數(shù)似然函數(shù)的增加量瑟匆,用L(λ+δ)-L(λ)表示,同時(shí)利用不等式:-lnx ≥1-x , x>0栽惶,可得到對(duì)數(shù)似然函數(shù)增加量的下界愁溜,如下:
將上述求得的下界結(jié)果記為A(δ | λ)疾嗅,為了進(jìn)一步降低這個(gè)下界,即縮小A(δ | λ)的值祝谚,引入一個(gè)變量:
其中宪迟,f 是一個(gè)二值函數(shù),故f#(x, y)表示的是所有特征(x, y)出現(xiàn)的次數(shù)交惯,然后利用Jason不等式次泽,可得:
我們把上述式子求得的A(δ | λ)的下界記為B(δ | λ):
相當(dāng)于B(δ | λ)是對(duì)數(shù)似然函數(shù)增加量的一個(gè)新的下界,可記作:L(λ+δ)-L(λ) >= B(δ | λ)席爽。
接下來(lái)意荤,對(duì)B(δ | λ)求偏導(dǎo),得:
此時(shí)得到的偏導(dǎo)結(jié)果只含δ只锻,除δ之外不再含其它變量玖像,令其為0,可得:
從而求得δ齐饮,問(wèn)題得解捐寥。
值得一提的是,在求解δ的過(guò)程中祖驱,如果若f#(x,y)=M為常數(shù)握恳,則
否則,用牛頓法解決:
求得了δ捺僻,便相當(dāng)于求得權(quán)值λ乡洼,最終將λ 回代到下式中:
即得到最大熵模型的最優(yōu)估計(jì)。
5 參考文獻(xiàn)
一堆wikipedia匕坯,熱力學(xué)熵:http://zh.wikipedia.org/zh-mo/%E7%86%B5束昵,信息熵:http://zh.wikipedia.org/wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA),百度百科:http://baike.baidu.com/view/401605.htm葛峻;
熵的社會(huì)學(xué)意義:http://www.ruanyifeng.com/blog/2013/04/entropy.html锹雏;
北京10月機(jī)器學(xué)習(xí)班之鄒博的最大熵模型PPT:http://pan.baidu.com/s/1qWLSehI;
北京10月機(jī)器學(xué)習(xí)班之鄒博的凸優(yōu)化PPT:http://pan.baidu.com/s/1sjHMj2d泞歉;
《統(tǒng)計(jì)學(xué)習(xí)方法 李航著》逼侦;
最大熵學(xué)習(xí)筆記:http://blog.csdn.net/itplus/article/details/26549871;
2013年在微博上關(guān)于極大似然估計(jì)的討論:http://weibo.com/1580904460/zfUsAgCl2?type=comment#_rnd1414644053228腰耙;
極大似然估計(jì):http://www.cnblogs.com/liliu/archive/2010/11/22/1883702.html榛丢;
數(shù)據(jù)挖掘中所需的概率論與數(shù)理統(tǒng)計(jì)知識(shí):http://blog.csdn.net/v_july_v/article/details/8308762。
數(shù)學(xué)之美系列十六--談?wù)勛畲箪啬P停?a target="_blank" rel="nofollow">http://www.cnblogs.com/kevinyang/archive/2009/02/01/1381798.html挺庞。