最大熵模型中的數(shù)學(xué)推導(dǎo)

注:此文非本人所寫译秦,來(lái)源于http://blog.csdn.net/u014114990/article/details/47808183
僅供自己學(xué)習(xí)參考裤纹,其中問(wèn)題還有待驗(yàn)證,
如果對(duì)文章著作權(quán)有任何問(wèn)題把跨,聯(lián)系本人人弓,本人將立即刪除
0 引言
寫完SVM之后,一直想繼續(xù)寫機(jī)器學(xué)習(xí)的系列着逐,無(wú)奈一直時(shí)間不穩(wěn)定且對(duì)各個(gè)模型算法的理解尚不夠崔赌,所以導(dǎo)致遲遲未動(dòng)筆。無(wú)獨(dú)有偶耸别,重寫KMP得益于今年4月個(gè)人組織的算法班健芭,而動(dòng)筆繼續(xù)寫這個(gè)機(jī)器學(xué)習(xí)系列,正得益于今年10月組織的機(jī)器學(xué)習(xí)班秀姐。
10月26日機(jī)器學(xué)習(xí)班第6次課慈迈,鄒講最大熵模型,從熵的概念省有,講到為何要最大熵痒留、最大熵的推導(dǎo),以及求解參數(shù)的IIS方法蠢沿,整個(gè)過(guò)程講得非常流暢伸头,特別是其中的數(shù)學(xué)推導(dǎo)。晚上我把上課PPT 在微博上公開(kāi)分享了出來(lái)舷蟀,但對(duì)于沒(méi)有上過(guò)課的朋友直接看PPT 會(huì)感到非常跳躍恤磷,因此我打算針對(duì)機(jī)器學(xué)習(xí)班的某些次課寫一系列博客,剛好也算繼續(xù)博客中未完的機(jī)器學(xué)習(xí)系列雪侥。
綜上碗殷,本文結(jié)合10月機(jī)器學(xué)習(xí)班最大熵模型的PPT和其它相關(guān)資料寫就,可以看成是課程筆記或?qū)W習(xí)心得速缨,著重推導(dǎo)。有何建議或意見(jiàn)代乃,歡迎隨時(shí)于本文評(píng)論下指出旬牲,thanks。

1 預(yù)備知識(shí)
為了更好的理解本文搁吓,需要了解的概率必備知識(shí)有:
大寫字母X表示隨機(jī)變量原茅,小寫字母x表示隨機(jī)變量X的某個(gè)具體的取值;
P(X)表示隨機(jī)變量X的概率分布堕仔,P(X,Y)表示隨機(jī)變量X擂橘、Y的聯(lián)合概率分布,P(Y|X)表示已知隨機(jī)變量X的情況下隨機(jī)變量Y的條件概率分布摩骨;
p(X = x)表示隨機(jī)變量X取某個(gè)具體值的概率通贞,簡(jiǎn)記為p(x)朗若;
p(X = x, Y = y) 表示聯(lián)合概率,簡(jiǎn)記為p(x,y)昌罩,p(Y = y|X = x)表示條件概率哭懈,簡(jiǎn)記為p(y|x),且有:p(x,y) = p(x) * p(y|x)茎用。

需要了解的有關(guān)函數(shù)求導(dǎo)遣总、求極值的知識(shí)點(diǎn)有:

如果函數(shù)y=f(x)在[a, b]上連續(xù),且其在(a,b)上可導(dǎo)轨功,如果其導(dǎo)數(shù)f’(x) >0旭斥,則代表函數(shù)f(x)在[a,b]上單調(diào)遞增,否則單調(diào)遞減古涧;如果函數(shù)的二階導(dǎo)f''(x) > 0垂券,則函數(shù)在[a,b]上是凹的,反之蒿褂,如果二階導(dǎo)f''(x) < 0圆米,則函數(shù)在[a,b]上是凸的。
設(shè)函數(shù)f(x)在x0處可導(dǎo)啄栓,且在x處取得極值娄帖,則函數(shù)的導(dǎo)數(shù)F’(x0) = 0。
以二元函數(shù)z = f(x,y)為例昙楚,固定其中的y近速,把x看做唯一的自變量,此時(shí)堪旧,函數(shù)對(duì)x的導(dǎo)數(shù)稱為二元函數(shù)z=f(x,y)對(duì)x的偏導(dǎo)數(shù)削葱。
為了把原帶約束的極值問(wèn)題轉(zhuǎn)換為無(wú)約束的極值問(wèn)題,一般引入拉格朗日乘子淳梦,建立拉格朗日函數(shù)析砸,然后對(duì)拉格朗日函數(shù)求導(dǎo),令求導(dǎo)結(jié)果等于0爆袍,得到極值首繁。

更多請(qǐng)查看《高等數(shù)學(xué)上下冊(cè)》、《概率論與數(shù)理統(tǒng)計(jì)》等教科書陨囊,或參考本博客中的:[數(shù)據(jù)挖掘中所需的概率論與數(shù)理統(tǒng)計(jì)知識(shí)](http://blog.csdn.net/v_july_v/article/details/8308762)弦疮。

2 何謂熵?
從名字上來(lái)看蜘醋,熵給人一種很玄乎胁塞,不知道是啥的感覺(jué)。其實(shí),熵的定義很簡(jiǎn)單啸罢,即用來(lái)表示隨機(jī)變量的不確定性编检。之所以給人玄乎的感覺(jué),大概是因?yàn)闉楹我∵@樣的名字伺糠,以及怎么用蒙谓。
熵的概念最早起源于物理學(xué),用于度量一個(gè)熱力學(xué)系統(tǒng)的無(wú)序程度训桶。在信息論里面累驮,熵是對(duì)不確定性的測(cè)量。
2.1 熵的引入
事實(shí)上舵揭,熵的英文原文為entropy谤专,最初由德國(guó)物理學(xué)家魯?shù)婪颉た藙谛匏固岢觯浔磉_(dá)式為:


它表示一個(gè)系統(tǒng)在不受外部干擾時(shí)午绳,其內(nèi)部最穩(wěn)定的狀態(tài)置侍。后來(lái)一中國(guó)學(xué)者翻譯entropy時(shí),考慮到entropy是能量Q跟溫度T的商拦焚,且跟火有關(guān)蜡坊,便把entropy形象的翻譯成“熵”。
我們知道赎败,任何粒子的常態(tài)都是隨機(jī)運(yùn)動(dòng)秕衙,也就是"無(wú)序運(yùn)動(dòng)",如果讓粒子呈現(xiàn)"有序化"僵刮,必須耗費(fèi)能量据忘。所以,溫度(熱能)可以被看作"有序化"的一種度量搞糕,而"熵"可以看作是"無(wú)序化"的度量勇吊。
如果沒(méi)有外部能量輸入,封閉系統(tǒng)趨向越來(lái)越混亂(熵越來(lái)越大)窍仰。比如汉规,如果房間無(wú)人打掃,不可能越來(lái)越干凈(有序化)驹吮,只可能越來(lái)越亂(無(wú)序化)鲫忍。而要讓一個(gè)系統(tǒng)變得更有序,必須有外部能量的輸入钥屈。
1948年,香農(nóng)Claude E. Shannon引入信息(熵)坝辫,將其定義為離散隨機(jī)事件的出現(xiàn)概率篷就。一個(gè)系統(tǒng)越是有序,信息熵就越低近忙;反之竭业,一個(gè)系統(tǒng)越是混亂智润,信息熵就越高。所以說(shuō)未辆,信息熵可以被認(rèn)為是系統(tǒng)有序化程度的一個(gè)度量窟绷。    若無(wú)特別指出,下文中所有提到的熵均為信息熵咐柜。

2.2 熵的定義
下面分別給出熵兼蜈、聯(lián)合熵、條件熵拙友、相對(duì)熵为狸、互信息的定義。

**熵**:如果一個(gè)隨機(jī)變量X的可能取值為X = {x1, x2,…, xk}遗契,其概率分布為P(X = xi) = pi(i = 1,2, ..., n)辐棒,則隨機(jī)變量X的熵定義為:
把最前面的負(fù)號(hào)放到最后,便成了:![](http://upload-images.jianshu.io/upload_images/2316162-ac578675a93aa0a3?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

上面兩個(gè)熵的公式牍蜂,無(wú)論用哪個(gè)都行漾根,而且兩者等價(jià),一個(gè)意思(這兩個(gè)公式在下文中都會(huì)用到)鲫竞。    **聯(lián)合熵**:兩個(gè)隨機(jī)變量X辐怕,Y的聯(lián)合分布,可以形成聯(lián)合熵Joint Entropy贡茅,用H(X,Y)表示秘蛇。    **條件熵**:在隨機(jī)變量X發(fā)生的前提下,隨機(jī)變量Y發(fā)生所新帶來(lái)的熵定義為Y的條件熵顶考,用H(Y|X)表示赁还,用來(lái)衡量在已知隨機(jī)變量X的條件下隨機(jī)變量Y的不確定性。
且有此式子成立:H(Y|X) = H(X,Y) – H(X)驹沿,整個(gè)式子表示(X,Y)發(fā)生所包含的熵減去X單獨(dú)發(fā)生包含的熵艘策。至于怎么得來(lái)的請(qǐng)看推導(dǎo):

簡(jiǎn)單解釋下上面的推導(dǎo)過(guò)程。整個(gè)式子共6行渊季,其中
第二行推到第三行的依據(jù)是邊緣分布p(x)等于聯(lián)合分布p(x,y)的和朋蔫;
第三行推到第四行的依據(jù)是把公因子logp(x)乘進(jìn)去,然后把x,y寫在一起却汉;
第四行推到第五行的依據(jù)是:因?yàn)閮蓚€(gè)sigma都有p(x,y)驯妄,故提取公因子p(x,y)放到外邊,然后把里邊的-(log p(x,y) - log p(x))寫成- log (p(x,y)/p(x) ) 合砂;
第五行推到第六行的依據(jù)是:p(x,y) = p(x) * p(y|x)青扔,故p(x,y) / p(x) = p(y|x)。

**相對(duì)熵:**又稱互熵,交叉熵微猖,鑒別信息谈息,Kullback熵,Kullback-Leible散度等凛剥。設(shè)p(x)侠仇、q(x)是X中取值的兩個(gè)概率分布,則p對(duì)q的相對(duì)熵是:
在一定程度上犁珠,相對(duì)熵可以度量?jī)蓚€(gè)隨機(jī)變量的“距離”逻炊,且有D(p||q) ≠D(q||p)。另外盲憎,值得一提的是嗅骄,D(p||q)是必然大于等于0的。
**互信息**:兩個(gè)隨機(jī)變量X饼疙,Y的互信息定義為X溺森,Y的聯(lián)合分布和各自獨(dú)立分布乘積的相對(duì)熵,用I(X,Y)表示:
且有I(X,Y)=D(P(X,Y) || P(X)P(Y))窑眯。下面屏积,咱們來(lái)計(jì)算下H(Y)-I(X,Y)的結(jié)果,如下:
通過(guò)上面的計(jì)算過(guò)程磅甩,我們發(fā)現(xiàn)竟然有H(Y)-I(X,Y) = H(Y|X)炊林。故通過(guò)條件熵的定義,有:H(Y|X) = H(X,Y) - H(X)卷要,而根據(jù)互信息定義展開(kāi)得到H(Y|X) = H(Y) - I(X,Y)渣聚,把前者跟后者結(jié)合起來(lái),便有I(X,Y)= H(X) + H(Y) - H(X,Y)僧叉,此結(jié)論被多數(shù)文獻(xiàn)作為互信息的定義奕枝。

3 最大熵
熵是隨機(jī)變量不確定性的度量,不確定性越大瓶堕,熵值越大隘道;若隨機(jī)變量退化成定值,熵為0郎笆。如果沒(méi)有外界干擾谭梗,隨機(jī)變量總是趨向于無(wú)序,在經(jīng)過(guò)足夠時(shí)間的穩(wěn)定演化宛蚓,它應(yīng)該能夠達(dá)到的最大程度的熵激捏。
為了準(zhǔn)確的估計(jì)隨機(jī)變量的狀態(tài),我們一般習(xí)慣性最大化熵凄吏,認(rèn)為在所有可能的概率模型(分布)的集合中缩幸,熵最大的模型是最好的模型壹置。換言之,在已知部分知識(shí)的前提下表谊,關(guān)于未知分布最合理的推斷就是符合已知知識(shí)最不確定或最隨機(jī)的推斷,其原則是承認(rèn)已知事物(知識(shí))盖喷,且對(duì)未知事物不做任何假設(shè)爆办,沒(méi)有任何偏見(jiàn)。
例如课梳,投擲一個(gè)骰子距辆,如果問(wèn)"每個(gè)面朝上的概率分別是多少",你會(huì)說(shuō)是等概率暮刃,即各點(diǎn)出現(xiàn)的概率均為1/6跨算。因?yàn)閷?duì)這個(gè)"一無(wú)所知"的色子,什么都不確定椭懊,而假定它每一個(gè)朝上概率均等則是最合理的做法诸蚕。從投資的角度來(lái)看,這是風(fēng)險(xiǎn)最小的做法氧猬,而從信息論的角度講背犯,就是保留了最大的不確定性,也就是說(shuō)讓熵達(dá)到最大盅抚。
3.1 無(wú)偏原則
下面再舉個(gè)大多數(shù)有關(guān)最大熵模型的文章中都喜歡舉的一個(gè)例子漠魏。
例如,一篇文章中出現(xiàn)了“學(xué)習(xí)”這個(gè)詞妄均,那這個(gè)詞是主語(yǔ)柱锹、謂語(yǔ)、還是賓語(yǔ)呢丰包?換言之禁熏,已知“學(xué)習(xí)”可能是動(dòng)詞,也可能是名詞烫沙,故“學(xué)習(xí)”可以被標(biāo)為主語(yǔ)匹层、謂語(yǔ)、賓語(yǔ)锌蓄、定語(yǔ)等等升筏。

因?yàn)闆](méi)有任何的先驗(yàn)知識(shí),所以這種判斷是合理的瘸爽。如果有了一定的先驗(yàn)知識(shí)呢您访?

實(shí)踐經(jīng)驗(yàn)和理論計(jì)算都告訴我們,在完全無(wú)約束狀態(tài)下剪决,均勻分布等價(jià)于熵最大(有約束的情況下灵汪,不一定是概率相等的均勻分布檀训。 比如,給定均值和方差享言,熵最大的分布就變成了正態(tài)分布 )峻凫。
于是,問(wèn)題便轉(zhuǎn)化為了:計(jì)算X和Y的分布览露,使得H(Y|X)達(dá)到最大值荧琼,并且滿足下述條件:

因此,也就引出了**最大熵模型的本質(zhì)差牛,它要解決的問(wèn)題就是已知X命锄,計(jì)算Y的概率,且盡可能讓Y的概率最大**(實(shí)踐中偏化,X可能是某單詞的上下文信息脐恩,Y是該單詞翻譯成me,I侦讨,us驶冒、we的各自概率),從而根據(jù)已有信息搭伤,盡可能最準(zhǔn)確的推測(cè)未知信息只怎,這就是最大熵模型所要解決的問(wèn)題。
相當(dāng)于已知X怜俐,計(jì)算Y的最大可能的概率身堡,轉(zhuǎn)換成公式,便是要最大化下述式子**H(Y|X)**:
且滿足以下4個(gè)約束條件:

3.2 最大熵模型的表示
至此拍鲤,有了目標(biāo)函數(shù)跟約束條件贴谎,我們可以寫出最大熵模型的一般表達(dá)式了,如下:

其中季稳,P={p | p是X上滿足條件的概率分布}
繼續(xù)闡述之前擅这,先定義下特征、樣本和特征函數(shù)。
特征:(x,y)y:這個(gè)特征中需要確定的信息

x:這個(gè)特征中的上下文信息

樣本:關(guān)于某個(gè)特征(x,y)的樣本,特征所描述的語(yǔ)法現(xiàn)象在標(biāo)準(zhǔn)集合里的分布:(xi,yi)對(duì)莉御,其中情组,yi是y的一個(gè)實(shí)例阳欲,xi是yi的上下文。
對(duì)于一個(gè)特征(x0,y0),定義特征函數(shù):

特征函數(shù)關(guān)于模型P(Y|X)與經(jīng)驗(yàn)分布P-(X)的期望值為:

換言之,如果能夠獲取訓(xùn)練數(shù)據(jù)中的信息玫坛,那么上述這兩個(gè)期望值相等,即:

不過(guò)包晰,因?yàn)閷?shí)踐中p(x)不好求湿镀,所以一般用樣本中x出現(xiàn)的概率"p(x)-"代替x在總體中的分布概率“p(x)”炕吸,從而得到最大熵模型的完整表述如下:
其約束條件為:
![](http://upload-images.jianshu.io/upload_images/2316162-675abfa32735c6f1?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

該問(wèn)題已知若干條件,要求若干變量的值使到目標(biāo)函數(shù)(熵)最大勉痴,其數(shù)學(xué)本質(zhì)是最優(yōu)化問(wèn)題(Optimization Problem)赫模,其約束條件是線性的等式,而目標(biāo)函數(shù)是非線性的蚀腿,所以該問(wèn)題屬于非線性規(guī)劃(線性約束)(non-linear programming with linear constraints)問(wèn)題嘴瓤,故可通過(guò)引入Lagrange函數(shù)將原帶約束的最優(yōu)化問(wèn)題轉(zhuǎn)換為無(wú)約束的最優(yōu)化的對(duì)偶問(wèn)題。

3.3 凸優(yōu)化中的對(duì)偶問(wèn)題
考慮到機(jī)器學(xué)習(xí)里莉钙,不少問(wèn)題都在圍繞著一個(gè)“最優(yōu)化”打轉(zhuǎn),而最優(yōu)化中凸優(yōu)化最為常見(jiàn)筛谚,所以為了過(guò)渡自然磁玉,這里簡(jiǎn)單闡述下凸優(yōu)化中的對(duì)偶問(wèn)題。
一般優(yōu)化問(wèn)題可以表示為下述式子:

其中驾讲,subject to導(dǎo)出的是約束條件蚊伞,f(x)表示不等式約束,h(x)表示等式約束吮铭。
然后可通過(guò)引入拉格朗日乘子λ和v时迫,建立拉格朗日函數(shù),如下:
對(duì)固定的x谓晌,Lagrange函數(shù)L(x,λ,v)為關(guān)于λ和v的仿射函數(shù)掠拳。

3.4 對(duì)偶問(wèn)題極大化的指數(shù)解
針對(duì)原問(wèn)題,首先引入拉格朗日乘子λ0,λ1,λ2, ..., λi纸肉,定義拉格朗日函數(shù)溺欧,轉(zhuǎn)換為對(duì)偶問(wèn)題求其極大化:


然后求偏導(dǎo),:
注:上面這里是對(duì)P(y|x)求偏導(dǎo),即只把P(y|x)當(dāng)做未知數(shù)柏肪,其他都是常數(shù)姐刁。因此,求偏導(dǎo)時(shí)烦味,只有跟P(y0|x0)相等的那個(gè)"(x0,y0)"才會(huì)起作用聂使,其他的(x,y)都不是關(guān)于P(y0|x0)的系數(shù),是常數(shù)項(xiàng)谬俄,而常數(shù)項(xiàng)一律被“偏導(dǎo)掉”了柏靶。
令上述的偏導(dǎo)結(jié)果等于0,解得:
進(jìn)一步轉(zhuǎn)換:
其中凤瘦,Z(x)稱為規(guī)范化因子宿礁。
根據(jù)之前的約束條件之一:![](http://upload-images.jianshu.io/upload_images/2316162-82357bf450c76d74?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) = 1,所以有
從而有
現(xiàn)將求得的最優(yōu)解P*(y|x)帶回之前建立的拉格朗日函數(shù)L
得到關(guān)于λ的式子:
注:最后一步的推導(dǎo)中蔬芥,把之前得到的結(jié)果![](http://upload-images.jianshu.io/upload_images/2316162-e92839686a10940b?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)代入計(jì)算即可梆靖。
接下來(lái)控汉,再回過(guò)頭來(lái)看這個(gè)式子:
![](http://upload-images.jianshu.io/upload_images/2316162-7776dbcb46c6436e?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

可知,最大熵模型模型屬于對(duì)數(shù)線性模型返吻,因?yàn)槠浒?*指數(shù)**函數(shù)姑子,所以幾乎不可能有解析解。換言之测僵,即便有了解析解街佑,仍然需要數(shù)值解。那么捍靠,能不能找到另一種逼近沐旨?構(gòu)造函數(shù)f(λ),求其最大/最小值榨婆?
相當(dāng)于問(wèn)題轉(zhuǎn)換成了尋找與樣本的分布最接近的概率分布模型磁携,如何尋找呢?你可能想到了極大似然估計(jì)良风。

3.5 最大熵模型的極大似然估計(jì)
記得13年1月份在微博上說(shuō)過(guò):所謂最大似然谊迄,即最大可能,在“模型已定烟央,參數(shù)θ未知”的情況下统诺,通過(guò)觀測(cè)數(shù)據(jù)估計(jì)參數(shù)θ的一種思想或方法,換言之疑俭,解決的是取怎樣的參數(shù)θ使得產(chǎn)生已得觀測(cè)數(shù)據(jù)的概率最大的問(wèn)題粮呢。
舉個(gè)例子,假設(shè)我們要統(tǒng)計(jì)全國(guó)人口的身高怠硼,首先假設(shè)這個(gè)身高服從服從正態(tài)分布鬼贱,但是該分布的均值與方差未知。由于沒(méi)有足夠的人力和物力去統(tǒng)計(jì)全國(guó)每個(gè)人的身高香璃,但是可以通過(guò)采樣(所有的采樣要求都是獨(dú)立同分布的)这难,獲取部分人的身高,然后通過(guò)最大似然估計(jì)來(lái)獲取上述假設(shè)中的正態(tài)分布的均值與方差葡秒。
極大似然估計(jì)MLE的一般形式表示為:

其中姻乓,![](http://upload-images.jianshu.io/upload_images/2316162-27fcca7d3bb4b467?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)是對(duì)模型進(jìn)行估計(jì)的概率分布,![](http://upload-images.jianshu.io/upload_images/2316162-17c010a81cb6a037?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)是實(shí)驗(yàn)結(jié)果得到的概率分布眯牧。
進(jìn)一步轉(zhuǎn)換蹋岩,可得:
![](http://upload-images.jianshu.io/upload_images/2316162-a73355cf80607c8d?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

對(duì)上式兩邊取對(duì)數(shù)可得:
因上述式子最后結(jié)果的第二項(xiàng)是常數(shù)項(xiàng)(因?yàn)榈诙?xiàng)是關(guān)于樣本的聯(lián)合概率和樣本自變量的式子,都是定值)学少,所以最終結(jié)果為:
至此剪个,我們發(fā)現(xiàn)極大似然估計(jì)和條件熵的定義式具有極大的相似性,故可以大膽猜測(cè)它們極有可能殊途同歸版确,使得它們建立的目標(biāo)函數(shù)也是相同的扣囊。 我們來(lái)推導(dǎo)下乎折,驗(yàn)證下這個(gè)猜測(cè)。
將之前得到的最大熵的解帶入MLE侵歇,計(jì)算得到(右邊在左邊的基礎(chǔ)上往下再多推導(dǎo)了幾步):
注:其中![](http://upload-images.jianshu.io/upload_images/2316162-7776dbcb46c6436e?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)骂澄,且P~(x,y) = P~(x) * P(y|x), ![](http://upload-images.jianshu.io/upload_images/2316162-82357bf450c76d74?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) = 1惕虑。
然后拿這個(gè)通過(guò)極大似然估計(jì)得到的結(jié)果

     ![](http://upload-images.jianshu.io/upload_images/2316162-7c85b286f30f6dc1?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

跟之前得到的對(duì)偶問(wèn)題的極大化解
只差一個(gè)“-”號(hào)坟冲,所以只要把原對(duì)偶問(wèn)題的極大化解也加個(gè)負(fù)號(hào),等價(jià)轉(zhuǎn)換為對(duì)偶問(wèn)題的極小化解:
則與極大似然估計(jì)的結(jié)果具有完全相同的目標(biāo)函數(shù)溃蔫。
換言之健提,之前最大熵模型的對(duì)偶問(wèn)題的極小化等價(jià)于最大熵模型的極大似然估計(jì)。
且根據(jù)MLE的正確性伟叛,可以斷定:最大熵的解(無(wú)偏的對(duì)待不確定性)同時(shí)是最符合樣本數(shù)據(jù)分布的解矩桂,進(jìn)一步證明了最大熵模型的合理性。兩相對(duì)比痪伦,熵是表示不確定性的度量,似然表示的是與知識(shí)的吻合程度雹锣,進(jìn)一步网沾,最大熵模型是對(duì)不確定度的無(wú)偏分配,最大似然估計(jì)則是對(duì)知識(shí)的無(wú)偏理解蕊爵。

4 參數(shù)求解法:IIS
回顧下之前最大熵模型的解:


其中
對(duì)數(shù)似然函數(shù)為:
相當(dāng)于現(xiàn)在的問(wèn)題轉(zhuǎn)換成:通過(guò)極大似然函數(shù)求解最大熵模型的參數(shù)辉哥,即求上述對(duì)數(shù)似然函數(shù)參數(shù)λ 的極大值。此時(shí)攒射,通常通過(guò)迭代算法求解醋旦,比如改進(jìn)的迭代尺度法IIS、梯度下降法会放、牛頓法或擬牛頓法饲齐。這里主要介紹下其中的改進(jìn)的迭代尺度法IIS。
改進(jìn)的迭代尺度法IIS的核心思想是:假設(shè)最大熵模型當(dāng)前的參數(shù)向量是λ咧最,希望找到一個(gè)新的參數(shù)向量λ+δ捂人,使得當(dāng)前模型的對(duì)數(shù)似然函數(shù)值L增加。重復(fù)這一過(guò)程矢沿,直至找到對(duì)數(shù)似然函數(shù)的最大值滥搭。
下面,咱們來(lái)計(jì)算下參數(shù)λ 變到λ+δ的過(guò)程中捣鲸,對(duì)數(shù)似然函數(shù)的增加量瑟匆,用L(λ+δ)-L(λ)表示,同時(shí)利用不等式:-lnx ≥1-x , x>0栽惶,可得到對(duì)數(shù)似然函數(shù)增加量的下界愁溜,如下:
將上述求得的下界結(jié)果記為A(δ | λ)疾嗅,為了進(jìn)一步降低這個(gè)下界,即縮小A(δ | λ)的值祝谚,引入一個(gè)變量:
其中宪迟,f 是一個(gè)二值函數(shù),故f#(x, y)表示的是所有特征(x, y)出現(xiàn)的次數(shù)交惯,然后利用Jason不等式次泽,可得:
我們把上述式子求得的A(δ | λ)的下界記為B(δ | λ):
相當(dāng)于B(δ | λ)是對(duì)數(shù)似然函數(shù)增加量的一個(gè)新的下界,可記作:L(λ+δ)-L(λ)  >= B(δ | λ)席爽。
接下來(lái)意荤,對(duì)B(δ | λ)求偏導(dǎo),得:
此時(shí)得到的偏導(dǎo)結(jié)果只含δ只锻,除δ之外不再含其它變量玖像,令其為0,可得:
從而求得δ齐饮,問(wèn)題得解捐寥。
值得一提的是,在求解δ的過(guò)程中祖驱,如果若f#(x,y)=M為常數(shù)握恳,則
否則,用牛頓法解決:
求得了δ捺僻,便相當(dāng)于求得權(quán)值λ乡洼,最終將λ 回代到下式中:
即得到最大熵模型的最優(yōu)估計(jì)。

5 參考文獻(xiàn)
一堆wikipedia匕坯,熱力學(xué)熵:http://zh.wikipedia.org/zh-mo/%E7%86%B5束昵,信息熵:http://zh.wikipedia.org/wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA),百度百科:http://baike.baidu.com/view/401605.htm葛峻;
熵的社會(huì)學(xué)意義:http://www.ruanyifeng.com/blog/2013/04/entropy.html锹雏;
北京10月機(jī)器學(xué)習(xí)班之鄒博的最大熵模型PPThttp://pan.baidu.com/s/1qWLSehI
北京10月機(jī)器學(xué)習(xí)班之鄒博的凸優(yōu)化PPT:http://pan.baidu.com/s/1sjHMj2d泞歉;
《統(tǒng)計(jì)學(xué)習(xí)方法 李航著》逼侦;
最大熵學(xué)習(xí)筆記:http://blog.csdn.net/itplus/article/details/26549871
2013年在微博上關(guān)于極大似然估計(jì)的討論:http://weibo.com/1580904460/zfUsAgCl2?type=comment#_rnd1414644053228腰耙;
極大似然估計(jì):http://www.cnblogs.com/liliu/archive/2010/11/22/1883702.html榛丢;
數(shù)據(jù)挖掘中所需的概率論與數(shù)理統(tǒng)計(jì)知識(shí):http://blog.csdn.net/v_july_v/article/details/8308762
數(shù)學(xué)之美系列十六--談?wù)勛畲箪啬P停?a target="_blank" rel="nofollow">http://www.cnblogs.com/kevinyang/archive/2009/02/01/1381798.html挺庞。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末晰赞,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌掖鱼,老刑警劉巖然走,帶你破解...
    沈念sama閱讀 210,914評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異戏挡,居然都是意外死亡芍瑞,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,935評(píng)論 2 383
  • 文/潘曉璐 我一進(jìn)店門褐墅,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)拆檬,“玉大人,你說(shuō)我怎么就攤上這事妥凳【构幔” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 156,531評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵逝钥,是天一觀的道長(zhǎng)屑那。 經(jīng)常有香客問(wèn)我,道長(zhǎng)艘款,這世上最難降的妖魔是什么持际? 我笑而不...
    開(kāi)封第一講書人閱讀 56,309評(píng)論 1 282
  • 正文 為了忘掉前任,我火速辦了婚禮哗咆,結(jié)果婚禮上选酗,老公的妹妹穿的比我還像新娘。我一直安慰自己岳枷,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,381評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布呜叫。 她就那樣靜靜地躺著空繁,像睡著了一般。 火紅的嫁衣襯著肌膚如雪朱庆。 梳的紋絲不亂的頭發(fā)上盛泡,一...
    開(kāi)封第一講書人閱讀 49,730評(píng)論 1 289
  • 那天,我揣著相機(jī)與錄音娱颊,去河邊找鬼傲诵。 笑死,一個(gè)胖子當(dāng)著我的面吹牛箱硕,可吹牛的內(nèi)容都是我干的拴竹。 我是一名探鬼主播,決...
    沈念sama閱讀 38,882評(píng)論 3 404
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼剧罩,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼栓拜!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 37,643評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤幕与,失蹤者是張志新(化名)和其女友劉穎挑势,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體啦鸣,經(jīng)...
    沈念sama閱讀 44,095評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡潮饱,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,448評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了诫给。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片香拉。...
    茶點(diǎn)故事閱讀 38,566評(píng)論 1 339
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖蝙搔,靈堂內(nèi)的尸體忽然破棺而出缕溉,到底是詐尸還是另有隱情,我是刑警寧澤吃型,帶...
    沈念sama閱讀 34,253評(píng)論 4 328
  • 正文 年R本政府宣布证鸥,位于F島的核電站,受9級(jí)特大地震影響勤晚,放射性物質(zhì)發(fā)生泄漏枉层。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,829評(píng)論 3 312
  • 文/蒙蒙 一赐写、第九天 我趴在偏房一處隱蔽的房頂上張望鸟蜡。 院中可真熱鬧,春花似錦挺邀、人聲如沸揉忘。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,715評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)泣矛。三九已至,卻和暖如春禾蚕,著一層夾襖步出監(jiān)牢的瞬間您朽,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,945評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工换淆, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留哗总,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,248評(píng)論 2 360
  • 正文 我出身青樓倍试,卻偏偏與公主長(zhǎng)得像讯屈,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子县习,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,440評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容