最大熵模型+最大似然估計(jì)

前言

最近在回顧李航的統(tǒng)計(jì)學(xué)習(xí)方法[1], 看到這一章, 準(zhǔn)備好好梳理一下, 更加深入地理解原理以及背后的思想. 作者在這一章介紹了最大熵模型并且推導(dǎo)了對(duì)偶函數(shù)的極大化等價(jià)于最大熵模型的極大似然估計(jì), 面對(duì)一大堆的概念, 我重新回顧了一遍其中相關(guān)的內(nèi)容.

1 最大熵模型

最大熵原理是在 1957 年由 E.T.Jaynes 提出的,其主要思想是,在只掌握關(guān)于未知分布的部分知識(shí)時(shí)纱控,應(yīng)該選取符合這些知識(shí)但熵值最大的概率分布猫十。我們常說(shuō)返干,不要把所有的雞蛋放在一個(gè)籃子里激涤,其實(shí)就是最大熵原理的一個(gè)樸素的說(shuō)法微王,因?yàn)楫?dāng)我們遇到不確定性時(shí),就要保留各種可能性兼耀。吳軍數(shù)學(xué)之美[2]第十六章中通俗地描述其為,?當(dāng)我們需要對(duì)一個(gè)隨機(jī)事件的概率分布進(jìn)行預(yù)測(cè)時(shí),我們的預(yù)測(cè)應(yīng)當(dāng)滿足全部已知的條件求冷,而對(duì)未知的情況不要做任何主觀假設(shè)瘤运。他舉了一個(gè)某次去AT&T做關(guān)于最大熵模型的報(bào)告時(shí)的栗子:

有 一次,我去 AT&T 實(shí)驗(yàn)室作關(guān)于最大熵模型的報(bào)告匠题,我?guī)チ艘粋€(gè)色子拯坟。我問(wèn)聽(tīng)眾“每個(gè)面朝上的概率分別是多少”,所有人都說(shuō)是等概率韭山,即各點(diǎn)的概率均為1/6郁季。這種猜測(cè)當(dāng)然 是對(duì)的。我問(wèn)聽(tīng)眾們?yōu)槭裁辞酰玫降幕卮鹗且恢碌模簩?duì)這個(gè)“一無(wú)所知”的色子梦裂,假定它每一個(gè)朝上概率均等是最安全的做法。(你不應(yīng)該主觀假設(shè)它象韋小寶的色 子一樣灌了鉛盖淡。)從投資的角度看年柠,就是風(fēng)險(xiǎn)最小的做法。從信息論的角度講褪迟,就是保留了最大的不確定性冗恨,也就是說(shuō)讓熵達(dá)到最大。接著味赃,我又告訴聽(tīng)眾掀抹,我的這 個(gè)色子被我特殊處理過(guò),已知四點(diǎn)朝上的概率是三分之一心俗,在這種情況下傲武,每個(gè)面朝上的概率是多少?這次另凌,大部分人認(rèn)為除去四點(diǎn)的概率是 1/3谱轨,其余的均是 2/15,也就是說(shuō)已知的條件(四點(diǎn)概率為 1/3)必須滿足吠谢,而對(duì)其余各點(diǎn)的概率因?yàn)槿匀粺o(wú)從知道土童,因此只好認(rèn)為它們均等。注意工坊,在猜測(cè)這兩種不同情況下的概率分布時(shí)献汗,大家都沒(méi)有添加任何主觀的假 設(shè)敢订,諸如四點(diǎn)的反面一定是三點(diǎn)等等。(事實(shí)上罢吃,有的色子四點(diǎn)反面不是三點(diǎn)而是一點(diǎn)楚午。)這種基于直覺(jué)的猜測(cè)之所以準(zhǔn)確,是因?yàn)樗『梅狭俗畲箪卦?/p>

下面是一些概念的定義

熵: 這里指的是信息論里的熵,?是接收的每條消息中包含的信息的平均量. 也可以理解為信息的不確定度,?越隨機(jī)的信源的熵越大. 就像我們平時(shí)說(shuō)話, 出現(xiàn)少的詞往往包含更大的信息量, 比如我中午要去吃肯德基的炸雞, 在這句話里, "的"字平時(shí)非常常用, 但是幾乎沒(méi)什么意義, 但是肯德基跟炸雞平時(shí)出現(xiàn)的相對(duì)少, 卻包含了更大的信息量. 數(shù)學(xué)上的定義如下

假設(shè)離散隨機(jī)變量X的概率分布是P(X), 則其熵是

公式1 (P80-6.9)

熵滿足以下不等式:


公式2

其中|X|是X的取值個(gè)數(shù).當(dāng)且僅當(dāng)X的分布是均勻分布時(shí)右邊等號(hào)成立, 也就是說(shuō), 當(dāng)X服從均勻分布時(shí), 熵最大.

最大熵原理: 概率模型學(xué)習(xí)的一個(gè)準(zhǔn)則, 最大熵原理認(rèn)為, 學(xué)習(xí)概率模型時(shí), 在所有可能的概率模型中, 熵最大的模型是最好的模型. 通常用約束條件來(lái)確定概率模型的集合, 所以, 最大熵原理也可以表述為在滿足約束條件的模型集合中選擇熵最大的模型. 話說(shuō)李寧的廣告語(yǔ)叫一切皆有可能, 字面上的意思不就是最大熵模型么.

那么問(wèn)題來(lái)了, 最大熵模型里的熵是怎么定義的.

準(zhǔn)確地說(shuō), 是模型P(Y | X)與經(jīng)驗(yàn)分布P(X)的條件熵. 也就是:

可以理解為模型在當(dāng)前樣本的特征分布下預(yù)測(cè)結(jié)果的熵, 熵越大, 預(yù)測(cè)結(jié)果在各個(gè)類之間分布越均勻.


公式3 模型的條件熵

那上文提到的約束條件又是什么?

我們用特征函數(shù)f(x, y)描述輸入x和輸出y之間的某個(gè)事實(shí), 定義為


公式4 p82

所以特征函數(shù)關(guān)于經(jīng)驗(yàn)分布P(X,Y)的期望值:


公式5 p82

特征函數(shù)關(guān)于模型P(Y|X)與經(jīng)驗(yàn)分布P(X)的期望值:


公式6 p83

如果模型能夠?qū)W習(xí)到訓(xùn)練數(shù)據(jù)中的信息, 那么就可以假設(shè)這兩個(gè)期望值相等.


公式7 p83 6.11

這就形成了我們模型學(xué)習(xí)的約束條件, 假定滿足條件的模型集合為


公式8 p83 6.12

所以 最大熵模型的學(xué)習(xí), 等價(jià)于學(xué)習(xí)以下最優(yōu)化問(wèn)題.

學(xué)習(xí)過(guò)程就是對(duì)偶問(wèn)題的求解.

公式9 p83

學(xué)習(xí)方法:

最原始的最大熵模型的訓(xùn)練方法是一種稱為通用迭代算法GIS(generalized iterative scaling) 的迭代 算法尿招。GIS 的原理并不復(fù)雜矾柜,大致可以概括為以下幾個(gè)步驟:

1. 假定第零次迭代的初始模型為等概率的均勻分布。

2. 用第 N 次迭代的模型來(lái)估算每種信息特征在訓(xùn)練數(shù)據(jù)中的分布就谜,如果超過(guò)了實(shí)際的怪蔑,就把相應(yīng)的模型參數(shù)變小丧荐;否則缆瓣,將它們便大。

3. 重復(fù)步驟 2 直到收斂虹统。

GIS 算法每次迭代的時(shí)間都很長(zhǎng)弓坞,需要迭代很多次才能收斂,而且不太穩(wěn)定.

八十年代车荔,很有天才的孿生兄弟的達(dá)拉皮垂(Della Pietra)在 IBM 對(duì) GIS 算法進(jìn)行了兩方面的改進(jìn)渡冻,提出了改進(jìn)迭代算法 IIS(improved iterative scaling)。這使得最大熵模型的訓(xùn)練時(shí)間縮短了一到兩個(gè)數(shù)量級(jí)夸赫。這樣最大熵模型才有可能變得實(shí)用菩帝。即使如此,在當(dāng)時(shí)也只有 IBM 有條件是用最大熵模型茬腿。

最大似然估計(jì)

似然函數(shù):?

公式10 似然函數(shù)

從字面上來(lái)看, 似然(likelihood)與概率(probability)沒(méi)有太大區(qū)別, 都代表可能性. 下面是一些我對(duì)這兩個(gè)概念的直觀理解.

概率, 表示在所有觀測(cè)樣本中, 樣本x出現(xiàn)的可能性. 在這里, 模型的分布以及參數(shù)都是確定的.

似然, 標(biāo)識(shí)在模型或者說(shuō)分布確定的情況下, 對(duì)應(yīng)不同的參數(shù), 樣本x出現(xiàn)的可能性.

最大似然估計(jì), 就是在選定模型的前提下, 學(xué)習(xí)最符合當(dāng)前觀測(cè)樣本的參數(shù), 本質(zhì)上是一種典型的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化方法. 在樣本量比較小的時(shí)候, 觀測(cè)并不能代表整體, 因此, 這種學(xué)習(xí)方法并不會(huì)太好, 容易產(chǎn)生過(guò)擬合.?

下一篇關(guān)于最似然估計(jì)以及最大后驗(yàn)概率將詳細(xì)描述最大似然法.

其他

首先是一點(diǎn)個(gè)人的理解: 二者都屬于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的參數(shù)學(xué)習(xí)方法, 最大熵模型追求的目標(biāo)是, 在對(duì)當(dāng)前樣本預(yù)測(cè)盡可能與觀測(cè)值一致的前提下, 是的各分類之間盡可能均勻, 也就是模型在當(dāng)前樣本上面預(yù)測(cè)的條件熵盡可能的大; 最大似然估計(jì)則是在確定模型的前提下, 盡可能使各個(gè)樣本點(diǎn)在預(yù)測(cè)時(shí)發(fā)生的概率大. 在[3]中, 大佬證明了最大熵模型的對(duì)偶問(wèn)題求解方法, 等價(jià)于最大熵模型的極大似然估計(jì).?

最大熵原理的實(shí)質(zhì)就是呼奢,在已知部分知識(shí)的前提下,關(guān)于未知分布最合理的推斷就是符合已知知識(shí)最不確定或最隨機(jī)的推斷切平,這是我們可以作出的唯一不偏不倚的選擇握础,任何其它的選擇都意味著我們?cè)黾恿似渌募s束和假設(shè),這些約束和假設(shè)根據(jù)我們掌握的信息無(wú)法作出悴品。

參考文獻(xiàn)

[1]李航著.統(tǒng)計(jì)學(xué)習(xí)方法[M].清華大學(xué)出版社,2012.

[2]吳軍.數(shù)學(xué)之美[M].人民郵電出版社,2014.

[3]常寶寶.自然語(yǔ)言處理的最大熵模型[D].北京大學(xué),1999.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末禀综,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子苔严,更是在濱河造成了極大的恐慌定枷,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,723評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件届氢,死亡現(xiàn)場(chǎng)離奇詭異欠窒,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)退子,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門岖妄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)型将,“玉大人,你說(shuō)我怎么就攤上這事荐虐∑叨担” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,998評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵福扬,是天一觀的道長(zhǎng)腕铸。 經(jīng)常有香客問(wèn)我,道長(zhǎng)忧换,這世上最難降的妖魔是什么恬惯? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,323評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮亚茬,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘浓恳。我一直安慰自己刹缝,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,355評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布颈将。 她就那樣靜靜地躺著梢夯,像睡著了一般。 火紅的嫁衣襯著肌膚如雪晴圾。 梳的紋絲不亂的頭發(fā)上颂砸,一...
    開(kāi)封第一講書(shū)人閱讀 49,079評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音死姚,去河邊找鬼人乓。 笑死,一個(gè)胖子當(dāng)著我的面吹牛都毒,可吹牛的內(nèi)容都是我干的色罚。 我是一名探鬼主播,決...
    沈念sama閱讀 38,389評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼账劲,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼戳护!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起瀑焦,我...
    開(kāi)封第一講書(shū)人閱讀 37,019評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤腌且,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后榛瓮,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體铺董,經(jīng)...
    沈念sama閱讀 43,519評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,971評(píng)論 2 325
  • 正文 我和宋清朗相戀三年榆芦,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了柄粹。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片喘鸟。...
    茶點(diǎn)故事閱讀 38,100評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖驻右,靈堂內(nèi)的尸體忽然破棺而出什黑,到底是詐尸還是另有隱情,我是刑警寧澤堪夭,帶...
    沈念sama閱讀 33,738評(píng)論 4 324
  • 正文 年R本政府宣布愕把,位于F島的核電站,受9級(jí)特大地震影響森爽,放射性物質(zhì)發(fā)生泄漏恨豁。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,293評(píng)論 3 307
  • 文/蒙蒙 一爬迟、第九天 我趴在偏房一處隱蔽的房頂上張望橘蜜。 院中可真熱鬧,春花似錦付呕、人聲如沸计福。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,289評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)象颖。三九已至,卻和暖如春姆钉,著一層夾襖步出監(jiān)牢的瞬間说订,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,517評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工潮瓶, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留陶冷,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,547評(píng)論 2 354
  • 正文 我出身青樓筋讨,卻偏偏與公主長(zhǎng)得像埃叭,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子悉罕,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,834評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容