前言
最近在回顧李航的統(tǒng)計(jì)學(xué)習(xí)方法[1], 看到這一章, 準(zhǔn)備好好梳理一下, 更加深入地理解原理以及背后的思想. 作者在這一章介紹了最大熵模型并且推導(dǎo)了對(duì)偶函數(shù)的極大化等價(jià)于最大熵模型的極大似然估計(jì), 面對(duì)一大堆的概念, 我重新回顧了一遍其中相關(guān)的內(nèi)容.
1 最大熵模型
最大熵原理是在 1957 年由 E.T.Jaynes 提出的,其主要思想是,在只掌握關(guān)于未知分布的部分知識(shí)時(shí)纱控,應(yīng)該選取符合這些知識(shí)但熵值最大的概率分布猫十。我們常說(shuō)返干,不要把所有的雞蛋放在一個(gè)籃子里激涤,其實(shí)就是最大熵原理的一個(gè)樸素的說(shuō)法微王,因?yàn)楫?dāng)我們遇到不確定性時(shí),就要保留各種可能性兼耀。吳軍數(shù)學(xué)之美[2]第十六章中通俗地描述其為,?當(dāng)我們需要對(duì)一個(gè)隨機(jī)事件的概率分布進(jìn)行預(yù)測(cè)時(shí),我們的預(yù)測(cè)應(yīng)當(dāng)滿足全部已知的條件求冷,而對(duì)未知的情況不要做任何主觀假設(shè)瘤运。他舉了一個(gè)某次去AT&T做關(guān)于最大熵模型的報(bào)告時(shí)的栗子:
有 一次,我去 AT&T 實(shí)驗(yàn)室作關(guān)于最大熵模型的報(bào)告匠题,我?guī)チ艘粋€(gè)色子拯坟。我問(wèn)聽(tīng)眾“每個(gè)面朝上的概率分別是多少”,所有人都說(shuō)是等概率韭山,即各點(diǎn)的概率均為1/6郁季。這種猜測(cè)當(dāng)然 是對(duì)的。我問(wèn)聽(tīng)眾們?yōu)槭裁辞酰玫降幕卮鹗且恢碌模簩?duì)這個(gè)“一無(wú)所知”的色子梦裂,假定它每一個(gè)朝上概率均等是最安全的做法。(你不應(yīng)該主觀假設(shè)它象韋小寶的色 子一樣灌了鉛盖淡。)從投資的角度看年柠,就是風(fēng)險(xiǎn)最小的做法。從信息論的角度講褪迟,就是保留了最大的不確定性冗恨,也就是說(shuō)讓熵達(dá)到最大。接著味赃,我又告訴聽(tīng)眾掀抹,我的這 個(gè)色子被我特殊處理過(guò),已知四點(diǎn)朝上的概率是三分之一心俗,在這種情況下傲武,每個(gè)面朝上的概率是多少?這次另凌,大部分人認(rèn)為除去四點(diǎn)的概率是 1/3谱轨,其余的均是 2/15,也就是說(shuō)已知的條件(四點(diǎn)概率為 1/3)必須滿足吠谢,而對(duì)其余各點(diǎn)的概率因?yàn)槿匀粺o(wú)從知道土童,因此只好認(rèn)為它們均等。注意工坊,在猜測(cè)這兩種不同情況下的概率分布時(shí)献汗,大家都沒(méi)有添加任何主觀的假 設(shè)敢订,諸如四點(diǎn)的反面一定是三點(diǎn)等等。(事實(shí)上罢吃,有的色子四點(diǎn)反面不是三點(diǎn)而是一點(diǎn)楚午。)這種基于直覺(jué)的猜測(cè)之所以準(zhǔn)確,是因?yàn)樗『梅狭俗畲箪卦?/p>
下面是一些概念的定義
熵: 這里指的是信息論里的熵,?是接收的每條消息中包含的信息的平均量. 也可以理解為信息的不確定度,?越隨機(jī)的信源的熵越大. 就像我們平時(shí)說(shuō)話, 出現(xiàn)少的詞往往包含更大的信息量, 比如我中午要去吃肯德基的炸雞, 在這句話里, "的"字平時(shí)非常常用, 但是幾乎沒(méi)什么意義, 但是肯德基跟炸雞平時(shí)出現(xiàn)的相對(duì)少, 卻包含了更大的信息量. 數(shù)學(xué)上的定義如下
假設(shè)離散隨機(jī)變量X的概率分布是P(X), 則其熵是
熵滿足以下不等式:
其中|X|是X的取值個(gè)數(shù).當(dāng)且僅當(dāng)X的分布是均勻分布時(shí)右邊等號(hào)成立, 也就是說(shuō), 當(dāng)X服從均勻分布時(shí), 熵最大.
最大熵原理: 概率模型學(xué)習(xí)的一個(gè)準(zhǔn)則, 最大熵原理認(rèn)為, 學(xué)習(xí)概率模型時(shí), 在所有可能的概率模型中, 熵最大的模型是最好的模型. 通常用約束條件來(lái)確定概率模型的集合, 所以, 最大熵原理也可以表述為在滿足約束條件的模型集合中選擇熵最大的模型. 話說(shuō)李寧的廣告語(yǔ)叫一切皆有可能, 字面上的意思不就是最大熵模型么.
那么問(wèn)題來(lái)了, 最大熵模型里的熵是怎么定義的.
準(zhǔn)確地說(shuō), 是模型P(Y | X)與經(jīng)驗(yàn)分布P(X)的條件熵. 也就是:
可以理解為模型在當(dāng)前樣本的特征分布下預(yù)測(cè)結(jié)果的熵, 熵越大, 預(yù)測(cè)結(jié)果在各個(gè)類之間分布越均勻.
那上文提到的約束條件又是什么?
我們用特征函數(shù)f(x, y)描述輸入x和輸出y之間的某個(gè)事實(shí), 定義為
所以特征函數(shù)關(guān)于經(jīng)驗(yàn)分布P(X,Y)的期望值:
特征函數(shù)關(guān)于模型P(Y|X)與經(jīng)驗(yàn)分布P(X)的期望值:
如果模型能夠?qū)W習(xí)到訓(xùn)練數(shù)據(jù)中的信息, 那么就可以假設(shè)這兩個(gè)期望值相等.
這就形成了我們模型學(xué)習(xí)的約束條件, 假定滿足條件的模型集合為
所以 最大熵模型的學(xué)習(xí), 等價(jià)于學(xué)習(xí)以下最優(yōu)化問(wèn)題.
學(xué)習(xí)過(guò)程就是對(duì)偶問(wèn)題的求解.
學(xué)習(xí)方法:
最原始的最大熵模型的訓(xùn)練方法是一種稱為通用迭代算法GIS(generalized iterative scaling) 的迭代 算法尿招。GIS 的原理并不復(fù)雜矾柜,大致可以概括為以下幾個(gè)步驟:
1. 假定第零次迭代的初始模型為等概率的均勻分布。
2. 用第 N 次迭代的模型來(lái)估算每種信息特征在訓(xùn)練數(shù)據(jù)中的分布就谜,如果超過(guò)了實(shí)際的怪蔑,就把相應(yīng)的模型參數(shù)變小丧荐;否則缆瓣,將它們便大。
3. 重復(fù)步驟 2 直到收斂虹统。
GIS 算法每次迭代的時(shí)間都很長(zhǎng)弓坞,需要迭代很多次才能收斂,而且不太穩(wěn)定.
八十年代车荔,很有天才的孿生兄弟的達(dá)拉皮垂(Della Pietra)在 IBM 對(duì) GIS 算法進(jìn)行了兩方面的改進(jìn)渡冻,提出了改進(jìn)迭代算法 IIS(improved iterative scaling)。這使得最大熵模型的訓(xùn)練時(shí)間縮短了一到兩個(gè)數(shù)量級(jí)夸赫。這樣最大熵模型才有可能變得實(shí)用菩帝。即使如此,在當(dāng)時(shí)也只有 IBM 有條件是用最大熵模型茬腿。
最大似然估計(jì)
似然函數(shù):?
從字面上來(lái)看, 似然(likelihood)與概率(probability)沒(méi)有太大區(qū)別, 都代表可能性. 下面是一些我對(duì)這兩個(gè)概念的直觀理解.
概率, 表示在所有觀測(cè)樣本中, 樣本x出現(xiàn)的可能性. 在這里, 模型的分布以及參數(shù)都是確定的.
似然, 標(biāo)識(shí)在模型或者說(shuō)分布確定的情況下, 對(duì)應(yīng)不同的參數(shù), 樣本x出現(xiàn)的可能性.
最大似然估計(jì), 就是在選定模型的前提下, 學(xué)習(xí)最符合當(dāng)前觀測(cè)樣本的參數(shù), 本質(zhì)上是一種典型的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化方法. 在樣本量比較小的時(shí)候, 觀測(cè)并不能代表整體, 因此, 這種學(xué)習(xí)方法并不會(huì)太好, 容易產(chǎn)生過(guò)擬合.?
下一篇關(guān)于最似然估計(jì)以及最大后驗(yàn)概率將詳細(xì)描述最大似然法.
其他
首先是一點(diǎn)個(gè)人的理解: 二者都屬于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的參數(shù)學(xué)習(xí)方法, 最大熵模型追求的目標(biāo)是, 在對(duì)當(dāng)前樣本預(yù)測(cè)盡可能與觀測(cè)值一致的前提下, 是的各分類之間盡可能均勻, 也就是模型在當(dāng)前樣本上面預(yù)測(cè)的條件熵盡可能的大; 最大似然估計(jì)則是在確定模型的前提下, 盡可能使各個(gè)樣本點(diǎn)在預(yù)測(cè)時(shí)發(fā)生的概率大. 在[3]中, 大佬證明了最大熵模型的對(duì)偶問(wèn)題求解方法, 等價(jià)于最大熵模型的極大似然估計(jì).?
最大熵原理的實(shí)質(zhì)就是呼奢,在已知部分知識(shí)的前提下,關(guān)于未知分布最合理的推斷就是符合已知知識(shí)最不確定或最隨機(jī)的推斷切平,這是我們可以作出的唯一不偏不倚的選擇握础,任何其它的選擇都意味著我們?cè)黾恿似渌募s束和假設(shè),這些約束和假設(shè)根據(jù)我們掌握的信息無(wú)法作出悴品。
參考文獻(xiàn)
[1]李航著.統(tǒng)計(jì)學(xué)習(xí)方法[M].清華大學(xué)出版社,2012.
[2]吳軍.數(shù)學(xué)之美[M].人民郵電出版社,2014.
[3]常寶寶.自然語(yǔ)言處理的最大熵模型[D].北京大學(xué),1999.