改進(jìn)的迭代尺度法(IIS)詳細(xì)解析 | 統(tǒng)計學(xué)習(xí)方法學(xué)習(xí)筆記 | 數(shù)據(jù)分析 | 機(jī)器學(xué)習(xí)

IIS是一種最大熵模型學(xué)習(xí)的最優(yōu)化算法。最大熵模型:舟曉南:統(tǒng)計學(xué)習(xí)方法 - 最大熵模型解析 | 數(shù)據(jù)分析,機(jī)器學(xué)習(xí)碱工,學(xué)習(xí)歷程全記錄

已知最大熵模型為:

《統(tǒng)計學(xué)習(xí)方法》中直接給出對數(shù)似然函數(shù)為:

現(xiàn)在解釋如何得到上式的對數(shù)似然函數(shù):

首先根據(jù)對數(shù)似然函數(shù)的一般形式給出:

在上式中庵寞,第二行的箭頭成立,是因為指數(shù)v(x, y)表示x和y確定時的個數(shù)闪朱,N為總樣本數(shù)月匣,除以總樣本數(shù)不改變w,因此成立奋姿。

因為

為常數(shù)锄开,這對于我們求極大值沒有用處,因此忽略称诗,所以:

因為?

所以最終可以得到書中的對數(shù)似然函數(shù):

現(xiàn)在求對數(shù)似然函數(shù)w的極大值萍悴,假設(shè)最大熵模型當(dāng)前的參數(shù)向量是w,找到一個新的參數(shù)向量?\omega +\delta ?寓免,使模型的對數(shù)似然函數(shù)值增大癣诱。如果能有這樣一種參數(shù)向量更新的方法?\omega \rightarrow \omega +\delta ?,那么就可以不停迭代袜香,直至找到對數(shù)似然函數(shù)的最大值撕予。

因為:

所以:

利用不等式?-log\alpha \geq 1-\alpha , \alpha >0?(不等式證明可參考:證明 logX < X 對所有 X > 0 成立)可得:

利用

于是:

又因為:

所以有


于是:

我們將等式右端記為:A(\delta |\omega )?蜈首,這是似然函數(shù)的下界实抡,于是有:?L(\omega +\delta )-L(\omega )\geq A(\delta |\omega )

如果我們能夠找到適當(dāng)?shù)?\delta 使下界提高疾就,那么似然函數(shù)也會隨之提高澜术。但?\delta 是一個向量,不易同時對每個方向都進(jìn)行優(yōu)化猬腰,于是固定其它方向鸟废,僅優(yōu)化其中的一個方向,這時我們需要再一次更新下界姑荷,使得可以僅優(yōu)化一個方向盒延。

具體的,我們引入一個量:

表示所有特征在(x,y)中出現(xiàn)的次數(shù)鼠冕。在書中對f#為常數(shù)或不為常數(shù)的情況做了討論添寺,不過對于f#什么時候為常數(shù),網(wǎng)絡(luò)上各有理解懈费。我們首先回顧一下f(x,y)是什么:

首先這個函數(shù)f本身代表的是一個規(guī)則计露,即x與y滿足某一事實,則為1,否則為0票罐。括號內(nèi)的x和y是輸入值叉趣,即每一個數(shù)據(jù)點的數(shù)據(jù),或者說是每一個實例的數(shù)據(jù)该押。

那么fi(x, y)中的下標(biāo)i表示的是不同的規(guī)則疗杉,比如f1(x, y)在x=1, y=2的情況下為1,否則為0蚕礼;f2(x, y)在x=2烟具,y=2的情況下為1,否則為0奠蹬。

對某一個實例而言朝聋,我們將其代入f1和f2中,判斷這個實例的數(shù)據(jù)是否符合f1和f2的規(guī)則罩润,如果僅符合f1而不符合f2玖翅,則f1=1翼馆,f2=0割以。

那么\sum_{}^{}f_{i} (x,y)實際上是對一個特定的實例的數(shù)據(jù)進(jìn)行i次不同規(guī)則的判斷。

舉一個例子应媚,如果f1(x, y)為x1=1, y=0則為1严沥,否則為0,f2(x, y)為x2=0中姜,y=0為1消玄,否則為0。那么對于某一個實例(x1=1, x2=0, y=0)來說丢胚,它既滿足f1也滿足f2翩瓜,所以f1=1, f2=1,那么\sum_{}^{}f_{i} (x,y)=2携龟,i=1兔跌,2

那么對于另一個實例(x1=1, x2=1, y=0)峡蟋,它滿足f1但不滿足f2坟桅,所以f1=1,f2=0蕊蝗,那么\sum_{}^{}f_{i} (x,y)=1仅乓,i=1,2

這就是為什么在《統(tǒng)計學(xué)習(xí)方法》中提到f#(x, y)可能為常數(shù)蓬戚,也可能不為常數(shù)夸楣。在常數(shù)的情況下鸭蛙,說明每一個實例的數(shù)據(jù)符合的規(guī)則的數(shù)量是一樣的,比如有三個規(guī)則阿弃,實例1符合規(guī)則1和規(guī)則2爪幻,實例2符合規(guī)則2和規(guī)則3,實例3符合規(guī)則1和規(guī)則3嘿棘,盡管它們符合的規(guī)則不同劲腿,但數(shù)量相同,三個實例的f#(x, y)都為2鸟妙。

當(dāng)然焦人,f#(x, y)為常數(shù)的情況發(fā)生的概率很小,因此f#(x, y)在大部分情況下都不是常數(shù)重父。

為了更好的理解花椭,我們再看下標(biāo)i還出現(xiàn)在權(quán)值和權(quán)值的更新值上,這說明實際上每一個特征函數(shù)fi(x, y)都對應(yīng)了一個權(quán)值wi房午,對于一個特定的實例來說矿辽,如果它符合f1(x, y)的規(guī)則,那么權(quán)值w1就會作用在這個實例上郭厌,也就是說在預(yù)測或者分類的時候袋倔,模型會考慮f1(x, y)所代表的特征,如果該實例不符合f2(x, y)折柠,那么w2就不會作用在這個實例上宾娜,畢竟f2(x, y)=0,這樣模型在預(yù)測或分類時扇售,就不會考慮f2(x, y)所代表的特征前塔,畢竟這個實例都沒有這個特征,又為什么要去考慮它呢承冰?

回到IIS算法本身华弓,定義了f#(x, y)后,可以將?A(\delta |\omega )?改寫為:

因為指數(shù)函數(shù)是凸函數(shù)困乒,且對任意i寂屏,有

利用琴聲不等式(琴聲不等式的資料可自行查找)可得:

所以:

于是下界被再一次刷新,此時可以對向量\delta ? 中的一個方向單獨進(jìn)行優(yōu)化(求導(dǎo))了顶燕。對其求偏導(dǎo)并令導(dǎo)數(shù)為0:

得到:

這樣凑保,就可以依次對每一個?\delta _{i} 求解,得到向量?\delta 并對w進(jìn)行更新迭代了涌攻。



我是舟曉南欧引,關(guān)注我的同名 公眾號 和 知乎,發(fā)掘更多內(nèi)容哦

對機(jī)器學(xué)習(xí)恳谎,深度學(xué)習(xí)芝此,python感興趣憋肖,歡迎關(guān)注專欄,學(xué)習(xí)筆記已原創(chuàng)70+篇婚苹,持續(xù)更新中~ ^_^

學(xué)習(xí)筆記:數(shù)據(jù)分析岸更,機(jī)器學(xué)習(xí),深度學(xué)習(xí)

關(guān)于 python 二三事

專欄文章舉例:

【機(jī)器學(xué)習(xí)】關(guān)于邏輯斯蒂回歸膊升,看這一篇就夠了怎炊!解答絕大部分關(guān)于邏輯斯蒂回歸的常見問題,以及代碼實現(xiàn) - 知乎 (zhihu.com)

記錄一下工作中用到的少有人知的pandas騷操作廓译,提升工作效率 - 知乎 (zhihu.com)

關(guān)于切片時不考慮最后一個元素以及為什么從0開始計數(shù)的問題 - 知乎 (zhihu.com)

關(guān)于轉(zhuǎn)行:

舟曉南:如何轉(zhuǎn)行和學(xué)習(xí)數(shù)據(jù)分析 | 工科生三個月成功轉(zhuǎn)行數(shù)據(jù)分析心得淺談

舟曉南:求職數(shù)據(jù)分析師崗位评肆,簡歷應(yīng)該如何寫?|工科生三個月成功轉(zhuǎn)行數(shù)據(jù)分析心得淺談

我建了個數(shù)據(jù)分析非区,機(jī)器學(xué)習(xí)瓜挽,深度學(xué)習(xí)的群~ 需要學(xué)習(xí)資料,想要加入社群均可私信~

在群里我會不定期分享各種數(shù)據(jù)分析相關(guān)資源征绸,技能學(xué)習(xí)技巧和經(jīng)驗等等~

詳情私信久橙,一起進(jìn)步吧!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末管怠,一起剝皮案震驚了整個濱河市淆衷,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌排惨,老刑警劉巖吭敢,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異暮芭,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)欲低,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進(jìn)店門辕宏,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人砾莱,你說我怎么就攤上這事瑞筐。” “怎么了腊瑟?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵聚假,是天一觀的道長。 經(jīng)常有香客問我闰非,道長膘格,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任财松,我火速辦了婚禮瘪贱,結(jié)果婚禮上纱控,老公的妹妹穿的比我還像新娘。我一直安慰自己菜秦,他們只是感情好甜害,可當(dāng)我...
    茶點故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著球昨,像睡著了一般尔店。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上主慰,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天闹获,我揣著相機(jī)與錄音,去河邊找鬼河哑。 笑死避诽,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的璃谨。 我是一名探鬼主播沙庐,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼佳吞!你這毒婦竟也來了拱雏?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤底扳,失蹤者是張志新(化名)和其女友劉穎铸抑,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體衷模,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡鹊汛,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了阱冶。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片刁憋。...
    茶點故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖木蹬,靈堂內(nèi)的尸體忽然破棺而出至耻,到底是詐尸還是另有隱情,我是刑警寧澤镊叁,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布尘颓,位于F島的核電站,受9級特大地震影響晦譬,放射性物質(zhì)發(fā)生泄漏疤苹。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一蛔添、第九天 我趴在偏房一處隱蔽的房頂上張望痰催。 院中可真熱鬧兜辞,春花似錦、人聲如沸夸溶。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽缝裁。三九已至扫皱,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間捷绑,已是汗流浹背韩脑。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留粹污,地道東北人段多。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像壮吩,于是被迫代替她去往敵國和親进苍。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,834評論 2 345

推薦閱讀更多精彩內(nèi)容