交叉熵

作者:Noriko Oshima

鏈接:https://www.zhihu.com/question/41252833/answer/108777563

來源:知乎

著作權(quán)歸作者所有做瞪。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處浅缸。

熵的本質(zhì)是香農(nóng)信息量(

)的期望泞遗。

現(xiàn)有關(guān)于樣本集的2個(gè)概率分布p和q协屡,其中p為真實(shí)分布团滥,q非真實(shí)分布。按照真實(shí)分布p來衡量識別一個(gè)樣本的所需要的編碼長度的期望(即平均編碼長度)為:H(p)=

骆撇。如果使用錯(cuò)誤分布q來表示來自真實(shí)分布p的平均編碼長度擎场,則應(yīng)該是:H(p,q)=

羽德。因?yàn)橛胵來編碼的樣本來自分布p,所以期望H(p,q)中概率是p(i)迅办。H(p,q)我們稱之為“交叉熵”宅静。

比如含有4個(gè)字母(A,B,C,D)的數(shù)據(jù)集中,真實(shí)分布p=(1/2, 1/2, 0, 0)站欺,即A和B出現(xiàn)的概率均為1/2姨夹,C和D出現(xiàn)的概率都為0。計(jì)算H(p)為1矾策,即只需要1位編碼即可識別A和B磷账。如果使用分布Q=(1/4, 1/4, 1/4, 1/4)來編碼則得到H(p,q)=2,即需要2位編碼來識別A和B(當(dāng)然還有C和D贾虽,盡管C和D并不會出現(xiàn)逃糟,因?yàn)檎鎸?shí)分布p中C和D出現(xiàn)的概率為0,這里就欽定概率為0的事件不會發(fā)生啦)蓬豁。

可以看到上例中根據(jù)非真實(shí)分布q得到的平均編碼長度H(p,q)大于根據(jù)真實(shí)分布p得到的平均編碼長度H(p)绰咽。事實(shí)上,根據(jù)Gibbs' inequality可知地粪,H(p,q)>=H(p)恒成立剃诅,當(dāng)q為真實(shí)分布p時(shí)取等號。我們將由q得到的平均編碼長度比由p得到的平均編碼長度多出的bit數(shù)稱為“相對熵”:D(p||q)=H(p,q)-H(p)=

驶忌,其又被稱為KL散度(Kullback–Leibler divergence,KLD)Kullback–Leibler divergence笑跛。它表示2個(gè)函數(shù)或概率分布的差異性:差異越大則相對熵越大付魔,差異越小則相對熵越小,特別地飞蹂,若2者相同則熵為0几苍。注意,KL散度的非對稱性陈哑。

比如TD-IDF算法就可以理解為相對熵的應(yīng)用:詞頻在整個(gè)語料庫的分布與詞頻在具體文檔中分布之間的差異性妻坝。

交叉熵可在神經(jīng)網(wǎng)絡(luò)(機(jī)器學(xué)習(xí))中作為損失函數(shù)伸眶,p表示真實(shí)標(biāo)記的分布,q則為訓(xùn)練后的模型的預(yù)測標(biāo)記分布刽宪,交叉熵?fù)p失函數(shù)可以衡量p與q的相似性厘贼。交叉熵作為損失函數(shù)還有一個(gè)好處是使用sigmoid函數(shù)在梯度下降時(shí)能避免均方誤差損失函數(shù)學(xué)習(xí)速率降低的問題,因?yàn)閷W(xué)習(xí)速率可以被輸出的誤差所控制圣拄。

PS:通匙旖眨“相對熵”也可稱為“交叉熵”,因?yàn)檎鎸?shí)分布p是固定的庇谆,D(p||q)由H(p,q)決定岳掐。當(dāng)然也有特殊情況,彼時(shí)2者須區(qū)別對待饭耳。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末串述,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子寞肖,更是在濱河造成了極大的恐慌纲酗,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,183評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件逝淹,死亡現(xiàn)場離奇詭異耕姊,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)栅葡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評論 3 399
  • 文/潘曉璐 我一進(jìn)店門茉兰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人欣簇,你說我怎么就攤上這事规脸。” “怎么了熊咽?”我有些...
    開封第一講書人閱讀 168,766評論 0 361
  • 文/不壞的土叔 我叫張陵莫鸭,是天一觀的道長。 經(jīng)常有香客問我横殴,道長被因,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,854評論 1 299
  • 正文 為了忘掉前任衫仑,我火速辦了婚禮梨与,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘文狱。我一直安慰自己粥鞋,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,871評論 6 398
  • 文/花漫 我一把揭開白布瞄崇。 她就那樣靜靜地躺著呻粹,像睡著了一般壕曼。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上等浊,一...
    開封第一講書人閱讀 52,457評論 1 311
  • 那天腮郊,我揣著相機(jī)與錄音,去河邊找鬼凿掂。 笑死伴榔,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的庄萎。 我是一名探鬼主播踪少,決...
    沈念sama閱讀 40,999評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼糠涛!你這毒婦竟也來了援奢?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,914評論 0 277
  • 序言:老撾萬榮一對情侶失蹤忍捡,失蹤者是張志新(化名)和其女友劉穎集漾,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體砸脊,經(jīng)...
    沈念sama閱讀 46,465評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡具篇,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,543評論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了凌埂。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片驱显。...
    茶點(diǎn)故事閱讀 40,675評論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖瞳抓,靈堂內(nèi)的尸體忽然破棺而出埃疫,到底是詐尸還是另有隱情,我是刑警寧澤孩哑,帶...
    沈念sama閱讀 36,354評論 5 351
  • 正文 年R本政府宣布栓霜,位于F島的核電站,受9級特大地震影響横蜒,放射性物質(zhì)發(fā)生泄漏胳蛮。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,029評論 3 335
  • 文/蒙蒙 一丛晌、第九天 我趴在偏房一處隱蔽的房頂上張望鹰霍。 院中可真熱鬧,春花似錦茵乱、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,514評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽督勺。三九已至,卻和暖如春斤贰,著一層夾襖步出監(jiān)牢的瞬間智哀,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,616評論 1 274
  • 我被黑心中介騙來泰國打工荧恍, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留瓷叫,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,091評論 3 378
  • 正文 我出身青樓送巡,卻偏偏與公主長得像摹菠,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子骗爆,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,685評論 2 360

推薦閱讀更多精彩內(nèi)容

  • 香農(nóng)熵 熵考察(香農(nóng)熵)的是單個(gè)的信息(分布)的期望:反映了一個(gè)系統(tǒng)的無序化(有序化)程度次氨,一個(gè)系統(tǒng)越有序,信息熵...
    Arya鑫閱讀 4,805評論 0 6
  • 交叉熵產(chǎn)生于信息論里面的信息壓縮編碼技術(shù)摘投,但是它后來演變成為從博弈論到機(jī)器學(xué)習(xí)等其他領(lǐng)域里的重要技術(shù)手段煮寡。 1.什...
    CJJShare閱讀 1,374評論 0 2
  • 1 信息熵 信息熵代表的是隨機(jī)變量或整個(gè)系統(tǒng)的不確定性外臂,熵越大坐儿,隨機(jī)變量或系統(tǒng)的不確定性就越大。 1.1 舉例 題...
    0過把火0閱讀 751評論 0 0
  • 熵的定義本質(zhì)上是香濃信息量log(1/p)的期望。 信息熵 編碼方案完美時(shí)跃须,最短平均編碼的長度 交叉熵 編碼方案不...
    Goet閱讀 526評論 0 2
  • 一條信息的不確定性由它出現(xiàn)概率的負(fù)對數(shù)函數(shù)來表示菇民。一方面負(fù)對數(shù)函數(shù)在數(shù)值上概率輸入的單調(diào)遞減函數(shù)尽楔,比如輸入為1時(shí)值...
    an0nym0us閱讀 650評論 0 0