相對熵和交叉熵及其聯(lián)系和區(qū)別

前提

信息?指音訊蒋失、信息、通訊系統(tǒng)傳輸和處理的對象桐玻,泛指人類社會傳播的一切內(nèi)容篙挽。獲取信息的主要方法是六何法

信息可以減少事件的不確定性镊靴。

因?yàn)樾畔⒎从呈挛飪?nèi)部的屬性铣卡、狀態(tài)、結(jié)構(gòu)偏竟、相互聯(lián)系以及與外部環(huán)境的互動關(guān)系煮落,從而減少事件的不確定。

信息的現(xiàn)代定義:

  1. 信息是物質(zhì)踊谋、能量蝉仇、訊息及其屬性的標(biāo)示;
  2. 信息是確定性的增加殖蚕;
  3. 信息是事物現(xiàn)象及其屬性標(biāo)識的集合轿衔。

信息量?用于度量事件的不確定性。

事件的發(fā)生具有不確定性睦疫,這種不確定性蘊(yùn)含了信息呀枢,我們想對這些信息進(jìn)行度量,因此引入了信息量笼痛。

不確定事件的發(fā)生使用概率描述。因此,信息量的定義為事件發(fā)生概率的負(fù)對數(shù)缨伊。
I(x_0) = -\log{(p(x_0))} \tag{1}
(1)式事件x_0發(fā)生的信息量摘刑,其中p(x)為事件發(fā)生的概率。
p(x) = Pr(X=x), \space x\in \chi \tag{2}
其中X是離散隨機(jī)變量刻坊,取值空間為\chi枷恕。

為什么信息量的統(tǒng)計(jì)特征描述為概率的負(fù)對數(shù)形式?這是由信息量和不確定性的特點(diǎn)決定的谭胚。信息量有以下特點(diǎn):

  1. 事件的不確定性越大徐块,信息量越小,反之信息量越大灾而;
  2. 當(dāng)事件的不確定性為0時胡控,即事件發(fā)生的概率為1,那么信息量為0旁趟;
  3. 信息量等于組成信息的子信息的信息量之和昼激。

根據(jù)上述特點(diǎn),如果使用數(shù)學(xué)上的對數(shù)函數(shù)來表示信息量锡搜,正好可以表示信息量和事件發(fā)生概率之間的關(guān)系橙困。

信息熵?用于度量信息包含的信息量。

盡管我們使用信息量來量化事件的不確定性耕餐,但是我們?nèi)匀徊磺宄畔⑺男畔⒘糠哺怠R驗(yàn)槭录陌l(fā)生具有不確定性,其取值是一個隨機(jī)變量肠缔,我們很難準(zhǔn)確描述一次事件發(fā)生的概率夏跷。很自然地,我們引入期望的概念桩砰,使用期望來描述事件發(fā)生的概率拓春。對于信息而言,我們不清楚信息到底有多少亚隅,但同樣通過期望的方式得到信息的統(tǒng)計(jì)度量硼莽。
H(x) = \mathbb{E}[I(x)] \tag{3}
其中I(x)是信息量。

信息熵是事件不確定性的度量煮纵。

信息熵詳細(xì)定義Wiki懂鸵,Baike

相對熵

相對熵行疏,又稱KL散度(Kullback-Leibler divergence)匆光,是兩個概率分布PQ之間的差異的非對稱性的度量。

在信息論中酿联,相對熵等價(jià)于兩個概率分布的信息熵的差值终息。

定義?假設(shè)p(x)夺巩,q(x)是隨機(jī)變量X上的兩個概率分布,在離散情況下周崭,相對熵的定義如下柳譬。
\begin{equation} \begin{aligned} D_{KL}(p\|q) &= \mathbb{E}_p[\log\frac{p}{q}] \\ &=\sum_{x\in \chi}p\log\frac{p}{q} \end{aligned} \end{equation} \tag{4}
和信息熵的聯(lián)系

將(4)式展開。
\begin{equation} \begin{aligned} D_{KL}(p\|q) &= \sum_{x\in\chi}plog\frac{p}{q} \\ &=\sum_{x\in\chi}p\log{p} - \sum_{x\in\chi}p\log{q} \\ &=-\mathbb{E}[I(\log{p})] + \mathbb{E}_p[I(\log{q})] \\ &= -H(p) + H_p(q) \\ &= H_p(q) - H(p) \end{aligned} \end{equation} \tag{5}
上式表明续镇,D_{KL}(p\|q)表示在真實(shí)分布為p的前提下美澳,使用q分布進(jìn)行編碼相對于使用真實(shí)分布p進(jìn)行編碼所需的額外的平均比特?cái)?shù)。

因此摸航,相對熵可以作為一些優(yōu)化算法的損失函數(shù)制跟,如最大期望算法(WikiBaike)酱虎。此時雨膨,參與計(jì)算的一個概率分布為真實(shí)分布,另一個為擬合分布逢净,相對熵表示使用理論分布擬合真實(shí)分布時產(chǎn)生的信息損失哥放。

交叉熵

交叉熵是Shannon信息論中的一個重要概念,主要用于度量兩個概率分布間的差異性信息爹土。

在信息論中甥雕,交叉熵表示兩個概率分布p, q,其中p表示真實(shí)分布胀茵,q表示擬合分布社露。在同一組事件中,其中用擬合分布q來表示某個事件發(fā)生所需要的平均比特?cái)?shù)琼娘。

定義?假設(shè)有兩個分布p峭弟,qp相對于q的交叉熵定義為:
CEH(p, q) = \mathbb{E}_p[-\log{q}] \tag{6}
交叉熵的含義是使用擬合分布q進(jìn)行編碼的期望平均長度脱拼。

期望為什么基于p瞒瘸??在信息論中,樣本集的真實(shí)分布為p熄浓,那么真實(shí)編碼長度為\mathbb{E}_p(-\log{p})情臭,但真實(shí)分布未知的情況下,使用了錯誤分布q來編碼赌蔑,因此交叉熵可以看作每個信息片段在錯誤分布q下的期望編碼長度俯在,這就是期望\mathbb{E}_p基于p而不是q的原因。

應(yīng)用

  1. 交叉熵可在神經(jīng)網(wǎng)絡(luò)中作為損失函數(shù)娃惯,p表示真實(shí)標(biāo)簽的分布跷乐,q表示訓(xùn)練模型的預(yù)測標(biāo)簽分布,交叉熵?fù)p失函數(shù)可以衡量pq的相似性趾浅。

    交叉熵作為損失函數(shù)的一個好處:

    ? 使用sigmoid函數(shù)在梯度下降時能避免均方誤差損失函數(shù)學(xué)習(xí)速度降低的問題愕提,因?yàn)閷W(xué)習(xí)速率可以被輸出的誤差所控制馒稍。

  2. 在語言模型中,我們基于訓(xùn)練集T創(chuàng)建了一個語言模型揪荣,而在測試集上通過其交叉熵來評估模型的準(zhǔn)確率筷黔。

    其中,p是語料中詞匯的真實(shí)分布仗颈,而q是我們獲得的語言模型預(yù)測的詞匯分布。

    由于真實(shí)分布是未知的椎例,我們不能直接計(jì)算交叉熵挨决。在這種情況下,我們可以通過下式估計(jì)交叉熵:
    H(T, q)=-\sum^N_{i=1}\frac{1}{N}\log_2{q(x_i)} \tag{7}
    其中N是測試集大小订歪,q(x)是在訓(xùn)練集上估計(jì)的事件x發(fā)生的概率脖祈。

    我們假設(shè)訓(xùn)練集是從p(x)的真實(shí)采樣,則此方法獲得的是真實(shí)交叉熵的蒙特卡洛估計(jì)刷晋。

相對熵 vs 交叉熵

我們展開交叉熵定義盖高,得到下式:
\begin{equation} \begin{aligned} CEH(p,q) &=\mathbb{E}_p[-\log{q}] \\ &=-\sum p\log{q} \\ &=-\sum p\log{p} + [-(\sum p\log{q} - \sum p\log{p}) \\ &=H(p) + D_{KL}(p\|q) \end{aligned} \end{equation} \tag{8}
其中,H(p)是分布p的信息熵眼虱,D_{KL}(p\|q)p相對于q的相對熵喻奥。由此可知,交叉熵和相對熵僅相差了一個H(p)捏悬。當(dāng)p已知時撞蚕,H(p)是一個常數(shù),那么交叉熵在行為上退化為相對熵过牙,兩者是等價(jià)的甥厦,都反映了分布p, q的相似程度。最小化交叉熵等價(jià)于最小化KL距離寇钉,它們都在p=q下取得最小值刀疙。

特別的,在邏輯回歸中

p: 真實(shí)樣本分布扫倡,服從參數(shù)為p的0-1分布谦秧,即X\sim B(1, p)

q: 待估計(jì)的模型,服從參數(shù)為q的0-1分布镊辕,即X \sim B(1, q)

兩者的交叉熵為:
\begin{equation} \begin{aligned} CEH(p,q) &= -\sum_{x\in\chi}p(x)\log{q(x)} \\ &= -[P_p(x=1)\log{P_q(x=1)} + P_p(x=0)\log{P_q(x=0)}] \\ &= -[y\log{h_{\theta}(x)}+(1-y)\log{(1-h_{\theta(x)})}] \end{aligned} \end{equation} \tag{9}
對所有樣本取均值油够,得到
-\frac{1}{m}\sum^{m}_{i=1}[y^{(i)}\log{(h_\theta(x^{(i)}))}+(1-y^{(i)})\log{(1-h_\theta(x^{(i)})}] \tag{10}
這個結(jié)果與通過最大似然估計(jì)方法求出的結(jié)果一致。

在實(shí)際神經(jīng)網(wǎng)絡(luò)中征懈,對于某個樣本進(jìn)行分類預(yù)測時石咬,預(yù)測值和真實(shí)值都服從0-1分布,相關(guān)推導(dǎo)可以參考卖哎。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末鬼悠,一起剝皮案震驚了整個濱河市删性,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌焕窝,老刑警劉巖蹬挺,帶你破解...
    沈念sama閱讀 218,284評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異它掂,居然都是意外死亡巴帮,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,115評論 3 395
  • 文/潘曉璐 我一進(jìn)店門虐秋,熙熙樓的掌柜王于貴愁眉苦臉地迎上來榕茧,“玉大人,你說我怎么就攤上這事客给∮醚海” “怎么了?”我有些...
    開封第一講書人閱讀 164,614評論 0 354
  • 文/不壞的土叔 我叫張陵靶剑,是天一觀的道長蜻拨。 經(jīng)常有香客問我,道長桩引,這世上最難降的妖魔是什么缎讼? 我笑而不...
    開封第一講書人閱讀 58,671評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮阐污,結(jié)果婚禮上休涤,老公的妹妹穿的比我還像新娘。我一直安慰自己笛辟,他們只是感情好功氨,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,699評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著手幢,像睡著了一般捷凄。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上围来,一...
    開封第一講書人閱讀 51,562評論 1 305
  • 那天跺涤,我揣著相機(jī)與錄音,去河邊找鬼监透。 笑死桶错,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的胀蛮。 我是一名探鬼主播院刁,決...
    沈念sama閱讀 40,309評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼粪狼!你這毒婦竟也來了退腥?” 一聲冷哼從身側(cè)響起任岸,我...
    開封第一講書人閱讀 39,223評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎狡刘,沒想到半個月后享潜,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,668評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡嗅蔬,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,859評論 3 336
  • 正文 我和宋清朗相戀三年剑按,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片澜术。...
    茶點(diǎn)故事閱讀 39,981評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡吕座,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出瘪板,到底是詐尸還是另有隱情,我是刑警寧澤漆诽,帶...
    沈念sama閱讀 35,705評論 5 347
  • 正文 年R本政府宣布侮攀,位于F島的核電站,受9級特大地震影響厢拭,放射性物質(zhì)發(fā)生泄漏兰英。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,310評論 3 330
  • 文/蒙蒙 一供鸠、第九天 我趴在偏房一處隱蔽的房頂上張望畦贸。 院中可真熱鬧,春花似錦楞捂、人聲如沸薄坏。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,904評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽胶坠。三九已至,卻和暖如春繁堡,著一層夾襖步出監(jiān)牢的瞬間沈善,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,023評論 1 270
  • 我被黑心中介騙來泰國打工椭蹄, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留闻牡,地道東北人。 一個月前我還...
    沈念sama閱讀 48,146評論 3 370
  • 正文 我出身青樓绳矩,卻偏偏與公主長得像罩润,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子埋酬,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,933評論 2 355