前提
信息?指音訊蒋失、信息、通訊系統(tǒng)傳輸和處理的對象桐玻,泛指人類社會傳播的一切內(nèi)容篙挽。獲取信息的主要方法是六何法。
信息可以減少事件的不確定性镊靴。
因?yàn)樾畔⒎从呈挛飪?nèi)部的屬性铣卡、狀態(tài)、結(jié)構(gòu)偏竟、相互聯(lián)系以及與外部環(huán)境的互動關(guān)系煮落,從而減少事件的不確定。
信息的現(xiàn)代定義:
- 信息是物質(zhì)踊谋、能量蝉仇、訊息及其屬性的標(biāo)示;
- 信息是確定性的增加殖蚕;
- 信息是事物現(xiàn)象及其屬性標(biāo)識的集合轿衔。
信息量?用于度量事件的不確定性。
事件的發(fā)生具有不確定性睦疫,這種不確定性蘊(yùn)含了信息呀枢,我們想對這些信息進(jìn)行度量,因此引入了信息量笼痛。
不確定事件的發(fā)生使用概率描述。因此,信息量的定義為事件發(fā)生概率的負(fù)對數(shù)缨伊。
(1)式事件發(fā)生的信息量摘刑,其中
為事件發(fā)生的概率。
其中是離散隨機(jī)變量刻坊,取值空間為
枷恕。
為什么信息量的統(tǒng)計(jì)特征描述為概率的負(fù)對數(shù)形式?這是由信息量和不確定性的特點(diǎn)決定的谭胚。信息量有以下特點(diǎn):
- 事件的不確定性越大徐块,信息量越小,反之信息量越大灾而;
- 當(dāng)事件的不確定性為0時胡控,即事件發(fā)生的概率為1,那么信息量為0旁趟;
- 信息量等于組成信息的子信息的信息量之和昼激。
根據(jù)上述特點(diǎn),如果使用數(shù)學(xué)上的對數(shù)函數(shù)來表示信息量锡搜,正好可以表示信息量和事件發(fā)生概率之間的關(guān)系橙困。
信息熵?用于度量信息包含的信息量。
盡管我們使用信息量來量化事件的不確定性耕餐,但是我們?nèi)匀徊磺宄畔⑺男畔⒘糠哺怠R驗(yàn)槭录陌l(fā)生具有不確定性,其取值是一個隨機(jī)變量肠缔,我們很難準(zhǔn)確描述一次事件發(fā)生的概率夏跷。很自然地,我們引入期望的概念桩砰,使用期望來描述事件發(fā)生的概率拓春。對于信息而言,我們不清楚信息到底有多少亚隅,但同樣通過期望的方式得到信息的統(tǒng)計(jì)度量硼莽。
其中是信息量。
信息熵是事件不確定性的度量煮纵。
相對熵
相對熵行疏,又稱KL散度(Kullback-Leibler divergence)匆光,是兩個概率分布和
之間的差異的非對稱性的度量。
在信息論中酿联,相對熵等價(jià)于兩個概率分布的信息熵的差值终息。
定義?假設(shè)夺巩,
是隨機(jī)變量
上的兩個概率分布,在離散情況下周崭,相對熵的定義如下柳譬。
和信息熵的聯(lián)系
將(4)式展開。
上式表明续镇,表示在真實(shí)分布為
的前提下美澳,使用
分布進(jìn)行編碼相對于使用真實(shí)分布
進(jìn)行編碼所需的額外的平均比特?cái)?shù)。
因此摸航,相對熵可以作為一些優(yōu)化算法的損失函數(shù)制跟,如最大期望算法(Wiki,Baike)酱虎。此時雨膨,參與計(jì)算的一個概率分布為真實(shí)分布,另一個為擬合分布逢净,相對熵表示使用理論分布擬合真實(shí)分布時產(chǎn)生的信息損失哥放。
交叉熵
交叉熵是Shannon信息論中的一個重要概念,主要用于度量兩個概率分布間的差異性信息爹土。
在信息論中甥雕,交叉熵表示兩個概率分布
,其中
表示真實(shí)分布胀茵,
表示擬合分布社露。在同一組事件中,其中用擬合分布
來表示某個事件發(fā)生所需要的平均比特?cái)?shù)琼娘。
定義?假設(shè)有兩個分布峭弟,
,
相對于
的交叉熵定義為:
交叉熵的含義是使用擬合分布進(jìn)行編碼的期望平均長度脱拼。
期望為什么基于瞒瘸??在信息論中,樣本集的真實(shí)分布為
熄浓,那么真實(shí)編碼長度為
情臭,但真實(shí)分布未知的情況下,使用了錯誤分布
來編碼赌蔑,因此交叉熵可以看作每個信息片段在錯誤分布
下的期望編碼長度俯在,這就是期望
基于
而不是
的原因。
應(yīng)用
-
交叉熵可在神經(jīng)網(wǎng)絡(luò)中作為損失函數(shù)娃惯,
表示真實(shí)標(biāo)簽的分布跷乐,
表示訓(xùn)練模型的預(yù)測標(biāo)簽分布,交叉熵?fù)p失函數(shù)可以衡量
與
的相似性趾浅。
交叉熵作為損失函數(shù)的一個好處:
? 使用sigmoid函數(shù)在梯度下降時能避免均方誤差損失函數(shù)學(xué)習(xí)速度降低的問題愕提,因?yàn)閷W(xué)習(xí)速率可以被輸出的誤差所控制馒稍。
-
在語言模型中,我們基于訓(xùn)練集
創(chuàng)建了一個語言模型揪荣,而在測試集上通過其交叉熵來評估模型的準(zhǔn)確率筷黔。
其中,
是語料中詞匯的真實(shí)分布仗颈,而
是我們獲得的語言模型預(yù)測的詞匯分布。
由于真實(shí)分布是未知的椎例,我們不能直接計(jì)算交叉熵挨决。在這種情況下,我們可以通過下式估計(jì)交叉熵:
其中是測試集大小订歪,
是在訓(xùn)練集上估計(jì)的事件
發(fā)生的概率脖祈。
我們假設(shè)訓(xùn)練集是從
的真實(shí)采樣,則此方法獲得的是真實(shí)交叉熵的蒙特卡洛估計(jì)刷晋。
相對熵 vs 交叉熵
我們展開交叉熵定義盖高,得到下式:
其中,是分布
的信息熵眼虱,
是
相對于
的相對熵喻奥。由此可知,交叉熵和相對熵僅相差了一個
捏悬。當(dāng)
已知時撞蚕,
是一個常數(shù),那么交叉熵在行為上退化為相對熵过牙,兩者是等價(jià)的甥厦,都反映了分布
的相似程度。最小化交叉熵等價(jià)于最小化KL距離寇钉,它們都在
下取得最小值刀疙。
特別的,在邏輯回歸中
p: 真實(shí)樣本分布扫倡,服從參數(shù)為
的0-1分布谦秧,即
q: 待估計(jì)的模型,服從參數(shù)為
的0-1分布镊辕,即
兩者的交叉熵為:
對所有樣本取均值油够,得到
這個結(jié)果與通過最大似然估計(jì)方法求出的結(jié)果一致。
在實(shí)際神經(jīng)網(wǎng)絡(luò)中征懈,對于某個樣本進(jìn)行分類預(yù)測時石咬,預(yù)測值和真實(shí)值都服從0-1分布,相關(guān)推導(dǎo)可以參考卖哎。