自信息, 信息熵, 互信息和K-L散度

香農(nóng)-信息論領(lǐng)域的牛頓

香農(nóng)一生發(fā)表的文章并不多浊吏,但是篇篇都是精品卡者。
Amethematical theory of communication通信的數(shù)學(xué)理論
第一篇文章中提出了比特(bit)的概念。比特究竟測(cè)量的是什么呢泼橘?香農(nóng)的回答是:用于測(cè)量信息的單位砰琢。在香農(nóng)眼里扣孟,信息是和長(zhǎng)度、重量這些物理量一樣瞬雹,是一種可以測(cè)量和規(guī)范的東西登失。由于對(duì)于通信系統(tǒng)而言,其傳遞的信息具有隨機(jī)性挖炬,所以定量描述信息應(yīng)基于隨機(jī)事件揽浙。香農(nóng)認(rèn)為,任何信息都存在冗余意敛,冗余的大小與信息中每個(gè)符號(hào)(數(shù)字馅巷、字母或者單詞)的出現(xiàn)概率或者不確定性相關(guān)。

比特和自信息

通常草姻,一個(gè)信號(hào)源發(fā)出什么符號(hào)是不確定的钓猬,衡量它可以根據(jù)其出現(xiàn)的概率來度量。概率大撩独,出現(xiàn)的機(jī)會(huì)多敞曹,不確定性小综膀;反之概率小澳迫,出現(xiàn)的機(jī)會(huì)少,不確定性大剧劝。在極限條件下橄登,一個(gè)信號(hào)源只發(fā)出一種符號(hào),即內(nèi)容是確定的,概率為100%.但是接收方無法從接收信號(hào)中獲得任何信息拢锹,即信息量為零谣妻。而反之,如果發(fā)送方和接收方約定卒稳,1代表二進(jìn)制的0,2代表二進(jìn)制的1蹋半,接收端可以通過接收到的信源符號(hào)獲取一定的信息。

再次充坑,較為不可能的時(shí)間具有更高的信息量湃窍。這個(gè)結(jié)合上一點(diǎn)很好理解。

最后匪傍,獨(dú)立事件應(yīng)該具有增量的信息您市。這一點(diǎn)有點(diǎn)和隨機(jī)變量的獨(dú)立性矛盾。每次獨(dú)立地投擲硬幣役衡,正面或者反面的概率是一樣的茵休,但是每次獨(dú)立事件帶來的信息是會(huì)變化的,例如投擲硬幣兩次正面朝上傳遞的信息量手蝎,應(yīng)該是一次正面朝上信息量的兩倍榕莺。

為了滿足上述三個(gè)性質(zhì),定義自信息(self-information):


image.png

式中的log表示自然對(duì)數(shù)棵介, I(x)的單位是奈特(nats)钉鸯。一奈特是以1/e的概率觀測(cè)到一個(gè)事件時(shí)獲得的信息量。如果用以2為底的對(duì)數(shù)邮辽,單位是比特(bit)或者香農(nóng)(shannons)唠雕。

香農(nóng)熵/信息熵

自信息只能處理單個(gè)的輸出,信息熵則可以定量描述信息的大小吨述。假設(shè)一個(gè)隨機(jī)事件發(fā)生概率Pi的概率函數(shù)為f(Pi)岩睁,該函數(shù)具有:

單調(diào)性:概率越大的事件,信息熵反而越小

非負(fù)性:f(pi)>=0

可加性:

事件X=x1,Y=y1同時(shí)發(fā)生揣云,其發(fā)生的概率為

p(X=x1,Y=y1)=p(x1)p(y1)

而f滿足:

f(p(X=x1,Y=y1))=f(p(x1))f(p(y1))

最后香農(nóng)在文獻(xiàn)[1]中從數(shù)學(xué)上證明了滿足上述性質(zhì)的函數(shù)具有唯一的形式捕儒,就是

離散形式為:

其中,K是一個(gè)正數(shù)邓夕。

這就是大名鼎鼎的信息熵(Informationentropy)/香農(nóng)熵(Shannonentropy)刘莹。

從定義公式來看,香農(nóng)熵可以理解為自信息的數(shù)學(xué)期望焚刚。那些接近確定性的分布点弯,香農(nóng)熵比較低,而越是接近平均分布的汪榔,香農(nóng)熵比較高蒲拉。這個(gè)和越不容易發(fā)生的事情信息越大這個(gè)基本思想是一致的。從這個(gè)角度看痴腌,信息可以看做是不確定性的衡量雌团,而信息熵就是對(duì)這種不確定性的數(shù)學(xué)描述。

信息熵不僅定量衡量了信息的大小士聪,并且為信息編碼提供了理論上的最優(yōu)值:使用的編碼平均碼長(zhǎng)度的理論下界就是信息熵锦援。或者說剥悟,信息熵就是數(shù)據(jù)壓縮的極限灵寺。

當(dāng)隨機(jī)變量x是連續(xù)的,香農(nóng)熵就被稱為微分熵(differentialentropy)

互信息

要講互信息区岗,就必須從隨機(jī)變量的獨(dú)立性說起略板。如果兩個(gè)隨機(jī)變量X和Y滿足:

P(X,Y)=P(X)P(Y)

則隨機(jī)變量獨(dú)立。其實(shí)慈缔,如果X叮称,Y獨(dú)立,也就是意味著已知X藐鹤,將不會(huì)對(duì)Y的分布產(chǎn)生任何的影響瓤檐,也就是說:

P(Y|X)=P(X,Y)/P(X)=P(X)P(Y)/P(X)=P(Y)

獨(dú)立性反映了已知X的情況下,Y的分布是否會(huì)改變娱节。獨(dú)立性可以表示出兩個(gè)隨機(jī)變量之間是否有關(guān)系挠蛉,但是不能刻畫它們關(guān)系的大小。這時(shí)就有必要引入互信息(MutualInformation)肄满∏垂牛互信息定義為:

image.png

I(X;Y)表示由X的引入,使得Y的不確定性減小的量.(證明及推導(dǎo)詳見2)

因而稠歉,如果X,Y的關(guān)系越密切讥电,I(X;Y)越大,I(X;Y)的最大值是H(Y)

K-L散度

互信息表明了兩個(gè)隨機(jī)變量的關(guān)系轧抗,特別是當(dāng)一種隨機(jī)變量引入時(shí)恩敌,另一個(gè)隨機(jī)變量不確定性減小的程度。但是如何衡量?jī)蓚€(gè)隨機(jī)變量分布是否相同呢横媚?

對(duì)于同一個(gè)隨機(jī)變量x纠炮,有兩個(gè)單獨(dú)的概率分布P(x)和Q(x),我們可以用KL散度(Kullback-Leiblerdivergence)來衡量這兩個(gè)分布之間的差異:

image.png

KL散度最重要的性質(zhì)是非負(fù)性灯蝴。對(duì)于離散型變量恢口,當(dāng)且僅當(dāng)P和Q是相同的分布情況下KL散度為零。對(duì)于連續(xù)型隨機(jī)變量穷躁,當(dāng)且僅當(dāng)P和Q是“幾乎處處”(almosteverywhere)相同的耕肩,KL散度為零。雖然KL散度常被用來衡量?jī)蓚€(gè)分布之間的距離,但是KL散度并不是真正的距離猿诸,因?yàn)樗遣粚?duì)稱的婚被,這從它的定義很容易看出。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末梳虽,一起剝皮案震驚了整個(gè)濱河市址芯,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌窜觉,老刑警劉巖谷炸,帶你破解...
    沈念sama閱讀 222,946評(píng)論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異禀挫,居然都是意外死亡旬陡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,336評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門语婴,熙熙樓的掌柜王于貴愁眉苦臉地迎上來季惩,“玉大人,你說我怎么就攤上這事腻格』埃” “怎么了?”我有些...
    開封第一講書人閱讀 169,716評(píng)論 0 364
  • 文/不壞的土叔 我叫張陵菜职,是天一觀的道長(zhǎng)青抛。 經(jīng)常有香客問我,道長(zhǎng)酬核,這世上最難降的妖魔是什么蜜另? 我笑而不...
    開封第一講書人閱讀 60,222評(píng)論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮嫡意,結(jié)果婚禮上举瑰,老公的妹妹穿的比我還像新娘。我一直安慰自己蔬螟,他們只是感情好此迅,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,223評(píng)論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著旧巾,像睡著了一般耸序。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上鲁猩,一...
    開封第一講書人閱讀 52,807評(píng)論 1 314
  • 那天坎怪,我揣著相機(jī)與錄音,去河邊找鬼廓握。 笑死搅窿,一個(gè)胖子當(dāng)著我的面吹牛嘁酿,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播男应,決...
    沈念sama閱讀 41,235評(píng)論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼闹司,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了殉了?” 一聲冷哼從身側(cè)響起开仰,我...
    開封第一講書人閱讀 40,189評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤拟枚,失蹤者是張志新(化名)和其女友劉穎薪铜,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體恩溅,經(jīng)...
    沈念sama閱讀 46,712評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡隔箍,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,775評(píng)論 3 343
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了脚乡。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蜒滩。...
    茶點(diǎn)故事閱讀 40,926評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖奶稠,靈堂內(nèi)的尸體忽然破棺而出俯艰,到底是詐尸還是另有隱情,我是刑警寧澤锌订,帶...
    沈念sama閱讀 36,580評(píng)論 5 351
  • 正文 年R本政府宣布竹握,位于F島的核電站,受9級(jí)特大地震影響辆飘,放射性物質(zhì)發(fā)生泄漏啦辐。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,259評(píng)論 3 336
  • 文/蒙蒙 一蜈项、第九天 我趴在偏房一處隱蔽的房頂上張望芹关。 院中可真熱鬧,春花似錦紧卒、人聲如沸侥衬。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,750評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)浇冰。三九已至,卻和暖如春聋亡,著一層夾襖步出監(jiān)牢的瞬間肘习,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,867評(píng)論 1 274
  • 我被黑心中介騙來泰國(guó)打工坡倔, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留漂佩,地道東北人脖含。 一個(gè)月前我還...
    沈念sama閱讀 49,368評(píng)論 3 379
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像投蝉,于是被迫代替她去往敵國(guó)和親养葵。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,930評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容