香農(nóng)-信息論領(lǐng)域的牛頓
香農(nóng)一生發(fā)表的文章并不多浊吏,但是篇篇都是精品卡者。
Amethematical theory of communication通信的數(shù)學(xué)理論
第一篇文章中提出了比特(bit)的概念。比特究竟測(cè)量的是什么呢泼橘?香農(nóng)的回答是:用于測(cè)量信息的單位砰琢。在香農(nóng)眼里扣孟,信息是和長(zhǎng)度、重量這些物理量一樣瞬雹,是一種可以測(cè)量和規(guī)范的東西登失。由于對(duì)于通信系統(tǒng)而言,其傳遞的信息具有隨機(jī)性挖炬,所以定量描述信息應(yīng)基于隨機(jī)事件揽浙。香農(nóng)認(rèn)為,任何信息都存在冗余意敛,冗余的大小與信息中每個(gè)符號(hào)(數(shù)字馅巷、字母或者單詞)的出現(xiàn)概率或者不確定性相關(guān)。
比特和自信息
通常草姻,一個(gè)信號(hào)源發(fā)出什么符號(hào)是不確定的钓猬,衡量它可以根據(jù)其出現(xiàn)的概率來度量。概率大撩独,出現(xiàn)的機(jī)會(huì)多敞曹,不確定性小综膀;反之概率小澳迫,出現(xiàn)的機(jī)會(huì)少,不確定性大剧劝。在極限條件下橄登,一個(gè)信號(hào)源只發(fā)出一種符號(hào),即內(nèi)容是確定的,概率為100%.但是接收方無法從接收信號(hào)中獲得任何信息拢锹,即信息量為零谣妻。而反之,如果發(fā)送方和接收方約定卒稳,1代表二進(jìn)制的0,2代表二進(jìn)制的1蹋半,接收端可以通過接收到的信源符號(hào)獲取一定的信息。
再次充坑,較為不可能的時(shí)間具有更高的信息量湃窍。這個(gè)結(jié)合上一點(diǎn)很好理解。
最后匪傍,獨(dú)立事件應(yīng)該具有增量的信息您市。這一點(diǎn)有點(diǎn)和隨機(jī)變量的獨(dú)立性矛盾。每次獨(dú)立地投擲硬幣役衡,正面或者反面的概率是一樣的茵休,但是每次獨(dú)立事件帶來的信息是會(huì)變化的,例如投擲硬幣兩次正面朝上傳遞的信息量手蝎,應(yīng)該是一次正面朝上信息量的兩倍榕莺。
為了滿足上述三個(gè)性質(zhì),定義自信息(self-information):
式中的log表示自然對(duì)數(shù)棵介, I(x)的單位是奈特(nats)钉鸯。一奈特是以1/e的概率觀測(cè)到一個(gè)事件時(shí)獲得的信息量。如果用以2為底的對(duì)數(shù)邮辽,單位是比特(bit)或者香農(nóng)(shannons)唠雕。
香農(nóng)熵/信息熵
自信息只能處理單個(gè)的輸出,信息熵則可以定量描述信息的大小吨述。假設(shè)一個(gè)隨機(jī)事件發(fā)生概率Pi的概率函數(shù)為f(Pi)岩睁,該函數(shù)具有:
單調(diào)性:概率越大的事件,信息熵反而越小
非負(fù)性:f(pi)>=0
可加性:
事件X=x1,Y=y1同時(shí)發(fā)生揣云,其發(fā)生的概率為
p(X=x1,Y=y1)=p(x1)p(y1)
而f滿足:
f(p(X=x1,Y=y1))=f(p(x1))f(p(y1))
最后香農(nóng)在文獻(xiàn)[1]中從數(shù)學(xué)上證明了滿足上述性質(zhì)的函數(shù)具有唯一的形式捕儒,就是
離散形式為:
其中,K是一個(gè)正數(shù)邓夕。
這就是大名鼎鼎的信息熵(Informationentropy)/香農(nóng)熵(Shannonentropy)刘莹。
從定義公式來看,香農(nóng)熵可以理解為自信息的數(shù)學(xué)期望焚刚。那些接近確定性的分布点弯,香農(nóng)熵比較低,而越是接近平均分布的汪榔,香農(nóng)熵比較高蒲拉。這個(gè)和越不容易發(fā)生的事情信息越大這個(gè)基本思想是一致的。從這個(gè)角度看痴腌,信息可以看做是不確定性的衡量雌团,而信息熵就是對(duì)這種不確定性的數(shù)學(xué)描述。
信息熵不僅定量衡量了信息的大小士聪,并且為信息編碼提供了理論上的最優(yōu)值:使用的編碼平均碼長(zhǎng)度的理論下界就是信息熵锦援。或者說剥悟,信息熵就是數(shù)據(jù)壓縮的極限灵寺。
當(dāng)隨機(jī)變量x是連續(xù)的,香農(nóng)熵就被稱為微分熵(differentialentropy)
互信息
要講互信息区岗,就必須從隨機(jī)變量的獨(dú)立性說起略板。如果兩個(gè)隨機(jī)變量X和Y滿足:
P(X,Y)=P(X)P(Y)
則隨機(jī)變量獨(dú)立。其實(shí)慈缔,如果X叮称,Y獨(dú)立,也就是意味著已知X藐鹤,將不會(huì)對(duì)Y的分布產(chǎn)生任何的影響瓤檐,也就是說:
P(Y|X)=P(X,Y)/P(X)=P(X)P(Y)/P(X)=P(Y)
獨(dú)立性反映了已知X的情況下,Y的分布是否會(huì)改變娱节。獨(dú)立性可以表示出兩個(gè)隨機(jī)變量之間是否有關(guān)系挠蛉,但是不能刻畫它們關(guān)系的大小。這時(shí)就有必要引入互信息(MutualInformation)肄满∏垂牛互信息定義為:
I(X;Y)表示由X的引入,使得Y的不確定性減小的量.(證明及推導(dǎo)詳見2)
因而稠歉,如果X,Y的關(guān)系越密切讥电,I(X;Y)越大,I(X;Y)的最大值是H(Y)
K-L散度
互信息表明了兩個(gè)隨機(jī)變量的關(guān)系轧抗,特別是當(dāng)一種隨機(jī)變量引入時(shí)恩敌,另一個(gè)隨機(jī)變量不確定性減小的程度。但是如何衡量?jī)蓚€(gè)隨機(jī)變量分布是否相同呢横媚?
對(duì)于同一個(gè)隨機(jī)變量x纠炮,有兩個(gè)單獨(dú)的概率分布P(x)和Q(x),我們可以用KL散度(Kullback-Leiblerdivergence)來衡量這兩個(gè)分布之間的差異:
KL散度最重要的性質(zhì)是非負(fù)性灯蝴。對(duì)于離散型變量恢口,當(dāng)且僅當(dāng)P和Q是相同的分布情況下KL散度為零。對(duì)于連續(xù)型隨機(jī)變量穷躁,當(dāng)且僅當(dāng)P和Q是“幾乎處處”(almosteverywhere)相同的耕肩,KL散度為零。雖然KL散度常被用來衡量?jī)蓚€(gè)分布之間的距離,但是KL散度并不是真正的距離猿诸,因?yàn)樗遣粚?duì)稱的婚被,這從它的定義很容易看出。