信息熵
簡介
任何信息都存在冗余制恍,冗余大小與信息中每個符號的出現(xiàn)概率或者說不確定性有關(guān)父能。
信息熵用于解決對信息的量化度量問題,描述信源的不確定度吧趣。
香農(nóng)第一次用數(shù)學語言闡明了概率與信息冗余度的關(guān)系法竞。
基本內(nèi)容
通常一個信源發(fā)送出什么符號是不確定的耙厚,衡量它可以根據(jù)其出現(xiàn)的概率來度量,概率大岔霸,出現(xiàn)的機會多薛躬,不確定性小呆细;反之不確定性大型宝。
不確定函數(shù)f應該
1、滿足概率P的減函數(shù)絮爷。
2趴酣、兩個獨立符號所產(chǎn)生的不確定性應該等于各個不確定性之和,即f(P1,P2)=f(P1)+f(P2)坑夯,這稱為可加性岖寞。
同時滿足這兩個條件的函數(shù)f為對數(shù)函數(shù)。
eg.
由例子:
當未接收到任何信息時柜蜈,信息的不確定度為log(1/(1/8))=3bits
當收到一個0時候仗谆,已經(jīng)確定了一個bit,那么只有可能在x1~x4中淑履,此時不確定性變?yōu)閘og(1/(1/4))=2bits隶垮。3-2正好為1bit。
依此類推秘噪,當收到011時狸吞,已經(jīng)可以完全確定為x4,此時信息的不確定性為0指煎。
所以獲取信息就是我們消除不確定性蹋偏。
在信源中携丁,考慮的不是某一個單一符號發(fā)生的不確定性讯壶,而是考慮這個信源所有可能發(fā)生情況的平均不確定性。若信源符號有n種取值:U1,U2,U3……Un對應概率為:P1,P2,P3……Pn趁窃,各種符號出現(xiàn)彼此獨立崇渗。這時信源的平均不確定性應當為單個符號不確定性的統(tǒng)計平均值E字逗,則稱為信息熵。
式中對數(shù)一般取2為底宅广,單位為比特葫掉。但是也可以取其他對數(shù)為底,采用其他相應的單位跟狱,他們之間可用換底公式轉(zhuǎn)換俭厚。
舉例
最簡單的單符號信源僅取0和1兩個元素,即二元信源驶臊,其概率為P和Q=1-P挪挤,該信源的熵如圖叼丑。
直觀理解
好比海上有有一座燈塔,但是燈塔上的燈由于電線接觸不良扛门,亮和不亮是隨機的鸠信。如果燈塔上有人,就可以在燈滅的時候及時點亮论寨。此時燈塔就是一個信源星立,會出現(xiàn)下面的情況:
1、燈塔一直亮就代表塔上有人葬凳,燈塔一直不亮就代表塔上沒人绰垂。此時信息是確認的,所以信息熵為0.
2火焰、燈塔亮的頻率高劲装,說明有人的概率高。燈塔不亮的概率高荐健,說明沒人的概率高酱畅。當亮和不亮的幾率剛好都為0.5的時候,我們最難猜測燈塔上有沒有人江场。所以此時燈塔這個信源傳出的信息的不確定信是最高的,信息熵為1.
這與熱力學的熵是一致的窖逗,熵越大址否,越混亂,不確定程度越高碎紊。
離散信源的信息熵特性
1佑附、非負性:即收到一個信源符號所獲的的信息量應為正值。
2仗考、對稱性:對稱與P=0.5
3音同、確定性:H(1,0)=0,即P=0或P=1是確定狀態(tài)秃嗜,所得信息量為0
4权均、極值性:因H(U)是P上的上凸函數(shù),且一階導在P=0.5時等于0.所以P=0.5時H(U)最大锅锨。
(對于連續(xù)信源叽赊,香農(nóng)給出了形式上類似于離散信源的連續(xù)熵Hc(U),雖然連續(xù)熵仍具有可加性必搞,但不具有非負性必指。但是在表達信源差距時,仍然具有非負性恕洲,這與力學中勢能的定義相仿塔橡。)
熵率
引入背景
如果給定長度為n的隨機變量序列梅割,那么這個序列的熵隨n如何增長?所以引入熵率葛家。
定義
當以下極限存在時候炮捧,隨機過程{Xi}的熵率定義為:
eg
打字機可以等可能輸出m個字母,由此打字機產(chǎn)生長度為n的序列k惦银。
則序列k的信息熵
熵率為
該打字機的熵率為常數(shù)(即單個字符的信息熵)咆课,所以沒增加一個字符,他的熵增加量是恒定的扯俱。
(歸納:對于獨立同分布的隨機變量书蚪,熵率就等于其單個變量的熵)
條件熵
但是,對一些獨立但非同分布的隨機變量序列迅栅,因為對每個元素的熵是不相等的殊校,所以極限不存在。
此時可以定義熵率的一個相關(guān)量(如果下列極限存在):
H和H‘這兩個量反映了熵率概念的兩個不同方面读存。第一個量指的是n個隨機變量的每字符熵为流,第二個變量指在已知前面n-1隨機變量的情況下最后一個隨機變量的條件熵。
重要定理
定理1
對于平穩(wěn)隨機過程让簿,H與H’均存在極限敬察,并且相等。
定理2
對于平穩(wěn)隨機過程尔当,H‘存在極限莲祸,并隨n遞減。
譜熵(Spectral Entropy)
簡介
描述了功率譜和熵率之間的關(guān)系
實例
實例1 在白噪聲中檢測正弦信號
這是一段白噪聲椭迎,在中間加入了正弦信號锐帜。
對這段信號計算spectral entropy(譜熵),可以容易發(fā)現(xiàn)畜号,中間含有正弦信號的區(qū)域缴阎,譜熵明顯降低。這是因為正弦信號的信息的出現(xiàn)使得這段信號的不確定性下降了简软。
實例2 噪聲與語音信號的能量熵與譜熵
可以看出蛮拔,噪聲的信息不確定性要明顯高于語音信號。
KL Divergence
簡介
在概率論或者信息論中替饿,KL散度又稱為相對熵(relative entropy)语泽,是描述兩個概率分布P和Q差異的一種方法。它是非對稱的视卢,這意味著它是非對稱的踱卵,即D(P||Q) ≠ D(Q||P)。
特別的,在信息論中惋砂,D(P||Q)表示當用概率分布Q來擬合真實分布P時妒挎,會產(chǎn)生的信息損耗,其中P是真實分布西饵,Q表示P的擬合分布酝掩。
有人將KL散度稱為KL距離,但實際上眷柔,KL散度不滿足距離的概念:
1期虾、KL散度是非對稱的。
2驯嘱、KL散度不滿足三角不等式镶苞。
定義式
離散型
連續(xù)型
性質(zhì)
KLD是非負的。
直觀理解
將離散型KLD公式展開
可以看到這是兩個離散型的信息熵鞠评,而第一項用Q擬合P會產(chǎn)生信息損失茂蚓,那么信息的不確定性會增大,從而信息熵就會增大剃幌。所以第一項大于第二項聋涨。整體KLD為正。