直觀理解-信息熵&KL Divergence

信息熵

簡介

任何信息都存在冗余制恍,冗余大小與信息中每個符號的出現(xiàn)概率或者說不確定性有關(guān)父能。

信息熵用于解決對信息的量化度量問題,描述信源的不確定度吧趣。

香農(nóng)第一次用數(shù)學語言闡明了概率與信息冗余度的關(guān)系法竞。

基本內(nèi)容

通常一個信源發(fā)送出什么符號是不確定的耙厚,衡量它可以根據(jù)其出現(xiàn)的概率來度量,概率大岔霸,出現(xiàn)的機會多薛躬,不確定性小呆细;反之不確定性大型宝。

不確定函數(shù)f應該

1、滿足概率P的減函數(shù)絮爷。

2趴酣、兩個獨立符號所產(chǎn)生的不確定性應該等于各個不確定性之和,即f(P1,P2)=f(P1)+f(P2)坑夯,這稱為可加性岖寞。

同時滿足這兩個條件的函數(shù)f為對數(shù)函數(shù)。

eg.


image-20191129111408258.png

由例子:

  • 當未接收到任何信息時柜蜈,信息的不確定度為log(1/(1/8))=3bits

  • 當收到一個0時候仗谆,已經(jīng)確定了一個bit,那么只有可能在x1~x4中淑履,此時不確定性變?yōu)閘og(1/(1/4))=2bits隶垮。3-2正好為1bit。

  • 依此類推秘噪,當收到011時狸吞,已經(jīng)可以完全確定為x4,此時信息的不確定性為0指煎。

所以獲取信息就是我們消除不確定性蹋偏。

在信源中携丁,考慮的不是某一個單一符號發(fā)生的不確定性讯壶,而是考慮這個信源所有可能發(fā)生情況的平均不確定性。若信源符號有n種取值:U1,U2,U3……Un對應概率為:P1,P2,P3……Pn趁窃,各種符號出現(xiàn)彼此獨立崇渗。這時信源的平均不確定性應當為單個符號不確定性的統(tǒng)計平均值E字逗,則稱為信息熵

式中對數(shù)一般取2為底宅广,單位為比特葫掉。但是也可以取其他對數(shù)為底,采用其他相應的單位跟狱,他們之間可用換底公式轉(zhuǎn)換俭厚。

舉例

最簡單的單符號信源僅取0和1兩個元素,即二元信源驶臊,其概率為P和Q=1-P挪挤,該信源的熵如圖叼丑。

直觀理解

好比海上有有一座燈塔,但是燈塔上的燈由于電線接觸不良扛门,亮和不亮是隨機的鸠信。如果燈塔上有人,就可以在燈滅的時候及時點亮论寨。此時燈塔就是一個信源星立,會出現(xiàn)下面的情況:

1、燈塔一直亮就代表塔上有人葬凳,燈塔一直不亮就代表塔上沒人绰垂。此時信息是確認的,所以信息熵為0.

2火焰、燈塔亮的頻率高劲装,說明有人的概率高。燈塔不亮的概率高荐健,說明沒人的概率高酱畅。當亮和不亮的幾率剛好都為0.5的時候,我們最難猜測燈塔上有沒有人江场。所以此時燈塔這個信源傳出的信息的不確定信是最高的,信息熵為1.

這與熱力學的熵是一致的窖逗,熵越大址否,越混亂,不確定程度越高碎紊。

離散信源的信息熵特性

1佑附、非負性:即收到一個信源符號所獲的的信息量應為正值。

2仗考、對稱性:對稱與P=0.5

3音同、確定性:H(1,0)=0,即P=0或P=1是確定狀態(tài)秃嗜,所得信息量為0

4权均、極值性:因H(U)是P上的上凸函數(shù),且一階導在P=0.5時等于0.所以P=0.5時H(U)最大锅锨。

(對于連續(xù)信源叽赊,香農(nóng)給出了形式上類似于離散信源的連續(xù)熵Hc(U),雖然連續(xù)熵仍具有可加性必搞,但不具有非負性必指。但是在表達信源差距時,仍然具有非負性恕洲,這與力學中勢能的定義相仿塔橡。)

信息熵參考文獻

熵率

引入背景

如果給定長度為n的隨機變量序列梅割,那么這個序列的熵隨n如何增長?所以引入熵率葛家。

定義

當以下極限存在時候炮捧,隨機過程{Xi}的熵率定義為:


eg

打字機可以等可能輸出m個字母,由此打字機產(chǎn)生長度為n的序列k惦银。

則序列k的信息熵

熵率

該打字機的熵率為常數(shù)(即單個字符的信息熵)咆课,所以沒增加一個字符,他的熵增加量是恒定的扯俱。

歸納:對于獨立同分布的隨機變量书蚪,熵率就等于其單個變量的熵)

條件熵

但是,對一些獨立但非同分布的隨機變量序列迅栅,因為對每個元素的熵是不相等的殊校,所以極限不存在。

此時可以定義熵率的一個相關(guān)量(如果下列極限存在):


H和H‘這兩個量反映了熵率概念的兩個不同方面读存。第一個量指的是n個隨機變量的每字符熵为流,第二個變量指在已知前面n-1隨機變量的情況下最后一個隨機變量的條件熵。

重要定理

定理1

對于平穩(wěn)隨機過程让簿,H與H’均存在極限敬察,并且相等。

定理2

對于平穩(wěn)隨機過程尔当,H‘存在極限莲祸,并隨n遞減。

譜熵(Spectral Entropy)

簡介

描述了功率譜和熵率之間的關(guān)系

實例

實例1 在白噪聲中檢測正弦信號

這是一段白噪聲椭迎,在中間加入了正弦信號锐帜。


對這段信號計算spectral entropy(譜熵),可以容易發(fā)現(xiàn)畜号,中間含有正弦信號的區(qū)域缴阎,譜熵明顯降低。這是因為正弦信號的信息的出現(xiàn)使得這段信號的不確定性下降了简软。


參考資料:matlab求熵函數(shù)官方文檔

實例2 噪聲與語音信號的能量熵與譜熵

可以看出蛮拔,噪聲的信息不確定性要明顯高于語音信號。


KL Divergence

簡介

在概率論或者信息論中替饿,KL散度又稱為相對熵(relative entropy)语泽,是描述兩個概率分布P和Q差異的一種方法。它是非對稱的视卢,這意味著它是非對稱的踱卵,即D(P||Q) ≠ D(Q||P)。

特別的,在信息論中惋砂,D(P||Q)表示當用概率分布Q來擬合真實分布P時妒挎,會產(chǎn)生的信息損耗,其中P是真實分布西饵,Q表示P的擬合分布酝掩。

有人將KL散度稱為KL距離,但實際上眷柔,KL散度不滿足距離的概念:

1期虾、KL散度是非對稱的。

2驯嘱、KL散度不滿足三角不等式镶苞。

定義式

離散型

連續(xù)型

性質(zhì)

KLD是非負的。

直觀理解

將離散型KLD公式展開


可以看到這是兩個離散型的信息熵鞠评,而第一項用Q擬合P會產(chǎn)生信息損失茂蚓,那么信息的不確定性會增大,從而信息熵就會增大剃幌。所以第一項大于第二項聋涨。整體KLD為正。

參考資料-KL散度

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末负乡,一起剝皮案震驚了整個濱河市牍白,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌敬鬓,老刑警劉巖淹朋,帶你破解...
    沈念sama閱讀 217,542評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異钉答,居然都是意外死亡,警方通過查閱死者的電腦和手機杈抢,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評論 3 394
  • 文/潘曉璐 我一進店門数尿,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人惶楼,你說我怎么就攤上這事右蹦。” “怎么了歼捐?”我有些...
    開封第一講書人閱讀 163,912評論 0 354
  • 文/不壞的土叔 我叫張陵何陆,是天一觀的道長。 經(jīng)常有香客問我豹储,道長贷盲,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,449評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮巩剖,結(jié)果婚禮上铝穷,老公的妹妹穿的比我還像新娘。我一直安慰自己佳魔,他們只是感情好曙聂,可當我...
    茶點故事閱讀 67,500評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著鞠鲜,像睡著了一般宁脊。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上贤姆,一...
    開封第一講書人閱讀 51,370評論 1 302
  • 那天榆苞,我揣著相機與錄音,去河邊找鬼庐氮。 笑死语稠,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的弄砍。 我是一名探鬼主播仙畦,決...
    沈念sama閱讀 40,193評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼音婶!你這毒婦竟也來了慨畸?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,074評論 0 276
  • 序言:老撾萬榮一對情侶失蹤衣式,失蹤者是張志新(化名)和其女友劉穎寸士,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體碴卧,經(jīng)...
    沈念sama閱讀 45,505評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡弱卡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,722評論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了住册。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片婶博。...
    茶點故事閱讀 39,841評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖荧飞,靈堂內(nèi)的尸體忽然破棺而出凡人,到底是詐尸還是另有隱情,我是刑警寧澤叹阔,帶...
    沈念sama閱讀 35,569評論 5 345
  • 正文 年R本政府宣布挠轴,位于F島的核電站,受9級特大地震影響耳幢,放射性物質(zhì)發(fā)生泄漏岸晦。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,168評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望委煤。 院中可真熱鬧堂油,春花似錦、人聲如沸碧绞。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,783評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽讥邻。三九已至迫靖,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間兴使,已是汗流浹背系宜。 一陣腳步聲響...
    開封第一講書人閱讀 32,918評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留发魄,地道東北人盹牧。 一個月前我還...
    沈念sama閱讀 47,962評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像励幼,于是被迫代替她去往敵國和親汰寓。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,781評論 2 354