保留初心,砥礪前行
這一章節(jié)講解的是關(guān)于信息的某些度量蔫磨。
我們常常說信息很多淘讥,或者信息較少,但卻很難說清楚信息到底有多少堤如。......直到1948年蒲列,Shannon在他著名的論文“通信的數(shù)學(xué)原理”中提出了“信息熵”的概念窒朋,才解決了信息的度量問題,并且量化出信息的作用蝗岖。
-
信息熵
首先侥猩,我們可以記住的是,信息熵一般使用符號(hào)H來表示抵赢,單位是比特欺劳。接下來,看一個(gè)書中給出的例子:
當(dāng)我錯(cuò)過了上一屆世界杯的比賽瓣俯,而想知道誰奪得冠軍時(shí)杰标,我詢問一個(gè)知道比賽結(jié)果的觀眾。但是他并不愿意直接告訴我彩匕,而是讓我猜測(cè)腔剂,每猜一次他要收費(fèi)1元來告訴我,我的猜測(cè)是否正確驼仪。那么我要花多少錢才能知道誰是冠軍呢掸犬?
我可以把球隊(duì)編號(hào),1到32號(hào)(當(dāng)然大家都知道世界杯是32支球隊(duì)绪爸,然而過幾年變成48支的時(shí)候我會(huì)回來修改的)然后我提問:“是在1到16號(hào)中嗎湾碎?”。如果他告訴我猜對(duì)了奠货,我會(huì)繼續(xù)問:“是在1到8號(hào)中嗎介褥?”。這種詢問方式大家都懂递惋,因此這樣詢問下去柔滔,只需要5次,也就是只需要5元錢就可以知道哪支球隊(duì)是冠軍萍虽。因此睛廊,世界杯冠軍這條消息的信息量可以看做是5元錢。
我們回到數(shù)學(xué)上的問題杉编,使用比特來代替錢的概念(計(jì)算機(jī)中超全,一個(gè)比特是一位二進(jìn)制數(shù),一個(gè)字節(jié)就是8個(gè)比特)邓馒,這條信息的信息量是5比特嘶朱。如果有64支隊(duì)伍,就要多猜一次绒净,也就是6比特见咒。log232 = 5,log264 = 6
以上是在所有隊(duì)伍的奪冠可能性相同的情況下的計(jì)算方法挂疆,一般化來說改览,對(duì)于任何一個(gè)隨機(jī)變量X,他的信息量缤言,也就是信息熵如下:
H(X) = -∑P(x)logP(x)
變量X的不確定性越大宝当,信息熵也就越大。也就是說胆萧,如果要把這件事搞清楚庆揩,所需要知道的信息量就越多。換句話說跌穗,信息熵就是信息的不確定性订晌。
可以結(jié)合世界杯的例子進(jìn)行理解,參與的球隊(duì)越多蚌吸,需要猜測(cè)的次數(shù)就越多锈拨,32到64支,奪冠的不確定性變大羹唠,猜測(cè)次數(shù)由5次到6次奕枢,信息熵也就越大。
-
條件熵
一個(gè)事物內(nèi)部會(huì)存在隨機(jī)性 佩微,也就是不確定性(信息熵)缝彬,假定為U,而消除這個(gè)不確定性的唯一的辦法就是引入相關(guān)的信息I哺眯,并且引入的信息I要大于U才可以谷浅。如果I<U,則這些加入的信息只能消除一部分不確定性奶卓,不能完全消除不確定性:
U' = U - I
如果要證明為什么這些相關(guān)的信息可以消除信息的不確定性一疯,為此要引入一個(gè)新的概念,條件熵寝杖。
上文中講到了信息熵违施,在知道某個(gè)隨機(jī)變量X和它的隨機(jī)分布后,就可以計(jì)算得到它的信息熵瑟幕。
假設(shè)我們現(xiàn)在還知道另一個(gè)隨機(jī)變量Y的情況磕蒲,包括它和X一起出現(xiàn)的概率,也就是X和Y的聯(lián)合概率分布只盹;以及在Y取值的前提下辣往,X的概率分布,也就是條件概率分布殖卑。則可以定義在Y的條件下的條件熵為:
H(X|Y) = -∑P(x,y)logP(x|y)
以上的條件熵可以理解為站削,在知道了某些信息Y之后,X的信息熵是多少孵稽。H(X) >= H(X|Y)许起,因?yàn)樵谥懒艘恍℡的信息之后十偶,X的信息熵比只知道X的情況下下降了。也就是說與X相關(guān)的信息Y园细,消除了信息X的不確定性惦积。正如本節(jié)第一句話所言,相關(guān)的信息可以消除信息的不確定性猛频。
-
互信息
Shannon在信息論中提出了互信息的概念作為兩個(gè)隨機(jī)事件相關(guān)性的量化度量狮崩。
互信息就是表示兩個(gè)隨機(jī)事件的相關(guān)性。
它有一個(gè)看上去不知所云的表達(dá)式I(X;Y) = ∑P(x,y)log(p(x,y)/(P(x)P(y)))
上邊這個(gè)公式看看就好鹿寻,接下來要理解的是:
I(X;Y) = H(X) - H(X|Y)
所謂的互信息睦柴,就是信息熵與條件熵相減。通俗來說毡熏,信息熵是要了解事件X所要知道的信息量(也就是X的不確定性)坦敌,減去在知道了Y之后仍然不確定的事,就得到了知道Y后可以確定的關(guān)于X的信息招刹,也就是X與Y的相關(guān)性恬试。
當(dāng)X與Y完全相關(guān)時(shí),I(X;Y) 為1疯暑;當(dāng)他們完全不相關(guān)時(shí)训柴,I(X;Y) 為0。其余情況取值在0和1之間妇拯。
-
交叉熵(相對(duì)熵)
前面已經(jīng)介紹了信息熵和互信息幻馁,它們是信息論的基礎(chǔ),而信息論則在自然語言處理中扮演著指導(dǎo)性的角色越锈。
交叉熵也用來衡量相關(guān)性仗嗦,但和變量的互信息不同,它用來衡量?jī)蓚€(gè)取值為正數(shù)的函數(shù)的相似性甘凭。互信息:X與Y的相關(guān)性稀拐,兩者是否有關(guān)系,有多少關(guān)系丹弱。
交叉熵德撬,X與Y的相似性,它們兩個(gè)是否相同躲胳。交叉熵的定義如下:
KL(f(x)||g(x)) = ∑f(x)·log(f(x)/g(x))
同時(shí)蜓洪,存在以下三條結(jié)論:
- 對(duì)于兩個(gè)完全相同的函數(shù),它們的交叉熵等于0.
- 交叉熵越大坯苹,兩個(gè)函數(shù)差異越大隆檀;交叉熵越小,兩個(gè)函數(shù)差異越小。
- 對(duì)于概率分布或概率密度函數(shù)恐仑,如果取值均大于0泉坐,交叉熵可以度量?jī)蓚€(gè)隨機(jī)分布的差異性。(關(guān)于這條菊霜,大神們可以在評(píng)論區(qū)解釋一下嗎坚冀?)