1制妄、前言
??在研究機器學(xué)習(xí)一些算法原理時,經(jīng)常會出現(xiàn)各種有關(guān)信息論的概念(自信息泵三、互信息等)忍捡,此前已分享過一篇文章,但是相對簡單了一些切黔,本次將再進(jìn)一步分析各種相關(guān)概念。
2具篇、相關(guān)概念
2.1 自信息(信息量)
??“信息就是用來消除隨機不確定性的東西”----香農(nóng)纬霞。
??信息量是用來衡量一條消息(一個事件)發(fā)生后所帶來的信息大小,例如:太陽從東邊升起(一定會發(fā)生的事情驱显,所以信息量非常小诗芜,基本沒什么信息量),某地發(fā)生了地震(該事件發(fā)生的概率極小埃疫,所以其信息量很大)伏恐。
??一條消息(一個事件)所包含的信息量與這條消息(這個事件)能夠?qū)φ麄€系統(tǒng)消除的不確定性是正相關(guān)的。通俗說栓霜,一條消息的信息量越大翠桦,則對整個系統(tǒng)所消除的不確定性越大。信息量計算公式為:
注:公式中的負(fù)號是要保證信息為正,隨便一條消息一定不會有負(fù)的信息量销凑。
信息量有以下特性:
- (1)隨著事件發(fā)生概率的增加丛晌,其信息量在較少;
- (2)多個獨立事件同事發(fā)生斗幼,其總信息量等于各個信息量的和澎蛛。
2.2 熵(信息熵)
?? 熵用來描述一個事件的不確定性大小,表示某事件所有可能發(fā)生的情況的信息量的期望值(可以簡單理解為:所有可能情況信息量的均值)蜕窿,計算公式如下:
基本性質(zhì):
- (1)非負(fù)性:
谋逻,當(dāng)某事件是確定發(fā)生的事情,則其熵為0(太陽從東邊升起的信息熵為0)桐经;
- (2)某隨機變量每次發(fā)生的情況越不確定( 不確定性越大)毁兆,則其熵值越大,此時次询,該變量的分布也約混亂荧恍;
- (3)當(dāng)某事件對每種可能發(fā)生情況的概率是相等時,則其熵值最大屯吊;
例(來自周志華老師《機器學(xué)習(xí)》一書):
已知信息如下圖(Y表示好瓜或壞瓜):
則可得到以下熵值(以下公式中送巡,是確定X為某種顏色的情況下Y的熵值,并非條件熵):
2.3 聯(lián)合熵
??表示事件X與Y都發(fā)生時的熵值大泻行丁(本人理解:事件X與Y都發(fā)生能夠帶來多少信息量骗爆。如果理解有誤,希望留言指出蔽介,先謝過各位摘投。),計算公式如下:
2.4 條件熵
??表示在某事件發(fā)生的情況下虹蓄,另外一事件發(fā)生的熵值大小犀呼,(本人理解:某事件發(fā)生后,另外一事件發(fā)生可以帶來多少信息量薇组。如果理解有誤外臂,希望留言指出,先謝過各位律胀。)計算公式如下:
性質(zhì)1:
證明:
???
性質(zhì)2:
??下面借助網(wǎng)上一張圖锉屈,來說明聯(lián)合熵與條件熵的關(guān)系晃择。
左邊圓表示事件X發(fā)生時可以帶來的信息量
右邊圓表示事件Y發(fā)生時可以帶來的信息量
兩個圓總面積就是聯(lián)合分布,兩事件都發(fā)生可以帶來的信息
左邊圓減去兩個圓的交集部分赘艳,表示事件Y發(fā)生后事件X發(fā)生時可以帶來的信息量,也就是條件熵
兩個圓交集部分是互信息(下文將詳細(xì)介紹)
2.5 交叉熵
??在機器學(xué)習(xí)或深度學(xué)習(xí)中阔馋,經(jīng)常用交叉熵表示預(yù)測結(jié)果相對真實結(jié)果的錯誤程度,所以在模型訓(xùn)練時常作為損失函數(shù)娇掏。計算公式如下:
其中呕寝,表示隨機變量
的真實分布,
是預(yù)測結(jié)果的分布婴梧。結(jié)果越小下梢,則說明預(yù)測結(jié)果越接近真實結(jié)果。
這里引用網(wǎng)上一句概括:交叉熵塞蹭,用來高衡量在給定的真實分布下孽江,使用非真實分布指定的策略消除系統(tǒng)的不確定性所需要付出努力的大小。
2.6 相對熵(KL散度)
??相對熵用來衡量兩個概率分布之間的差異番电,計算公式如下:
從公式中可以看出岗屏,當(dāng)與
相等時,相對熵(KL散度)為0漱办。在深度學(xué)習(xí)訓(xùn)練(或者其他方法訓(xùn)練)過程中这刷,該值在不斷減小,多以也可將該值的減小作為訓(xùn)練的一個目標(biāo)娩井。
2.7 互信息
??互信息是指已知一個隨機變量后暇屋,另外一個變量信息量減少的程度,表示兩個分布之間的距離洞辣,計算公式如下:
所以咐刨,如果兩個變量的相關(guān)性(不一定是線性相關(guān)系)越大,則其互信息值越大扬霜,當(dāng)兩個變量完全獨立時定鸟,則其互信息為0
2.8 最大互信息系數(shù)(MIC)
??上面提到的互信息是針對離散變量,最大互信息系數(shù)則時對于連續(xù)變量著瓶,用于衡量兩個變量的線性或非線性的強度仔粥,計算公式為:
關(guān)于這部分內(nèi)容,這里推薦一篇好的博文
以上內(nèi)容如有理解不當(dāng)蟹但,請指出,謝謝谭羔!另华糖,文章中有些內(nèi)容來源于一些書籍或其他博客,這里就不一一列舉瘟裸,如有侵權(quán)客叉,請與我聯(lián)系刪除。