信息熵相關(guān)知識總結(jié)

前言

學(xué)習(xí)決策樹時會接觸到一些信息熵,條件熵和信息增益的知識,此外還有互信息,相對熵,交叉熵和互信息,KL散度等等亂七八糟的知識和名字,我本人已經(jīng)記得大腦混亂了,還沒有全部記住,所以在這里記錄一下.

1.信息熵:信息的度量,信息的不確定程度,是亂七八糟熵的基礎(chǔ).吳軍大大的數(shù)學(xué)之美中用了猜球隊(duì)冠軍的方式引出了信息熵的概念.我覺得這種方法印象很深刻,所以在這里提出一下.如果有32支球隊(duì),使用二分查找法去猜哪支球隊(duì)是冠軍,如:冠軍在1-16號球隊(duì)內(nèi).這樣一共需要猜5次就可以找到結(jié)果,也就是log32=5,但是某些球隊(duì)的獲勝率大一些,所以它的準(zhǔn)確信息量的表示應(yīng)該如下:

圖1

香農(nóng)就稱它為信息熵,表示信息的不確定程度,不確定性越大,信息熵也就越大.圖1中的p(x)表示隨機(jī)變量x的概率.信息熵
H(x)的取值范圍:0<=H(x)<=logn,其中n是隨機(jī)變量x取值的種類數(shù).

2.條件熵:有兩個隨機(jī)變量X和Y,在已知Y的情況下,求X的信息熵稱之為條件熵:

圖2

其中p(x|y)是已知y求x的條件概率.p(x,y)是聯(lián)合概率.

3.信息增益:表示在確定某條件Y后,隨機(jī)變量X的信息不確定性減少的程度.也稱為互信息(Mutual Information).

圖3

它的取值是0到min(H(x),H(y))之間的數(shù)值.取值為0時,表示兩個事件X和Y完全不相關(guān).在決策樹中算法中,ID3算法就是使用信息增益來劃分特征.在某個特征條件下,求數(shù)據(jù)的信息增益,信息增益大的特征,說明對數(shù)據(jù)劃分幫助很大,優(yōu)先選擇該特征進(jìn)行決策樹的劃分,這就是ID3算法.

4.信息增益比(率):信息增益比是信息增益的進(jìn)化版,用于解決信息增益對屬性選擇取值較多的問題,信息增益率為信息增益與該特征的信息熵之比.在決策樹中算法中,C4.5算法就是使用信息增益比來劃分特征.公式如下:

圖4

信息熵,條件熵和互信息的關(guān)系:

圖5

注:圖片取自不同地方,所以符號表示不同,請自行對照,同時信息增益比的公式有的文章或者書籍分母可能不同.

5.相對熵(KL散度):用來描述兩個概率分布p,q之間的差異(圖6),數(shù)學(xué)之美中介紹是用來衡量兩個取值為正數(shù)函數(shù)的相似性(圖7)

圖6
圖7

概念都是一樣的,所以不需要太在意這兩個公式的區(qū)別.如果兩個函數(shù)(分布)完全相同,那么它們的相對熵為0,同理如果相對熵越大,說明它們之間的差異越大,反之相對熵越小,說明它們之間的差異越小.需要注意的是相對熵不是對稱的,也就是:

圖8

但是這樣計(jì)算很不方便,所以香農(nóng)和杰森(不是郭達(dá)斯坦森)提出了一個新的對稱的相對熵公式:

圖9

上面的相對熵公式可以用于計(jì)算兩個文本的相似度,吳軍大大在數(shù)學(xué)之美中介紹,google的問答系統(tǒng)就是用圖9的公式計(jì)算答案相似性的(現(xiàn)在還是不是就不清楚了).

6.交叉熵(cross-entropy):我們知道通常深度學(xué)習(xí)模型最后一般都會使用交叉熵作為模型的損失函數(shù).那是為什么呢?首先我們先將相對熵KL公式(圖6)進(jìn)行變換(log中除法可以拆分為兩個log相減):

圖10

其中前一部分的-H(p(x))是p的熵,后一部分就是我們所說的交叉熵.

圖11

損失函數(shù)是計(jì)算模型預(yù)測值和數(shù)據(jù)真實(shí)值之間的相關(guān)性,所以可以使用相對熵(KL散度)計(jì)算,根據(jù)圖10可以看出,-H(p(x))是不變的,所以我們可以通過計(jì)算后一部分的交叉熵來求得Loss.所以通常會使用交叉熵來作為Loss函數(shù),同理交叉熵越小,預(yù)測值和真實(shí)值之間相似度越高,模型越好.注:LR的損失函數(shù)就是交叉熵.

7.聯(lián)合熵:聯(lián)合熵可以表示為兩個事件X,Y的熵的并集

圖12

它的取值范圍是:max(H(x),H(y)) <= H(x,y) <= H(x)+H(y)

8.基尼系數(shù)(Gini,它屬于混進(jìn)來的):在決策樹的CART(分類回歸樹)中有兩類樹,一是回歸樹,劃分特征使用的是平方誤差最小化的方法,二是分類樹,采用的就是Gini系數(shù)最小化進(jìn)行劃分?jǐn)?shù)據(jù)集.

圖13

其中k為label的種類數(shù).基尼指數(shù)越大,信息的不確定性越大,這與信息熵相同.(CART樹是如何使用Gini指數(shù)的這里就不詳細(xì)介紹了,以后會在決策樹中詳細(xì)介紹的)

9.困惑度(perplexity,PPL):在NLP中,通常使用困惑度作為衡量語言模型好壞的指標(biāo).

圖14

其中S為句子,N是句子中單詞的個數(shù),p(wi)代表第i個單詞的概率.所以PPL越小p(wi)的概率越高,則一句話屬于自然語言的概率也就越高.

參考:

《數(shù)學(xué)之美-第二版》 吳軍? 著

《統(tǒng)計(jì)學(xué)習(xí)方法》? 李航? ? 著

《統(tǒng)計(jì)自然語言處理》 宗成慶? 著

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末蚂斤,一起剝皮案震驚了整個濱河市宦焦,隨后出現(xiàn)的幾起案子雕旨,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,482評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件誉简,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)翘鸭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,377評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來戳葵,“玉大人就乓,你說我怎么就攤上這事。” “怎么了生蚁?”我有些...
    開封第一講書人閱讀 152,762評論 0 342
  • 文/不壞的土叔 我叫張陵噩翠,是天一觀的道長。 經(jīng)常有香客問我邦投,道長禽作,這世上最難降的妖魔是什么酝静? 我笑而不...
    開封第一講書人閱讀 55,273評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上蕉鸳,老公的妹妹穿的比我還像新娘艾栋。我一直安慰自己派阱,他們只是感情好跋涣,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,289評論 5 373
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著和二,像睡著了一般徘铝。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上惯吕,一...
    開封第一講書人閱讀 49,046評論 1 285
  • 那天惕它,我揣著相機(jī)與錄音,去河邊找鬼废登。 笑死淹魄,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的堡距。 我是一名探鬼主播甲锡,決...
    沈念sama閱讀 38,351評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼羽戒!你這毒婦竟也來了缤沦?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,988評論 0 259
  • 序言:老撾萬榮一對情侶失蹤易稠,失蹤者是張志新(化名)和其女友劉穎缸废,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體驶社,經(jīng)...
    沈念sama閱讀 43,476評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡企量,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,948評論 2 324
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了亡电。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片届巩。...
    茶點(diǎn)故事閱讀 38,064評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖份乒,靈堂內(nèi)的尸體忽然破棺而出姆泻,到底是詐尸還是另有隱情零酪,我是刑警寧澤冒嫡,帶...
    沈念sama閱讀 33,712評論 4 323
  • 正文 年R本政府宣布拇勃,位于F島的核電站,受9級特大地震影響孝凌,放射性物質(zhì)發(fā)生泄漏方咆。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,261評論 3 307
  • 文/蒙蒙 一蟀架、第九天 我趴在偏房一處隱蔽的房頂上張望瓣赂。 院中可真熱鬧,春花似錦片拍、人聲如沸煌集。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,264評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽苫纤。三九已至,卻和暖如春纲缓,著一層夾襖步出監(jiān)牢的瞬間卷拘,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,486評論 1 262
  • 我被黑心中介騙來泰國打工祝高, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留栗弟,地道東北人。 一個月前我還...
    沈念sama閱讀 45,511評論 2 354
  • 正文 我出身青樓工闺,卻偏偏與公主長得像乍赫,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子陆蟆,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,802評論 2 345

推薦閱讀更多精彩內(nèi)容