決策樹(一):信息熵

信息是我們一直在談?wù)摰臇|西秘车,但信息這個概念本身依然比較抽象典勇。但信息可不可以被量化,怎樣量化叮趴?
答案當然是有的割笙,那就是“信息熵”。早在1948年眯亦,香農(nóng)(Shannon)在他著名的《通信的數(shù)學原理》論文中指出:“信息是用來消除隨機不確定性的東西”伤溉,并提出了“信息熵”的概念(據(jù)說是馮諾依曼建議他借用了熱力學中熵的概念),來解決信息的度量問題妻率。

概率和“信息量”

首先我們可以簡單地認為乱顾,一個事件發(fā)生的概率越小,“信息量”就越大(這里的信息量的定義非常不嚴謹宫静,實際上不同于機器學習中信息量的概念走净,但便于理解先這樣認為)。例如:“太陽從東邊升起”孤里,幾乎是一件確定的事伏伯,包含的信息量很小扭粱;“2018中國隊勇奪世界杯”則包含的信息量很大舵鳞。當一件事確定會發(fā)生的話,則這件事的信息量為0琢蛤,反之信息量則很大蜓堕。
基于這種假設(shè),我們可以認為博其,“信息量”的大小和概率負相關(guān)套才。

其次我們假設(shè)兩個獨立事件同時發(fā)生的概率:
![][equtation1]
[equtation1]: http://latex.codecogs.com/svg.latex?p(x,y)=p(x)*p(y)

兩個事件分別發(fā)生的概率之積,但是同時發(fā)生的信息量則是兩者信息量之和慕淡。從這個角度出發(fā)背伴,我們可以認為:

![][equtation2]
[equtation2]: http://latex.codecogs.com/svg.latex?-ln(p(x,y))=-log(p(x))-log(p(y))

現(xiàn)在我們考慮隨機事件X,假設(shè)存在這樣的情況:

X 0 1
P 1-p p
“信息量” -log(1-p) -log(p)

那么我們?nèi)绻蟆靶畔⒘俊钡钠谕脑挘?/p>

![][equtation3]
[equtation3]: http://latex.codecogs.com/svg.latex?E(info)=-plog(p)-(1-p)log(1-p)=-\sum_{i=1}^{n}p_{i}logp_{i}

這樣一來我們就導出了信息熵的定義:

![][equtation4]
[equtation4]: http://latex.codecogs.com/svg.latex?H(X)=-\sum_{i=1}^{n}p(x_{i})logp(x_{i})

而且對于一個二元信源(Bernoulli事件):

也就是說峰髓,一個事情“確定不發(fā)生”傻寂,和“確定發(fā)生”包含的“信息量”的期望都很小,而當發(fā)生的概率為0.5時携兵,包含的“信息量”的期望最大疾掰。

對于離散型變量信息熵永遠是非負數(shù),它的單位為(bit)徐紧;對于連續(xù)型變量静檬,信息熵有可能是負數(shù)(在微分意義上)炭懊,但這里我們暫不考慮。

聯(lián)合熵 H(X,Y)

聯(lián)合熵的概念很好理解拂檩,結(jié)合聯(lián)合概率密度分布侮腹,有:
![][equtation7]
[equtation7]: http://latex.codecogs.com/svg.latex?H(X,Y)=-\sum_{j=1}{m}\sum_{i=1}{n}p(x_{i},y_{j})logp(x_{i},y_{j})

條件殤 H(Y|X)

首先我們定義:在X給定條件下,Y的平均不確定性稻励。

設(shè)有隨機變量(X,Y)父阻,其聯(lián)合概率分布為:
![][equtation5]
[equtation5]: http://latex.codecogs.com/svg.latex?p(X=x_{i},Y=y_{j})=p_{ij}

對應條件概率公式:
![][equtation6]
[equtation6]: http://latex.codecogs.com/svg.latex?P(X|Y)=\frac{P(XY)}{P(Y)}

有鏈規(guī)則
![][equtation9]
[equtation9]: http://latex.codecogs.com/svg.latex?H(Y|X)=H(X,Y)-H(X)
我們可以得到條件熵的定義:

根據(jù)定義我們可以得到:

舉個例子:

設(shè)隨機變量Y={嫁,不嫁}望抽,我們可以統(tǒng)計出至非,嫁的概率為6/12 = 1/2,那么Y的熵糠聪,根據(jù)熵的公式來算,可以得到H(Y) = -1/2log1/2 -1/2log1/2 = 0.69谐鼎。

我們現(xiàn)在還有一個變量X舰蟆,代表長相是帥還是帥,當長相是不帥的時候狸棍,統(tǒng)計如下紅色所示:

可以得出身害,當已知不帥的條件下,滿足條件的只有4個數(shù)據(jù)了草戈,這四個數(shù)據(jù)中塌鸯,不嫁的個數(shù)為1個,占1/4唐片;嫁的個數(shù)為3個丙猬,占3/4。
那么此時的H(Y|X = 不帥) = -1/4log1/4-3/4log3/4 = 0.56
同理我們可以得到:H(Y|X = 帥) = -5/8log5/8-3/8log3/8 = 0.66
p(X = 帥) = 8/12 = 2/3

有了上面的鋪墊之后费韭,我們終于可以計算我們的條件熵了(其實我覺得挺奇怪的茧球,這種寫法非常類似于邊緣條件概率):

H(Y|X=長相)= p(X =帥)*H(Y|X=帥)+ p(X =不帥)*H(Y|X=不帥) = 0.62

相對熵

相對熵又稱互熵,交叉熵星持,鑒別信息抢埋,Kullback熵,Kullback-Leible散度(即KL散度)等督暂。設(shè)p(x)和q(x)是X的兩個概率密度分布揪垄,則p對q的相對熵為:


在一定程度上,熵可以度量兩個隨機變量的距離逻翁。KL散度是兩個概率分布P和Q差別的非對稱性的度量饥努。KL散度是用來度量使用基于Q的編碼來編碼來自P的樣本平均所需的額外的位元數(shù)。 典型情況下卢未,P表示數(shù)據(jù)的真實分布肪凛,Q表示數(shù)據(jù)的理論分布堰汉,模型分布,或P的近似分布伟墙,所以相對殤可以用來表征模型的損失函數(shù)翘鸭。

相對熵的性質(zhì)

  1. 盡管KL散度從直觀上是個度量或距離函數(shù),但它并不是一個真正的度量或者距離戳葵,因為它不具有對稱性就乓,即:
  2. 相對熵的值為非負值,即:



    上述不等式可以通過吉布斯不等式(是不是Gibbs自由能那個吉布斯拱烁?)證明生蚁,這里就不再贅述了。

  3. 某些情形下戏自,min(KL散度)作為目標函數(shù)邦投,和最大似然估計MLE,是等價的擅笔,證明略志衣。

相對熵的應用

相對熵可以衡量兩個隨機分布之間的距離,當兩個隨機分布相同時猛们,它們的相對熵為零念脯;當兩個隨機分布的差別增大時,它們的相對熵也會增大弯淘。所以相對熵(KL散度)可以用于比較文本的相似度绿店,先統(tǒng)計出詞的頻率,然后計算KL散度就行了庐橙。另外假勿,在多指標系統(tǒng)評估中,指標權(quán)重分配是一個重點和難點态鳖,通過相對熵可以處理废登。

互信息

定義:兩個隨機變量X,Y的互信息,就是X,Y的聯(lián)合分布和獨立分布乘積的相對熵郁惜。
![][equtation10]
[equtation10]: http://latex.codecogs.com/svg.latex?I(X,Y)=D(P(X,Y)||P(X)P(Y))
![][equtation11]
[equtation11]: http://latex.codecogs.com/svg.latex?I(X,Y)=\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}

不難發(fā)現(xiàn)如果X,Y完全獨立堡距,則互信息I(X,Y)為0,不獨立兆蕉,則大于零羽戒。

互信息的物理意義:

這一節(jié)的內(nèi)容比較簡單包蓝,主要圍繞信息熵驶社,很明顯它可以構(gòu)建分類器的目標函數(shù)或是損失函數(shù)企量,下一節(jié)我們將會具體介紹決策樹的概念和幾種實現(xiàn)方案。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末亡电,一起剝皮案震驚了整個濱河市届巩,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌份乒,老刑警劉巖恕汇,帶你破解...
    沈念sama閱讀 218,036評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異或辖,居然都是意外死亡瘾英,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,046評論 3 395
  • 文/潘曉璐 我一進店門颂暇,熙熙樓的掌柜王于貴愁眉苦臉地迎上來缺谴,“玉大人,你說我怎么就攤上這事耳鸯“曷福” “怎么了?”我有些...
    開封第一講書人閱讀 164,411評論 0 354
  • 文/不壞的土叔 我叫張陵片拍,是天一觀的道長。 經(jīng)常有香客問我妓肢,道長捌省,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,622評論 1 293
  • 正文 為了忘掉前任碉钠,我火速辦了婚禮纲缓,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘喊废。我一直安慰自己祝高,他們只是感情好,可當我...
    茶點故事閱讀 67,661評論 6 392
  • 文/花漫 我一把揭開白布污筷。 她就那樣靜靜地躺著工闺,像睡著了一般。 火紅的嫁衣襯著肌膚如雪瓣蛀。 梳的紋絲不亂的頭發(fā)上陆蟆,一...
    開封第一講書人閱讀 51,521評論 1 304
  • 那天,我揣著相機與錄音惋增,去河邊找鬼叠殷。 笑死,一個胖子當著我的面吹牛诈皿,可吹牛的內(nèi)容都是我干的林束。 我是一名探鬼主播像棘,決...
    沈念sama閱讀 40,288評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼壶冒!你這毒婦竟也來了缕题?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,200評論 0 276
  • 序言:老撾萬榮一對情侶失蹤依痊,失蹤者是張志新(化名)和其女友劉穎避除,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體胸嘁,經(jīng)...
    沈念sama閱讀 45,644評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡瓶摆,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,837評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了性宏。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片群井。...
    茶點故事閱讀 39,953評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖毫胜,靈堂內(nèi)的尸體忽然破棺而出书斜,到底是詐尸還是另有隱情,我是刑警寧澤酵使,帶...
    沈念sama閱讀 35,673評論 5 346
  • 正文 年R本政府宣布荐吉,位于F島的核電站,受9級特大地震影響口渔,放射性物質(zhì)發(fā)生泄漏样屠。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,281評論 3 329
  • 文/蒙蒙 一缺脉、第九天 我趴在偏房一處隱蔽的房頂上張望痪欲。 院中可真熱鬧,春花似錦攻礼、人聲如沸业踢。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,889評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽知举。三九已至,卻和暖如春太伊,著一層夾襖步出監(jiān)牢的瞬間负蠕,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,011評論 1 269
  • 我被黑心中介騙來泰國打工倦畅, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留遮糖,地道東北人。 一個月前我還...
    沈念sama閱讀 48,119評論 3 370
  • 正文 我出身青樓叠赐,卻偏偏與公主長得像欲账,于是被迫代替她去往敵國和親屡江。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,901評論 2 355

推薦閱讀更多精彩內(nèi)容