信息是我們一直在談?wù)摰臇|西秘车,但信息這個概念本身依然比較抽象典勇。但信息可不可以被量化,怎樣量化叮趴?
答案當然是有的割笙,那就是“信息熵”。早在1948年眯亦,香農(nóng)(Shannon)在他著名的《通信的數(shù)學原理》論文中指出:“信息是用來消除隨機不確定性的東西”伤溉,并提出了“信息熵”的概念(據(jù)說是馮諾依曼建議他借用了熱力學中熵的概念),來解決信息的度量問題妻率。
概率和“信息量”
首先我們可以簡單地認為乱顾,一個事件發(fā)生的概率越小,“信息量”就越大(這里的信息量的定義非常不嚴謹宫静,實際上不同于機器學習中信息量的概念走净,但便于理解先這樣認為)。例如:“太陽從東邊升起”孤里,幾乎是一件確定的事伏伯,包含的信息量很小扭粱;“2018中國隊勇奪世界杯”則包含的信息量很大舵鳞。當一件事確定會發(fā)生的話,則這件事的信息量為0琢蛤,反之信息量則很大蜓堕。
基于這種假設(shè),我們可以認為博其,“信息量”的大小和概率負相關(guān)套才。
其次我們假設(shè)兩個獨立事件同時發(fā)生的概率:
![][equtation1]
[equtation1]: http://latex.codecogs.com/svg.latex?p(x,y)=p(x)*p(y)
兩個事件分別發(fā)生的概率之積,但是同時發(fā)生的信息量則是兩者信息量之和慕淡。從這個角度出發(fā)背伴,我們可以認為:
![][equtation2]
[equtation2]: http://latex.codecogs.com/svg.latex?-ln(p(x,y))=-log(p(x))-log(p(y))
現(xiàn)在我們考慮隨機事件X,假設(shè)存在這樣的情況:
X | 0 | 1 |
---|---|---|
P | 1-p | p |
“信息量” | -log(1-p) | -log(p) |
那么我們?nèi)绻蟆靶畔⒘俊钡钠谕脑挘?/p>
![][equtation3]
[equtation3]: http://latex.codecogs.com/svg.latex?E(info)=-plog(p)-(1-p)log(1-p)=-\sum_{i=1}^{n}p_{i}logp_{i}
這樣一來我們就導出了信息熵的定義:
![][equtation4]
[equtation4]: http://latex.codecogs.com/svg.latex?H(X)=-\sum_{i=1}^{n}p(x_{i})logp(x_{i})
而且對于一個二元信源(Bernoulli事件):
也就是說峰髓,一個事情“確定不發(fā)生”傻寂,和“確定發(fā)生”包含的“信息量”的期望都很小,而當發(fā)生的概率為0.5時携兵,包含的“信息量”的期望最大疾掰。
對于離散型變量信息熵永遠是非負數(shù),它的單位為(bit)徐紧;對于連續(xù)型變量静檬,信息熵有可能是負數(shù)(在微分意義上)炭懊,但這里我們暫不考慮。
聯(lián)合熵 H(X,Y)
聯(lián)合熵的概念很好理解拂檩,結(jié)合聯(lián)合概率密度分布侮腹,有:
![][equtation7]
[equtation7]: http://latex.codecogs.com/svg.latex?H(X,Y)=-\sum_{j=1}{m}\sum_{i=1}{n}p(x_{i},y_{j})logp(x_{i},y_{j})
條件殤 H(Y|X)
首先我們定義:在X給定條件下,Y的平均不確定性稻励。
設(shè)有隨機變量(X,Y)父阻,其聯(lián)合概率分布為:
![][equtation5]
[equtation5]: http://latex.codecogs.com/svg.latex?p(X=x_{i},Y=y_{j})=p_{ij}
對應條件概率公式:
![][equtation6]
[equtation6]: http://latex.codecogs.com/svg.latex?P(X|Y)=\frac{P(XY)}{P(Y)}
有鏈規(guī)則:
![][equtation9]
[equtation9]: http://latex.codecogs.com/svg.latex?H(Y|X)=H(X,Y)-H(X)
我們可以得到條件熵的定義:
根據(jù)定義我們可以得到:
舉個例子:
設(shè)隨機變量Y={嫁,不嫁}望抽,我們可以統(tǒng)計出至非,嫁的概率為6/12 = 1/2,那么Y的熵糠聪,根據(jù)熵的公式來算,可以得到H(Y) = -1/2log1/2 -1/2log1/2 = 0.69谐鼎。
我們現(xiàn)在還有一個變量X舰蟆,代表長相是帥還是帥,當長相是不帥的時候狸棍,統(tǒng)計如下紅色所示:
可以得出身害,當已知不帥的條件下,滿足條件的只有4個數(shù)據(jù)了草戈,這四個數(shù)據(jù)中塌鸯,不嫁的個數(shù)為1個,占1/4唐片;嫁的個數(shù)為3個丙猬,占3/4。
那么此時的H(Y|X = 不帥) = -1/4log1/4-3/4log3/4 = 0.56
同理我們可以得到:H(Y|X = 帥) = -5/8log5/8-3/8log3/8 = 0.66
p(X = 帥) = 8/12 = 2/3
有了上面的鋪墊之后费韭,我們終于可以計算我們的條件熵了(其實我覺得挺奇怪的茧球,這種寫法非常類似于邊緣條件概率):
H(Y|X=長相)= p(X =帥)*H(Y|X=帥)+ p(X =不帥)*H(Y|X=不帥) = 0.62
相對熵
相對熵又稱互熵,交叉熵星持,鑒別信息抢埋,Kullback熵,Kullback-Leible散度(即KL散度)等督暂。設(shè)p(x)和q(x)是X的兩個概率密度分布揪垄,則p對q的相對熵為:
在一定程度上,熵可以度量兩個隨機變量的距離逻翁。KL散度是兩個概率分布P和Q差別的非對稱性的度量饥努。KL散度是用來度量使用基于Q的編碼來編碼來自P的樣本平均所需的額外的位元數(shù)。 典型情況下卢未,P表示數(shù)據(jù)的真實分布肪凛,Q表示數(shù)據(jù)的理論分布堰汉,模型分布,或P的近似分布伟墙,所以相對殤可以用來表征模型的損失函數(shù)翘鸭。
相對熵的性質(zhì)
-
盡管KL散度從直觀上是個度量或距離函數(shù),但它并不是一個真正的度量或者距離戳葵,因為它不具有對稱性就乓,即:
-
相對熵的值為非負值,即:
上述不等式可以通過吉布斯不等式(是不是Gibbs自由能那個吉布斯拱烁?)證明生蚁,這里就不再贅述了。
某些情形下戏自,min(KL散度)作為目標函數(shù)邦投,和最大似然估計MLE,是等價的擅笔,證明略志衣。
相對熵的應用
相對熵可以衡量兩個隨機分布之間的距離,當兩個隨機分布相同時猛们,它們的相對熵為零念脯;當兩個隨機分布的差別增大時,它們的相對熵也會增大弯淘。所以相對熵(KL散度)可以用于比較文本的相似度绿店,先統(tǒng)計出詞的頻率,然后計算KL散度就行了庐橙。另外假勿,在多指標系統(tǒng)評估中,指標權(quán)重分配是一個重點和難點态鳖,通過相對熵可以處理废登。
互信息
定義:兩個隨機變量X,Y的互信息,就是X,Y的聯(lián)合分布和獨立分布乘積的相對熵郁惜。
![][equtation10]
[equtation10]: http://latex.codecogs.com/svg.latex?I(X,Y)=D(P(X,Y)||P(X)P(Y))
![][equtation11]
[equtation11]: http://latex.codecogs.com/svg.latex?I(X,Y)=\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}
不難發(fā)現(xiàn)如果X,Y完全獨立堡距,則互信息I(X,Y)為0,不獨立兆蕉,則大于零羽戒。
互信息的物理意義:
可以從另外一個維度定義條件熵
![][equtation12]
[equtation12]: http://latex.codecogs.com/svg.latex?H(Y|X)=H(X,Y)-H(X)
![][equtation13]
[equtation13]: http://latex.codecogs.com/svg.latex?H(Y|X)=H(Y)-I(X,Y)對偶式得到關(guān)于聯(lián)合熵的定義
![][equtation14]
[equtation14]: http://latex.codecogs.com/svg.latex?H(Y|X)=H(X,Y)-H(X)
![][equtation15]
[equtation15]: http://latex.codecogs.com/svg.latex?H(Y|X)=H(X)-I(X,Y)
![][equtation16]
[equtation16]: http://latex.codecogs.com/svg.latex?I(X,Y)=H(X)+H(Y)-H(X,Y)說明一個問題:
H(X|Y) <= H(X), H(Y|X) <= H(Y):也即是說,對比X自身的不確定性虎韵,在給定Y的情況下X的不確定性只會減小易稠,不會增大。-
一圖勝千言
這一節(jié)的內(nèi)容比較簡單包蓝,主要圍繞信息熵驶社,很明顯它可以構(gòu)建分類器的目標函數(shù)或是損失函數(shù)企量,下一節(jié)我們將會具體介紹決策樹的概念和幾種實現(xiàn)方案。