信息熵逸邦、條件熵恩沛、聯(lián)合熵、互信息缕减、相對熵雷客、交叉熵

信息熵、聯(lián)合熵桥狡、條件熵搅裙、互信息的關系

1皱卓、信息量

信息量是通過概率來定義的:如果一件事情的概率很低,那么它的信息量就很大部逮;反之娜汁,如果一件事情的概率很高,它的信息量就很低兄朋。簡而言之掐禁,概率小的事件信息量大,因此信息量可以定義如下:

信息量 = \log \frac{1}{p(x)} .

下面解釋為什么要取倒數(shù)再去對數(shù)颅和。

(1)先取倒數(shù): \frac{1}{p(x)} 這件事表示:“信息量”和“概率”呈反比傅事;

(2)在取對數(shù):\log 取對數(shù)是為了將區(qū)間 [1,\infty] 映射到 [0, \infty]

再總結一下:\because p(x) \in [0,1], \therefore \frac{1}{p(x)} \in [1, \infty], \therefore \log \frac{1}{p(x)} \in [0, \infty]

2峡扩、信息熵

信息熵是信息量的數(shù)學期望蹭越。理解了信息量,信息熵的定義式便不難理解教届。定義如下:

H(X) = -\sum_{x \in X} p(x)\log p(x)

  • 熵越小表示越“純”响鹃,決策樹算法在進行特征選擇時的其中標準之一就是選擇使得通過該特征分類以后的類的熵最小案训;
  • 上面是熵越小越好买置,而有的時候,我們需要熵越大越好萤衰,簡單來說就是“雞蛋不要放在一個籃子里”(見吳軍《數(shù)學之美》),最大熵原理就是這樣猜旬,這部分內容可以參考李航《統(tǒng)計機器學習》邏輯回歸模型相關部分脆栋。

3、條件熵

條件熵的定義為:在 X 給定的條件下洒擦,Y 的條件概率分布的熵對 X 的數(shù)學期望椿争。

條件熵一定要記住下面的這個定義式,其它的式子都可以由信息熵和條件熵的定義式得出熟嫩。

H(Y|X)=\sum_{x\in X} p(x)H(Y|X=x)

理解條件熵可以使用決策樹進行特征選擇的例子:我們期望選擇的特征要能將數(shù)據(jù)的標簽盡可能分得比較“純”一些秦踪,特征將數(shù)據(jù)的標簽分得“純”,則熵就小掸茅,信息增益就大椅邓。

因為 H(Y|X=x) = -\sum_{y \in Y} P(y|x) \log P(y|x),條件熵可以變形成如下:

\begin{eqnarray} H(Y|X)&=&\sum_{x\in X} p(x)H(Y|X=x)\\ &=&-\sum_{x\in X} p(x)\sum_{y\in Y}p(y|x)\log p(y|x)\\ &=&-\sum_{x\in X} \sum_{y\in Y}p(y,x)\log p(y|x). \end{eqnarray}

說明:有些教材直接把最后一步
H(Y|X)=-\sum_{x\in X} \sum_{y\in Y}p(x,y)\log p(y|x)

定義成條件熵昧狮,其實是一個意思景馁,我個人覺得

H(Y|X)=\sum_{x\in X} p(x)H(Y|X=x)

這種定義式更好理解,而這個定義式可以參考李航《統(tǒng)計學習方法》P61 逗鸣,并不難記憶合住,其實條件熵就是“被特征分割以后的信息熵的加權平均”绰精。

4、聯(lián)合熵

兩個變量 XY 的聯(lián)合熵的表達式:

H(X,Y) = -\sum_{i=1}^{n}p(x_i,y_i) \log p(x_i,y_i)

5透葛、互信息

根據(jù)信息熵笨使、條件熵的定義式,可以計算信息熵與條件熵之差:

\begin{eqnarray} H(Y) - H(Y|X)&=&-\sum_{y \in Y}p(y)\log p(y) - \sum_{x\in X} p(x)H(Y|X=x)\\ &=&-\sum_{y \in Y}\left( \sum_{x \in X} p(x,y) \right)\log p(y) + \sum_{x\in X} p(x)\sum_{y\in Y}p(y|x)\log p(y|x)\\ &=&-\sum_{y \in Y}\sum_{x \in X} p(x,y) \log p(y) + \sum_{x\in X} \sum_{y\in Y}p(y,x)\log p(y|x)\\ &=&\sum_{x\in X} \sum_{y\in Y}p(x,y)\log \frac{p(y|x)}{p(y)}\\ &=&\sum_{x\in X} \sum_{y\in Y}p(x,y)\log \frac{p(x,y)}{p(x)p(y)}. \end{eqnarray}

同理

\begin{eqnarray} H(X) - H(X|Y)&=&-\sum_{x \in X}p(x)\log p(x) - \sum_{y\in Y} p(y)H(X|Y=y)\\ &=&-\sum_{x \in X}\left( \sum_{y \in Y} p(x,y) \right)\log p(x) + \sum_{y\in Y} p(y)\sum_{x\in X}p(x|y)\log p(x|y)\\ &=&-\sum_{x \in X}\sum_{y \in Y} p(x,y) \log p(x) + \sum_{y\in Y} \sum_{x\in X}p(x,y)\log p(x|y)\\ &=&\sum_{y\in Y} \sum_{x\in X}p(x,y)\log \frac{p(x|y)}{p(x)}\\ &=&\sum_{y\in Y} \sum_{x\in X}p(x,y)\log \frac{p(x,y)}{p(x)p(y)}. \end{eqnarray}

因此:
H(Y) - H(Y|X) = H(X) - H(X|Y).
定義互信息:
I(X,Y) = H(Y) - H(Y|X) = H(X) - H(X|Y).

即:

H(X|Y) = H(X)-I(X,Y)

H(Y|X)= H(Y)-I(X,Y)

互信息也被稱為信息增益僚害。用下面這張圖很容易明白他們的關系硫椰。

信息熵、聯(lián)合熵贡珊、條件熵最爬、互信息的關系

信息熵:左邊的橢圓代表 H(X),右邊的橢圓代表 H(Y)门岔。
互信息(信息增益):是信息熵的交集爱致,即中間重合的部分就是 I(X,Y)
聯(lián)合熵:是信息熵的并集寒随,兩個橢圓的并就是 H(X,Y)糠悯。
條件熵:是差集。左邊的橢圓去掉重合部分就是 H(X|Y)妻往,右邊的橢圓去掉重合部分就是 H(Y|X)互艾。

還可以看出:
I(X,Y) = H(X|Y) + H(Y|X) - H(X,Y)
H(Y|X) = H(X,Y)-H(X)讯泣;
H(X|Y) = H(X,Y)-H(Y)纫普;
H(X|Y) \le H(X)
H(Y|X) \le H(Y)好渠。

5昨稼、相對熵

相對熵又稱 KL 散度,如果我們對于同一個隨機變量 X 有兩個單獨的概率分布 P(X)Q(X)拳锚,使用 KL 散度(Kullback-Leibler (KL) divergence)來衡量這兩個分布的差異假栓。差異越大則相對熵越大,差異越小則相對熵越小霍掺。

計算公式如下:

D_{KL}(p||q)=\sum_{i=1}^np(x_i)\log(\frac{p(x_i)}{q(x_i)}) \tag{3.1}

如何記憶:如果用 P 來描述樣本匾荆,那么就非常完美(因為 P 認為是真實的情況)。而用 Q 來描述樣本杆烁,雖然可以大致描述牙丽,但是不是那么的完美,信息量不足兔魂,需要額外的一些“信息增量”才能達到和 P 一樣完美的描述剩岳。如果我們的 Q 通過反復訓練,也能完美的描述樣本入热,那么就不再需要額外的“信息增量”拍棕,Q 等價于 P晓铆。 即 PQ 的分布完全一致的時候,KL 散度的值等于 0 绰播。

6骄噪、交叉熵

H(p,q) = \sum_{i=1}^np(x_i)\log \cfrac{1}{q(x_i)}

我是這樣記憶交叉熵的定義的,通過邏輯回歸的損失函數(shù)記憶交叉熵蠢箩。p(x_i) 認為是類標链蕊,是獨熱編碼(也可以認為是概率分布),而 q(x_i) 認為是邏輯回歸預測的概率分布谬泌。

  • 交叉熵是對數(shù)似然函數(shù)的相反數(shù)滔韵。對數(shù)似然的值我們希望它越大越好,交叉熵的值我們希望它越小越好掌实。

相對熵與交叉熵的關系

結論:KL 散度 = 交叉熵 - 熵 陪蜻。這一點從相對熵的定義式就可以導出。

\begin{eqnarray} D_{KL}(p||q) &=& \sum_{i=1}^np(x_i)\log(p(x_i))-\sum_{i=1}^np(x_i)\log(q(x_i))\\ &=& -H(p(x))+[-\sum_{i=1}^np(x_i)\log(q(x_i))] \end{eqnarray}

這里

-\sum_{i=1}^np(x_i)\log(q(x_i)) = \sum_{i=1}^np(x_i)\log \cfrac{1}{q(x_i)}

就是交叉熵的定義式贱鼻。

相對熵與交叉熵的關系

參考資料

1宴卖、一文搞懂交叉熵在機器學習中的使用,透徹理解交叉熵背后的直覺

地址:https://blog.csdn.net/tsyccnh/article/details/79163834

2邻悬、機器學習各種熵:從入門到全面掌握

地址:https://zhuanlan.zhihu.com/p/35423404

3症昏、信息增益(互信息)非負性證明

地址:https://blog.csdn.net/MathThinker/article/details/48375523

4、如何通俗的解釋交叉熵與相對熵?

地址: https://www.zhihu.com/question/41252833

5父丰、相對熵(KL散度)

地址: https://blog.csdn.net/ACdreamers/article/details/44657745

6肝谭、KL(kullback-Leibler-devergence)散度(相對熵)非負性

地址:https://blog.csdn.net/KID_yuan/article/details/84800434

7、簡單的交叉熵蛾扇,你真的懂了嗎攘烛?
https://zhuanlan.zhihu.com/p/61944055

(本節(jié)完)

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市屁桑,隨后出現(xiàn)的幾起案子医寿,更是在濱河造成了極大的恐慌栏赴,老刑警劉巖蘑斧,帶你破解...
    沈念sama閱讀 221,273評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異须眷,居然都是意外死亡竖瘾,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,349評論 3 398
  • 文/潘曉璐 我一進店門花颗,熙熙樓的掌柜王于貴愁眉苦臉地迎上來捕传,“玉大人,你說我怎么就攤上這事扩劝∮孤郏” “怎么了职辅?”我有些...
    開封第一講書人閱讀 167,709評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長聂示。 經(jīng)常有香客問我域携,道長,這世上最難降的妖魔是什么鱼喉? 我笑而不...
    開封第一講書人閱讀 59,520評論 1 296
  • 正文 為了忘掉前任秀鞭,我火速辦了婚禮,結果婚禮上扛禽,老公的妹妹穿的比我還像新娘锋边。我一直安慰自己,他們只是感情好编曼,可當我...
    茶點故事閱讀 68,515評論 6 397
  • 文/花漫 我一把揭開白布豆巨。 她就那樣靜靜地躺著,像睡著了一般灵巧。 火紅的嫁衣襯著肌膚如雪搀矫。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,158評論 1 308
  • 那天刻肄,我揣著相機與錄音瓤球,去河邊找鬼。 笑死敏弃,一個胖子當著我的面吹牛卦羡,可吹牛的內容都是我干的。 我是一名探鬼主播麦到,決...
    沈念sama閱讀 40,755評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼绿饵,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了瓶颠?” 一聲冷哼從身側響起拟赊,我...
    開封第一講書人閱讀 39,660評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎粹淋,沒想到半個月后吸祟,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,203評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡桃移,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,287評論 3 340
  • 正文 我和宋清朗相戀三年屋匕,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片借杰。...
    茶點故事閱讀 40,427評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡过吻,死狀恐怖,靈堂內的尸體忽然破棺而出蔗衡,到底是詐尸還是另有隱情纤虽,我是刑警寧澤乳绕,帶...
    沈念sama閱讀 36,122評論 5 349
  • 正文 年R本政府宣布,位于F島的核電站逼纸,受9級特大地震影響刷袍,放射性物質發(fā)生泄漏。R本人自食惡果不足惜樊展,卻給世界環(huán)境...
    茶點故事閱讀 41,801評論 3 333
  • 文/蒙蒙 一呻纹、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧专缠,春花似錦雷酪、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,272評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至墩弯,卻和暖如春吩跋,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背渔工。 一陣腳步聲響...
    開封第一講書人閱讀 33,393評論 1 272
  • 我被黑心中介騙來泰國打工锌钮, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人引矩。 一個月前我還...
    沈念sama閱讀 48,808評論 3 376
  • 正文 我出身青樓梁丘,卻偏偏與公主長得像,于是被迫代替她去往敵國和親旺韭。 傳聞我的和親對象是個殘疾皇子氛谜,可洞房花燭夜當晚...
    茶點故事閱讀 45,440評論 2 359

推薦閱讀更多精彩內容