1皱卓、信息量
信息量是通過概率來定義的:如果一件事情的概率很低,那么它的信息量就很大部逮;反之娜汁,如果一件事情的概率很高,它的信息量就很低兄朋。簡而言之掐禁,概率小的事件信息量大,因此信息量可以定義如下:
下面解釋為什么要取倒數(shù)再去對數(shù)颅和。
(1)先取倒數(shù): 這件事表示:“信息量”和“概率”呈反比傅事;
(2)在取對數(shù): 取對數(shù)是為了將區(qū)間
映射到
。
再總結一下:
2峡扩、信息熵
信息熵是信息量的數(shù)學期望蹭越。理解了信息量,信息熵的定義式便不難理解教届。定義如下:
- 熵越小表示越“純”响鹃,決策樹算法在進行特征選擇時的其中標準之一就是選擇使得通過該特征分類以后的類的熵最小案训;
- 上面是熵越小越好买置,而有的時候,我們需要熵越大越好萤衰,簡單來說就是“雞蛋不要放在一個籃子里”(見吳軍《數(shù)學之美》),最大熵原理就是這樣猜旬,這部分內容可以參考李航《統(tǒng)計機器學習》邏輯回歸模型相關部分脆栋。
3、條件熵
條件熵的定義為:在 給定的條件下洒擦,
的條件概率分布的熵對
的數(shù)學期望椿争。
條件熵一定要記住下面的這個定義式,其它的式子都可以由信息熵和條件熵的定義式得出熟嫩。
理解條件熵可以使用決策樹進行特征選擇的例子:我們期望選擇的特征要能將數(shù)據(jù)的標簽盡可能分得比較“純”一些秦踪,特征將數(shù)據(jù)的標簽分得“純”,則熵就小掸茅,信息增益就大椅邓。
因為 ,條件熵可以變形成如下:
說明:有些教材直接把最后一步
定義成條件熵昧狮,其實是一個意思景馁,我個人覺得
這種定義式更好理解,而這個定義式可以參考李航《統(tǒng)計學習方法》P61 逗鸣,并不難記憶合住,其實條件熵就是“被特征分割以后的信息熵的加權平均”绰精。
4、聯(lián)合熵
兩個變量 和
的聯(lián)合熵的表達式:
5透葛、互信息
根據(jù)信息熵笨使、條件熵的定義式,可以計算信息熵與條件熵之差:
同理
因此:
定義互信息:
即:
互信息也被稱為信息增益僚害。用下面這張圖很容易明白他們的關系硫椰。
信息熵:左邊的橢圓代表 ,右邊的橢圓代表
门岔。
互信息(信息增益):是信息熵的交集爱致,即中間重合的部分就是 。
聯(lián)合熵:是信息熵的并集寒随,兩個橢圓的并就是 糠悯。
條件熵:是差集。左邊的橢圓去掉重合部分就是 妻往,右邊的橢圓去掉重合部分就是
互艾。
還可以看出:
;
讯泣;
纫普;
;
好渠。
5昨稼、相對熵
相對熵又稱 KL 散度,如果我們對于同一個隨機變量 有兩個單獨的概率分布
和
拳锚,使用 KL 散度(Kullback-Leibler (KL) divergence)來衡量這兩個分布的差異假栓。差異越大則相對熵越大,差異越小則相對熵越小霍掺。
計算公式如下:
如何記憶:如果用 來描述樣本匾荆,那么就非常完美(因為
認為是真實的情況)。而用
來描述樣本杆烁,雖然可以大致描述牙丽,但是不是那么的完美,信息量不足兔魂,需要額外的一些“信息增量”才能達到和
一樣完美的描述剩岳。如果我們的
通過反復訓練,也能完美的描述樣本入热,那么就不再需要額外的“信息增量”拍棕,
等價于
晓铆。 即
和
的分布完全一致的時候,KL 散度的值等于
绰播。
6骄噪、交叉熵
我是這樣記憶交叉熵的定義的,通過邏輯回歸的損失函數(shù)記憶交叉熵蠢箩。 認為是類標链蕊,是獨熱編碼(也可以認為是概率分布),而
認為是邏輯回歸預測的概率分布谬泌。
- 交叉熵是對數(shù)似然函數(shù)的相反數(shù)滔韵。對數(shù)似然的值我們希望它越大越好,交叉熵的值我們希望它越小越好掌实。
相對熵與交叉熵的關系
結論:KL 散度 = 交叉熵 - 熵 陪蜻。這一點從相對熵的定義式就可以導出。
這里
就是交叉熵的定義式贱鼻。
參考資料
1宴卖、一文搞懂交叉熵在機器學習中的使用,透徹理解交叉熵背后的直覺
地址:https://blog.csdn.net/tsyccnh/article/details/79163834
2邻悬、機器學習各種熵:從入門到全面掌握
地址:https://zhuanlan.zhihu.com/p/35423404
3症昏、信息增益(互信息)非負性證明
地址:https://blog.csdn.net/MathThinker/article/details/48375523
4、如何通俗的解釋交叉熵與相對熵?
地址: https://www.zhihu.com/question/41252833
5父丰、相對熵(KL散度)
地址: https://blog.csdn.net/ACdreamers/article/details/44657745
6肝谭、KL(kullback-Leibler-devergence)散度(相對熵)非負性
地址:https://blog.csdn.net/KID_yuan/article/details/84800434
7、簡單的交叉熵蛾扇,你真的懂了嗎攘烛?
https://zhuanlan.zhihu.com/p/61944055
(本節(jié)完)