Entropy
信息量:值域
發(fā)生概率越小阴挣,信息量越大。
不確定性越高纺腊,信息量越大畔咧。信息熵:值域
,更確切為:
,
為類別數(shù)量:
Skewed Probability Distribution (unsurprising): Low entropy.
Balanced Probability Distribution (surprising): High entropy.
即衡量不確定性的大小
不確定性越高揖膜,數(shù)據(jù)越不純誓沸,越混亂,信息熵越大壹粟。(比如二分類中概率p=0.5拜隧,entropy最大)
確定性越高,數(shù)據(jù)純度越大煮寡,信息熵越小虹蓄。(比如二分類中概率p=0.01,entropy很行宜骸)
在二分類中薇组,信息熵值域,即
在N分類中坐儿,信息熵值域律胀,最大為所有類別概率相等時
(最混亂)
GINI impurity
Gini impurity可以理解為熵模型的一階泰勒展開。所以也叫GINI不純度貌矿。越“純”即越確定炭菌,gini數(shù)值越小。這點與entropy是一致的逛漫。
對其中l(wèi)og的部分在
處做一階段泰勒展開:
【一階展開】
帶入即可得到
【帶入數(shù)據(jù)點】
得到
【概率sum to 1】
- 1黑低、Gini在決策樹中的運用:
決策樹會選擇gini最小的劃分。(即劃分后節(jié)點得到最大的確定性【純度】)
Gini Index(Coefficient)
注意酌毡,gini 系數(shù)與gini 不純度是不一樣的概念克握。
1、Gini Index與AUC的關系:特定情況下Gini=2AUC-1
gini:measure how often a randomly chosen element from the set would be incorrectly labeled枷踏。
https://blog.csdn.net/u012735708/article/details/860028582菩暗、Gini Index與KS的關系:
https://blog.csdn.net/buptdavid/article/details/84308900
"單一"變量Entropy
研究單一變量。下述p旭蠕,q等概率分布(密度函數(shù))停团,描述的都是對同一個變量 的密度旷坦,譬如
對應的是同一個
,這里單一是帶引號的佑稠,因為多個變量編碼組成的變量秒梅,也可以算作“單一”變量,譬如32位整數(shù)可以當作32個2維0舌胶,1變量編碼組成的“單一”變量番电。
交叉熵:值域
當且僅當時最小,此時
衡量兩個事件不確定性的關聯(lián)性辆琅,完全一致時漱办,取得最小值。
PS:
注意婉烟,實際在我們優(yōu)化模型的時候娩井,理論最小交叉熵是0,如果特征可以直接編碼單條樣本似袁,則data本身沒有不確定性洞辣,(!j夹啤扬霜!其實,其交叉熵計算的維度是單條樣本而涉,單條樣本上著瓶,用empirical distribution來表示,真實的類別概率為1啼县,另一個概率為0材原。!<揪臁S嘈贰)。而理論上界是全體概率作為估計的熵(如果模型logloss高于這個上界子刮,說明還不如統(tǒng)計估計威酒。譬如,如果正樣本率5%挺峡,那么統(tǒng)計值的交叉熵logloss為
葵孤,這個loss值可以視作baseline)
KL散度,
沙郭,相對熵:值域
(交叉熵 - 熵)
當且僅當時最小取得0佛呻,此時
注意:Dkl雖然非負裳朋,但是由于其不對稱性,嚴格意義無法作為距離指標削茁。(距離指標需要滿足對稱乳愉,非負,三角不等式绑莺,例如cosine距離即非嚴格measure)關于KL散度的值域,由Gibbs' inequality
證明如下:
https://en.wikipedia.org/wiki/Gibbs'_inequality
多變量 entropy惕耕,information gain
這里Y纺裁,X對應的是不同的變量(事件),條件熵司澎,聯(lián)合熵基本也對應條件概率欺缘,聯(lián)合概率
- 條件熵:值域
已知X情況下,Y的熵的期望挤安。
【雙重求和谚殊,外層
確定時,
為常數(shù)蛤铜,可以直接移入內層sum嫩絮。然后貝葉斯即可】
即當已知X的情況下,Y的不確定性為多少围肥。如果X與Y無關剿干,此時取得最大值。當條件熵等于0時穆刻,意味著已知X就能確定Y置尔,即不存在不確定性。
聯(lián)合熵:值域
當兩變量無關時氢伟,等于兩者各自熵的和撰洗。信息增益:值域
,即:熵 - 條件熵
【加入sum腐芍,反邊緣化x變量】
【sum項合并】
【貝葉斯】
【反向還原為KL離散度】
即:信息增益可以解釋為x差导,y聯(lián)合分布(真實分布)與假設x,y互相獨立
的情況下的KL散度:
代表在某種條件下猪勇,信息熵的減少(混亂程度的減少)
往往前者原始熵是固定的设褐,所以最大化信息增益時,即在最小化條件熵泣刹。
即助析,在條件X下劃分的數(shù)據(jù)Y,其熵最幸文(數(shù)據(jù)純度大外冀,譬如都是1或都是0)
所以當時,取得最大值掀泳,即消除不確定性
互信息(數(shù)值上與information gain 相同)
在數(shù)值上與信息增益是相同的雪隧。只是說互信息中兩變量的地位是相同的西轩。而信息增益邏輯上是知道后者以后,前者不確定性的減少脑沿。信息增益率
ID3用信息增益藕畔,ID4.5用信息增益率。
Jensen's inequality
Refer:
Entropy,Gini,
https://zhuanlan.zhihu.com/p/74930310
and mutual information
[https://en.wikipedia.org/wiki/Mutual_information#Relation_to_conditional_and_joint_entropy]
Taylor Expansion of Entropy
https://www.programmersought.com/article/85613955092/
互信息庄拇,圖示注服,類似概率
https://www.zhihu.com/question/39436574
DKL,Information Gain
https://blog.csdn.net/tiandiwoxin92/article/details/78244739