Entropy,Gini 浙滤,Information gain

Entropy

  • 信息量:值域[0,+{\inf} ]
    \mathbb I(x) = -log(p(x))
    發(fā)生概率越小阴挣,信息量越大。
    不確定性越高纺腊,信息量越大畔咧。

  • 信息熵:值域[0,+{\inf} ],更確切為:[0,log(n)]n為類別數(shù)量:
    H(X) = -\sum_i p(x_i)log(p(x_i))
    Skewed Probability Distribution (unsurprising): Low entropy.
    Balanced Probability Distribution (surprising): High entropy.
    即衡量不確定性的大小
    不確定性越高揖膜,數(shù)據(jù)越不純誓沸,越混亂,信息熵越大壹粟。(比如二分類中概率p=0.5拜隧,entropy最大)
    確定性越高,數(shù)據(jù)純度越大煮寡,信息熵越小虹蓄。(比如二分類中概率p=0.01,entropy很行宜骸)
    在二分類中薇组,信息熵值域[0,1] ,即- 0.5 *log_2 \frac 1 2 - 0.5 *log_2 \frac 1 2 = 1
    在N分類中坐儿,信息熵值域[0, - log_2 \frac 1 n]律胀,最大為所有類別概率相等時-n* \frac 1 n log_2 \frac 1 n= -log_2 \frac 1 n = log_2 n(最混亂)


GINI impurity

Gini impurity可以理解為熵模型的一階泰勒展開。所以也叫GINI不純度貌矿。越“純”即越確定炭菌,gini數(shù)值越小。這點與entropy是一致的逛漫。
Gini(X) = \sum_i^k p(x_i)(1-p(x_i)) = 1 - \sum_i^k p(x_i)^2
H(X) = - \sum_i^k p(x_i) log(p(x_i))對其中l(wèi)og的部分在x_0=1處做一階段泰勒展開:
log(x) = log(x_0) + log'(x_0) (x - x_0)【一階展開】
帶入x_0=1即可得到log(x) = x - 1【帶入數(shù)據(jù)點】
得到Gini(X)=- \sum_i^k p(x_i) (p(x_i) - 1)
= \sum_i^k p(x_i)- \sum_i^k p(x_i)^2
= 1 - \sum_i^k p(x_i)^2【概率sum to 1】

  • 1黑低、Gini在決策樹中的運用:
    決策樹會選擇gini最小的劃分。(即劃分后節(jié)點得到最大的確定性【純度】)

Gini Index(Coefficient)

注意酌毡,gini 系數(shù)與gini 不純度是不一樣的概念克握。


"單一"變量Entropy

研究單一變量。下述p旭蠕,q等概率分布(密度函數(shù))停团,描述的都是對同一個變量 x的密度旷坦,譬如p(x_i),q(x_i)對應的是同一個x_i,這里單一是帶引號的佑稠,因為多個變量編碼組成的變量秒梅,也可以算作“單一”變量,譬如32位整數(shù)可以當作32個2維0舌胶,1變量編碼組成的“單一”變量番电。

  • 交叉熵:值域[H(p),+{\inf} ]
    H(p,q) = -\sum_i p(x_i)log(q(x_i))
    當且僅當p=q時最小,此時H(p,q) = H(p)
    衡量兩個事件不確定性的關聯(lián)性辆琅,完全一致時漱办,取得最小值。
    PS:
    注意婉烟,實際在我們優(yōu)化模型的時候娩井,理論最小交叉熵是0,如果特征可以直接編碼單條樣本似袁,則data本身沒有不確定性洞辣,(!j夹啤扬霜!其實,其交叉熵計算的維度是單條樣本而涉,單條樣本上著瓶,用empirical distribution來表示p(x),真實的類別概率為1啼县,另一個概率為0材原。!<揪臁S嘈贰)。而理論上界是全體概率作為估計的熵(如果模型logloss高于這個上界子刮,說明還不如統(tǒng)計估計威酒。譬如,如果正樣本率5%挺峡,那么統(tǒng)計值的交叉熵logloss為H(p,q) = -0.05*log(0.05) - 0.95*log(0.95) = 0.19 葵孤,這個loss值可以視作baseline)

  • KL散度,D_{KL}沙郭,相對熵:值域[0,+{\inf} ]
    D_{KL}(p,q) = H(p,q) - H(p)(交叉熵 - 熵)
    = -\sum_i p(x_i)log(q(x_i)) + \sum_i p(x_i)log(p(x_i))
    =\sum_i p(x_i)log(\frac {p(x_i)}{q(x_i)})
    當且僅當p=q時最小取得0佛呻,此時H(p,q) = H(p)
    注意:Dkl雖然非負裳朋,但是由于其不對稱性,嚴格意義無法作為距離指標削茁。(距離指標需要滿足對稱乳愉,非負,三角不等式绑莺,例如cosine距離即非嚴格measure)

  • 關于KL散度的值域,由Gibbs' inequality
    證明如下:
    https://en.wikipedia.org/wiki/Gibbs'_inequality


多變量 entropy惕耕,information gain

這里Y纺裁,X對應的是不同的變量(事件),條件熵司澎,聯(lián)合熵基本也對應條件概率欺缘,聯(lián)合概率

  • 條件熵:值域[0,H(Y)]
    已知X情況下,Y的熵的期望挤安。
    H(Y|X) = \sum_i p(x_i)H(Y|X=x_i)
    = - \sum_i p(x_i) \sum_j p(y_j| x_i) log(p(y_j|x_i))
    = - \sum_i \sum_j p(y_j , x_i) log(p(y_j|x_i))【雙重求和谚殊,外層i確定時,p(x_i)為常數(shù)蛤铜,可以直接移入內層sum嫩絮。然后貝葉斯即可】
    即當已知X的情況下,Y的不確定性為多少围肥。如果X與Y無關剿干,此時取得最大值H(Y|X) = H(Y)。當條件熵等于0時穆刻,意味著已知X就能確定Y置尔,即不存在不確定性。
  • 聯(lián)合熵:值域[0,H(X) + H(Y)]
    H(X,Y) = H(X|Y) + H(Y) = H(Y|X) + H(X)
    = -\sum_{i} \sum_{j} p(y_j , x_i) log(p(y_j, x_i))
    當兩變量無關時氢伟,等于兩者各自熵的和撰洗。

  • 信息增益:值域[0,H(Y)]
    IG(Y,X) = H(Y) - H(Y|X),即:熵 - 條件熵
    = - \sum_j p(y_j) log(p(y_j)) + \sum_i \sum_j p(x_i,y_j)log(p(y_j|x_i))
    = - \sum_i \sum_j p(x_i, y_j) log(p(y_j)) + \sum_i \sum_j p(x_i,y_j)log(p(y_j|x_i))【加入sum腐芍,反邊緣化x變量】
    = \sum_i \sum_j p(x_i, y_j) log(\frac {p(y_j| x_i)}{p(y_j)})【sum項合并】
    = \sum_i \sum_j p(x_i, y_j) log(\frac {p(y_j, x_i)}{p(y_j)p(x_i)})【貝葉斯】
    =D_{KL}(p(x,y) ||p(x)p(y))【反向還原為KL離散度】
    即:信息增益可以解釋為x差导,y聯(lián)合分布(真實分布p(x,y))與假設x,y互相獨立p(x)p(y)的情況下的KL散度:D_{KL}(p(x,y) ||p(x)p(y))
    代表在某種條件下猪勇,信息熵的減少(混亂程度的減少)
    往往前者原始熵是固定的设褐,所以最大化信息增益時,即在最小化條件熵泣刹。
    即助析,在條件X下劃分的數(shù)據(jù)Y,其熵最幸文(數(shù)據(jù)純度大外冀,譬如都是1或都是0)
    所以當H(Y|X) = 0時,取得最大值掀泳,即消除不確定性

  • 互信息(數(shù)值上與information gain 相同)
    MI(X;Y) =H(X,Y) - H(Y|X) - H(X|Y)= H(Y) - H(Y|X) = H(X) - H(X|Y)
    在數(shù)值上與信息增益是相同的雪隧。只是說互信息中兩變量的地位是相同的西轩。而信息增益邏輯上是知道后者以后,前者不確定性的減少脑沿。

  • 信息增益率
    Ratio(Y,X) = \frac {H(Y) - H(Y|X)} {H(X)}
    ID3用信息增益藕畔,ID4.5用信息增益率。

Jensen's inequality

Refer:
Entropy,Gini,
https://zhuanlan.zhihu.com/p/74930310
and mutual information
[https://en.wikipedia.org/wiki/Mutual_information#Relation_to_conditional_and_joint_entropy]

Taylor Expansion of Entropy
https://www.programmersought.com/article/85613955092/

互信息庄拇,圖示注服,類似概率
https://www.zhihu.com/question/39436574

DKL,Information Gain
https://blog.csdn.net/tiandiwoxin92/article/details/78244739

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末措近,一起剝皮案震驚了整個濱河市溶弟,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌瞭郑,老刑警劉巖可很,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異凰浮,居然都是意外死亡我抠,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進店門袜茧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來菜拓,“玉大人,你說我怎么就攤上這事笛厦∧啥Γ” “怎么了?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵裳凸,是天一觀的道長贱鄙。 經(jīng)常有香客問我,道長姨谷,這世上最難降的妖魔是什么逗宁? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮梦湘,結果婚禮上瞎颗,老公的妹妹穿的比我還像新娘。我一直安慰自己捌议,他們只是感情好哼拔,可當我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著瓣颅,像睡著了一般倦逐。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上宫补,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天檬姥,我揣著相機與錄音曾我,去河邊找鬼。 笑死穿铆,一個胖子當著我的面吹牛,可吹牛的內容都是我干的斋荞。 我是一名探鬼主播荞雏,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼平酿!你這毒婦竟也來了凤优?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤蜈彼,失蹤者是張志新(化名)和其女友劉穎筑辨,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體幸逆,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡棍辕,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了还绘。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片楚昭。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖拍顷,靈堂內的尸體忽然破棺而出抚太,到底是詐尸還是另有隱情,我是刑警寧澤昔案,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布尿贫,位于F島的核電站,受9級特大地震影響踏揣,放射性物質發(fā)生泄漏庆亡。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一捞稿、第九天 我趴在偏房一處隱蔽的房頂上張望身冀。 院中可真熱鬧,春花似錦括享、人聲如沸搂根。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽剩愧。三九已至,卻和暖如春娇斩,著一層夾襖步出監(jiān)牢的瞬間仁卷,已是汗流浹背穴翩。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留锦积,地道東北人芒帕。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像丰介,于是被迫代替她去往敵國和親背蟆。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內容

  • ??決策樹(Decision Tree)是一種基本的分類與回歸方法哮幢,其模型呈樹狀結構带膀,在分類問題中,表示基于特征對...
    殉道者之花火閱讀 4,528評論 2 2
  • 目錄: 4.1基本流程 4.2劃分選擇 4.3剪枝處理 4.4連續(xù)與缺失值 4.5多變量決策樹 4.1基本流程 決...
    HXXHXX閱讀 926評論 0 0
  • 構建決策樹的關鍵步驟在于特征的選擇和劃分橙垢,那么究竟如何選擇最優(yōu)的劃分特征垛叨?又如何確定最合適的分割閾值?這些問...
    yyoung0510閱讀 435評論 0 0
  • 決策樹理論在決策樹理論中柜某,有這樣一句話嗽元,“用較少的東西,照樣可以做很好的事情喂击。越是小的決策樹还棱,越優(yōu)于大的決策樹”。...
    制杖灶灶閱讀 5,851評論 0 25
  • 決策樹算法梳理 1. 信息論基礎(熵 聯(lián)合熵 條件熵 信息增益 基尼不純度) 1.1 熵 (entropy)...
    敬標閱讀 623評論 0 0