[機(jī)器學(xué)習(xí)]決策樹(decision tree)--3.信息熵

本篇文章我們介紹信息熵祈惶。

信息熵(information entropy)是度量樣本集合純度最常用的一種指標(biāo)官地。信息熵的公式為:Ent(D) = -\sum_{1}^k p_{k}\log_x p_{k}

怎么理解這句話呢挫掏?

比如:現(xiàn)在有一個(gè)樣本D瘦陈,里面都是西瓜鳖谈,但是西瓜的質(zhì)量有好壞之分岁疼。假如樣本里面都是好瓜,那么第k類樣本的概率,即p_{k} 為多少呢捷绒?因?yàn)檫@個(gè)例子中瑰排,只有一類樣本:好瓜,所以p_{k} =1暖侨。所以Ent(D)=0椭住。

比如:現(xiàn)在有一個(gè)樣本,里面也都是西瓜字逗,但是西瓜質(zhì)量有好有壞京郑。好瓜和壞瓜各占一半,那么這個(gè)樣本的信息熵為:-(\frac{1}{2} \log_2 \frac{1}{2} + \frac{1}{2} \log_2 \frac{1}{2}  )葫掉,這個(gè)表達(dá)式的結(jié)果為:1.0些举。如果我們不想用計(jì)算器計(jì)算,也可以參考下面的代碼:

# a代表正樣本俭厚,不代表負(fù)樣本

# 在本例中正樣本為好瓜户魏,負(fù)樣本為壞瓜

import math

a = 1/2

b = 1/2

Ent = -(a*math.log(a, 2) + b*math.log(b, 2))

print(Ent)

那么我們?cè)僦匦吕斫庖幌律厦娴亩x,度量樣本集合純度最常用的一種指標(biāo)挪挤,是不是大概有點(diǎn)感覺了叼丑。純度越高(比如都是好瓜),信息熵就越低电禀。

我們拿到一個(gè)樣本之后幢码,如何降低信息熵,也就是如何提升純度呢尖飞?比如:樣本中好瓜和壞瓜各占一半症副,如果,有一個(gè)屬性政基,比如說顏色贞铣,顏色綠的都是好瓜,其他顏色都是壞瓜沮明。那么辕坝,這個(gè)屬性是不是可以幫助我們更好的判斷?

這個(gè)問題的答案是肯定的荐健,顏色肯定可以幫助我們更好的判斷酱畅。對(duì)于屬性帶來的幫助,用更加專業(yè)的術(shù)語來說江场,就是用屬性去劃分樣本所獲得的“信息增益”纺酸。

下一篇文章我們將繼續(xù)介紹信息增益。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末址否,一起剝皮案震驚了整個(gè)濱河市餐蔬,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖樊诺,帶你破解...
    沈念sama閱讀 206,311評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件仗考,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,339評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門岖常,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人痪寻,你說我怎么就攤上這事∷洳眩” “怎么了?”我有些...
    開封第一講書人閱讀 152,671評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵蛇尚,是天一觀的道長(zhǎng)芽唇。 經(jīng)常有香客問我,道長(zhǎng)取劫,這世上最難降的妖魔是什么匆笤? 我笑而不...
    開封第一講書人閱讀 55,252評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮谱邪,結(jié)果婚禮上炮捧,老公的妹妹穿的比我還像新娘。我一直安慰自己惦银,他們只是感情好咆课,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,253評(píng)論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著扯俱,像睡著了一般书蚪。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上迅栅,一...
    開封第一講書人閱讀 49,031評(píng)論 1 285
  • 那天殊校,我揣著相機(jī)與錄音,去河邊找鬼读存。 笑死为流,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的让簿。 我是一名探鬼主播敬察,決...
    沈念sama閱讀 38,340評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼拜英!你這毒婦竟也來了静汤?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,973評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎虫给,沒想到半個(gè)月后藤抡,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,466評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡抹估,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,937評(píng)論 2 323
  • 正文 我和宋清朗相戀三年缠黍,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片药蜻。...
    茶點(diǎn)故事閱讀 38,039評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡瓷式,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出语泽,到底是詐尸還是另有隱情贸典,我是刑警寧澤,帶...
    沈念sama閱讀 33,701評(píng)論 4 323
  • 正文 年R本政府宣布踱卵,位于F島的核電站廊驼,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏惋砂。R本人自食惡果不足惜妒挎,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,254評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望西饵。 院中可真熱鬧酝掩,春花似錦、人聲如沸眷柔。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,259評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽闯割。三九已至彻消,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間宙拉,已是汗流浹背宾尚。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留谢澈,地道東北人煌贴。 一個(gè)月前我還...
    沈念sama閱讀 45,497評(píng)論 2 354
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像锥忿,于是被迫代替她去往敵國(guó)和親牛郑。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,786評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容