本篇文章我們介紹信息熵祈惶。
信息熵(information entropy)是度量樣本集合純度最常用的一種指標(biāo)官地。信息熵的公式為:
怎么理解這句話呢挫掏?
比如:現(xiàn)在有一個(gè)樣本D瘦陈,里面都是西瓜鳖谈,但是西瓜的質(zhì)量有好壞之分岁疼。假如樣本里面都是好瓜,那么第k類樣本的概率,即為多少呢捷绒?因?yàn)檫@個(gè)例子中瑰排,只有一類樣本:好瓜,所以=1暖侨。所以Ent(D)=0椭住。
比如:現(xiàn)在有一個(gè)樣本,里面也都是西瓜字逗,但是西瓜質(zhì)量有好有壞京郑。好瓜和壞瓜各占一半,那么這個(gè)樣本的信息熵為:葫掉,這個(gè)表達(dá)式的結(jié)果為:1.0些举。如果我們不想用計(jì)算器計(jì)算,也可以參考下面的代碼:
# a代表正樣本俭厚,不代表負(fù)樣本
# 在本例中正樣本為好瓜户魏,負(fù)樣本為壞瓜
import math
a = 1/2
b = 1/2
Ent = -(a*math.log(a, 2) + b*math.log(b, 2))
print(Ent)
那么我們?cè)僦匦吕斫庖幌律厦娴亩x,度量樣本集合純度最常用的一種指標(biāo)挪挤,是不是大概有點(diǎn)感覺了叼丑。純度越高(比如都是好瓜),信息熵就越低电禀。
我們拿到一個(gè)樣本之后幢码,如何降低信息熵,也就是如何提升純度呢尖飞?比如:樣本中好瓜和壞瓜各占一半症副,如果,有一個(gè)屬性政基,比如說顏色贞铣,顏色綠的都是好瓜,其他顏色都是壞瓜沮明。那么辕坝,這個(gè)屬性是不是可以幫助我們更好的判斷?
這個(gè)問題的答案是肯定的荐健,顏色肯定可以幫助我們更好的判斷酱畅。對(duì)于屬性帶來的幫助,用更加專業(yè)的術(shù)語來說江场,就是用屬性去劃分樣本所獲得的“信息增益”纺酸。
下一篇文章我們將繼續(xù)介紹信息增益。