香農(nóng)熵亥鬓,又稱信息熵,熵域庇,可以用來代表某數(shù)據(jù)集合的不一致性嵌戈。熵的值越高覆积,則代表數(shù)據(jù)集的不一致性越高。
熵與概率的關(guān)系
? ? 舉例:當(dāng)一個(gè)桶中有四個(gè)球熟呛,從左到右分別為紅色宽档、紅色、紅色庵朝、綠色÷鹪現(xiàn)有放回地從桶中抓球,每次抓取一個(gè)九府,求抓出球的順序仍然為紅椎瘟、紅、紅侄旬、藍(lán)的概率肺蔚。
可知,第一次抓出紅球的概率:0.75
? ? ? ? ? ?第二次抓出紅球的概率:0.75
? ? ? ? ? ?第三次抓出紅球的概率:0.75
? ? ? ? ? ?第四次抓出綠球的概率:0.25
? ? ? ? ? ?按順序抓出四個(gè)球的概率:0.75*0.75*0.75*0.25 = 0.105
若桶中的四個(gè)球都是紅色儡羔,那么我們按順序抓出四個(gè)球的概率是1宣羊。
這個(gè)時(shí)候我們發(fā)現(xiàn)當(dāng)桶里的球更加多樣(不一致)的時(shí)候,概率更高汰蜘,熵代表的值和概率對(duì)于不一致性的關(guān)系是相反的仇冯。
我們知道熵的計(jì)算公式:
從概率到熵:
我們知道?
有
取均值有0.25*3.245 = 0.811
還可寫成:
同時(shí),若桶中均為紅球族操,那么有:
更通用的公式顯而易見:
當(dāng)桶中有m個(gè)紅球苛坚、n個(gè)綠球時(shí),有:
至此得到熵的公式坪创。
在決策樹中炕婶,通過計(jì)算劃分出的不同數(shù)據(jù)集的熵姐赡,分別與劃分之前數(shù)據(jù)集的熵比較得出信息增益莱预,得出信息增益最高的數(shù)據(jù)集的情況,此時(shí)的特征則為決策樹此時(shí)創(chuàng)建分支的最好特征项滑。