http://www.sohu.com/a/72642268_224832
若一個(gè)隨機(jī)變量X可能的取值有M個(gè)灵奖,則它的信息熵H(X)的取值在[0,logM]之間。當(dāng)X取某個(gè)確定值的時(shí)候渗稍,H(X)最小為0苛白;當(dāng)X服從均勻分布時(shí)鞋拟,H(X)最大為logM弛槐;即熵越大,表示隨機(jī)變量X不確定性越大。(決策樹(shù)中對(duì)應(yīng)的知牌,熵越大,葉子節(jié)點(diǎn)的不純度越高)
注意:由于概率<=1,log(p)<=0,所以信息熵前面是有個(gè)負(fù)號(hào)的喲(因?yàn)殪卮淼氖怯脕?lái)表示這個(gè)變量的最小比特?cái)?shù)斤程,所以應(yīng)該是個(gè)整數(shù)噠)
H(X) =
GINI指數(shù):
https://blog.csdn.net/YE1215172385/article/details/79470926
由上面的鏈接可以看到角寸,Gini指數(shù)可以看做信息熵在P=1處的一階泰勒展開(kāi)菩混,所以GINI指數(shù)也可以用來(lái)衡量葉子節(jié)點(diǎn)的不純度,與信息熵的大體趨勢(shì)是一致的扁藕,并且避開(kāi)了log計(jì)算沮峡,所以CART使用的GINI指數(shù)。