序
熵的概念中有信息熵亮靴、信息增益、信息增益比落君、基尼指數滴须,這些統(tǒng)統(tǒng)作為決策樹分裂的依據,其中叽奥,我們需要知道信息熵與基尼指數的關系扔水。
信息熵與基尼指數的關系
-
首先看二者的定義:
將 f(x) = ?lnx 在 x = 1 處進行一階泰勒展開(忽略高階無窮小):
因此朝氓,熵可近似轉化為:
基尼指數是信息熵中﹣logP 在P = 1處一階泰勒展開后的結果魔市!所以兩者都可以用來度量數據集的純度,用于描述決策樹節(jié)點的純度赵哲!