[機(jī)器學(xué)習(xí)]決策樹(decision tree)--5.增益率

上一篇文章我們介紹了信息增益辆苔,本文介紹增益率。

我們知道信息增益可以幫助我們構(gòu)建決策樹扼劈,但是信息增益準(zhǔn)則有一個缺點(diǎn)驻啤。具體是什么缺點(diǎn)呢?

西瓜數(shù)據(jù)集

在上面的表格中荐吵,我們試著對編號這一列計算信息增益骑冗,會發(fā)現(xiàn)編號產(chǎn)生的信息增益為0.998赊瞬,遠(yuǎn)大于色澤產(chǎn)生的信息增益。這可以說明編號可以幫助我們更好的判斷西瓜好壞嗎贼涩?答案是否定的巧涧,因?yàn)檫@樣構(gòu)建的決策樹顯然不具有泛化能力,無法對新樣本進(jìn)行有效預(yù)測遥倦。

為什么會出現(xiàn)這種現(xiàn)象谤绳?

仔細(xì)思考后,會發(fā)現(xiàn)袒哥,信息增益準(zhǔn)則對可取值數(shù)據(jù)較多的屬性有所偏好缩筛,為減少這種偏好可能帶來的不利影響,于是有了著名的C4.5決策樹算法堡称。這種算法使用增益率來選擇最優(yōu)劃分屬性歪脏。

增益率的公式為:Gainratio(D,a)=\frac{Gain(D,a)}{IV(a)} ,其中粮呢,IV(a) = -\sum_{v=1}^V \frac{\vert D^v  \vert }{D} \log_2 \frac{\vert D^v  \vert}{D}

IV(a)成為屬性a的固有值钞艇。屬性a的可能取值數(shù)目越多(即V越大)啄寡,則IV(a)的值通常會越大。

我們試著算一下色澤和觸感的IV(a)哩照,分別為:1.580和0.874挺物。可以用下面的代碼進(jìn)行計算:

# total代表正樣本總數(shù)

# num_list里面的每個元素代表該屬性的每個分類的數(shù)目飘弧,

# 比如:色澤這個屬性识藤,有青綠、烏黑次伶、淺白三個類別痴昧,每個類別的數(shù)目分別為6,6,5

import math

total = 17

num_list = [6, 6, 5]

a = 0

for i in num_list:

? ? ratio = i / total

? ? a += (ratio) * math.log(ratio, 2)

? ? IV = -a

print(IV)

需要注意的是,增益率準(zhǔn)則對可取值數(shù)目較少的屬性有所偏好冠王,因此C4.5算法并不是直接選擇增益率最大的候選劃分屬性赶撰,而是使用了一個啟發(fā)式:先從候選劃分屬性中找到信息增益高于平均水平的屬性,再從中選擇增益率最高的柱彻。

從這里也能看得出豪娜,我們在使用算法時,不會僅僅使用一種算法去做預(yù)測哟楷,在以后的項(xiàng)目實(shí)戰(zhàn)中瘤载,很可能會將幾種算法進(jìn)行融合,以達(dá)到較好的效果卖擅。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末鸣奔,一起剝皮案震驚了整個濱河市墨技,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌溃蔫,老刑警劉巖健提,帶你破解...
    沈念sama閱讀 206,311評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異伟叛,居然都是意外死亡私痹,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,339評論 2 382
  • 文/潘曉璐 我一進(jìn)店門统刮,熙熙樓的掌柜王于貴愁眉苦臉地迎上來紊遵,“玉大人,你說我怎么就攤上這事侥蒙“的ぃ” “怎么了?”我有些...
    開封第一講書人閱讀 152,671評論 0 342
  • 文/不壞的土叔 我叫張陵鞭衩,是天一觀的道長学搜。 經(jīng)常有香客問我,道長论衍,這世上最難降的妖魔是什么瑞佩? 我笑而不...
    開封第一講書人閱讀 55,252評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮坯台,結(jié)果婚禮上炬丸,老公的妹妹穿的比我還像新娘。我一直安慰自己蜒蕾,他們只是感情好稠炬,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,253評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著咪啡,像睡著了一般首启。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上撤摸,一...
    開封第一講書人閱讀 49,031評論 1 285
  • 那天闽坡,我揣著相機(jī)與錄音,去河邊找鬼愁溜。 笑死疾嗅,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的冕象。 我是一名探鬼主播代承,決...
    沈念sama閱讀 38,340評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼渐扮!你這毒婦竟也來了论悴?” 一聲冷哼從身側(cè)響起掖棉,我...
    開封第一講書人閱讀 36,973評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎膀估,沒想到半個月后幔亥,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,466評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡察纯,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,937評論 2 323
  • 正文 我和宋清朗相戀三年帕棉,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片饼记。...
    茶點(diǎn)故事閱讀 38,039評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡香伴,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出具则,到底是詐尸還是另有隱情即纲,我是刑警寧澤,帶...
    沈念sama閱讀 33,701評論 4 323
  • 正文 年R本政府宣布博肋,位于F島的核電站低斋,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏匪凡。R本人自食惡果不足惜拔稳,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,254評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望锹雏。 院中可真熱鬧,春花似錦术奖、人聲如沸礁遵。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,259評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽佣耐。三九已至,卻和暖如春唧龄,著一層夾襖步出監(jiān)牢的瞬間兼砖,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工既棺, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留讽挟,地道東北人。 一個月前我還...
    沈念sama閱讀 45,497評論 2 354
  • 正文 我出身青樓丸冕,卻偏偏與公主長得像耽梅,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子胖烛,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,786評論 2 345

推薦閱讀更多精彩內(nèi)容