決策樹ID3 C4.5 CART的區(qū)別

決策樹是機(jī)器學(xué)習(xí)中非常經(jīng)典的一類學(xué)習(xí)算法,它通過樹的結(jié)構(gòu)革半,利用樹的分支來表示對樣本特征的判斷規(guī)則丛晦,從樹的葉子節(jié)點所包含的訓(xùn)練樣本中得到預(yù)測值。決策樹如何生成決定了所能處理的數(shù)據(jù)類型和預(yù)測性能涩馆。主要的決策樹算法包括ID3行施,C4.5, CART等魂那。

ID3

ID3是由 Ross Quinlan在1986年提出的一種構(gòu)造決策樹的方法蛾号。用于處理標(biāo)稱型數(shù)據(jù)集。

在節(jié)點上選取能對該節(jié)點處的訓(xùn)練數(shù)據(jù)進(jìn)行最優(yōu)劃分的屬性涯雅。最后劃分的標(biāo)準(zhǔn)是信息增益(Information Gain)鲜结。

ID3的特點是:(1)容易造成過度擬合。(2) 使用標(biāo)稱型數(shù)據(jù)活逆,但是很難處理連續(xù)型數(shù)據(jù)精刷。

C4.5

C4.5是對ID3的改進(jìn),其基本過程與ID3類似蔗候,改進(jìn)的地方在于:

(1)既能處理標(biāo)稱型數(shù)據(jù)怒允,又能連續(xù)型數(shù)據(jù)。為了處理連續(xù)型數(shù)據(jù)锈遥,該算法在相應(yīng)的節(jié)點使用一個屬性的閾值误算,利用閾值將樣本劃分成兩部分仰美。

(2)能處理缺失了一些屬性的數(shù)據(jù)。該算法允許屬性值缺失時被標(biāo)記為儿礼?咖杂,屬性值缺失的樣本在計算熵增益時被忽略。

(3)構(gòu)造完成后可以剪枝蚊夫。合并相鄰的無法產(chǎn)生大量信息增益的葉節(jié)點诉字,消除過渡匹配問題。

3知纷,CART

CART稱為分類決策樹(二叉樹)壤圃,既能處理分類問題,又能處理回歸問題琅轧。與ID3不能直接處理連續(xù)型特征不同的是伍绳,CART使用二元切分,即使用一個屬性閾值對樣本數(shù)據(jù)進(jìn)行劃分乍桂。劃分的標(biāo)準(zhǔn)除了使用熵增益外冲杀,還有基尼純凈度(Gini impurity)和方差縮減(variance reduction)(用于回歸)。

ID3算法是決策樹的一個經(jīng)典的構(gòu)造算法睹酌,在一段時期內(nèi)曾是同類研究工作的比較對象权谁,但通過近些年國內(nèi)外學(xué)者的研究,ID3算法也暴露出一些問題憋沿,具體如下: (1)信息增益的計算依賴于特征數(shù)目較多的特征旺芽,而屬性取值最多的屬性并不一定最優(yōu)。

(2)ID3是非遞增算法辐啄。

(3)ID3是單變量決策樹(在分枝節(jié)點上只考慮單個屬性)采章,許多復(fù)雜概念的表達(dá)困難,屬性相互關(guān)系強(qiáng)調(diào)不夠壶辜,容易導(dǎo)致決策樹中子樹的重復(fù)或有些屬性在決策樹的某一路徑上被檢驗多次悯舟。

(4)抗噪性差,訓(xùn)練例子中正例和反例的比例較難控制士复。

于是Quilan改進(jìn)了ID3,提出了C4.5算法翩活。C4.5算法現(xiàn)在已經(jīng)成為最經(jīng)典的決策樹構(gòu)造算法阱洪,排名數(shù)據(jù)挖掘十大經(jīng)典算法之首,下一篇文章將重點討論菠镇。

決策樹的經(jīng)典構(gòu)造算法——C4.5(WEKA中稱J48)

由于ID3算法在實際應(yīng)用中存在一些問題冗荸,于是Quilan提出了C4.5算法,嚴(yán)格上說C4.5只能是ID3的一個改進(jìn)算法利耍。

C4.5算法繼承了ID3算法的優(yōu)點蚌本,并在以下幾方面對ID3算法進(jìn)行了改進(jìn):

1) 用信息增益率來選擇屬性盔粹,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;

2) 在樹構(gòu)造過程中進(jìn)行剪枝程癌;

3) 能夠完成對連續(xù)屬性的離散化處理舷嗡;

4) 能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。

C4.5算法有如下優(yōu)點:產(chǎn)生的分類規(guī)則易于理解嵌莉,準(zhǔn)確率較高进萄。其缺點是:在構(gòu)造樹的過程中,需要對數(shù)據(jù)集進(jìn)行多次的順序掃描和排序锐峭,因而導(dǎo)致算法的低效中鼠。此外,C4.5只適合于能夠駐留于內(nèi)存的數(shù)據(jù)集沿癞,當(dāng)訓(xùn)練集大得無法在內(nèi)存容納時程序無法運行援雇。

另外,無論是ID3還是C4.5最好在小數(shù)據(jù)集上使用椎扬,決策樹分類一般只試用于小數(shù)據(jù)惫搏。當(dāng)屬性取值很多時最好選擇C4.5算法,ID3得出的效果會非常差盗舰。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末晶府,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子钻趋,更是在濱河造成了極大的恐慌川陆,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,602評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蛮位,死亡現(xiàn)場離奇詭異较沪,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)失仁,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,442評論 2 382
  • 文/潘曉璐 我一進(jìn)店門尸曼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人萄焦,你說我怎么就攤上這事控轿。” “怎么了拂封?”我有些...
    開封第一講書人閱讀 152,878評論 0 344
  • 文/不壞的土叔 我叫張陵茬射,是天一觀的道長。 經(jīng)常有香客問我冒签,道長在抛,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,306評論 1 279
  • 正文 為了忘掉前任萧恕,我火速辦了婚禮刚梭,結(jié)果婚禮上肠阱,老公的妹妹穿的比我還像新娘。我一直安慰自己朴读,他們只是感情好屹徘,可當(dāng)我...
    茶點故事閱讀 64,330評論 5 373
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著磨德,像睡著了一般缘回。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上典挑,一...
    開封第一講書人閱讀 49,071評論 1 285
  • 那天酥宴,我揣著相機(jī)與錄音,去河邊找鬼您觉。 笑死拙寡,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的琳水。 我是一名探鬼主播肆糕,決...
    沈念sama閱讀 38,382評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼在孝!你這毒婦竟也來了诚啃?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,006評論 0 259
  • 序言:老撾萬榮一對情侶失蹤私沮,失蹤者是張志新(化名)和其女友劉穎始赎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體仔燕,經(jīng)...
    沈念sama閱讀 43,512評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡造垛,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,965評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了晰搀。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片五辽。...
    茶點故事閱讀 38,094評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖外恕,靈堂內(nèi)的尸體忽然破棺而出杆逗,到底是詐尸還是另有隱情,我是刑警寧澤鳞疲,帶...
    沈念sama閱讀 33,732評論 4 323
  • 正文 年R本政府宣布罪郊,位于F島的核電站,受9級特大地震影響建丧,放射性物質(zhì)發(fā)生泄漏排龄。R本人自食惡果不足惜波势,卻給世界環(huán)境...
    茶點故事閱讀 39,283評論 3 307
  • 文/蒙蒙 一翎朱、第九天 我趴在偏房一處隱蔽的房頂上張望橄维。 院中可真熱鬧,春花似錦拴曲、人聲如沸争舞。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,286評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽竞川。三九已至,卻和暖如春叁熔,著一層夾襖步出監(jiān)牢的瞬間委乌,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,512評論 1 262
  • 我被黑心中介騙來泰國打工荣回, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留遭贸,地道東北人。 一個月前我還...
    沈念sama閱讀 45,536評論 2 354
  • 正文 我出身青樓心软,卻偏偏與公主長得像壕吹,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子删铃,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,828評論 2 345

推薦閱讀更多精彩內(nèi)容