05 決策樹 - 生成算法 ID3、C4.5栗涂、CART

ID3 提出了初步的決策樹算法知牌;
C4.5 提出了完整的決策樹算法;
CART (Classification And Regression Tree) 目前使用最多的決策樹算法斤程;

一角寸、ID3 算法

ID3 算法是決策樹的經(jīng)典構(gòu)造算法,內(nèi)部使用信息熵信息增益來進(jìn)行構(gòu)建忿墅,每次迭代算則信息增益最大的特征屬性作為分割屬性扁藕。

優(yōu)點(diǎn):
決策樹構(gòu)建速度快,實(shí)現(xiàn)簡(jiǎn)單疚脐。

缺點(diǎn):
計(jì)算依賴于特征數(shù)目較多的特征亿柑,而屬性值最多的屬性并不一定最優(yōu)。
ID3算法不是遞增算法棍弄。
ID3算法是單變量決策樹望薄,對(duì)于特征屬性之間的關(guān)系不會(huì)考慮。
抗噪性差呼畸。數(shù)據(jù)集中噪音點(diǎn)多可能會(huì)出現(xiàn)過擬合痕支。
只適合小規(guī)模的數(shù)據(jù)集,需要將數(shù)據(jù)放到內(nèi)存中蛮原。

思考: 樹形結(jié)構(gòu)能否并行計(jì)算卧须?

二、C4.5 算法

C4.5 算法是在ID3算法上的優(yōu)化儒陨。使用信息增益率來取代ID3中的信息增益故慈,在樹的構(gòu)造過程中會(huì)進(jìn)行剪枝操作進(jìn)行優(yōu)化,能夠自動(dòng)完成對(duì)連續(xù)屬性的離散化處理框全。

ID3當(dāng)時(shí)構(gòu)建的時(shí)候就沒有去考慮連續(xù)值這個(gè)問題察绷。

C4.5 算法在選中分割屬性的時(shí)候選擇信息增益率大的屬性,公式如下:

優(yōu)點(diǎn):
產(chǎn)生規(guī)則易于理解津辩。
準(zhǔn)確率較高拆撼。(因?yàn)榭紤]了連續(xù)值,數(shù)據(jù)越多擬合程度就越好喘沿。)
實(shí)現(xiàn)簡(jiǎn)單闸度。

缺點(diǎn):
對(duì)數(shù)據(jù)集需要進(jìn)行多次掃描和排序,所以效率較低蚜印。(比如之前例子中收入的連續(xù)值莺禁,分割次數(shù)越多,需要掃描的次數(shù)也就越多窄赋,排序次數(shù)也越多哟冬。)
只適合小規(guī)模數(shù)據(jù)集楼熄,需要將數(shù)據(jù)放到內(nèi)存中。

三浩峡、CART算法

使用基尼系數(shù) Gain作為數(shù)據(jù)純度的量化指標(biāo)來構(gòu)建決策樹算法可岂,叫做CART算法。

GINI增益 作為分割屬性選擇的標(biāo)準(zhǔn)翰灾,選擇GINI增益最大的作為當(dāng)前數(shù)據(jù)集分割屬性缕粹。可以用于分類和回歸兩類問題纸淮。

注意: CART構(gòu)建的是二叉樹平斩。

四、總結(jié)

1咽块、ID3和C4.5算法只適合小規(guī)模數(shù)據(jù)集上使用绘面。
2、ID3和C4.5算法都是單變量決策樹糜芳。
3、當(dāng)屬性值比較多的時(shí)候請(qǐng)使用C4.5魄衅。
4峭竣、決策樹分類一般情況只適合小數(shù)據(jù)量的情況(數(shù)據(jù)可以放內(nèi)存)
5、CART算法是最常用的一種決策樹構(gòu)建算法晃虫。
6皆撩、三種算法的區(qū)別只是對(duì)于當(dāng)前樹的評(píng)價(jià)標(biāo)準(zhǔn)不同而已,ID3使用信息增益哲银,C4.5使用信息增益率扛吞,CART使用基尼系數(shù)
7荆责、CART算法構(gòu)建的一定是二叉樹滥比。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市做院,隨后出現(xiàn)的幾起案子盲泛,更是在濱河造成了極大的恐慌,老刑警劉巖键耕,帶你破解...
    沈念sama閱讀 212,816評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件寺滚,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡屈雄,警方通過查閱死者的電腦和手機(jī)村视,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,729評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來酒奶,“玉大人蚁孔,你說我怎么就攤上這事奶赔。” “怎么了勒虾?”我有些...
    開封第一講書人閱讀 158,300評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵纺阔,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我修然,道長(zhǎng)笛钝,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,780評(píng)論 1 285
  • 正文 為了忘掉前任愕宋,我火速辦了婚禮玻靡,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘中贝。我一直安慰自己囤捻,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,890評(píng)論 6 385
  • 文/花漫 我一把揭開白布邻寿。 她就那樣靜靜地躺著蝎土,像睡著了一般。 火紅的嫁衣襯著肌膚如雪绣否。 梳的紋絲不亂的頭發(fā)上誊涯,一...
    開封第一講書人閱讀 50,084評(píng)論 1 291
  • 那天,我揣著相機(jī)與錄音蒜撮,去河邊找鬼暴构。 笑死,一個(gè)胖子當(dāng)著我的面吹牛段磨,可吹牛的內(nèi)容都是我干的取逾。 我是一名探鬼主播,決...
    沈念sama閱讀 39,151評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼苹支,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼砾隅!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起债蜜,我...
    開封第一講書人閱讀 37,912評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤琉用,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后策幼,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體邑时,經(jīng)...
    沈念sama閱讀 44,355評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,666評(píng)論 2 327
  • 正文 我和宋清朗相戀三年特姐,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了晶丘。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,809評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖浅浮,靈堂內(nèi)的尸體忽然破棺而出沫浆,到底是詐尸還是另有隱情,我是刑警寧澤滚秩,帶...
    沈念sama閱讀 34,504評(píng)論 4 334
  • 正文 年R本政府宣布专执,位于F島的核電站,受9級(jí)特大地震影響郁油,放射性物質(zhì)發(fā)生泄漏本股。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,150評(píng)論 3 317
  • 文/蒙蒙 一桐腌、第九天 我趴在偏房一處隱蔽的房頂上張望拄显。 院中可真熱鬧,春花似錦案站、人聲如沸躬审。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)承边。三九已至,卻和暖如春石挂,著一層夾襖步出監(jiān)牢的瞬間博助,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,121評(píng)論 1 267
  • 我被黑心中介騙來泰國(guó)打工誊稚, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留翔始,地道東北人罗心。 一個(gè)月前我還...
    沈念sama閱讀 46,628評(píng)論 2 362
  • 正文 我出身青樓里伯,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親渤闷。 傳聞我的和親對(duì)象是個(gè)殘疾皇子疾瓮,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,724評(píng)論 2 351

推薦閱讀更多精彩內(nèi)容