ID3 提出了初步的決策樹算法知牌;
C4.5 提出了完整的決策樹算法;
CART (Classification And Regression Tree) 目前使用最多的決策樹算法斤程;
一角寸、ID3 算法
ID3 算法是決策樹的經(jīng)典構(gòu)造算法,內(nèi)部使用信息熵和信息增益來進(jìn)行構(gòu)建忿墅,每次迭代算則信息增益最大的特征屬性作為分割屬性扁藕。
優(yōu)點(diǎn):
決策樹構(gòu)建速度快,實(shí)現(xiàn)簡(jiǎn)單疚脐。
缺點(diǎn):
計(jì)算依賴于特征數(shù)目較多的特征亿柑,而屬性值最多的屬性并不一定最優(yōu)。
ID3算法不是遞增算法棍弄。
ID3算法是單變量決策樹望薄,對(duì)于特征屬性之間的關(guān)系不會(huì)考慮。
抗噪性差呼畸。數(shù)據(jù)集中噪音點(diǎn)多可能會(huì)出現(xiàn)過擬合痕支。
只適合小規(guī)模的數(shù)據(jù)集,需要將數(shù)據(jù)放到內(nèi)存中蛮原。
思考: 樹形結(jié)構(gòu)能否并行計(jì)算卧须?
二、C4.5 算法
C4.5 算法是在ID3算法上的優(yōu)化儒陨。使用信息增益率來取代ID3中的信息增益故慈,在樹的構(gòu)造過程中會(huì)進(jìn)行剪枝操作進(jìn)行優(yōu)化,能夠自動(dòng)完成對(duì)連續(xù)屬性的離散化處理框全。
ID3當(dāng)時(shí)構(gòu)建的時(shí)候就沒有去考慮連續(xù)值這個(gè)問題察绷。
C4.5 算法在選中分割屬性的時(shí)候選擇信息增益率大的屬性,公式如下:
優(yōu)點(diǎn):
產(chǎn)生規(guī)則易于理解津辩。
準(zhǔn)確率較高拆撼。(因?yàn)榭紤]了連續(xù)值,數(shù)據(jù)越多擬合程度就越好喘沿。)
實(shí)現(xiàn)簡(jiǎn)單闸度。
缺點(diǎn):
對(duì)數(shù)據(jù)集需要進(jìn)行多次掃描和排序,所以效率較低蚜印。(比如之前例子中收入的連續(xù)值莺禁,分割次數(shù)越多,需要掃描的次數(shù)也就越多窄赋,排序次數(shù)也越多哟冬。)
只適合小規(guī)模數(shù)據(jù)集楼熄,需要將數(shù)據(jù)放到內(nèi)存中。
三浩峡、CART算法
使用基尼系數(shù) Gain作為數(shù)據(jù)純度的量化指標(biāo)來構(gòu)建決策樹算法可岂,叫做CART算法。
GINI增益 作為分割屬性選擇的標(biāo)準(zhǔn)翰灾,選擇GINI增益最大的作為當(dāng)前數(shù)據(jù)集分割屬性缕粹。可以用于分類和回歸兩類問題纸淮。
注意: CART構(gòu)建的是二叉樹平斩。
四、總結(jié)
1咽块、ID3和C4.5算法只適合小規(guī)模數(shù)據(jù)集上使用绘面。
2、ID3和C4.5算法都是單變量決策樹糜芳。
3、當(dāng)屬性值比較多的時(shí)候請(qǐng)使用C4.5魄衅。
4峭竣、決策樹分類一般情況只適合小數(shù)據(jù)量的情況(數(shù)據(jù)可以放內(nèi)存)
5、CART算法是最常用的一種決策樹構(gòu)建算法晃虫。
6皆撩、三種算法的區(qū)別只是對(duì)于當(dāng)前樹的評(píng)價(jià)標(biāo)準(zhǔn)不同而已,ID3使用信息增益哲银,C4.5使用信息增益率扛吞,CART使用基尼系數(shù)。
7荆责、CART算法構(gòu)建的一定是二叉樹滥比。