1.決策樹簡單描述
決策樹是一種基于特征對實(shí)例進(jìn)行分類的樹形結(jié)構(gòu)噪馏∪祝可以轉(zhuǎn)換成一個if-then規(guī)則的集合蚕苇,也可以看作是定義在特征空間劃分上的類的條件概率分布内狸。
2.決策樹學(xué)習(xí)算法
決策樹學(xué)習(xí)旨在構(gòu)建一個與訓(xùn)練數(shù)據(jù)擬合很好检眯,并且復(fù)雜度小的決策樹。
1.決策樹學(xué)習(xí)的算法通常是一個遞歸地選擇最優(yōu)特征昆淡,并根據(jù)該特征對訓(xùn)練數(shù)據(jù)進(jìn)行分割锰瘸,使得對各個子數(shù)據(jù)集有一個最好的分類的過程,這一過程對應(yīng)著對特征空間的劃分昂灵,也對應(yīng)著決策樹的構(gòu)建避凝。開始,構(gòu)建根結(jié)點(diǎn)眨补,將所有訓(xùn)練數(shù)據(jù)都放在根結(jié)點(diǎn)管削,選擇一個最優(yōu)特征,按照這一特征將訓(xùn)練數(shù)據(jù)集分割成子集撑螺,使得各個子集有一個在當(dāng)前條件下最好的分類含思。如果這些子集已經(jīng)能夠被基本正確分類,那么構(gòu)建葉結(jié)點(diǎn)甘晤,并將這些子集分到所對應(yīng)的葉結(jié)點(diǎn)中去含潘;如果還有子集不能被基本正確分類,那么就對這些子集選擇新的最優(yōu)特征线婚,繼續(xù)對其進(jìn)行分割遏弱,構(gòu)建相應(yīng)的結(jié)點(diǎn)。如此遞歸地進(jìn)行下去塞弊,直至所有訓(xùn)練數(shù)據(jù)子集被基本正確分類腾窝,或者沒有合適的特征為止缀踪。最后每個子集都被分到葉結(jié)點(diǎn),即都有了明確的類虹脯。這就生成了一顆決策樹。
2.以上方法生成的決策樹可能對訓(xùn)練數(shù)據(jù)有很好的分類能力奏候,但對未知的測試數(shù)據(jù)卻未必有很好的分類能力循集,即可能發(fā)生過擬合現(xiàn)象。我們需要對已生成的樹自下而上進(jìn)行剪枝蔗草,將樹變得更簡單咒彤,從而使它具有更好的泛化能力。具體地咒精,就是去掉過于細(xì)分的葉結(jié)點(diǎn)镶柱,使其回退到父結(jié)點(diǎn),甚至更高的結(jié)點(diǎn)模叙,然后將父結(jié)點(diǎn)或更高的結(jié)點(diǎn)改為新的葉結(jié)點(diǎn)歇拆。
3.如果特征數(shù)量很多,也可以在決策樹學(xué)習(xí)開始的時候范咨,對特征進(jìn)行選擇故觅,只留下對訓(xùn)練數(shù)據(jù)有足夠分類能力的特征。
2.1 特征選擇
特征選擇在于選取對訓(xùn)練數(shù)據(jù)具有分類能力的特征渠啊,這樣可以提高決策樹學(xué)習(xí)的效率输吏。通常特征選擇的準(zhǔn)則是信息增益或信息增益比。