簡述決策樹的原理响迂?
決策樹學(xué)習(xí)的目的是為了產(chǎn)生一棵泛化能力強(qiáng),即處理未見示例能力強(qiáng)的決策樹细疚,其基本流程遵循簡單且直觀地“分而治之”策略蔗彤。
決策樹學(xué)習(xí)的關(guān)鍵是選擇最優(yōu)劃分屬性。一般而言疯兼,隨著劃分過程不斷進(jìn)行然遏,決策樹的分支節(jié)點所包含的樣本將趨近于同一類別,即節(jié)點的“純度”越來越高吧彪。
衡量純度的指標(biāo)有:信息熵待侵、增益率、基尼指數(shù)姨裸。
什么是ID3決策樹秧倾?
ID3決策樹是以信息增益為準(zhǔn)則來選擇劃分屬性,信息增益即代表選擇某劃分屬性前后的信息熵的差值傀缩,信息增益越大那先,意味著該屬性越適合被選擇去劃分。
什么是C4.5決策樹赡艰?
C4.5決策樹是以增益率為準(zhǔn)則來選擇劃分屬性售淡,由于信息增益準(zhǔn)則對可取值數(shù)目多的屬性有所偏好,為減少這種偏好帶來的不利影響,增益率被提出揖闸,其定義為:將信息增益比上一個固有值(隨著取值數(shù)目的增多而增大的一個固定值)苦掘。但需要注意的是C4.5算法并不是直接選擇增益率最大的屬性,因為增益率準(zhǔn)則對可取值數(shù)目較少的屬性有偏好楔壤,C4.5算法先從候選屬性中找出信息增益高于平均水平的屬性鹤啡,然后再從中選擇增益率最高的。這是一個啟發(fā)式的規(guī)則蹲嚣。
什么是CART決策樹递瑰?
CART決策樹使用“基尼指數(shù)”來選擇劃分屬性,基尼指數(shù)反映了從數(shù)據(jù)集中隨機(jī)抽取兩個樣本隙畜,其類別標(biāo)記不一致的概率抖部。選擇基尼系數(shù)的原因是為了減少計算量,且易于理解议惰。
決策樹如何做回歸慎颗?
首先,我們要明白言询,什么是回歸樹俯萎,什么是分類樹。兩者的區(qū)別在于樣本輸出运杭,如果樣本輸出是離散值夫啊,那么這是一顆分類樹。如果果樣本輸出是連續(xù)值辆憔,那么那么這是一顆回歸樹撇眯。
除了概念的不同,CART回歸樹和CART分類樹的建立和預(yù)測的區(qū)別主要有下面兩點:
1)連續(xù)值的處理方法不同
2)決策樹建立后做預(yù)測的方式不同虱咧。
對于連續(xù)值的處理熊榛,我們知道CART分類樹采用的是用基尼系數(shù)的大小來度量特征的各個劃分點的優(yōu)劣情況。但是對于回歸模型腕巡,我們使用了常見的和方差的度量方式玄坦。CART回歸樹的度量目標(biāo)是,對于任意劃分特征A逸雹,對應(yīng)的任意劃分點s兩邊劃分成的數(shù)據(jù)集D1和D2营搅,求出使D1和D2各自集合的均方差最小云挟,同時D1和D2的均方差之和最小所對應(yīng)的特征和特征值劃分點
對于決策樹建立后做預(yù)測的方式梆砸,上面講到了CART分類樹采用葉子節(jié)點里概率最大的類別作為當(dāng)前節(jié)點的預(yù)測類別。而回歸樹輸出不是類別园欣,它采用的是用最終葉子的均值或者中位數(shù)來預(yù)測輸出結(jié)果帖世。
決策樹的缺點
1)決策樹算法非常容易過擬合,導(dǎo)致泛化能力不強(qiáng)∪战茫可以通過設(shè)置節(jié)點最少樣本數(shù)量和限制決策樹深度來改進(jìn)赂弓。
2)決策樹會因為樣本發(fā)生一點點的改動,就會導(dǎo)致樹結(jié)構(gòu)的劇烈改變哪轿。這個可以通過集成學(xué)習(xí)之類的方法解決盈魁。
3)尋找最優(yōu)的決策樹是一個NP難的問題,我們一般是通過啟發(fā)式方法窃诉,容易陷入局部最優(yōu)杨耙。可以通過集成學(xué)習(xí)之類的方法來改善飘痛。
4)有些比較復(fù)雜的關(guān)系珊膜,決策樹很難學(xué)習(xí),比如異或宣脉。這個就沒有辦法了车柠,一般這種關(guān)系可以換神經(jīng)網(wǎng)絡(luò)分類方法來解決。
5)如果某些特征的樣本比例過大塑猖,生成決策樹容易偏向于這些特征竹祷。這個可以通過調(diào)節(jié)樣本權(quán)重來改善。