參見:http://blog.csdn.net/qunxingvip/article/details/51501541 說的比較詳細(xì)
下面缺失部分有錯(cuò)誤阶祭,已經(jīng)刪除
決策樹 是一種監(jiān)督學(xué)習(xí)算法搔确,可用于分類問題也可以用到回歸問題弥激。
決策樹的構(gòu)造:根據(jù)某種規(guī)則選取一個(gè)屬性,瞪浸;利用該屬性的值把數(shù)據(jù)分成不同的分支莫鸭,每個(gè)分支再遞歸的調(diào)用上面進(jìn)行分支的方法谚咬,當(dāng)該屬性對(duì)應(yīng)的數(shù)據(jù)都是同一類數(shù)據(jù)的時(shí)候停止進(jìn)行。
對(duì)不同選擇屬性的方法,對(duì)應(yīng)不同的決策樹算法攘残。
利用信息增益最大化的是ID3算法
利用信息增益率最大化的是C45算法
在R語言中拙友,rpart中分類或者回歸的算法是利用CART算法實(shí)現(xiàn)的。
信息熵:反映了數(shù)據(jù)的昏亂程度歼郭,信息熵越大 數(shù)據(jù)的昏亂程度越高遗契。?
信息增益:反應(yīng)信息的減少程度,根結(jié)點(diǎn)信息熵 -- 分類后的條件熵
決策樹的剪枝:
1病曾,首先構(gòu)造出完整的決策樹牍蜂,根據(jù)葉子結(jié)點(diǎn)所在鄰近父結(jié)點(diǎn),計(jì)算父結(jié)點(diǎn)的信息熵 與分類后的條件熵的差泰涂,大于0的時(shí)候進(jìn)行剪枝鲫竞。對(duì)其他結(jié)點(diǎn)進(jìn)行同樣的操作(后剪枝)
2,在決策樹構(gòu)造結(jié)點(diǎn)的時(shí)候逼蒙,計(jì)算兩者的差進(jìn)行剪枝(先剪枝)
3从绘,構(gòu)造好決策樹, 第一次利用1去除幾個(gè)結(jié)點(diǎn)形成一個(gè)樹T1是牢,第二次在T1的基礎(chǔ)上剪枝后形成T2僵井,,驳棱,批什,一直到只有一個(gè)結(jié)點(diǎn)Tn。利用測(cè)試集社搅,在T1 到Tn中選出分類或者擬合效率最好的那個(gè)樹驻债。
決策樹的優(yōu)點(diǎn):
1.對(duì)特征敏感
2.當(dāng)特征是連續(xù)值得時(shí)候,選取某個(gè)閾值對(duì)屬性進(jìn)行切分形葬。
決策樹的缺點(diǎn):
1.容易過擬合
其他:
1.熵合呐,基尼系數(shù)有利于具有大量不同值得屬性。
2.cart算法笙以,對(duì)每個(gè)屬性只進(jìn)行二元?jiǎng)澐?/b>