機(jī)器學(xué)習(xí)個人認(rèn)為的重點在于三個方面:一是理解能力,即理解知識或是問題的本質(zhì);二是抽象能力盔沫,如何將問題特征進(jìn)行抽象,并應(yīng)用數(shù)學(xué)知識對具體問題的抽象結(jié)果進(jìn)行建模枫匾;三是編碼能力架诞,能用代碼流暢地表達(dá)建立的模型。
決策樹是什么:
決策樹(Decision Tree)是另一種簡單但是廣泛使用的分類器干茉。通過訓(xùn)練數(shù)據(jù)來構(gòu)建決策樹侈贷,并利用所構(gòu)建的決策樹對待分類數(shù)據(jù)進(jìn)行高效的分類。
決策樹作為一種比 k – 近鄰算法更加高效的分類器等脂,同樣是根據(jù)屬性來進(jìn)行分類俏蛮。那高效的地方在于何處?簡單說就是上遥,如果說k – 近鄰算法需要比較待分類數(shù)據(jù)與訓(xùn)練樣本的所有特征值的差距搏屑。那決策樹可能僅依據(jù)一個或幾個比較有特點的屬性就能將待分類數(shù)據(jù)進(jìn)行分類。
回憶第一章里相親網(wǎng)站的例子粉楚,如果A女士是一個反對抽煙的人辣恋,而在我們訓(xùn)練樣本的屬性中添加一個生活習(xí)慣的屬性,其屬性的值包括抽煙和非抽煙兩個模软。則當(dāng)遇到一個新的需要分類的人(B先生)時伟骨,如果B先生活習(xí)慣屬性的特征值是抽煙,則在分類時燃异,我們不需要計算其他特征值的差距携狭,就可以很容易地將B先生歸為A女士不喜歡的一類中。
(圖為判斷貸款人是否具有償還貸款能力的簡單決策樹)
高效性在于回俐,一次性構(gòu)建決策樹就可以反復(fù)使用逛腿,并且每一次分類的最大計算次數(shù)不超過決策樹的深度稀并,并且數(shù)據(jù)形式非常容易理解。
決策樹的優(yōu)缺點:
優(yōu)點: 計算復(fù)雜度不高单默, 輸出結(jié)果易于理解碘举, 對中間值的缺失不敏感,可以處理不相關(guān)特征數(shù)據(jù)搁廓。
缺點: 可能會產(chǎn)生過度匹配問題引颈。
適用數(shù)據(jù)類型: 數(shù)值型和標(biāo)稱型
如何構(gòu)建決策樹:
還是以此圖為例,
用訓(xùn)練樣本的屬性作節(jié)點(葉節(jié)點除外)境蜕,比如:“擁有房產(chǎn)”线欲;用對應(yīng)樣本屬性的特征值作分支,比如“是”或“否”汽摹;用分類的標(biāo)簽做葉節(jié)點李丰,比如“可以償還”或“無法償還”。
根節(jié)點:根節(jié)點在數(shù)據(jù)分類時起了關(guān)鍵作用逼泣,它是決策樹算法匯聚所有數(shù)據(jù)的地方趴泌,為了劃分出最好的結(jié)果,我們需要找到?jīng)Q定性的特征作為第一個根節(jié)點拉庶。
非子葉節(jié)點:非子葉節(jié)點也是屬性之一嗜憔,每一個非子葉節(jié)點都是一個決定性屬性,幫助流入數(shù)據(jù)分出最好的分類結(jié)果氏仗。
分支:分支是給對應(yīng)節(jié)點屬性的特征值吉捶,滿足分支上特征值條件的數(shù)據(jù)將會被分入對應(yīng)的下一個節(jié)點。
葉節(jié)點:葉節(jié)點是分類的標(biāo)簽皆尔,也就是分類的類別呐舔。
我自己的博客地址為:謝雨熹的學(xué)習(xí)博客歡迎大家來交流!
Talk is cheap, show me your code!