這是我機(jī)器學(xué)習(xí)的第一篇文章吉嚣,權(quán)當(dāng)學(xué)習(xí)筆記了。如果能對你有所幫助蹬铺,那就不甚榮幸了尝哆。
統(tǒng)計(jì)方法中,主要有2大類方法:回歸丛塌、分類较解。其中,決策樹屬于分類方法的一種赴邻。當(dāng)然了印衔,更多分類方法以后會(huì)談到。接下來姥敛,我將主要從以下幾個(gè)方面來談?wù)勎覍Q策樹的理解:
1. 什么是決策樹
2. 決策樹構(gòu)建的基本流程
3. 選擇最優(yōu)劃分屬性
4. 更深入的探究
曾經(jīng)我們?yōu)榱朔诸惗帉懙某绦蚴前次覀冏约喝斯ふ页鰜淼囊?guī)則奸焙,編寫if-else這樣的語句來進(jìn)行判斷。這樣的問題是彤敛,費(fèi)時(shí)費(fèi)力与帆,不靈活,而且由于人自身的認(rèn)識有限墨榄,很難窮盡所有規(guī)則玄糟。而決策樹的提出,在一定程度上袄秩,把我們從無盡的規(guī)則提取出解放了出來阵翎。我們只需要“喂”給計(jì)算機(jī):訓(xùn)練集和屬性集,加上我們即將學(xué)到的決策樹算法之剧,計(jì)算機(jī)就能自動(dòng)歸納出分類的規(guī)則郭卫。
一、什么是決策樹
1. 構(gòu)成:一棵決策樹包含一個(gè)根節(jié)點(diǎn)背稼、若干個(gè)內(nèi)部節(jié)點(diǎn)和若干個(gè)葉節(jié)點(diǎn)贰军;節(jié)點(diǎn)間由有向邊連接。
2. 本質(zhì):從訓(xùn)練集中歸納出一組分類規(guī)則蟹肘。
3. 核心問題:決策樹的生長(模型的局部選擇)词疼;決策樹的修剪(模型的全局選擇)。
初學(xué)時(shí)疆前,重點(diǎn)應(yīng)在生長部分寒跳。修剪是為了提高運(yùn)行速度、降低模型的復(fù)雜度竹椒。
修剪枝的作用如下圖1-1所示:隨著模型越來越復(fù)雜(也就說樹越來越深)童太,在訓(xùn)練集中的錯(cuò)誤率越來越低。但是將這樣的模型用于測試集時(shí)(作用于新樣本時(shí))胸完,一開始效果越來越好书释,但當(dāng)模型復(fù)雜度達(dá)到一定程度后,效果反而變差了赊窥。這也就是機(jī)器學(xué)習(xí)中經(jīng)常需要考慮的過擬合問題爆惧。
其他機(jī)器學(xué)習(xí)算法,針對過擬合锨能,我們會(huì)采用正則化來解決扯再。針對決策樹芍耘,我們通過剪枝來解決過擬合。
二熄阻、決策樹構(gòu)建的基本流程
決策樹偽代碼:
決策樹的生成是運(yùn)用了遞歸斋竞,在遞歸式里有3個(gè)停止條件。
其中最關(guān)鍵的是秃殉,“劃分最優(yōu)屬性”這一步坝初。接下來就具體介紹怎樣來劃分最優(yōu)屬性。
三钾军、選擇最優(yōu)劃分屬性
進(jìn)行劃分選擇的方法不同鳄袍,最后對應(yīng)的決策樹算法不同。
ID3:以信息增益為劃分準(zhǔn)則
C4.5:以增益率為劃分準(zhǔn)則
CART:以基尼指數(shù)為劃分準(zhǔn)則
1吏恭、信息增益
先介紹信息熵拗小,計(jì)算信息增益時(shí)需要。
四砸泛、更深入的探究
1十籍、剪枝
2、帶缺失值變量的處理方法
軟件實(shí)現(xiàn):R語言唇礁、SPSS勾栗、modeler、python等都可以實(shí)現(xiàn)盏筐。
這節(jié)先把決策樹最關(guān)鍵的原理介紹出來围俘。實(shí)現(xiàn)的話,作為機(jī)器學(xué)習(xí)最基本的一種算法琢融,大部分軟件都有直接實(shí)現(xiàn)的功能界牡。具體的操作、區(qū)別和聯(lián)系漾抬,需要進(jìn)一步的歸納總結(jié)出來宿亡。
由于文章中的公式,是以圖片的形式展現(xiàn)的∧闪睿現(xiàn)在提供所有圖片部分的PDF挽荠,如有需要,可以前往網(wǎng)址下載平绩。
若GitHub網(wǎng)速太差圈匆,可以用網(wǎng)盤下載。鏈接: https://pan.baidu.com/s/1pLduapl 密碼: nrwh
注:雖然我們希望機(jī)器來幫我們?nèi)詣?dòng)的實(shí)現(xiàn)所有判斷捏雌,但實(shí)現(xiàn)的情況是跃赚,目前大部分的監(jiān)督學(xué)習(xí),只能識別它見過的樣本(訓(xùn)練集出現(xiàn)過的)性湿。所有對于經(jīng)常出現(xiàn)新樣本的情景纬傲,傳統(tǒng)機(jī)器學(xué)習(xí)能力有限满败。如:在傳統(tǒng)安全行業(yè),對不良網(wǎng)站的識別是依靠誰的不良樣本集更豐富來競爭的叹括。你肯定會(huì)擔(dān)心那么新的不良網(wǎng)站出現(xiàn)怎么辦葫录,其實(shí)也不用太擔(dān)心,像現(xiàn)在阿里云安全的“道哥”就提出了“彈性安全網(wǎng)絡(luò)”這樣的新措施领猾。
參考文獻(xiàn):
[1] 機(jī)器學(xué)習(xí) 周志華 北京 : 清華大學(xué)出版社 ,2016
[2] 統(tǒng)計(jì)學(xué)習(xí)方法 李航 北京 : 清華大學(xué)出版社 ,2012