機(jī)器學(xué)習(xí)之決策樹1

這是我機(jī)器學(xué)習(xí)的第一篇文章吉嚣,權(quán)當(dāng)學(xué)習(xí)筆記了。如果能對你有所幫助蹬铺,那就不甚榮幸了尝哆。


統(tǒng)計(jì)方法中,主要有2大類方法:回歸丛塌、分類较解。其中,決策樹屬于分類方法的一種赴邻。當(dāng)然了印衔,更多分類方法以后會(huì)談到。接下來姥敛,我將主要從以下幾個(gè)方面來談?wù)勎覍Q策樹的理解:

1. 什么是決策樹

2. 決策樹構(gòu)建的基本流程

3. 選擇最優(yōu)劃分屬性

4. 更深入的探究


曾經(jīng)我們?yōu)榱朔诸惗帉懙某绦蚴前次覀冏约喝斯ふ页鰜淼囊?guī)則奸焙,編寫if-else這樣的語句來進(jìn)行判斷。這樣的問題是彤敛,費(fèi)時(shí)費(fèi)力与帆,不靈活,而且由于人自身的認(rèn)識有限墨榄,很難窮盡所有規(guī)則玄糟。而決策樹的提出,在一定程度上袄秩,把我們從無盡的規(guī)則提取出解放了出來阵翎。我們只需要“喂”給計(jì)算機(jī):訓(xùn)練集和屬性集,加上我們即將學(xué)到的決策樹算法之剧,計(jì)算機(jī)就能自動(dòng)歸納出分類的規(guī)則郭卫。

一、什么是決策樹

1. 構(gòu)成:一棵決策樹包含一個(gè)根節(jié)點(diǎn)背稼、若干個(gè)內(nèi)部節(jié)點(diǎn)和若干個(gè)葉節(jié)點(diǎn)贰军;節(jié)點(diǎn)間由有向邊連接。

2. 本質(zhì):從訓(xùn)練集中歸納出一組分類規(guī)則蟹肘。

3. 核心問題:決策樹的生長(模型的局部選擇)词疼;決策樹的修剪(模型的全局選擇)。

初學(xué)時(shí)疆前,重點(diǎn)應(yīng)在生長部分寒跳。修剪是為了提高運(yùn)行速度、降低模型的復(fù)雜度竹椒。

修剪枝的作用如下圖1-1所示:隨著模型越來越復(fù)雜(也就說樹越來越深)童太,在訓(xùn)練集中的錯(cuò)誤率越來越低。但是將這樣的模型用于測試集時(shí)(作用于新樣本時(shí))胸完,一開始效果越來越好书释,但當(dāng)模型復(fù)雜度達(dá)到一定程度后,效果反而變差了赊窥。這也就是機(jī)器學(xué)習(xí)中經(jīng)常需要考慮的過擬合問題爆惧。

其他機(jī)器學(xué)習(xí)算法,針對過擬合锨能,我們會(huì)采用正則化來解決扯再。針對決策樹芍耘,我們通過剪枝來解決過擬合。

圖1-1 訓(xùn)練誤差和測試誤差與模型復(fù)雜度的關(guān)系

二熄阻、決策樹構(gòu)建的基本流程

決策樹偽代碼:

圖2-1 決策樹編寫流程

決策樹的生成是運(yùn)用了遞歸斋竞,在遞歸式里有3個(gè)停止條件。

其中最關(guān)鍵的是秃殉,“劃分最優(yōu)屬性”這一步坝初。接下來就具體介紹怎樣來劃分最優(yōu)屬性。

三钾军、選擇最優(yōu)劃分屬性

進(jìn)行劃分選擇的方法不同鳄袍,最后對應(yīng)的決策樹算法不同。

ID3:以信息增益為劃分準(zhǔn)則

C4.5:以增益率為劃分準(zhǔn)則

CART:以基尼指數(shù)為劃分準(zhǔn)則

1吏恭、信息增益

先介紹信息熵拗小,計(jì)算信息增益時(shí)需要。

圖3-1 信息增益解釋
圖3-2 增益率和基尼指數(shù)的解釋

四砸泛、更深入的探究

1十籍、剪枝

2、帶缺失值變量的處理方法

軟件實(shí)現(xiàn):R語言唇礁、SPSS勾栗、modeler、python等都可以實(shí)現(xiàn)盏筐。

這節(jié)先把決策樹最關(guān)鍵的原理介紹出來围俘。實(shí)現(xiàn)的話,作為機(jī)器學(xué)習(xí)最基本的一種算法琢融,大部分軟件都有直接實(shí)現(xiàn)的功能界牡。具體的操作、區(qū)別和聯(lián)系漾抬,需要進(jìn)一步的歸納總結(jié)出來宿亡。

由于文章中的公式,是以圖片的形式展現(xiàn)的∧闪睿現(xiàn)在提供所有圖片部分的PDF挽荠,如有需要,可以前往網(wǎng)址下載平绩。

我的GitHub中的決策樹筆記

若GitHub網(wǎng)速太差圈匆,可以用網(wǎng)盤下載。鏈接: https://pan.baidu.com/s/1pLduapl 密碼: nrwh

注:雖然我們希望機(jī)器來幫我們?nèi)詣?dòng)的實(shí)現(xiàn)所有判斷捏雌,但實(shí)現(xiàn)的情況是跃赚,目前大部分的監(jiān)督學(xué)習(xí),只能識別它見過的樣本(訓(xùn)練集出現(xiàn)過的)性湿。所有對于經(jīng)常出現(xiàn)新樣本的情景纬傲,傳統(tǒng)機(jī)器學(xué)習(xí)能力有限满败。如:在傳統(tǒng)安全行業(yè),對不良網(wǎng)站的識別是依靠誰的不良樣本集更豐富來競爭的叹括。你肯定會(huì)擔(dān)心那么新的不良網(wǎng)站出現(xiàn)怎么辦葫录,其實(shí)也不用太擔(dān)心,像現(xiàn)在阿里云安全的“道哥”就提出了“彈性安全網(wǎng)絡(luò)”這樣的新措施领猾。


參考文獻(xiàn):

[1] 機(jī)器學(xué)習(xí) 周志華 北京 : 清華大學(xué)出版社 ,2016

[2] 統(tǒng)計(jì)學(xué)習(xí)方法 李航 北京 : 清華大學(xué)出版社 ,2012

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市骇扇,隨后出現(xiàn)的幾起案子摔竿,更是在濱河造成了極大的恐慌,老刑警劉巖少孝,帶你破解...
    沈念sama閱讀 219,039評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件继低,死亡現(xiàn)場離奇詭異,居然都是意外死亡稍走,警方通過查閱死者的電腦和手機(jī)袁翁,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來婿脸,“玉大人粱胜,你說我怎么就攤上這事『鳎” “怎么了焙压?”我有些...
    開封第一講書人閱讀 165,417評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長抑钟。 經(jīng)常有香客問我涯曲,道長,這世上最難降的妖魔是什么在塔? 我笑而不...
    開封第一講書人閱讀 58,868評論 1 295
  • 正文 為了忘掉前任幻件,我火速辦了婚禮,結(jié)果婚禮上蛔溃,老公的妹妹穿的比我還像新娘绰沥。我一直安慰自己,他們只是感情好城榛,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,892評論 6 392
  • 文/花漫 我一把揭開白布揪利。 她就那樣靜靜地躺著,像睡著了一般狠持。 火紅的嫁衣襯著肌膚如雪疟位。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,692評論 1 305
  • 那天喘垂,我揣著相機(jī)與錄音甜刻,去河邊找鬼绍撞。 笑死,一個(gè)胖子當(dāng)著我的面吹牛得院,可吹牛的內(nèi)容都是我干的傻铣。 我是一名探鬼主播,決...
    沈念sama閱讀 40,416評論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼祥绞,長吁一口氣:“原來是場噩夢啊……” “哼非洲!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起蜕径,我...
    開封第一講書人閱讀 39,326評論 0 276
  • 序言:老撾萬榮一對情侶失蹤两踏,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后兜喻,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體梦染,經(jīng)...
    沈念sama閱讀 45,782評論 1 316
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,957評論 3 337
  • 正文 我和宋清朗相戀三年朴皆,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了帕识。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,102評論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡遂铡,死狀恐怖肮疗,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情扒接,我是刑警寧澤族吻,帶...
    沈念sama閱讀 35,790評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站珠增,受9級特大地震影響超歌,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蒂教,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,442評論 3 331
  • 文/蒙蒙 一巍举、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧凝垛,春花似錦懊悯、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,996評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至剑肯,卻和暖如春捧毛,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,113評論 1 272
  • 我被黑心中介騙來泰國打工呀忧, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留师痕,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,332評論 3 373
  • 正文 我出身青樓而账,卻偏偏與公主長得像胰坟,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子泞辐,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,044評論 2 355

推薦閱讀更多精彩內(nèi)容