2018-12-04 機器學習打卡 決策樹

16課 決策樹——既能分類又能回歸的模型

決策樹

一棵決策樹(Decision Tree)是一個樹結(jié)構(gòu)(可以是二叉樹或非二叉樹)菲嘴,每個非葉節(jié)點對應(yīng)一個特征想虎,該節(jié)點的每個分支代表這個特征的一個取值窝革,而每個葉節(jié)點存放一個類別或一個回歸函數(shù)姻蚓。決策的過程就是從根節(jié)點開始,提取出待分類項中相應(yīng)的特征堆生,按照其值選擇輸出分支专缠,依次向下,直到到達葉子節(jié)點淑仆,將葉子節(jié)點存放的類別或者回歸函數(shù)的運算結(jié)果作為輸出(決策)結(jié)果涝婉。

這三個非葉子節(jié)點(含根節(jié)點),統(tǒng)稱決策節(jié)點蔗怠,每個節(jié)點對應(yīng)一個條件判斷墩弯,這個條件判斷的條件,我們叫做特征寞射。上例是一個有三個特征的分類樹渔工。

訓(xùn)練決策樹
  • 準備若干的訓(xùn)練數(shù)據(jù)(假設(shè) m 個樣本);
  • 標明每個樣本預(yù)期的類別桥温;
  • 人為選取一些特征(即決策條件)引矩;
  • 為每個訓(xùn)練樣本對應(yīng)所有需要的特征生成相應(yīng)值——數(shù)值化特征;
  • 將通過上面的1-4步獲得的訓(xùn)練數(shù)據(jù)輸入給訓(xùn)練算法侵浸,訓(xùn)練算法通過一定的原則旺韭,決定各個特征的重要性程度,然后按照決策重要性從高到底掏觉,生成決策樹区端。
常用算法

ID3 缺點:ID3一般會優(yōu)先選擇取值種類較多的特征作為分裂特征。
C4.5 問題:當某個 |Sv| 的大小跟 |S| 的大小接近的時候,GainRatio接近無窮澳腹,導(dǎo)致某個其實無關(guān)緊要的特征占據(jù)根節(jié)點(可以采用啟發(fā)式的思路织盼,對每個特征先計算信息增益量杨何,在其信息增益量較高的情況下,才應(yīng)用信息增益率作為分裂標準悔政。)
CART 基尼系數(shù)晚吞,嚴格二分
基尼指數(shù)(Gini Index)其實就是系數(shù)的100%表示。

17課 決策樹——告訴你 Hello Kitty 是人是貓

構(gòu)建決策樹谋国,剪枝優(yōu)化
代碼實現(xiàn)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末槽地,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子芦瘾,更是在濱河造成了極大的恐慌捌蚊,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,084評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件近弟,死亡現(xiàn)場離奇詭異缅糟,居然都是意外死亡,警方通過查閱死者的電腦和手機祷愉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,623評論 3 392
  • 文/潘曉璐 我一進店門窗宦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人二鳄,你說我怎么就攤上這事赴涵。” “怎么了订讼?”我有些...
    開封第一講書人閱讀 163,450評論 0 353
  • 文/不壞的土叔 我叫張陵髓窜,是天一觀的道長。 經(jīng)常有香客問我欺殿,道長寄纵,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,322評論 1 293
  • 正文 為了忘掉前任脖苏,我火速辦了婚禮程拭,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘棍潘。我一直安慰自己哺壶,他們只是感情好,可當我...
    茶點故事閱讀 67,370評論 6 390
  • 文/花漫 我一把揭開白布蜒谤。 她就那樣靜靜地躺著,像睡著了一般至扰。 火紅的嫁衣襯著肌膚如雪鳍徽。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,274評論 1 300
  • 那天敢课,我揣著相機與錄音阶祭,去河邊找鬼绷杜。 笑死,一個胖子當著我的面吹牛濒募,可吹牛的內(nèi)容都是我干的鞭盟。 我是一名探鬼主播,決...
    沈念sama閱讀 40,126評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼瑰剃,長吁一口氣:“原來是場噩夢啊……” “哼齿诉!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起晌姚,我...
    開封第一講書人閱讀 38,980評論 0 275
  • 序言:老撾萬榮一對情侶失蹤粤剧,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后挥唠,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體抵恋,經(jīng)...
    沈念sama閱讀 45,414評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,599評論 3 334
  • 正文 我和宋清朗相戀三年宝磨,在試婚紗的時候發(fā)現(xiàn)自己被綠了弧关。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,773評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡唤锉,死狀恐怖世囊,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情腌紧,我是刑警寧澤茸习,帶...
    沈念sama閱讀 35,470評論 5 344
  • 正文 年R本政府宣布,位于F島的核電站壁肋,受9級特大地震影響号胚,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜浸遗,卻給世界環(huán)境...
    茶點故事閱讀 41,080評論 3 327
  • 文/蒙蒙 一猫胁、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧跛锌,春花似錦弃秆、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,713評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至郑藏,卻和暖如春衡查,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背必盖。 一陣腳步聲響...
    開封第一講書人閱讀 32,852評論 1 269
  • 我被黑心中介騙來泰國打工拌牲, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留俱饿,地道東北人。 一個月前我還...
    沈念sama閱讀 47,865評論 2 370
  • 正文 我出身青樓塌忽,卻偏偏與公主長得像拍埠,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子土居,可洞房花燭夜當晚...
    茶點故事閱讀 44,689評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 一. 決策樹(decision tree):是一種基本的分類與回歸方法枣购,此處主要討論分類的決策樹。在分類問題中装盯,表...
    YCzhao閱讀 2,134評論 0 2
  • 決策樹理論在決策樹理論中坷虑,有這樣一句話,“用較少的東西埂奈,照樣可以做很好的事情迄损。越是小的決策樹,越優(yōu)于大的決策樹”账磺。...
    制杖灶灶閱讀 5,850評論 0 25
  • 1芹敌、模型原理 (一)原理 1、原理:引入信息熵(不確定程度)的概念垮抗,通過計算各屬性下的信息增益程度(信息增益越大氏捞,...
    Python_Franklin閱讀 12,350評論 0 17
  • 決策樹 1.概述 決策樹由節(jié)點和有向邊組成,節(jié)點有兩種類型冒版,內(nèi)部節(jié)點和葉節(jié)點液茎,內(nèi)部節(jié)點表示一個特征或?qū)傩裕~節(jié)點表...
    Evermemo閱讀 2,291評論 0 1
  • Dream你的夢想是什么。你的近期唯一目標是什么续室。 1栋烤、年薪24萬@月入2萬 2.2月17日過年之前先賺到5萬 3...
    學霸教練李斌閱讀 273評論 0 0