Decison Tree（決策樹）

1. 什么是決策樹

決策樹是基于樹結(jié)構(gòu)進(jìn)行決策铡买。決策樹學(xué)習(xí)的目的是產(chǎn)生一棵泛化能力強(qiáng)框都，處理未見示例能力強(qiáng)的決策樹搬素。
基本流程遵循分而治之。

決策樹的基本算法

決策樹.png

2.劃分選擇

2.1 信息增益

信息熵
![](http://www.forkosh.com/mathtex.cgi? Ent(D) = -\sum_{k=1}^{|y|} p_klog_2p_k)
pk 表示D中k類占的比例
Ent（D）越小表示純度越高
信息增益
![](http://www.forkosh.com/mathtex.cgi? Gain(D,a) =Ent(D) - \sum_{v=1}^{V}\frac{|Dv|}{|D|}Ent(D^v))
ID3
信息增益準(zhǔn)則對(duì)可取數(shù)目較多的屬性有所偏好
信息增益越大意味著使用屬性a來進(jìn)行劃分所獲得純度提升越大

2.2增益率

![](http://www.forkosh.com/mathtex.cgi?
Gain_ratio(D,a) = \frac{Gain(D,a)}{IV(a)} )

![](http://www.forkosh.com/mathtex.cgi? IV(a)=-\sum_{v=1}^Vlog_2\frac{|Dv|}{|D|})

在增益率準(zhǔn)則對(duì)取值數(shù)目較少的屬性有所偏好
C4.5使用啟發(fā)式魏保，先從候選劃分屬性中找出信息增益高于平均水平的屬性熬尺，再從中選擇增益率最高的

2.3 基尼指數(shù)

![](http://www.forkosh.com/mathtex.cgi?Gini= \sum_{k=1}^{|y|}\sum_{k'\ne k}p_kp_k')
基尼指數(shù)越小純度越高，反映了從數(shù)據(jù)集D中隨機(jī)抽取兩個(gè)樣本其類別不一樣的概率谓罗。

屬性a的基尼指數(shù)
![](http://www.forkosh.com/mathtex.cgi?Gini_index(D, a) = \sum_{v=1}^{V}\frac{Dv}{D}Gini(D^v))

3. 剪枝處理

對(duì)付過擬合

3.1 預(yù)剪枝

在決策樹的生成過程中粱哼，對(duì)每個(gè)節(jié)點(diǎn)在劃分前進(jìn)行估計(jì)，若當(dāng)前節(jié)點(diǎn)的劃分不能帶來決策樹泛化能性能的提升則停止劃分并將當(dāng)前節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn)檩咱。
預(yù)剪枝可能造成欠擬合

3.2 后剪枝

從訓(xùn)練集生成一棵完整的決策樹揭措，然后自底向上的對(duì)非葉節(jié)點(diǎn)進(jìn)行考察，若將該節(jié)點(diǎn)對(duì)應(yīng)的字?jǐn)?shù)替換為葉節(jié)點(diǎn)能帶來決策樹泛化能力提升刻蚯，則將該子樹替換為葉節(jié)點(diǎn)绊含。
后剪枝欠擬合風(fēng)險(xiǎn)很小，泛化性能往往優(yōu)于預(yù)剪枝

4.連續(xù)和缺失值

采用二分法對(duì)連續(xù)值進(jìn)行處理
讓同一個(gè)樣本以不同的概率進(jìn)入不同的子節(jié)點(diǎn)

最后編輯于：2017.12.04 02:44:36

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末炊汹，一起剝皮案震驚了整個(gè)濱河市躬充，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖充甚，帶你破解...
沈念sama閱讀 216,544評(píng)論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件以政，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡伴找，警方通過查閱死者的電腦和手機(jī)妙蔗，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,430評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來疆瑰，“玉大人眉反，你說我怎么就攤上這事∧乱郏” “怎么了寸五？”我有些...
開封第一講書人閱讀 162,764評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長耿币。經(jīng)常有香客問我梳杏，道長，這世上最難降的妖魔是什么淹接？我笑而不...
開封第一講書人閱讀 58,193評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任十性，我火速辦了婚禮，結(jié)果婚禮上塑悼，老公的妹妹穿的比我還像新娘劲适。我一直安慰自己，他們只是感情好厢蒜，可當(dāng)我...
茶點(diǎn)故事閱讀 67,216評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布霞势。她就那樣靜靜地躺著，像睡著了一般斑鸦。火紅的嫁衣襯著肌膚如雪愕贡。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,182評(píng)論 1贊 299
城市分裂傳說
那天巷屿，我揣著相機(jī)與錄音固以，去河邊找鬼。笑死嘱巾，一個(gè)胖子當(dāng)著我的面吹牛憨琳，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播浓冒，決...
沈念sama閱讀 40,063評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼栽渴，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼尖坤！你這毒婦竟也來了稳懒？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,917評(píng)論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎场梆，沒想到半個(gè)月后墅冷，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,329評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡或油，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,543評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年寞忿，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片顶岸。...
茶點(diǎn)故事閱讀 39,722評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡腔彰，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出辖佣，到底是詐尸還是另有隱情霹抛，我是刑警寧澤，帶...
沈念sama閱讀 35,425評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布卷谈，位于F島的核電站杯拐，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏世蔗。R本人自食惡果不足惜端逼，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,019評(píng)論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望污淋。院中可真熱鬧顶滩，春花似錦、人聲如沸寸爆。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,671評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽而昨。三九已至救氯，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間歌憨，已是汗流浹背着憨。一陣腳步聲響...
開封第一講書人閱讀 32,825評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留务嫡，地道東北人甲抖。一個(gè)月前我還...
沈念sama閱讀 47,729評(píng)論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長得像心铃，于是被迫代替她去往敵國和親准谚。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,614評(píng)論 2贊 353