[機器學習]決策樹(decision tree)--7.預剪枝

剪枝(pruning)是決策樹學習算法對付"過擬合"的主要手段基协。在決策樹學習中匈织,為了盡可能正確分類訓練樣本盆均,結(jié)點劃分過程將不斷重復,有時會造成決策樹分支過多肩碟,這時就可能因訓練樣本學得"太好"了强窖,以致于把訓練集自身的一些特點當做所有數(shù)據(jù)都具有的一般性質(zhì)而導致過擬合。因此削祈,可通過主動去掉一些分支來降低過擬合的風險翅溺。

決策樹葉剪枝的基本策略有"預剪枝"(prepruning)和"后剪枝"(postpruning)。預剪枝是指在決策樹生成過程中髓抑,對每個結(jié)點在劃分前先進行估計咙崎,若當前結(jié)點的劃分不能帶來決策樹泛化性能提升,則停止劃分并將當前結(jié)點標記為葉結(jié)點吨拍。

舉個例子:

西瓜數(shù)據(jù)集

上圖是西瓜數(shù)據(jù)集褪猛,只不過分為了兩部分羹饰,上半部分是訓練集伊滋,下半部分是驗證集。

重點解釋下面這張圖队秩。

首先笑旺,按照臍部對訓練集進行劃分,分成了三部分:

凹陷馍资,稍凹筒主,平坦。

對應的訓練集樣本分別為:{1,2,3,14}鸟蟹,{6,7,15,17}乌妙,{10,16}

觀察下圖,發(fā)現(xiàn)凹陷的訓練集樣本都劃分為了好瓜戏锹,但是14號很明顯是壞瓜冠胯,為什么也劃分為好瓜呢?

這是因為锦针,只要好瓜的比例大于等于50%荠察,就把該樣本集都歸類為好瓜置蜀。

那么凹陷對應的驗證集為:{4,5,13}。這幾個樣本也被分為好瓜悉盆,但是13號很明顯被分錯了盯荤。

同理,稍凹中焕盟,驗證集{8,9}也都被分為好瓜秋秤,很明顯9號被分錯了。

同理脚翘,平坦中灼卢,驗證集{11,12}都被分為壞瓜,這次不錯来农,都分對了鞋真。

所以驗證集精度為:\frac{5}{7} *100% = 71.4%。

臍部劃分

我們繼續(xù)對凹陷這一個分支進行劃分沃于。

基于信息增益準則將挑選出劃分屬性為:色澤涩咖。

如下圖所示,按照色澤繁莹,將訓練集樣本{1,2,3,14}劃分為了三部分:

青綠檩互、烏黑、淺白

對應的訓練集樣本進一步被細分為:{1}咨演,{2,3}闸昨,{14}

對應的驗證集進一步被細分為:{4,13},{}雪标,{5}

其中青綠對應的訓練集為好瓜零院,那么驗證集也被分成了好瓜,但是很明顯13號被分錯了村刨。

烏黑對應的訓練集為好瓜告抄,那么驗證集也被分為了好瓜,但此時驗證集為空嵌牺,沒影響打洼。

淺白對應的訓練集為壞瓜,那么驗證集也被分為了壞瓜逆粹,但是很明顯5號被分錯了募疮。

所以呢,用色澤去劃分僻弹,導致驗證集中的13和5號都被分錯阿浓。

所以,綜合臍部劃分和色澤劃分蹋绽,目前有三個驗證集中的樣本被分錯芭毙,分別是:13筋蓖、5、9退敦。

所以粘咖,驗證集的精度為:\frac{4}{7} *100% = 57.1%。

色澤劃分

發(fā)現(xiàn)沒有侈百,用色澤進一步劃分瓮下,竟然導致精度下降。

所以钝域,直接把色澤劃分去掉讽坏,這就是預剪枝。

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末网梢,一起剝皮案震驚了整個濱河市震缭,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌战虏,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,755評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件党涕,死亡現(xiàn)場離奇詭異烦感,居然都是意外死亡,警方通過查閱死者的電腦和手機膛堤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評論 3 395
  • 文/潘曉璐 我一進店門手趣,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人肥荔,你說我怎么就攤上這事绿渣。” “怎么了燕耿?”我有些...
    開封第一講書人閱讀 165,138評論 0 355
  • 文/不壞的土叔 我叫張陵中符,是天一觀的道長。 經(jīng)常有香客問我誉帅,道長淀散,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,791評論 1 295
  • 正文 為了忘掉前任蚜锨,我火速辦了婚禮档插,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘亚再。我一直安慰自己郭膛,他們只是感情好,可當我...
    茶點故事閱讀 67,794評論 6 392
  • 文/花漫 我一把揭開白布氛悬。 她就那樣靜靜地躺著则剃,像睡著了一般凄诞。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上忍级,一...
    開封第一講書人閱讀 51,631評論 1 305
  • 那天帆谍,我揣著相機與錄音,去河邊找鬼轴咱。 笑死汛蝙,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的朴肺。 我是一名探鬼主播窖剑,決...
    沈念sama閱讀 40,362評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼戈稿!你這毒婦竟也來了西土?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,264評論 0 276
  • 序言:老撾萬榮一對情侶失蹤鞍盗,失蹤者是張志新(化名)和其女友劉穎需了,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體般甲,經(jīng)...
    沈念sama閱讀 45,724評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡肋乍,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了敷存。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片墓造。...
    茶點故事閱讀 40,040評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖锚烦,靈堂內(nèi)的尸體忽然破棺而出觅闽,到底是詐尸還是另有隱情,我是刑警寧澤涮俄,帶...
    沈念sama閱讀 35,742評論 5 346
  • 正文 年R本政府宣布蛉拙,位于F島的核電站,受9級特大地震影響禽拔,放射性物質(zhì)發(fā)生泄漏刘离。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,364評論 3 330
  • 文/蒙蒙 一睹栖、第九天 我趴在偏房一處隱蔽的房頂上張望硫惕。 院中可真熱鬧,春花似錦野来、人聲如沸恼除。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽豁辉。三九已至令野,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間徽级,已是汗流浹背气破。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留餐抢,地道東北人现使。 一個月前我還...
    沈念sama閱讀 48,247評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像旷痕,于是被迫代替她去往敵國和親碳锈。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,979評論 2 355

推薦閱讀更多精彩內(nèi)容