《機器學(xué)習(xí)》第四章 決策樹

1、決策樹

決策樹的基本流程

決策樹是基于樹的結(jié)構(gòu)來進(jìn)行決策的靶橱,通常在經(jīng)過一系列的判斷或“子決策”之后,得出最終的決策路捧,也即是我們最終所希望獲得的結(jié)論关霸。

決策樹學(xué)習(xí)的目的:得到一顆泛化能力強,即處理未見示例能力強的決策樹

2杰扫、決策樹的構(gòu)成

決策樹的構(gòu)成

3队寇、決策樹生成的基本算法

決策樹學(xué)習(xí)基本算法

決策樹生成是一個遞歸過程,有三種情形導(dǎo)致遞歸返回

第一種遞歸

當(dāng)前結(jié)點包含的樣本全屬于同一類章姓,無需分類佳遣。此處直接將當(dāng)前結(jié)點標(biāo)記為C類(C類為樣本類別)葉子結(jié)點识埋。

第二種遞歸

當(dāng)前屬性集為空,或者所有樣本在所有屬性上取值相同零渐,無法劃分窒舟。

第三種遞歸

當(dāng)前結(jié)點包含的樣本集合為空,不能劃分相恃,分支結(jié)點標(biāo)記為葉子結(jié)點辜纲,類別標(biāo)記為當(dāng)前樣本集合中同類樣本最多的類。

在第2種情形下拦耐,把當(dāng)前結(jié)點標(biāo)記為葉結(jié)點耕腾,但類別設(shè)定為該結(jié)點所含樣本最多的類別。在第3種情形下杀糯,把當(dāng)前結(jié)點標(biāo)記為葉節(jié)點扫俺,但類別設(shè)定為其父結(jié)點所含樣本最多的類別。它們的不同點是 固翰,第2種是利用當(dāng)前結(jié)點的后驗分布狼纬,第3種則是把父結(jié)點的樣本分布作為當(dāng)前結(jié)點的先驗分布。

4骂际、劃分選擇

問題:如何選擇最優(yōu)化分屬性疗琉,我們希望結(jié)點的“純度”越來越高

信息增益

信息熵:度量樣本集合純度最常用的一種指標(biāo)。其公式如下:

信息熵定義

Ent(D)的值越小歉铝,則D的純度越高盈简,D代表的是當(dāng)前樣本集合

信息增益:對于同一屬性的不同取值計算出其信息熵后賦予權(quán)重,樣本數(shù)越多的分枝其影響越大太示,由此可以計算出信息增益柠贤。

信息增益

一般而言,信息增益越大类缤,則意味著使用該屬性來進(jìn)行劃分所獲得的“純度提升”越大偷办。因此囚企,我們可用信息增益來進(jìn)行決策樹的劃分屬性選擇。

增益率

在C4.5決策樹算法中,不直接使用信息增益拯欧,而是使用“增益率”來選擇最優(yōu)劃分屬性箱季。

增益率定義:

增益率

其中

C4.5是使用一個啟發(fā)式:先從候選劃分屬性中找出信息增益高于平均水平的屬性玄柏,再從中選擇增益率最高的旷偿。

基尼指數(shù)

CART決策樹常用基尼指數(shù)來選擇劃分屬性

基尼值:數(shù)據(jù)集D的純度度量

基尼值

基尼指數(shù):

基尼指數(shù)

基尼指數(shù)小的屬性作為最優(yōu)化分屬性。

5降允、剪枝

剪枝是解決策樹學(xué)習(xí)算法“過擬合”的主要手段恩闻,基本策略有“預(yù)剪枝”和“后剪枝”

兩類剪枝對比

6、連續(xù)值與缺失值

連續(xù)值處理

問題:連續(xù)屬性的可取值數(shù)目不再有限

處理方法:使用二分法對連續(xù)值進(jìn)行處理剧董,即是以某一個值為分界幢尚,對父結(jié)點進(jìn)行劃分破停,則正是C4.5決策樹算法中采用的機制。

缺失值處理

問題一:如何在屬性值缺失的情況下進(jìn)行劃分屬性選擇尉剩?(相應(yīng)最優(yōu)劃分屬性如何確定)

為樣本賦予權(quán)重真慢,再計算信息增益以確定最優(yōu)劃分屬性。

問題二:給定劃分屬性理茎,若樣本在該屬性上的值缺失黑界,如何對樣本進(jìn)行劃分?(即樣本缺失該屬性應(yīng)如何劃分)

樣本x取值已知皂林,則劃入相應(yīng)的子結(jié)點朗鸠,并保持其權(quán)值w。

樣本x取值未知础倍,則劃入全部子結(jié)點中烛占,并調(diào)整其權(quán)值,即是以不同的概率劃入到不同的子結(jié)點去沟启。

7忆家、多變量決策樹

在面對復(fù)雜的決策樹時,由于要進(jìn)行大量的屬性測試德迹,使用平行于軸的分類邊界芽卿,預(yù)測時間開銷會很大,而多變量決策樹就是一種實現(xiàn)斜劃分甚至更復(fù)雜劃分的決策樹胳搞,它不是尋找一個最優(yōu)化分屬性卸例,而是試圖建立一個合適的線性分類器。

平行軸分類邊界
多變量決策樹生成劃分邊界
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末流酬,一起剝皮案震驚了整個濱河市币厕,隨后出現(xiàn)的幾起案子列另,更是在濱河造成了極大的恐慌芽腾,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,198評論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件页衙,死亡現(xiàn)場離奇詭異摊滔,居然都是意外死亡,警方通過查閱死者的電腦和手機店乐,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評論 3 398
  • 文/潘曉璐 我一進(jìn)店門艰躺,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人眨八,你說我怎么就攤上這事腺兴。” “怎么了廉侧?”我有些...
    開封第一講書人閱讀 167,643評論 0 360
  • 文/不壞的土叔 我叫張陵页响,是天一觀的道長篓足。 經(jīng)常有香客問我,道長闰蚕,這世上最難降的妖魔是什么栈拖? 我笑而不...
    開封第一講書人閱讀 59,495評論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮没陡,結(jié)果婚禮上涩哟,老公的妹妹穿的比我還像新娘。我一直安慰自己盼玄,他們只是感情好贴彼,可當(dāng)我...
    茶點故事閱讀 68,502評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著埃儿,像睡著了一般锻弓。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蝌箍,一...
    開封第一講書人閱讀 52,156評論 1 308
  • 那天青灼,我揣著相機與錄音,去河邊找鬼妓盲。 笑死杂拨,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的悯衬。 我是一名探鬼主播弹沽,決...
    沈念sama閱讀 40,743評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼筋粗!你這毒婦竟也來了策橘?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,659評論 0 276
  • 序言:老撾萬榮一對情侶失蹤娜亿,失蹤者是張志新(化名)和其女友劉穎丽已,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體买决,經(jīng)...
    沈念sama閱讀 46,200評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡沛婴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,282評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了督赤。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片嘁灯。...
    茶點故事閱讀 40,424評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖躲舌,靈堂內(nèi)的尸體忽然破棺而出丑婿,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 36,107評論 5 349
  • 正文 年R本政府宣布羹奉,位于F島的核電站毅贮,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏尘奏。R本人自食惡果不足惜滩褥,卻給世界環(huán)境...
    茶點故事閱讀 41,789評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望炫加。 院中可真熱鬧瑰煎,春花似錦、人聲如沸俗孝。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,264評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽赋铝。三九已至插勤,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間革骨,已是汗流浹背农尖。 一陣腳步聲響...
    開封第一講書人閱讀 33,390評論 1 271
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留良哲,地道東北人盛卡。 一個月前我還...
    沈念sama閱讀 48,798評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像筑凫,于是被迫代替她去往敵國和親滑沧。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,435評論 2 359

推薦閱讀更多精彩內(nèi)容