《機(jī)器學(xué)習(xí)》(周志華)第四章(決策樹)總結(jié)

4.1基本流程

決策樹是基于樹結(jié)構(gòu)來進(jìn)行決策的翅阵,例如在西瓜問題中歪玲,對新樣本的分類可看作對“當(dāng)前樣本屬于正類嗎”這個問題的“決策”過程,圖4.1是西瓜問題的一棵決策樹

決策樹學(xué)習(xí)基本算法如圖4.2所示

在決策樹基本算法中掷匠,有三種情形導(dǎo)致遞歸返回:1滥崩、當(dāng)前結(jié)點包含的樣本全屬于同一類別,無需劃分 2讹语、當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同顽决,無法劃分 3短条、當(dāng)前結(jié)點包含的樣本集合為空,不能劃分擎值。在第2種情形下慌烧,把當(dāng)前結(jié)點標(biāo)記為葉結(jié)點逐抑,但類別設(shè)定為該結(jié)點所含樣本最多的類別鸠儿。在第3種情形下,把當(dāng)前結(jié)點標(biāo)記為葉節(jié)點厕氨,但類別設(shè)定為其父結(jié)點所含樣本最多的類別进每。它們的不同點是 ,第2種是利用當(dāng)前結(jié)點的后驗分布命斧,第3種則是把父結(jié)點的樣本分布作為當(dāng)前結(jié)點的先驗分布

一個例子搞清楚(先驗分布/后驗分布/似然估計)轉(zhuǎn)載 - 簡書

4.2劃分選擇

圖4.2中田晚,決策樹學(xué)習(xí)的關(guān)鍵是第8行:如何選擇最優(yōu)劃分屬性。一般希望決策樹的分支結(jié)點所包含的樣本盡可能屬于同一類別国葬,即結(jié)點的“純度”越來越高

4.2.1信息增益

“信息熵”是度量樣本集合純度常用的指標(biāo)贤徒,樣本集D的信息熵Ent(D)的值越小芹壕,D的純度越高。定義為

利用屬性a對樣本集D進(jìn)行劃分可以得到“信息增益”接奈,信息增益越大踢涌,使用屬性a來劃分獲得的“純度提升”越大。定義為

下面舉一個例子來了解這兩個概念:

屬性“色澤”的信息增益為

4.2.2增益率

由于信息增益準(zhǔn)則對可取值數(shù)目較多的屬性有所偏好序宦,C4.5決策樹算法使用“增益率”來選擇最優(yōu)劃分屬性睁壁,定義為

IV(a)是屬性a的固有值,屬性a的可能取值越多(即V越大)互捌,IV(a)的值越大潘明,例如,在表4.1中秕噪,IV(觸感)=0.874(V=2)钳降,IV(色澤)=1.580(V=3),IV(編號)=4.088(V=17)

由于增益率準(zhǔn)則對可取值數(shù)目較少的屬性有所偏好腌巾,C4.5算法采用先從候選劃分屬性中找出信息增益高于平均水平的屬性牲阁,再從中選擇增益率最高的方法來選擇最優(yōu)劃分屬性

4.2.3基尼指數(shù)

基尼指數(shù)反映了從數(shù)據(jù)集D中隨機(jī)抽取兩個樣本,其類別標(biāo)記不一致的概率壤躲。Gini(D)越小城菊,數(shù)據(jù)集D的純度越高。定義為

在候選屬性集合A中碉克,選擇使劃分后基尼指數(shù)最小的屬性作為最優(yōu)劃分屬性凌唬,即

4.3剪枝處理

剪枝是決策樹算法處理“過擬合”的手段。剪枝的基本策略有“預(yù)剪枝”和“后剪枝”漏麦。

預(yù)剪枝是對每個結(jié)點在劃分前先進(jìn)行估計客税,若當(dāng)前結(jié)點的劃分不能使決策樹泛化性能提升,則停止劃分并將當(dāng)前結(jié)點標(biāo)記為葉節(jié)點撕贞。后剪枝是先從訓(xùn)練集生成一棵完整的決策樹更耻,然后自底向上對非葉結(jié)點考察,若將該結(jié)點的子樹替換成葉結(jié)點能使決策樹性能提升捏膨,則將該子樹替換成葉結(jié)點秧均。

決策樹的預(yù)剪枝與后剪枝 - zfan520的博客 - CSDN博客

4.4連續(xù)與缺失值

在決策樹中使用連續(xù)屬性,采用二分法對連續(xù)屬性進(jìn)行處理号涯。

假設(shè)樣本集D和連續(xù)屬性a目胡,a在D上有n個不同的取值,從小到大排序為{a1,a2...}链快。對于屬性a誉己,考察包含n-1個元素的候選劃分點集合:

Gain(D,a,t)是樣本集D基于劃分點t二分后的信息增益,選擇使Gain(D,a,t)最大化的劃分點域蜗。

下面舉一個例子:

4.4.2缺失值處理

對于某些屬性值缺失的樣本:1巨双、屬性選擇:通過樣本集D在屬性a上沒有缺失值的樣本子集來判斷屬性a的優(yōu)劣 2噪猾、樣本劃分:若樣本x在劃分屬性a上的取值已知,則將x劃入對應(yīng)的子結(jié)點筑累,反之則將x同時劃入所有子結(jié)點畏妖,調(diào)整子結(jié)點的樣本權(quán)值,相當(dāng)于讓同一個樣本以不同概率劃入不同的子結(jié)點

信息增益計算式推廣為

下面舉一個例子:


4.5多變量決策樹

d個屬性對應(yīng)d維空間的一個數(shù)據(jù)點疼阔,對樣本分類表示在坐標(biāo)空間中找到不同樣本之間的分類邊界戒劫。

分類邊界由若干個與坐標(biāo)軸平行的分段組成,例子如下:

“多變量決策樹”能實現(xiàn)斜的劃分邊界婆廊,使決策樹模型簡化迅细。在多變量決策樹的學(xué)習(xí)過程中,不是為非葉結(jié)點尋找最優(yōu)劃分屬性淘邻,而是試圖建立合適的線性分類器茵典。例子如下:

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市宾舅,隨后出現(xiàn)的幾起案子统阿,更是在濱河造成了極大的恐慌,老刑警劉巖筹我,帶你破解...
    沈念sama閱讀 218,755評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件扶平,死亡現(xiàn)場離奇詭異,居然都是意外死亡蔬蕊,警方通過查閱死者的電腦和手機(jī)结澄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來岸夯,“玉大人麻献,你說我怎么就攤上這事〔掳纾” “怎么了勉吻?”我有些...
    開封第一講書人閱讀 165,138評論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長旅赢。 經(jīng)常有香客問我齿桃,道長,這世上最難降的妖魔是什么鲜漩? 我笑而不...
    開封第一講書人閱讀 58,791評論 1 295
  • 正文 為了忘掉前任源譬,我火速辦了婚禮,結(jié)果婚禮上孕似,老公的妹妹穿的比我還像新娘。我一直安慰自己刮刑,他們只是感情好喉祭,可當(dāng)我...
    茶點故事閱讀 67,794評論 6 392
  • 文/花漫 我一把揭開白布养渴。 她就那樣靜靜地躺著,像睡著了一般泛烙。 火紅的嫁衣襯著肌膚如雪理卑。 梳的紋絲不亂的頭發(fā)上蔽氨,一...
    開封第一講書人閱讀 51,631評論 1 305
  • 那天藐唠,我揣著相機(jī)與錄音,去河邊找鬼鹉究。 笑死宇立,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的自赔。 我是一名探鬼主播妈嘹,決...
    沈念sama閱讀 40,362評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼绍妨!你這毒婦竟也來了润脸?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,264評論 0 276
  • 序言:老撾萬榮一對情侶失蹤他去,失蹤者是張志新(化名)和其女友劉穎毙驯,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體灾测,經(jīng)...
    沈念sama閱讀 45,724評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡尔苦,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了行施。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片允坚。...
    茶點故事閱讀 40,040評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖蛾号,靈堂內(nèi)的尸體忽然破棺而出稠项,到底是詐尸還是另有隱情,我是刑警寧澤鲜结,帶...
    沈念sama閱讀 35,742評論 5 346
  • 正文 年R本政府宣布展运,位于F島的核電站,受9級特大地震影響精刷,放射性物質(zhì)發(fā)生泄漏拗胜。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,364評論 3 330
  • 文/蒙蒙 一怒允、第九天 我趴在偏房一處隱蔽的房頂上張望埂软。 院中可真熱鬧,春花似錦纫事、人聲如沸勘畔。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽炫七。三九已至爬立,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間万哪,已是汗流浹背侠驯。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留奕巍,地道東北人吟策。 一個月前我還...
    沈念sama閱讀 48,247評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像伍绳,于是被迫代替她去往敵國和親踊挠。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,979評論 2 355

推薦閱讀更多精彩內(nèi)容