統(tǒng)計學習方法——修煉學習筆記5:決策樹

一牌借、決策樹

分類決策樹模型是一種描述對實例進行分類的樹形結(jié)構(gòu)。決策樹由結(jié)點(node)和有向邊(directed edge)組成狰右。結(jié)點有兩種類型:內(nèi)部結(jié)點(internal node )和葉結(jié)點(leaf node)错敢。內(nèi)部結(jié)點表示一個特征或?qū)傩匀簦~結(jié)點表示一個類踩萎。(簡單說就是用我們熟悉的樹結(jié)構(gòu)去做回歸和分類)

學習時停局, 利用訓練數(shù)據(jù), 根據(jù)損失函數(shù)最小化的原則建立決策樹模型香府。 預測時董栽, 對新的數(shù)據(jù), 利用決策樹模型進行分類企孩。 決策樹學習通常包括3個步驟: 特征選擇锭碳、決策樹的生成和決策樹的修剪。

image.png

與決策樹相關(guān)的重要算法包括:CLS勿璃,ID3擒抛、 C4.5與CART。
決策樹的基本組成部分:決策結(jié)點补疑、分支闻葵、葉子
決策樹中最上面的節(jié)點稱為根結(jié)點。是整個決策樹的開始癣丧,每個分支是一個新的決策節(jié)點,或者是樹的葉子栈妆。每個決策結(jié)點代表一個問題或者決策胁编。通常對應待分類對象的屬性厢钧。每個葉結(jié)點代表一種可能的分類結(jié)果。
在沿著決策樹從上到下遍歷過程中嬉橙,在每個節(jié)點都有一個測試早直。對每個結(jié)點上問題的不同測試輸出導致不同的分歧,最后會打到一個葉子結(jié)點市框。這一過程就是利用決策樹進行分類的過程霞扬,利用若干個變量來判斷屬性的類別

決策樹與條件概率分布

決策樹還表示給定特征條件下類的條件概率分布。

條件概率分布定義在特征空間的一個劃分上枫振,將特征空間劃分為互不相交的單元或區(qū)域喻圃,并在每個單元定義的一個類的概率分布就構(gòu)成了一個條件概率分布。

決策樹的一條路徑對應于劃分中的一個單元粪滤。

決策樹所表示的條件概率分布由各個單元給定條件下類的條件概率分布組成斧拍。這個條件概率分布可以表示為P(Y|X)。 X取值于給定劃分下單元的集合杖小, Y取值于類的集合肆汹。 各葉結(jié)點(單元) 上的條件概率往往偏向某一個類, 即屬于某一類的概率較大予权。 決策樹分類時將該結(jié)點的實例強行分到條件概率大的那一類去昂勉。


image.png

決策樹學習

  • 決策樹學習本質(zhì)上是從訓練數(shù)據(jù)集中歸納出一組分類規(guī)則。與訓練數(shù)據(jù)集不相矛盾的決策樹
  • 能對訓練數(shù)據(jù)進行正確分類的決策樹可能有多個扫腺,也可能一個也沒有岗照。我們需要的是一個與訓練數(shù)據(jù)矛盾較小的決策樹,同時具有很好的泛化能力斧账。
  • 決策樹學習是由訓練數(shù)據(jù)集估計條件概率模型谴返。基于特征空間劃分的類的條件概率模型有無窮多個
  • 我們選擇的條件概率模型應該不僅對訓練數(shù)據(jù)有很好的擬合咧织,而且對未知數(shù)據(jù)有很好的預測嗓袱。

決策樹學習的策略:以損失函數(shù)為目標函數(shù)的最小化

二、決策樹算法

決策樹的學習算法分為三步:首先遞歸的選擇特征习绢、用選擇的特征構(gòu)造一個決策樹渠抹、解決過擬合進行決策樹剪枝。

1闪萄、特征選擇

特征選擇問題:特征選擇在于選取對訓練數(shù)據(jù)具有分類能力的特征梧却。通常特征選擇的準則是信息增益或信息增益比。

(1)信息增益:

熵:信息量大小的獨立败去,即表示隨機變量不確定性的度量放航。

image.png

假設有n個互不相容的時間a1,a2,a3,...,an,他們中有且僅有一個發(fā)生,則其平均的信息量(熵)可以如下度量:


image.png
image.png

熵越大圆裕,隨機變量的不確定性越大广鳍,從定義可驗證荆几。


image.png
image.png

設有隨機變量(X,Y), 其聯(lián)合概率分布為


image.png

條件熵H(Y|X)表示在已知隨機變量X的條件下隨機變量Y的不確定性赊时。 隨機變量X給定的條件下隨機變量Y的條件熵(conditionalentropy) H(Y|X)吨铸, 定義為X給定條件下Y的條件概率分布的熵對X的數(shù)學期望:


image.png

當熵和條件熵中的概率由數(shù)據(jù)估計(特別是極大似然估計)得到時,所對應的熵與條件熵分別稱為經(jīng)驗熵和經(jīng)驗條件熵

信息增益:
特征A對訓練數(shù)據(jù)集D的信息增益g(D,A)祖秒, 定義為集合D的經(jīng)驗熵H(D)與特征A給定條件下D的經(jīng)驗條件熵H(D|A)之差诞吱, 即

image.png

信息增益表示得知特征X的信息而使得類Y 的信息的不確定性減少的程度
一般地,熵H(Y)與條件熵H(Y|X)之差稱為互信息
決策樹學習中的信息增益等價于訓練數(shù)據(jù)集中類與特征的互信息房维。

信息增益的算法

image.png

(2)信息增益比

特征A對訓練數(shù)據(jù)集D的信息增益比gR(D,A)定義為其信息增益g(D,A)與訓練數(shù)據(jù)集D關(guān)于特征A的值的熵HA(D)之比:


image.png

以信息增益作為劃分訓練數(shù)據(jù)集的特征,存在偏向于選擇取值較多的特征的問題歌焦,使用信息增益比可以對這一問題進行校正

2独撇、決策樹的生成

(1)ID3算法

ID3算法的核心:是在決策樹各個結(jié)點上應用信息增益準則選擇特征, 遞歸地構(gòu)建決策樹纷铣。
** 具體方法是:** 從根結(jié)點(root node) 開始,對結(jié)點計算所有可能的特征的信息增益战转, 選擇信息增益最大的特征作為結(jié)點的特征搜立, 由該特征的不同取值建立子結(jié)點颠通; 再對子結(jié)點遞歸地調(diào)用以上方法撵儿, 構(gòu)建決策樹淀歇; 直到所有特征的信息增益均很小或沒有特征可以選擇為止。 最后得到一個決策樹。

image.png

基本思想:以信息熵為度量满钟,用于決策樹節(jié)點的屬性選擇,每次優(yōu)先選取信息量最多的屬性,亦即能使熵值變?yōu)樽钚〉膶傩裕詷?gòu)造一顆熵值下降最快的決策樹膀捷,到葉子節(jié)點處的熵值為0,此時每個葉子節(jié)點對應的實例集中的實例屬于同一類。

(2)C4.5的生成算法

用信息增益比來選擇特征氓英。


image.png

(3)決策樹的枝剪

決策樹生成算法遞歸地產(chǎn)生決策樹, 直到不能繼續(xù)下去為止。 但這種操作容易造成過擬合現(xiàn)象虚青。

過擬合的原因在于學習時過多地考慮如何提高對訓練數(shù)據(jù)的正確分類, 從而構(gòu)建出過于復雜的決策樹。 解決這個問題的辦法是考慮決策樹的復雜度宪赶, 對已生成的決策樹進行簡化 。

在決策樹學習中將已生成的樹進行簡化的過程稱為剪枝(pruning) 引几。 具體地叽掘, 剪枝從已生成的樹上裁掉一些子樹或葉結(jié)點, 并將其根結(jié)點或父結(jié)點作為新的葉結(jié)點, 從而簡化分類樹模型辽幌。

決策樹學習的剪枝算法:

image.png

image.png

(4)CART算法

CART算法由兩部分組成:
  • 決策樹生成
  • 決策樹剪枝
    回歸樹(目標變量是連續(xù)的):平方誤差最小化
    分類樹(目標變量是類別的):Gini Index

CART與ID3不同
二元劃分:二叉樹不易產(chǎn)生數(shù)據(jù)碎片,精度往往也會高于多叉樹
CART中選擇變量的不純性獨立:
分類目標:Gini指標腐缤,Towing绍在、orderTowing
連續(xù)目標:最小平方殘差、最小絕對殘差
剪枝:用預剪枝或后剪枝對訓練集生長的樹進行剪枝
樹的建立:
如果目標變量是標稱的留攒,并且是具有兩個以上類別杰标,則CART可能考慮將目標類別合并成兩個超類別(雙化)腔剂;
如果目標變量是連續(xù)的胜茧,則CART算法找出一組基于樹的回歸方程來預測目標變量

CART的生成:
1、回歸樹的生成
image.png

如何對輸入空間進行劃分下翎?

image.png

最小二乘回歸樹生成算法

image.png

2、分類樹的生成

基尼指數(shù):

image.png

CART生成算法

image.png

CART剪枝

兩步組成:

  • 從生成算法產(chǎn)生的決策樹T0底端開始不斷剪枝宝当,直到T0的根結(jié)點视事,形成一個子樹序列{T0,T1...Tn}
  • 通過交叉驗證法在獨立的驗證數(shù)據(jù)集上對子樹序列進行測試,從中選擇最優(yōu)子樹
1庆揩、剪枝郑口,形成一個子樹序列
image.png
2、在剪枝得到的子樹序列{T0,T1...Tn}中通過交叉驗證選取最優(yōu)子樹Ta.

利用獨立的驗證數(shù)據(jù)集盾鳞,測試子樹序列中各子樹的平方誤差或基尼指數(shù),最小的決策樹就是最優(yōu)決策樹瞻离。

CART剪枝算法:
image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末腾仅,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子套利,更是在濱河造成了極大的恐慌推励,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,607評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件肉迫,死亡現(xiàn)場離奇詭異验辞,居然都是意外死亡,警方通過查閱死者的電腦和手機喊衫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,239評論 3 395
  • 文/潘曉璐 我一進店門跌造,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人族购,你說我怎么就攤上這事壳贪。” “怎么了寝杖?”我有些...
    開封第一講書人閱讀 164,960評論 0 355
  • 文/不壞的土叔 我叫張陵违施,是天一觀的道長。 經(jīng)常有香客問我瑟幕,道長磕蒲,這世上最難降的妖魔是什么颤殴? 我笑而不...
    開封第一講書人閱讀 58,750評論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮翎苫,結(jié)果婚禮上热凹,老公的妹妹穿的比我還像新娘。我一直安慰自己排吴,他們只是感情好秆乳,可當我...
    茶點故事閱讀 67,764評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著钻哩,像睡著了一般屹堰。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上街氢,一...
    開封第一講書人閱讀 51,604評論 1 305
  • 那天扯键,我揣著相機與錄音,去河邊找鬼珊肃。 笑死荣刑,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的伦乔。 我是一名探鬼主播厉亏,決...
    沈念sama閱讀 40,347評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼烈和!你這毒婦竟也來了爱只?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,253評論 0 276
  • 序言:老撾萬榮一對情侶失蹤招刹,失蹤者是張志新(化名)和其女友劉穎恬试,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體疯暑,經(jīng)...
    沈念sama閱讀 45,702評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡训柴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,893評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了妇拯。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片幻馁。...
    茶點故事閱讀 40,015評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖乖阵,靈堂內(nèi)的尸體忽然破棺而出宣赔,到底是詐尸還是另有隱情,我是刑警寧澤瞪浸,帶...
    沈念sama閱讀 35,734評論 5 346
  • 正文 年R本政府宣布儒将,位于F島的核電站,受9級特大地震影響对蒲,放射性物質(zhì)發(fā)生泄漏钩蚊。R本人自食惡果不足惜贡翘,卻給世界環(huán)境...
    茶點故事閱讀 41,352評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望砰逻。 院中可真熱鬧鸣驱,春花似錦、人聲如沸蝠咆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,934評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽刚操。三九已至闸翅,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間菊霜,已是汗流浹背坚冀。 一陣腳步聲響...
    開封第一講書人閱讀 33,052評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留鉴逞,地道東北人记某。 一個月前我還...
    沈念sama閱讀 48,216評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像构捡,于是被迫代替她去往敵國和親液南。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,969評論 2 355

推薦閱讀更多精彩內(nèi)容