機器學(xué)習(xí) | 決策樹

本文僅作網(wǎng)絡(luò)筆記用寻狂,不定時完善。

決策樹根據(jù)輸出的不同蔗蹋,分為回歸樹和分類樹事期,但兩種樹的學(xué)習(xí)過程并無特別大的不同,都是分為兩步:

  • 決策樹生成
  • 決策樹剪枝

1纸颜、特征選擇方法

entropy relation diagram
  • :隨機變量X的熵被定義為:

其中p(x)=Pr(X=x)是X的密度函數(shù)兽泣。熵度量了隨機變量X的不確定性程度,如8種均勻可能需要log28=3個字節(jié)來存儲胁孙。

  • 聯(lián)合熵條件熵

兩個隨機變量的聯(lián)合熵被定義為:

條件熵被定義為:

另外可以證明:

  • 信息增益(互信息):互信息是一個隨機變量包含另一個隨機變量信息量的度量唠倦,也是在給定另一隨機變量知識的條件下称鳞,原隨機變量不確定度的縮減量。

注意到互信息(信息增益)關(guān)于X和Y是對稱的稠鼻,即H(X)-H(X|Y)=H(Y)-H(Y|X)冈止。而且它與相對熵存在如下等價關(guān)系:

但是信息增益傾向于選擇取值較多的特征,比如:有10個樣本候齿,特征A有10個取值熙暴,每個取值有一個樣本,這時分支節(jié)點的純度達到最大慌盯,相應(yīng)的信息增益最大周霉,利用信息增益對特征進行選擇,結(jié)果更可能選擇這樣的特征A亚皂。但這樣的特征無法對新樣本進行有效的預(yù)測俱箱。

  • 信息增益比

需要注意的是,增益率對可取值較少的特征有偏好灭必,所以C4.5算法并不是直接選擇增益率最大的特征進行劃分狞谱,而是先從候選屬性中找出信息增益高于平均水平的屬性,再從中選擇信息增益率最高的禁漓。

  • 基尼指數(shù)(Gini impurity)

要注意這里的GINI不純度(并不是GINI系數(shù))跟衅,它可以看作是熵的一種近似:

因為當(dāng)p(x)趨近于1時有

還有一個優(yōu)勢就是計算簡單,不用特殊考慮p(x)=0的情況播歼。在CART樹中与斤,屬性a的GINI指數(shù)定義為:

  • MSE(適合回歸樹)

  • MAE(mean absolute error)

2、決策樹生成

對于一顆決策樹荚恶,我們在生成每個節(jié)點時,要自動決策三件事:

    1. 選擇哪個特征用于分枝
    1. 特征的劃分點(用于二叉樹)
    1. 樹的拓撲(形狀)

在回歸樹中磷支,令

則每一步是一個最小化問題:

3谒撼、決策樹剪枝

根據(jù)”偏差-方差分解定理“,模型的泛化誤差可以分解為偏差雾狈、方差和噪聲之和廓潜。決策樹在生成的時候完全照顧到了偏差,所以在剪枝階段我們要認真考慮模型的偏差善榛。

  • 損失函數(shù)

損失函數(shù)要兼顧預(yù)測誤差和模型復(fù)雜度(節(jié)點個數(shù))

設(shè)樹T的葉節(jié)點個數(shù)為|T|辩蛋,t是樹T的葉節(jié)點,該葉節(jié)點有N_t個樣本點移盆,其中k類的樣本點有$N_{tk}$個悼院,H_t(T)為葉結(jié)點t上的經(jīng)驗熵,alpha >=0為參數(shù)咒循,則決策樹學(xué)習(xí)的損失函數(shù)可以定義為:

其中經(jīng)驗熵為

上述講的是C4.5決策樹据途,對于CART分類樹中的任意子樹绞愚,我們有:

其中C(T)是子樹的預(yù)測誤差,|T|是子樹葉結(jié)點個數(shù)颖医。

CART分類樹的剪枝主要考慮三點:

  • 1位衩、樹的大小|T|,葉子節(jié)點個數(shù)
  • 2熔萧、基于訓(xùn)練數(shù)據(jù)的預(yù)測誤差
  • 3糖驴、基于測試數(shù)據(jù)的預(yù)測誤差

對于第1和第2點,我們可以自下而上找到一個最優(yōu)的子節(jié)點使得剪枝后損失函數(shù)得到最大的改善(有優(yōu)化的計算方法)佛致,此時也對應(yīng)著一個alpha贮缕,然后剪枝得到一顆子樹。不斷迭代上述過程晌杰,理論上會直接結(jié)束于原決策樹的根結(jié)點跷睦,但我們又不知道在這個中間怎么去停止,于是便有了第三點肋演。具體方法如下:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末抑诸,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子爹殊,更是在濱河造成了極大的恐慌蜕乡,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,997評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件梗夸,死亡現(xiàn)場離奇詭異层玲,居然都是意外死亡,警方通過查閱死者的電腦和手機反症,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,603評論 3 392
  • 文/潘曉璐 我一進店門辛块,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人铅碍,你說我怎么就攤上這事润绵。” “怎么了胞谈?”我有些...
    開封第一講書人閱讀 163,359評論 0 353
  • 文/不壞的土叔 我叫張陵尘盼,是天一觀的道長。 經(jīng)常有香客問我烦绳,道長卿捎,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,309評論 1 292
  • 正文 為了忘掉前任径密,我火速辦了婚禮午阵,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘享扔。我一直安慰自己趟庄,他們只是感情好括细,可當(dāng)我...
    茶點故事閱讀 67,346評論 6 390
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著戚啥,像睡著了一般奋单。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上猫十,一...
    開封第一講書人閱讀 51,258評論 1 300
  • 那天览濒,我揣著相機與錄音,去河邊找鬼拖云。 笑死贷笛,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的宙项。 我是一名探鬼主播乏苦,決...
    沈念sama閱讀 40,122評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼尤筐!你這毒婦竟也來了汇荐?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,970評論 0 275
  • 序言:老撾萬榮一對情侶失蹤盆繁,失蹤者是張志新(化名)和其女友劉穎掀淘,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體油昂,經(jīng)...
    沈念sama閱讀 45,403評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡革娄,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,596評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了冕碟。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片拦惋。...
    茶點故事閱讀 39,769評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖安寺,靈堂內(nèi)的尸體忽然破棺而出厕妖,到底是詐尸還是另有隱情,我是刑警寧澤我衬,帶...
    沈念sama閱讀 35,464評論 5 344
  • 正文 年R本政府宣布,位于F島的核電站饰恕,受9級特大地震影響挠羔,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜埋嵌,卻給世界環(huán)境...
    茶點故事閱讀 41,075評論 3 327
  • 文/蒙蒙 一破加、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧雹嗦,春花似錦范舀、人聲如沸合是。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,705評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽聪全。三九已至,卻和暖如春辅辩,著一層夾襖步出監(jiān)牢的瞬間难礼,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,848評論 1 269
  • 我被黑心中介騙來泰國打工玫锋, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留蛾茉,地道東北人。 一個月前我還...
    沈念sama閱讀 47,831評論 2 370
  • 正文 我出身青樓撩鹿,卻偏偏與公主長得像谦炬,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子节沦,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,678評論 2 354

推薦閱讀更多精彩內(nèi)容