III 決策樹

以下內(nèi)容參考《機(jī)器學(xué)習(xí)》周志華(西瓜書)以及《機(jī)器學(xué)習(xí)公式詳解》datawhale(南瓜書)

什么是決策樹叠赦?

一般的,一棵決策樹包含一個(gè)根結(jié)點(diǎn)(包含樣本全集西疤,對(duì)應(yīng)于一個(gè)屬性測(cè)試)币绩,若干內(nèi)部節(jié)點(diǎn)(對(duì)應(yīng)于一個(gè)屬性測(cè)試)與若干葉節(jié)點(diǎn)(對(duì)應(yīng)于決策結(jié)果)。

從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑對(duì)應(yīng)一個(gè)判定測(cè)試序列瘸羡。如:

決策樹示例漩仙,正好包含一條完整的判定測(cè)試序列

如何生成?

決策樹構(gòu)建的基本步驟如下:

1. 開始犹赖,所有記錄看作一個(gè)節(jié)點(diǎn)

2. 遍歷每個(gè)變量的每一種分割方式队他,找到最好的分割點(diǎn)

3. 分割成兩個(gè)節(jié)點(diǎn)N1和N2

4. 對(duì)N1和N2分別繼續(xù)執(zhí)行2-3步,直到每個(gè)節(jié)點(diǎn)足夠“純”為止峻村。

劃分選擇

信息熵:度量樣本集合純度最常用的一種指標(biāo)麸折,值越小,純度越高粘昨。

Ent(D)=-\Sigma_{k=1}^{|\Upsilon |}p_k\log_2 p_k , D 表示集合垢啼,k表示k類樣本, p_k表示k類樣本占比。

信息增益

對(duì)于屬性a的每個(gè)可能的分支節(jié)點(diǎn)v张肾,獲得的信息增益為:

Gain(D,a) = Ent(D)-\sum_{v=1}^V\frac{D^v}{D}Ent(D^v)

(樣本數(shù)越多的分支節(jié)點(diǎn)的影響越大)芭析,信息增益越大,意味著這個(gè)劃分的純度提升越大吞瞪。

信息增益準(zhǔn)則(選擇最大的信息增益屬性)劃分舉例:ID3決策樹算法

由于類內(nèi)越純馁启,增益越大,可以發(fā)現(xiàn)信息增益準(zhǔn)則對(duì)可取數(shù)目較多的屬性有所偏好芍秆。

增益率

減少數(shù)目較多的屬性偏好进统。

定義增益率如下:

Gain_ratio(D,a) = \frac{Gain(D,a)}{IV(a)},其中IV(a)=-\sum_{v=1}^V\frac{D^v}{D}log_2 \frac{D^v}{D}稱為屬性a的固有值。

需要注意的是浪听,增益率準(zhǔn)則對(duì)可取值數(shù)目較少的屬性有所偏好螟碎。

增益率劃分舉例:C4.5決策樹算法。不過(guò)C4.5不是直接選擇增益率最大的候選劃分屬性迹栓,而是先從候選劃分屬性中找出信息增益水平高于平均水平的屬性掉分,再?gòu)闹羞x擇增益率最高的。

基尼系數(shù)

基尼系數(shù)越小克伊,數(shù)據(jù)集純度越高(反應(yīng)隨機(jī)抽取兩個(gè)樣本類別標(biāo)記不一致的概率)酥郭。

屬性a的基尼系數(shù)Gini_{index}(D,a) = \sum_{v=1}^V\frac{|D^v|}{|D|}Gini(D^v)

基尼指數(shù)劃分:CART決策樹

剪枝處理

主動(dòng)去掉一些分支來(lái)降低過(guò)擬合風(fēng)險(xiǎn)。

預(yù)剪枝

劃分前估計(jì)愿吹,若當(dāng)前結(jié)點(diǎn)的劃分不能帶來(lái)決策樹泛化性能的提升不从,則停止劃分且當(dāng)前結(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn)。

缺點(diǎn):基于貪心犁跪,帶來(lái)欠擬合風(fēng)險(xiǎn)椿息。

有點(diǎn):降低過(guò)擬合風(fēng)險(xiǎn)歹袁,減少開銷。

后剪枝

自底向上的對(duì)完整的樹的非葉節(jié)點(diǎn)進(jìn)行考察寝优,看替換為葉節(jié)點(diǎn)是否能帶來(lái)決策樹泛化性能的提升条舔。

缺點(diǎn):開銷大。

優(yōu)點(diǎn):欠擬合風(fēng)險(xiǎn)小乏矾。

連續(xù)與缺失值

連續(xù)值

連續(xù)屬性離散化(C4.5應(yīng)用):兩個(gè)排序后相鄰連續(xù)值的中位數(shù)劃分為兩個(gè)區(qū)間孟抗。

缺失值

擴(kuò)展信息增益計(jì)算方式,講缺失樣本概率劃分到不同子節(jié)點(diǎn)中钻心。(C4.5應(yīng)用)

多變量決策樹

非葉節(jié)點(diǎn)對(duì)于屬性的線性組合進(jìn)行測(cè)試凄硼,如:

多變量決策樹示例



最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市捷沸,隨后出現(xiàn)的幾起案子摊沉,更是在濱河造成了極大的恐慌,老刑警劉巖亿胸,帶你破解...
    沈念sama閱讀 211,348評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異预皇,居然都是意外死亡侈玄,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,122評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門吟温,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)序仙,“玉大人,你說(shuō)我怎么就攤上這事鲁豪∨说浚” “怎么了?”我有些...
    開封第一講書人閱讀 156,936評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵爬橡,是天一觀的道長(zhǎng)治唤。 經(jīng)常有香客問(wèn)我,道長(zhǎng)糙申,這世上最難降的妖魔是什么宾添? 我笑而不...
    開封第一講書人閱讀 56,427評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮柜裸,結(jié)果婚禮上缕陕,老公的妹妹穿的比我還像新娘。我一直安慰自己疙挺,他們只是感情好扛邑,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,467評(píng)論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著铐然,像睡著了一般蔬崩。 火紅的嫁衣襯著肌膚如雪恶座。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,785評(píng)論 1 290
  • 那天舱殿,我揣著相機(jī)與錄音奥裸,去河邊找鬼。 笑死沪袭,一個(gè)胖子當(dāng)著我的面吹牛湾宙,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播冈绊,決...
    沈念sama閱讀 38,931評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼侠鳄,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了死宣?” 一聲冷哼從身側(cè)響起伟恶,我...
    開封第一講書人閱讀 37,696評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎毅该,沒(méi)想到半個(gè)月后博秫,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,141評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡眶掌,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,483評(píng)論 2 327
  • 正文 我和宋清朗相戀三年挡育,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片朴爬。...
    茶點(diǎn)故事閱讀 38,625評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡即寒,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出召噩,到底是詐尸還是另有隱情母赵,我是刑警寧澤,帶...
    沈念sama閱讀 34,291評(píng)論 4 329
  • 正文 年R本政府宣布具滴,位于F島的核電站凹嘲,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏构韵。R本人自食惡果不足惜施绎,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,892評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望贞绳。 院中可真熱鬧谷醉,春花似錦、人聲如沸冈闭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)萎攒。三九已至遇八,卻和暖如春矛绘,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背刃永。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工货矮, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人斯够。 一個(gè)月前我還...
    沈念sama閱讀 46,324評(píng)論 2 360
  • 正文 我出身青樓囚玫,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親读规。 傳聞我的和親對(duì)象是個(gè)殘疾皇子抓督,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,492評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容