「數(shù)據(jù)分類(lèi)」14決策樹(shù)分類(lèi)之CART算法

1.CART算法與ID3算法對(duì)比

(1)CART算法解決了ID3算法的不足,既能用于分類(lèi)問(wèn)題滚秩,又能用于回歸問(wèn)題盅称。

(2)實(shí)際上,CART算法的主體結(jié)構(gòu)和ID3算法基本相同飞几,只是在以下幾點(diǎn)有所改變:

①選擇劃分特征時(shí)砚哆,ID3使用信息熵量化數(shù)據(jù)集的混亂程度;CART使用基尼指數(shù)(Gini Index)和均方誤差(MSE)量化數(shù)據(jù)集的混亂程度屑墨。

【注】CART算法用于分類(lèi)使用基尼指數(shù)躁锁,用于回歸使用均方誤差纷铣。

②選定某切分特征時(shí),ID3算法使用該特征所有可能的取值進(jìn)行切分战转,例如一個(gè)特征有k個(gè)取值搜立,數(shù)據(jù)集則被切成k份,創(chuàng)建k個(gè)子樹(shù)槐秧;CART算法使用某一閾值進(jìn)行二元切分啄踊,即在特征值的取值范圍區(qū)間內(nèi)進(jìn)行選擇一個(gè)閾值t,將數(shù)據(jù)集切成兩份刁标,然后使用一個(gè)數(shù)據(jù)子集(大于t)構(gòu)建左子樹(shù)颠通,使用另一個(gè)數(shù)據(jù)子集(小于等于t)構(gòu)造右子樹(shù),因此CART算法構(gòu)建的是二叉樹(shù)膀懈。

③對(duì)于已用于創(chuàng)建內(nèi)部節(jié)點(diǎn)的特征蒜哀,在后續(xù)運(yùn)算中(創(chuàng)建子樹(shù)中的節(jié)點(diǎn)時(shí)),ID3算法不會(huì)再次使用它創(chuàng)建其它內(nèi)部節(jié)點(diǎn)吏砂;CART算法可能會(huì)再次使用它創(chuàng)建其他內(nèi)部節(jié)點(diǎn)撵儿。

(3)CART算法不僅可以處理離散值特征,也可以處理連續(xù)值特征狐血。

處理連續(xù)值特征的思路為:把數(shù)據(jù)集中的每一個(gè)特征動(dòng)態(tài)地轉(zhuǎn)換成多個(gè)布爾值特征淀歇,形成新特征空間中的數(shù)據(jù)集。

實(shí)例:假設(shè)某數(shù)據(jù)集中有一個(gè)“溫度”特征匈织,該特征出現(xiàn)過(guò)的值有[10,-15,0,-9,5,22]

CART算法將做以下處理:

①先將“溫度”特征出現(xiàn)的值排序浪默,得到列表[-15,-9,0,5,10,22](6個(gè)值);

②依次取[-15,-9,0,5,10,22]中相鄰兩值得中點(diǎn)作為閾值點(diǎn)缀匕,將得到閾值列表[-12,-4.5,2.5,7.5,16](5個(gè)值)纳决;

③使用每一個(gè)閾值與原來(lái)特征的值進(jìn)行比較,便得到了取值為0或1的布爾值特征乡小,例如“溫度是否大于-12”阔加、“溫度是否大于-4.5”(共5個(gè))。

使用以上處理方法满钟,在數(shù)據(jù)集中k個(gè)取值的“溫度”特征就被轉(zhuǎn)換成了k-1個(gè)布爾值特征胜榔。

2.CART算法詳述

CART算法相關(guān)概念及功能

【注】iris鳶尾花數(shù)據(jù)集和boston房?jī)r(jià)數(shù)據(jù)集都是sklearn庫(kù)自帶的數(shù)據(jù)集,編寫(xiě)程序時(shí)直接load進(jìn)去就可以使用了湃番。

(1)分類(lèi)樹(shù)案例:給iris數(shù)據(jù)集進(jìn)行分類(lèi)

CART分類(lèi)樹(shù)
模型擬合結(jié)果
iris數(shù)據(jù)集分類(lèi)樹(shù)

(2)回歸樹(shù)案例:對(duì)boston房?jī)r(jià)進(jìn)行回歸預(yù)測(cè)

說(shuō)明:cart回歸樹(shù)劃分?jǐn)?shù)據(jù)集的過(guò)程和分類(lèi)樹(shù)的過(guò)程是一樣的夭织,回歸樹(shù)得到的預(yù)測(cè)結(jié)果是連續(xù)值,評(píng)判不純度的指標(biāo)不同吠撮;分類(lèi)樹(shù)采用的是基尼系數(shù)尊惰,回歸樹(shù)需要根據(jù)樣本的離散程度來(lái)評(píng)價(jià)不純度,采用的是均方誤差

節(jié)點(diǎn)劃分(即計(jì)算樣本的離散程度)

①最小絕對(duì)偏差(LAD):樣本值減去樣本均值的絕對(duì)值弄屡,即

最小絕對(duì)偏差

【注】此公式不是十分肯定戴卜,后續(xù)查找到相關(guān)資料再對(duì)其進(jìn)行修改。

②最小二乘偏差(LSD):每個(gè)樣本值減去樣本均值的平方和除以樣本數(shù)琢岩,即

最小二乘偏差(均方誤差)
CART回歸樹(shù)
模型擬合結(jié)果
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末投剥,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子担孔,更是在濱河造成了極大的恐慌江锨,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,548評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件糕篇,死亡現(xiàn)場(chǎng)離奇詭異啄育,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)拌消,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)挑豌,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人墩崩,你說(shuō)我怎么就攤上這事氓英。” “怎么了鹦筹?”我有些...
    開(kāi)封第一講書(shū)人閱讀 167,990評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵铝阐,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我铐拐,道長(zhǎng)徘键,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,618評(píng)論 1 296
  • 正文 為了忘掉前任遍蟋,我火速辦了婚禮吹害,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘虚青。我一直安慰自己它呀,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布挟憔。 她就那樣靜靜地躺著钟些,像睡著了一般。 火紅的嫁衣襯著肌膚如雪绊谭。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,246評(píng)論 1 308
  • 那天汪拥,我揣著相機(jī)與錄音达传,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛宪赶,可吹牛的內(nèi)容都是我干的宗弯。 我是一名探鬼主播,決...
    沈念sama閱讀 40,819評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼搂妻,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼蒙保!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起欲主,我...
    開(kāi)封第一講書(shū)人閱讀 39,725評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤邓厕,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后扁瓢,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體详恼,經(jīng)...
    沈念sama閱讀 46,268評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評(píng)論 3 340
  • 正文 我和宋清朗相戀三年引几,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了昧互。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,488評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡伟桅,死狀恐怖敞掘,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情楣铁,我是刑警寧澤渐逃,帶...
    沈念sama閱讀 36,181評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站民褂,受9級(jí)特大地震影響茄菊,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜赊堪,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評(píng)論 3 333
  • 文/蒙蒙 一面殖、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧哭廉,春花似錦脊僚、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,331評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至椿访,卻和暖如春乌企,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背成玫。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,445評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工加酵, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留拳喻,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,897評(píng)論 3 376
  • 正文 我出身青樓猪腕,卻偏偏與公主長(zhǎng)得像冗澈,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子陋葡,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容

  • 1.前言 決策樹(shù)是一種基本的分類(lèi)和回歸方法亚亲。決策樹(shù)呈樹(shù)形結(jié)構(gòu),在分類(lèi)問(wèn)題中腐缤,表示基于特征對(duì)實(shí)例進(jìn)行分類(lèi)的過(guò)程捌归。采用...
    勝利主義章北海閱讀 2,647評(píng)論 0 0
  • 決策樹(shù)理論在決策樹(shù)理論中,有這樣一句話柴梆,“用較少的東西陨溅,照樣可以做很好的事情。越是小的決策樹(shù)绍在,越優(yōu)于大的決策樹(shù)”门扇。...
    制杖灶灶閱讀 5,863評(píng)論 0 25
  • 決策樹(shù) 1.概述 決策樹(shù)由節(jié)點(diǎn)和有向邊組成,節(jié)點(diǎn)有兩種類(lèi)型偿渡,內(nèi)部節(jié)點(diǎn)和葉節(jié)點(diǎn)臼寄,內(nèi)部節(jié)點(diǎn)表示一個(gè)特征或?qū)傩裕~節(jié)點(diǎn)表...
    Evermemo閱讀 2,294評(píng)論 0 1
  • Decision Trees (DTs) 是一種用來(lái)classification和regression的無(wú)參監(jiān)督學(xué)...
    婉妃閱讀 6,131評(píng)論 0 8
  • 媽媽溜宽,我想對(duì)你說(shuō)吉拳,我不想再事事按著你說(shuō)的做,我想為自己做一次決定适揉。 從小到大以來(lái)留攒,似乎沒(méi)有一件事是不聽(tīng)你們的。大事...
    洛北北閱讀 249評(píng)論 1 3