決策樹

最近在學(xué)習(xí)數(shù)據(jù)分析画侣,嘗試把學(xué)習(xí)的內(nèi)容整理并整合成筆記并記錄下來(lái)。保持定期更新姓惑。


回到數(shù)據(jù)分析的目的译株,其實(shí)大部分是用來(lái)預(yù)測(cè)未來(lái)的結(jié)果。這就要求給到一些歷史的數(shù)據(jù)作為樣本挺益,觀察變化的趨勢(shì),并適當(dāng)總結(jié)出模型乘寒,才能方便進(jìn)行預(yù)測(cè)望众。通常來(lái)說(shuō),關(guān)系是比較簡(jiǎn)單的,由于變量越少模型越簡(jiǎn)單烂翰,比如說(shuō)身高與年齡的關(guān)系夯缺,比如小朋友隨著年齡的增長(zhǎng)就長(zhǎng)個(gè)子了,后來(lái)到了成年就慢慢穩(wěn)定了甘耿。身高和年齡在某個(gè)區(qū)間來(lái)說(shuō)踊兜,就是正相關(guān)。但是佳恬,有時(shí)候數(shù)據(jù)集中會(huì)包含一些復(fù)雜的相互關(guān)系捏境,使輸入數(shù)據(jù)和目標(biāo)變量之間存在非線性的關(guān)系。

對(duì)于這種復(fù)雜關(guān)系的建模毁葱,其中一種可行的方式是使用樹來(lái)對(duì)預(yù)測(cè)值分段垫言,包括分段常數(shù)(回歸樹)和分段直線(模型樹)。

CART算法可以用于構(gòu)建二元樹并處理離散型或連續(xù)型數(shù)據(jù)的切分倾剿。若使用不同的誤差準(zhǔn)則筷频,就可以通過(guò)CART算法構(gòu)建模型樹和回歸樹。如下圖前痘,使用兩條直線擬合會(huì)比使用一組常數(shù)來(lái)建模效果更好凛捏。如果使用常規(guī)的一元線性回歸,則得到一個(gè)擬合方程芹缔,以0.3為分界線啥容,左右側(cè)容易出現(xiàn)較大的誤差。若用決策樹沈堡,則 可以由[0.0,0.3]和[0.3,1.0]這兩個(gè)區(qū)間的兩條直線組成猴蹂。決策樹相比其他機(jī)器學(xué)習(xí)算法易于理解,而模型樹的可解釋性是它優(yōu)于回歸樹的特性之一窒所。模型樹同時(shí)具備更高的預(yù)測(cè)準(zhǔn)確度鹉勒。

非線性的數(shù)據(jù)

但是,該算法構(gòu)建的樹傾向于對(duì)數(shù)據(jù)過(guò)擬合吵取,可采用剪枝的方法解決該問(wèn)題禽额。剪枝分為預(yù)剪枝(在樹的構(gòu)建過(guò)程中就進(jìn)行剪枝)和后剪枝(樹構(gòu)建完畢進(jìn)行剪枝)。預(yù)剪枝更有效但需要用戶定義一些參數(shù)皮官。一般地脯倒,為了尋找最佳模型可以同時(shí)使用兩種剪枝技術(shù)。

在學(xué)習(xí)的過(guò)程中捺氢,有很多不錯(cuò)的例子值得學(xué)習(xí)藻丢。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市摄乒,隨后出現(xiàn)的幾起案子悠反,更是在濱河造成了極大的恐慌残黑,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,548評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件斋否,死亡現(xiàn)場(chǎng)離奇詭異梨水,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)茵臭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門疫诽,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人旦委,你說(shuō)我怎么就攤上這事奇徒。” “怎么了社证?”我有些...
    開封第一講書人閱讀 167,990評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵逼龟,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我追葡,道長(zhǎng)腺律,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,618評(píng)論 1 296
  • 正文 為了忘掉前任宜肉,我火速辦了婚禮匀钧,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘谬返。我一直安慰自己之斯,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評(píng)論 6 397
  • 文/花漫 我一把揭開白布遣铝。 她就那樣靜靜地躺著佑刷,像睡著了一般。 火紅的嫁衣襯著肌膚如雪酿炸。 梳的紋絲不亂的頭發(fā)上瘫絮,一...
    開封第一講書人閱讀 52,246評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音填硕,去河邊找鬼麦萤。 笑死,一個(gè)胖子當(dāng)著我的面吹牛扁眯,可吹牛的內(nèi)容都是我干的壮莹。 我是一名探鬼主播,決...
    沈念sama閱讀 40,819評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼姻檀,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼命满!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起绣版,我...
    開封第一講書人閱讀 39,725評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤胶台,失蹤者是張志新(化名)和其女友劉穎狭莱,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體概作,經(jīng)...
    沈念sama閱讀 46,268評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評(píng)論 3 340
  • 正文 我和宋清朗相戀三年默怨,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了讯榕。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,488評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡匙睹,死狀恐怖愚屁,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情痕檬,我是刑警寧澤霎槐,帶...
    沈念sama閱讀 36,181評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站梦谜,受9級(jí)特大地震影響丘跌,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜唁桩,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評(píng)論 3 333
  • 文/蒙蒙 一闭树、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧荒澡,春花似錦报辱、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至米奸,卻和暖如春昼接,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背躏升。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工辩棒, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人膨疏。 一個(gè)月前我還...
    沈念sama閱讀 48,897評(píng)論 3 376
  • 正文 我出身青樓一睁,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親佃却。 傳聞我的和親對(duì)象是個(gè)殘疾皇子者吁,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容