R語言機(jī)器學(xué)習(xí)與臨床預(yù)測(cè)模型35--分類回歸樹

本內(nèi)容為【科研私家菜】R語言機(jī)器學(xué)習(xí)與臨床預(yù)測(cè)模型系列課程

R小鹽準(zhǔn)備介紹R語言機(jī)器學(xué)習(xí)與預(yù)測(cè)模型的學(xué)習(xí)筆記

你想要的R語言學(xué)習(xí)資料都在這里斩披, 快來收藏關(guān)注【科研私家菜】


[圖片上傳失敗...(image-fd5bf4-1648433074208)]

01 什么是分類回歸樹CART堆巧?

分類回歸樹(Classification and Regression Tree, CART)是一種經(jīng)典的決策樹,可以用來處理涉及連續(xù)數(shù)據(jù)的分類或者回歸任務(wù)闯割。分類回歸樹 既可以用于創(chuàng)建分類樹 (classification tree),也可以用于創(chuàng)建回歸樹 (regression Tree)
回歸樹:用平方殘差 (square of residual) 最小化準(zhǔn)則來選擇特征,葉子上是實(shí)數(shù)值
分類樹:用基尼指數(shù) (Gini index) 最小化準(zhǔn)則來選擇特征官扣。葉子上是類別值

分類樹與回歸樹的區(qū)別在樣本的輸出墩莫,如果樣本輸出是離散值芙委,這是分類樹;樣本輸出是連續(xù)值狂秦,這是回歸樹灌侣。分類樹的輸出是樣本的類別,回歸樹的輸出是一個(gè)實(shí)數(shù)裂问。

分類模型:采用基尼系數(shù)的大小度量特征各個(gè)劃分點(diǎn)的優(yōu)劣侧啼。

回歸模型:采用誤差平方和度量牛柒。
CART算法步驟:

  1. 特征選擇;
  2. 遞歸建立決策樹慨菱;
  3. 決策樹剪枝焰络;

02 CART分類樹算法

CART分類樹算法使用基尼系數(shù)選擇特征,基尼系數(shù)代表了模型的不純度符喝,基尼系數(shù)越小闪彼,不純度越低,特征越好协饲。這和信息增益(率)相反畏腕。
基尼系數(shù)
數(shù)據(jù)集D的純度可用基尼值來度量

[圖片上傳失敗...(image-199e9f-1648433074208)]
[圖片上傳失敗...(image-47dc2d-1648433074208)]
[圖片上傳失敗...(image-d9ac21-1648433074208)]

建立CART分類樹步驟

[圖片上傳失敗...(image-9dac9e-1648433074208)]


03 CART回歸樹算法

建立CART回歸樹步驟

[圖片上傳失敗...(image-7a5d24-1648433074208)]

04 CART的R語言實(shí)現(xiàn)

####加載程序包
library(rpart) #classification and regression trees
library(partykit) #treeplots
library(MASS) #breast and pima indian data
library(ElemStatLearn) #prostate data
library(randomForest) #random forests
library(xgboost) #gradient boosting 
library(caret) #tune hyper-parameters

###########CART first
data(prostate)
prostate$gleason <- ifelse(prostate$gleason == 6, 0, 1)
pros.train <- subset(prostate, train == TRUE)[, 1:9]
pros.test = subset(prostate, train == FALSE)[, 1:9]

set.seed(123)
tree.pros <- rpart(lpsa ~ ., data = pros.train)
tree.pros$cptable
plotcp(tree.pros)
cp <- min(tree.pros$cptable[5, ])
prune.tree.pros <- prune(tree.pros, cp = cp)
plot(as.party(tree.pros))
plot(as.party(prune.tree.pros))
party.pros.test <- predict(prune.tree.pros, 
                           newdata = pros.test)
rpart.resid <- party.pros.test - pros.test$lpsa #calculate residual
mean(rpart.resid^2)

########CART breast cancer
data(biopsy)
biopsy <- biopsy[, -1]
names(biopsy) <- c("thick", "u.size", "u.shape", "adhsn", "s.size", "nucl", "chrom", "n.nuc", "mit", "class")
biopsy.v2 <- na.omit(biopsy)
set.seed(123) #random number generator
ind <- sample(2, nrow(biopsy.v2), replace = TRUE, prob = c(0.7, 0.3))
biop.train <- biopsy.v2[ind == 1, ] #the training data set
biop.test <- biopsy.v2[ind == 2, ] #the test data set
str(biop.test)

set.seed(123)
tree.biop <- rpart(class ~ ., data = biop.train)
tree.biop$cptable
cp <- min(tree.biop$cptable[3, ])
prune.tree.biop = prune(tree.biop, cp <- cp)
# plot(as.party(tree.biop))
plot(as.party(prune.tree.biop))
rparty.test <- predict(prune.tree.biop, newdata = biop.test,
                       type = "class")
table(rparty.test, biop.test$class)
(136+64)/209

[圖片上傳失敗...(image-c9582e-1648433074208)]
[圖片上傳失敗...(image-f5586c-1648433074208)]
[圖片上傳失敗...(image-7e7f72-1648433074208)]
[圖片上傳失敗...(image-557545-1648433074208)]

05 總結(jié)

數(shù)據(jù)集中會(huì)包含一些復(fù)雜的相互關(guān)系,使輸入數(shù)據(jù)和目標(biāo)變量之間存在非線性的關(guān)系茉稠。對(duì)于這種復(fù)雜關(guān)系的建模描馅,一種可行的方式是使用樹來對(duì)預(yù)測(cè)值分段,包括分段常數(shù)(回歸樹)和分段直線(模型樹)而线。

CART算法可以用于構(gòu)建二元樹并處理離散型或連續(xù)型數(shù)據(jù)的切分铭污。若使用不同的誤差準(zhǔn)則,就可以通過CART算法構(gòu)建模型樹和回歸樹膀篮。但是嘹狞,該算法構(gòu)建的樹傾向于對(duì)數(shù)據(jù)過擬合,可采用剪枝的方法解決該問題誓竿。剪枝分為預(yù)剪枝(在樹的構(gòu)建過程中就就進(jìn)行剪枝)和后剪枝(樹構(gòu)建完畢進(jìn)行剪枝)磅网。預(yù)剪枝更有效但需要用戶定義一些參數(shù)。一般地筷屡,為了尋找最佳模型可以同時(shí)使用兩種剪枝技術(shù)涧偷。

CART可以被看做決策樹的升級(jí)版本,用于處理連續(xù)數(shù)據(jù)毙死。

決策樹的思想雖然比較粗暴燎潮,但是可解釋很強(qiáng)、計(jì)算效率也比較高规哲,應(yīng)用非常廣泛跟啤。如果配合剪枝、集成等策略唉锌,我們可以基于C4.5隅肥、CART這類模型構(gòu)建出很多非常優(yōu)秀的模型,比如隨機(jī)森林袄简、隨機(jī)梯度上升樹等等腥放。

在構(gòu)建決策樹的過程中,我們?cè)u(píng)估了每一種特征绿语,在對(duì)樣本進(jìn)行分組時(shí)的能力大小——這個(gè)分?jǐn)?shù)可以作為特征工程中秃症,特征選擇的依據(jù)候址。因此,有時(shí)候我們也會(huì)使用決策樹來做特征選擇种柑。

參考資料:

https://zhuanlan.zhihu.com/p/139523931
https://zhuanlan.zhihu.com/p/139519852


關(guān)注R小鹽岗仑,關(guān)注科研私家菜(VX_GZH: SciPrivate),有問題請(qǐng)聯(lián)系R小鹽聚请。讓我們一起來學(xué)習(xí) R語言機(jī)器學(xué)習(xí)與臨床預(yù)測(cè)模型

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末荠雕,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子驶赏,更是在濱河造成了極大的恐慌炸卑,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,525評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件煤傍,死亡現(xiàn)場(chǎng)離奇詭異盖文,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)蚯姆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,203評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門五续,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人龄恋,你說我怎么就攤上這事返帕。” “怎么了篙挽?”我有些...
    開封第一講書人閱讀 164,862評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)镊靴。 經(jīng)常有香客問我铣卡,道長(zhǎng),這世上最難降的妖魔是什么偏竟? 我笑而不...
    開封第一講書人閱讀 58,728評(píng)論 1 294
  • 正文 為了忘掉前任煮落,我火速辦了婚禮,結(jié)果婚禮上踊谋,老公的妹妹穿的比我還像新娘蝉仇。我一直安慰自己,他們只是感情好殖蚕,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,743評(píng)論 6 392
  • 文/花漫 我一把揭開白布轿衔。 她就那樣靜靜地躺著,像睡著了一般睦疫。 火紅的嫁衣襯著肌膚如雪害驹。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,590評(píng)論 1 305
  • 那天蛤育,我揣著相機(jī)與錄音宛官,去河邊找鬼葫松。 笑死,一個(gè)胖子當(dāng)著我的面吹牛底洗,可吹牛的內(nèi)容都是我干的腋么。 我是一名探鬼主播,決...
    沈念sama閱讀 40,330評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼亥揖,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼唉擂!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起掐禁,我...
    開封第一講書人閱讀 39,244評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤毛秘,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后胡控,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體扳剿,經(jīng)...
    沈念sama閱讀 45,693評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,885評(píng)論 3 336
  • 正文 我和宋清朗相戀三年昼激,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了庇绽。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,001評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡橙困,死狀恐怖瞧掺,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情凡傅,我是刑警寧澤辟狈,帶...
    沈念sama閱讀 35,723評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站夏跷,受9級(jí)特大地震影響哼转,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜槽华,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,343評(píng)論 3 330
  • 文/蒙蒙 一壹蔓、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧猫态,春花似錦佣蓉、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,919評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至匆光,卻和暖如春套像,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背终息。 一陣腳步聲響...
    開封第一講書人閱讀 33,042評(píng)論 1 270
  • 我被黑心中介騙來泰國(guó)打工夺巩, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留贞让,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,191評(píng)論 3 370
  • 正文 我出身青樓柳譬,卻偏偏與公主長(zhǎng)得像喳张,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子美澳,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,955評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容