R語言機器學(xué)習(xí)與臨床預(yù)測模型36--隨機森林Random Forest

本內(nèi)容為【科研私家菜】R語言機器學(xué)習(xí)與臨床預(yù)測模型系列課程

R小鹽準備介紹R語言機器學(xué)習(xí)與預(yù)測模型的學(xué)習(xí)筆記

你想要的R語言學(xué)習(xí)資料都在這里, 快來收藏關(guān)注【科研私家菜】


01 什么是隨機森林膜眠?

隨機森林(RF,Random Forest)是非常具有代表性的Bagging集成算法,它的所有基評估器都是決策樹,分類樹組成的森林就叫做隨機森林分類器,回歸樹所集成的森林就叫做隨機森林回歸器充边。
隨機森林是一個用隨機方式建立的,包含多個決策樹的集成分類器常侦。其輸出的類別由各個樹投票而定(如果是回歸樹則取平均)痛黎。隨機森林的生成過程如下:

  1. 從原始樣本中采取有放回抽樣的方法選取n個樣本予弧;
  2. 對n個樣本選取a個特征中的隨機k個刮吧,用建立決策樹的方法獲得最佳分割點湖饱;
  3. 重復(fù)m次,獲得m個決策樹杀捻;
  4. 對輸入樣例進行預(yù)測時井厌,每個子樹都產(chǎn)生一個結(jié)果,采用多數(shù)投票機制輸出致讥。
    隨機森林的優(yōu)點
  5. 實現(xiàn)簡單仅仆,訓(xùn)練速度快,可以并行實現(xiàn)垢袱,因為訓(xùn)練時樹與樹之間是相互獨立的墓拜;
  6. 相比單一決策樹,能學(xué)習(xí)到特征之間的相互影響请契,且不容易過擬合咳榜;
  7. 能處理高維數(shù)據(jù)(即特征很多),并且不用做特征選擇爽锥,因為特征子集是隨機選取的涌韩;
  8. 對于不平衡的數(shù)據(jù)集,可以平衡誤差氯夷;
  9. 相比SVM臣樱,對特征缺失不敏感,因為待選特征也是隨機選热肌雇毫;
  10. 訓(xùn)練完成后可以給出哪些特征比較重要。

隨機森林的缺點

  1. 在噪聲過大的分類和回歸問題還是容易過擬合踩蔚;
  2. 相比于單一決策樹棚放,它的隨機性讓我們難以對模型進行解釋。
    隨機森林在訓(xùn)練時寂纪,循環(huán)依次訓(xùn)練每一棵決策樹席吴,每棵樹的訓(xùn)練樣本都是從原始訓(xùn)練集中進行Bootstrap抽樣得到。在訓(xùn)練決策樹的每個節(jié)點時所用的特征也是隨機抽樣得到的捞蛋,即從特征向量中隨機抽出部分特征參與訓(xùn)練孝冒。


    決策樹

隨機森林

02 R語言實現(xiàn)

rf.pros <- randomForest(lpsa ~ ., data = pros.train)
rf.pros
plot(rf.pros)
which.min(rf.pros$mse)
set.seed(123)
rf.pros.2 <- randomForest(lpsa ~ ., data = pros.train, ntree = 75)
rf.pros.2
varImpPlot(rf.pros.2, scale = TRUE,
           main = "Variable Importance Plot - PSA Score")
importance(rf.pros.2)
rf.pros.test <- predict(rf.pros.2, newdata = pros.test)
#plot(rf.pros.test, pros.test$lpsa)
rf.resid <- rf.pros.test - pros.test$lpsa #calculate residual
mean(rf.resid^2)

set.seed(123)
rf.biop <- randomForest(class ~ ., data = biop.train)
rf.biop
plot(rf.biop)
which.min(rf.biop$err.rate[, 1])
set.seed(123)
rf.biop.2 <- randomForest(class ~ ., data = biop.train, ntree = 19)
#getTree(rf.biop,1)
rf.biop.2
rf.biop.test <- predict(rf.biop.2, 
                        newdata = biop.test, 
                        type = "response")
table(rf.biop.test, biop.test$class)
(139 + 67) / 209
varImpPlot(rf.biop.2)

data(Pima.tr)
data(Pima.te)
pima <- rbind(Pima.tr, Pima.te)
set.seed(502)
ind <- sample(2, nrow(pima), replace = TRUE, prob = c(0.7, 0.3))
pima.train <- pima[ind == 1, ]
pima.test <- pima[ind == 2, ]

set.seed(321)
rf.pima <- randomForest(type ~ ., data = pima.train)
rf.pima
# plot(rf.pima)
which.min(rf.pima$err.rate[,1])
set.seed(321)
rf.pima.2 <- randomForest(type ~ ., data = pima.train, ntree = 80)
rf.pima.2
rf.pima.test <- predict(rf.pima.2, 
                        newdata = pima.test, 
                        type = "response")
table(rf.pima.test, pima.test$type)

03 總結(jié)

隨機森林是一種集成學(xué)習(xí)算法,它將多棵決策樹進行整合來完成預(yù)測拟杉。對于分類問題預(yù)測結(jié)果是所有決策樹預(yù)測結(jié)果的投票庄涡;對于回歸問題,是所有決策樹預(yù)測結(jié)果的均值搬设。訓(xùn)練時穴店,通過Bootstrap抽樣來形成每棵決策樹的訓(xùn)練集撕捍,訓(xùn)練每棵決策樹的每個節(jié)點時,所用的特征也是從整個特征向量中抽取的一部分特征泣洞。通過將多棵決策樹集成忧风,以及每次用采樣的樣本和特征分量訓(xùn)練每棵決策樹,可以有效的降低模型的方差球凰。

隨機森林是一種判別模型狮腿,既支持分類問題,也支持回歸問題呕诉,并且支持多分類問題缘厢。它是一種非線性模型,其預(yù)測函數(shù)為分段常數(shù)函數(shù)甩挫。


關(guān)注科研私家菜(VX_GZH: SciPrivate)贴硫,發(fā)送“隨機森林”獲取R語言源碼和示例數(shù)據(jù)。


關(guān)注R小鹽伊者,關(guān)注科研私家菜(VX_GZH: SciPrivate)英遭,有問題請聯(lián)系R小鹽。讓我們一起來學(xué)習(xí) R語言機器學(xué)習(xí)與臨床預(yù)測模型

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末删壮,一起剝皮案震驚了整個濱河市贪绘,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌央碟,老刑警劉巖税灌,帶你破解...
    沈念sama閱讀 218,204評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異亿虽,居然都是意外死亡菱涤,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評論 3 395
  • 文/潘曉璐 我一進店門洛勉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來粘秆,“玉大人,你說我怎么就攤上這事收毫」プ撸” “怎么了?”我有些...
    開封第一講書人閱讀 164,548評論 0 354
  • 文/不壞的土叔 我叫張陵此再,是天一觀的道長昔搂。 經(jīng)常有香客問我,道長输拇,這世上最難降的妖魔是什么摘符? 我笑而不...
    開封第一講書人閱讀 58,657評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上逛裤,老公的妹妹穿的比我還像新娘瘩绒。我一直安慰自己,他們只是感情好带族,可當(dāng)我...
    茶點故事閱讀 67,689評論 6 392
  • 文/花漫 我一把揭開白布锁荔。 她就那樣靜靜地躺著,像睡著了一般炉菲。 火紅的嫁衣襯著肌膚如雪堕战。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,554評論 1 305
  • 那天拍霜,我揣著相機與錄音,去河邊找鬼薪介。 笑死祠饺,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的汁政。 我是一名探鬼主播道偷,決...
    沈念sama閱讀 40,302評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼记劈!你這毒婦竟也來了勺鸦?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,216評論 0 276
  • 序言:老撾萬榮一對情侶失蹤目木,失蹤者是張志新(化名)和其女友劉穎换途,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體军拟,經(jīng)...
    沈念sama閱讀 45,661評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,851評論 3 336
  • 正文 我和宋清朗相戀三年誓禁,在試婚紗的時候發(fā)現(xiàn)自己被綠了懈息。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,977評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡摹恰,死狀恐怖辫继,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情俗慈,我是刑警寧澤姑宽,帶...
    沈念sama閱讀 35,697評論 5 347
  • 正文 年R本政府宣布,位于F島的核電站姜盈,受9級特大地震影響低千,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,306評論 3 330
  • 文/蒙蒙 一示血、第九天 我趴在偏房一處隱蔽的房頂上張望棋傍。 院中可真熱鬧,春花似錦难审、人聲如沸瘫拣。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽麸拄。三九已至,卻和暖如春黔姜,著一層夾襖步出監(jiān)牢的瞬間拢切,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評論 1 270
  • 我被黑心中介騙來泰國打工秆吵, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留淮椰,地道東北人。 一個月前我還...
    沈念sama閱讀 48,138評論 3 370
  • 正文 我出身青樓纳寂,卻偏偏與公主長得像主穗,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子毙芜,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,927評論 2 355

推薦閱讀更多精彩內(nèi)容