本內(nèi)容為【科研私家菜】R語言機器學(xué)習(xí)與臨床預(yù)測模型系列課程
R小鹽準備介紹R語言機器學(xué)習(xí)與預(yù)測模型的學(xué)習(xí)筆記
你想要的R語言學(xué)習(xí)資料都在這里, 快來收藏關(guān)注【科研私家菜】
01 什么是隨機森林膜眠?
隨機森林(RF,Random Forest)是非常具有代表性的Bagging集成算法,它的所有基評估器都是決策樹,分類樹組成的森林就叫做隨機森林分類器,回歸樹所集成的森林就叫做隨機森林回歸器充边。
隨機森林是一個用隨機方式建立的,包含多個決策樹的集成分類器常侦。其輸出的類別由各個樹投票而定(如果是回歸樹則取平均)痛黎。隨機森林的生成過程如下:
- 從原始樣本中采取有放回抽樣的方法選取n個樣本予弧;
- 對n個樣本選取a個特征中的隨機k個刮吧,用建立決策樹的方法獲得最佳分割點湖饱;
- 重復(fù)m次,獲得m個決策樹杀捻;
- 對輸入樣例進行預(yù)測時井厌,每個子樹都產(chǎn)生一個結(jié)果,采用多數(shù)投票機制輸出致讥。
隨機森林的優(yōu)點: - 實現(xiàn)簡單仅仆,訓(xùn)練速度快,可以并行實現(xiàn)垢袱,因為訓(xùn)練時樹與樹之間是相互獨立的墓拜;
- 相比單一決策樹,能學(xué)習(xí)到特征之間的相互影響请契,且不容易過擬合咳榜;
- 能處理高維數(shù)據(jù)(即特征很多),并且不用做特征選擇爽锥,因為特征子集是隨機選取的涌韩;
- 對于不平衡的數(shù)據(jù)集,可以平衡誤差氯夷;
- 相比SVM臣樱,對特征缺失不敏感,因為待選特征也是隨機選热肌雇毫;
- 訓(xùn)練完成后可以給出哪些特征比較重要。
隨機森林的缺點:
- 在噪聲過大的分類和回歸問題還是容易過擬合踩蔚;
-
相比于單一決策樹棚放,它的隨機性讓我們難以對模型進行解釋。
隨機森林在訓(xùn)練時寂纪,循環(huán)依次訓(xùn)練每一棵決策樹席吴,每棵樹的訓(xùn)練樣本都是從原始訓(xùn)練集中進行Bootstrap抽樣得到。在訓(xùn)練決策樹的每個節(jié)點時所用的特征也是隨機抽樣得到的捞蛋,即從特征向量中隨機抽出部分特征參與訓(xùn)練孝冒。
02 R語言實現(xiàn)
rf.pros <- randomForest(lpsa ~ ., data = pros.train)
rf.pros
plot(rf.pros)
which.min(rf.pros$mse)
set.seed(123)
rf.pros.2 <- randomForest(lpsa ~ ., data = pros.train, ntree = 75)
rf.pros.2
varImpPlot(rf.pros.2, scale = TRUE,
main = "Variable Importance Plot - PSA Score")
importance(rf.pros.2)
rf.pros.test <- predict(rf.pros.2, newdata = pros.test)
#plot(rf.pros.test, pros.test$lpsa)
rf.resid <- rf.pros.test - pros.test$lpsa #calculate residual
mean(rf.resid^2)
set.seed(123)
rf.biop <- randomForest(class ~ ., data = biop.train)
rf.biop
plot(rf.biop)
which.min(rf.biop$err.rate[, 1])
set.seed(123)
rf.biop.2 <- randomForest(class ~ ., data = biop.train, ntree = 19)
#getTree(rf.biop,1)
rf.biop.2
rf.biop.test <- predict(rf.biop.2,
newdata = biop.test,
type = "response")
table(rf.biop.test, biop.test$class)
(139 + 67) / 209
varImpPlot(rf.biop.2)
data(Pima.tr)
data(Pima.te)
pima <- rbind(Pima.tr, Pima.te)
set.seed(502)
ind <- sample(2, nrow(pima), replace = TRUE, prob = c(0.7, 0.3))
pima.train <- pima[ind == 1, ]
pima.test <- pima[ind == 2, ]
set.seed(321)
rf.pima <- randomForest(type ~ ., data = pima.train)
rf.pima
# plot(rf.pima)
which.min(rf.pima$err.rate[,1])
set.seed(321)
rf.pima.2 <- randomForest(type ~ ., data = pima.train, ntree = 80)
rf.pima.2
rf.pima.test <- predict(rf.pima.2,
newdata = pima.test,
type = "response")
table(rf.pima.test, pima.test$type)
03 總結(jié)
隨機森林是一種集成學(xué)習(xí)算法,它將多棵決策樹進行整合來完成預(yù)測拟杉。對于分類問題預(yù)測結(jié)果是所有決策樹預(yù)測結(jié)果的投票庄涡;對于回歸問題,是所有決策樹預(yù)測結(jié)果的均值搬设。訓(xùn)練時穴店,通過Bootstrap抽樣來形成每棵決策樹的訓(xùn)練集撕捍,訓(xùn)練每棵決策樹的每個節(jié)點時,所用的特征也是從整個特征向量中抽取的一部分特征泣洞。通過將多棵決策樹集成忧风,以及每次用采樣的樣本和特征分量訓(xùn)練每棵決策樹,可以有效的降低模型的方差球凰。
隨機森林是一種判別模型狮腿,既支持分類問題,也支持回歸問題呕诉,并且支持多分類問題缘厢。它是一種非線性模型,其預(yù)測函數(shù)為分段常數(shù)函數(shù)甩挫。
關(guān)注科研私家菜(VX_GZH: SciPrivate)贴硫,發(fā)送“隨機森林”獲取R語言源碼和示例數(shù)據(jù)。
關(guān)注R小鹽伊者,關(guān)注科研私家菜(VX_GZH: SciPrivate)英遭,有問題請聯(lián)系R小鹽。讓我們一起來學(xué)習(xí) R語言機器學(xué)習(xí)與臨床預(yù)測模型