運(yùn)用R語言實(shí)現(xiàn)隨機(jī)森林
安裝所需要的包randomForest.在Rstudio中輸入所需安裝的包的名稱進(jìn)行安裝。
安裝完成后運(yùn)用library("randomForest")進(jìn)行檢測(cè)
隨機(jī)森林與決策樹
先簡單介紹一下有關(guān)隨機(jī)森林的內(nèi)容
對(duì)比與決策樹胶背,隨機(jī)森林更好地防止過擬合的問題。我們?cè)跇?gòu)建決策樹的時(shí)候可以讓樹完全的生長,也可以通過參數(shù)控制樹的深度廷粒。完全生長的樹會(huì)帶來過擬合的問題红且。過擬合一般由于數(shù)據(jù)中的噪聲和離群點(diǎn)導(dǎo)致涤姊,一般的解決方法是對(duì)樹進(jìn)行剪枝。決策樹的剪枝是一個(gè)比較基礎(chǔ)的問題思喊。這樣就過于麻煩,所以我們可以用隨機(jī)森林來代替決策樹舆乔。
隨即森林屬于機(jī)器學(xué)習(xí)中的一種組合算法剂公。組合算法分為兩類:Bagging,Boosting希俩。
隨即森林屬于Bagging纲辽。
使用多棵樹進(jìn)行單獨(dú)的預(yù)測(cè),最后的結(jié)論有這些樹的預(yù)測(cè)共同組成鳞上。
處處隨機(jī)
隨機(jī)森林中的每一棵樹不一樣吊档,每一棵樹都隨機(jī)地在原有的數(shù)據(jù)的基礎(chǔ)上進(jìn)行有放回的抽樣。為了保證樹之間的獨(dú)立性我們一般進(jìn)行兩到三層的獨(dú)立性籍铁。
隨機(jī)森林的隨機(jī)性來自于三個(gè)方面:
- 隨即又放回的抽取數(shù)據(jù)。
- 隨機(jī)選取N個(gè)特征
- 在N個(gè)最好的分裂中隨機(jī)選取一個(gè)進(jìn)行分裂吩愧。
隨即森林基本上繼承了決策樹的全部優(yōu)點(diǎn),只需很少的數(shù)據(jù)準(zhǔn)備雁佳。隨即森林有天生的并行性同云,可以處理大規(guī)模的數(shù)據(jù),容易在分布式的環(huán)境中運(yùn)用炸站。
R語言中的隨即森林
randomForest(formula, data)基本語法
formula是描述預(yù)測(cè)變量和響應(yīng)變量的公式。
data是所使用的數(shù)據(jù)集的名稱