隨機(jī)森林原理

1、隨機(jī)森林步驟
1）給定包含N個樣本的數(shù)據(jù)集，經(jīng)過m次有放回的隨機(jī)抽樣操作辙培，得到T個含m個訓(xùn)練樣本的采樣集
2）對每個采樣集油航，從所有屬性中隨機(jī)選擇k個屬性崭庸，選擇最佳分割屬性作為節(jié)點(diǎn)建立CART模型，最終建立擁有T個CART模型的隨機(jī)森林
注：k一般選擇（其中d為樣本所有屬性）:
$k=log_{2}^m8uamga$
3）將模型用于測試機(jī)，對于測試每個樣本會有T個預(yù)測值怕享，對分類任務(wù)使用簡單投票法確定該樣本最終預(yù)測值执赡，對回歸任務(wù)使用簡單平均法確定該樣本最終預(yù)測值

2、特征重要性
1）對整個隨機(jī)森林熬粗，得到相應(yīng)的袋外數(shù)據(jù)（out of bag搀玖，OOB）?計算袋外數(shù)據(jù)誤差，記為errOOB1.
注：每個采樣集只使用了初始訓(xùn)練集中約63.2%的樣本【每個樣本被抽到的概率是1/N,樣本不被抽到概率就是1-1/N驻呐，總共抽了m次灌诅，第m次試驗(yàn)后樣本不被抽到的概率是(1-1/N)^{m,當(dāng)m趨近于無窮大時，（1-1/n）}m=1/e,約等于36.8%】含末，另外抽不到的樣本叫做out-of-bag(OOB) examples,這部分?jǐn)?shù)據(jù)可以用于對決策樹的性能進(jìn)行評估猜拾，計算模型的預(yù)測錯誤率，稱為袋外數(shù)據(jù)誤差佣盒。這已經(jīng)經(jīng)過證明是無偏估計的,所以在隨機(jī)森林算法中不需要再進(jìn)行交叉驗(yàn)證或者單獨(dú)的測試集來獲取測試集誤差的無偏估計

2）隨機(jī)對袋外數(shù)據(jù)OOB所有樣本的特征X加入噪聲干擾（可以隨機(jī)改變樣本在特征X處的值）挎袜，再次計算袋外數(shù)據(jù)誤差，記為errOOB2肥惭。假設(shè)森林中有N棵樹盯仪，則特征X的重要性=∑errOOB2?errOOB1N∑errOOB2?errOOB1N。這個數(shù)值之所以能夠說明特征的重要性是因?yàn)槊鄞校绻尤腚S機(jī)噪聲后全景，袋外數(shù)據(jù)準(zhǔn)確率大幅度下降（即errOOB2上升），說明這個特征對于樣本的預(yù)測結(jié)果有很大影響牵囤，進(jìn)而說明重要程度比較高爸黄。

3)在特征重要性的基礎(chǔ)上，特征選擇的步驟如下：
a）計算每個特征的重要性揭鳞，并按降序排序
b）確定要剔除的比例炕贵，依據(jù)特征重要性剔除相應(yīng)比例的特征，得到一個新的特征集
c）用新的特征集重復(fù)上述過程野崇，直到剩下m個特征（m為提前設(shè)定的值）称开。
d）根據(jù)上述過程中得到的各個特征集和特征集對應(yīng)的袋外誤差率，選擇袋外誤差率最低的特征集乓梨。?

3鳖轰、隨機(jī)森林優(yōu)點(diǎn)
隨機(jī)森林中的基學(xué)習(xí)器多樣性不僅來自樣本擾動，還來自屬性的擾動督禽，這就使得最終模型的泛化性能可通過個體學(xué)習(xí)器之間的差異度增加而進(jìn)一步提升

3脆霎、python代碼
class sklearn.ensemble.RandomForestClassifier(
n_estimators=10, criterion='gini', max_depth=None, min_samples_split=2,
min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_split=1e-07, bootstrap=True, oob_score=False, n_jobs=1, random_state=None, verbose=0, warm_start=False,class_weight=None)
以下用常用參數(shù)：
1）n_estimators：設(shè)置多少個基分類器（取決于數(shù)據(jù)量）
2）min_samplies_split：單獨(dú)葉子節(jié)點(diǎn)至少要有幾個樣本，
3）max_features：一次抽樣抽多少feature,回歸問題設(shè)置為特征數(shù)狈惫，分類問題設(shè)置為sqrt(n_features)
4）max_depth：樹的最大深度（5-10）
5）oob_score

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import precision_recall_curve
rf=RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=5,
min_samples_split=2,  oob_score=True, n_jobs=1 )
param_grid ={"n_estimators":[5,10],'max_depth':[3,5]}
gscv = GridSearchCV(clf,param_grid,n_jobs= -1,verbose = 1,cv = 5,error_score = 0,scoring='auc')
gscv.fit(X,y)
gscv.best_score_
gscv.best_params_
gscv.predict_proba(X)#refit=True睛蛛，gscv為最佳分類器
gscv.grid_scores_#score=roc_auc,auc值

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末鹦马，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子忆肾，更是在濱河造成了極大的恐慌荸频，老刑警劉巖，帶你破解...
沈念sama閱讀 212,029評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件客冈，死亡現(xiàn)場離奇詭異旭从，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)场仲，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,395評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門和悦，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人渠缕，你說我怎么就攤上這事鸽素。” “怎么了亦鳞？”我有些...
開封第一講書人閱讀 157,570評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵馍忽，是天一觀的道長。經(jīng)常有香客問我燕差，道長遭笋，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,535評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任徒探，我火速辦了婚禮瓦呼，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘刹帕。我一直安慰自己吵血，他們只是感情好谎替，可當(dāng)我...
茶點(diǎn)故事閱讀 65,650評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布偷溺。她就那樣靜靜地躺著，像睡著了一般钱贯。火紅的嫁衣襯著肌膚如雪挫掏。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,850評論 1贊 290
城市分裂傳說
那天秩命，我揣著相機(jī)與錄音尉共，去河邊找鬼。笑死弃锐，一個胖子當(dāng)著我的面吹牛袄友，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播霹菊，決...
沈念sama閱讀 39,006評論 3贊 408
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼剧蚣，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起鸠按，我...
開封第一講書人閱讀 37,747評論 0贊 268
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤礼搁，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后目尖，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體馒吴，經(jīng)...
沈念sama閱讀 44,207評論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,536評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年瑟曲，在試婚紗的時候發(fā)現(xiàn)自己被綠了饮戳。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,683評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡洞拨，死狀恐怖莹捡，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情扣甲，我是刑警寧澤篮赢，帶...
沈念sama閱讀 34,342評論 4贊 330
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站琉挖，受9級特大地震影響启泣，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜示辈，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,964評論 3贊 315
男人毒藥：我在死后第九天來索命
文/蒙蒙一寥茫、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧矾麻，春花似錦纱耻、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,772評論 0贊 21
一樁弒父案弄喘，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至甩牺，卻和暖如春蘑志，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背贬派。一陣腳步聲響...
開封第一講書人閱讀 32,004評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工急但，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人搞乏。一個月前我還...
沈念sama閱讀 46,401評論 2贊 360
代替公主和親
正文我出身青樓波桩，卻偏偏與公主長得像，于是被迫代替她去往敵國和親请敦。傳聞我的和親對象是個殘疾皇子镐躲，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,566評論 2贊 349

隨機(jī)森林原理

推薦閱讀更多精彩內(nèi)容