隨機(jī)森林原理

1、隨機(jī)森林步驟
1)給定包含N個樣本的數(shù)據(jù)集,經(jīng)過m次有放回的隨機(jī)抽樣操作辙培,得到T個含m個訓(xùn)練樣本的采樣集
2)對每個采樣集油航,從所有屬性中隨機(jī)選擇k個屬性崭庸,選擇最佳分割屬性作為節(jié)點(diǎn)建立CART模型,最終建立擁有T個CART模型的隨機(jī)森林
注:k一般選擇(其中d為樣本所有屬性):
k=log_{2}^m8uamga
3)將模型用于測試機(jī),對于測試每個樣本會有T個預(yù)測值怕享,對分類任務(wù)使用簡單投票法確定該樣本最終預(yù)測值执赡,對回歸任務(wù)使用簡單平均法確定該樣本最終預(yù)測值

2、特征重要性
1)對整個隨機(jī)森林熬粗,得到相應(yīng)的袋外數(shù)據(jù)(out of bag搀玖,OOB)?計算袋外數(shù)據(jù)誤差,記為errOOB1.
注:每個采樣集只使用了初始訓(xùn)練集中約63.2%的樣本【每個樣本被抽到的概率是1/N,樣本不被抽到概率就是1-1/N驻呐,總共抽了m次灌诅,第m次試驗(yàn)后樣本不被抽到的概率是(1-1/N)m,當(dāng)m趨近于無窮大時,(1-1/n)m=1/e,約等于36.8%】含末,另外抽不到的樣本叫做out-of-bag(OOB) examples,這部分?jǐn)?shù)據(jù)可以用于對決策樹的性能進(jìn)行評估猜拾,計算模型的預(yù)測錯誤率,稱為袋外數(shù)據(jù)誤差佣盒。這已經(jīng)經(jīng)過證明是無偏估計的,所以在隨機(jī)森林算法中不需要再進(jìn)行交叉驗(yàn)證或者單獨(dú)的測試集來獲取測試集誤差的無偏估計

2)隨機(jī)對袋外數(shù)據(jù)OOB所有樣本的特征X加入噪聲干擾(可以隨機(jī)改變樣本在特征X處的值)挎袜,再次計算袋外數(shù)據(jù)誤差,記為errOOB2肥惭。假設(shè)森林中有N棵樹盯仪,則特征X的重要性=∑errOOB2?errOOB1N∑errOOB2?errOOB1N。這個數(shù)值之所以能夠說明特征的重要性是因?yàn)槊鄞校绻尤腚S機(jī)噪聲后全景,袋外數(shù)據(jù)準(zhǔn)確率大幅度下降(即errOOB2上升),說明這個特征對于樣本的預(yù)測結(jié)果有很大影響牵囤,進(jìn)而說明重要程度比較高爸黄。

3)在特征重要性的基礎(chǔ)上,特征選擇的步驟如下:
a)計算每個特征的重要性揭鳞,并按降序排序
b)確定要剔除的比例炕贵,依據(jù)特征重要性剔除相應(yīng)比例的特征,得到一個新的特征集
c)用新的特征集重復(fù)上述過程野崇,直到剩下m個特征(m為提前設(shè)定的值)称开。
d)根據(jù)上述過程中得到的各個特征集和特征集對應(yīng)的袋外誤差率,選擇袋外誤差率最低的特征集乓梨。?

3鳖轰、隨機(jī)森林優(yōu)點(diǎn)
隨機(jī)森林中的基學(xué)習(xí)器多樣性不僅來自樣本擾動,還來自屬性的擾動督禽,這就使得最終模型的泛化性能可通過個體學(xué)習(xí)器之間的差異度增加而進(jìn)一步提升

3脆霎、python代碼
class sklearn.ensemble.RandomForestClassifier(
n_estimators=10, criterion='gini', max_depth=None, min_samples_split=2,
min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_split=1e-07, bootstrap=True, oob_score=False, n_jobs=1, random_state=None, verbose=0, warm_start=False,class_weight=None)
以下用常用參數(shù):
1)n_estimators:設(shè)置多少個基分類器(取決于數(shù)據(jù)量)
2)min_samplies_split:單獨(dú)葉子節(jié)點(diǎn)至少要有幾個樣本,
3)max_features:一次抽樣抽多少feature,回歸問題設(shè)置為特征數(shù)狈惫,分類問題設(shè)置為sqrt(n_features)
4)max_depth:樹的最大深度(5-10)
5)oob_score

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import precision_recall_curve
rf=RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=5,
min_samples_split=2,  oob_score=True, n_jobs=1 )
param_grid ={"n_estimators":[5,10],'max_depth':[3,5]}
gscv = GridSearchCV(clf,param_grid,n_jobs= -1,verbose = 1,cv = 5,error_score = 0,scoring='auc')
gscv.fit(X,y)
gscv.best_score_
gscv.best_params_
gscv.predict_proba(X)#refit=True睛蛛,gscv為最佳分類器
gscv.grid_scores_#score=roc_auc,auc值
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末鹦马,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子忆肾,更是在濱河造成了極大的恐慌荸频,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,029評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件客冈,死亡現(xiàn)場離奇詭異旭从,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)场仲,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,395評論 3 385
  • 文/潘曉璐 我一進(jìn)店門和悦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人渠缕,你說我怎么就攤上這事鸽素。” “怎么了亦鳞?”我有些...
    開封第一講書人閱讀 157,570評論 0 348
  • 文/不壞的土叔 我叫張陵馍忽,是天一觀的道長。 經(jīng)常有香客問我燕差,道長遭笋,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,535評論 1 284
  • 正文 為了忘掉前任徒探,我火速辦了婚禮瓦呼,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘刹帕。我一直安慰自己吵血,他們只是感情好谎替,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,650評論 6 386
  • 文/花漫 我一把揭開白布偷溺。 她就那樣靜靜地躺著,像睡著了一般钱贯。 火紅的嫁衣襯著肌膚如雪挫掏。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,850評論 1 290
  • 那天秩命,我揣著相機(jī)與錄音尉共,去河邊找鬼。 笑死弃锐,一個胖子當(dāng)著我的面吹牛袄友,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播霹菊,決...
    沈念sama閱讀 39,006評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼剧蚣,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起鸠按,我...
    開封第一講書人閱讀 37,747評論 0 268
  • 序言:老撾萬榮一對情侶失蹤礼搁,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后目尖,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體馒吴,經(jīng)...
    沈念sama閱讀 44,207評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,536評論 2 327
  • 正文 我和宋清朗相戀三年瑟曲,在試婚紗的時候發(fā)現(xiàn)自己被綠了饮戳。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,683評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡洞拨,死狀恐怖莹捡,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情扣甲,我是刑警寧澤篮赢,帶...
    沈念sama閱讀 34,342評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站琉挖,受9級特大地震影響启泣,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜示辈,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,964評論 3 315
  • 文/蒙蒙 一寥茫、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧矾麻,春花似錦纱耻、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,772評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至甩牺,卻和暖如春蘑志,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背贬派。 一陣腳步聲響...
    開封第一講書人閱讀 32,004評論 1 266
  • 我被黑心中介騙來泰國打工急但, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人搞乏。 一個月前我還...
    沈念sama閱讀 46,401評論 2 360
  • 正文 我出身青樓波桩,卻偏偏與公主長得像,于是被迫代替她去往敵國和親请敦。 傳聞我的和親對象是個殘疾皇子镐躲,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,566評論 2 349

推薦閱讀更多精彩內(nèi)容