RF和Feature Importance函數(shù)

RF原理

隨機森林中每顆樹的生成:

  • 1)如果訓練集大小為N腻扇,對于每棵樹而言,隨機且有放回地從訓練集中的抽取N個訓練樣本(這種采樣方式稱為bootstrap sample方法)戈轿,作為該樹的訓練集;
  • 2)如果每個樣本的特征維度為M,指定一個常數(shù)m<<M,隨機地從M個特征中選取m個特征子集煮甥,每次樹進行分裂時,從這m個特征中選擇最優(yōu)的藕赞;
  • 3)每棵樹都盡最大程度的生長成肘,并且沒有剪枝過程。

Bagging集成學習斧蜕,投票或加權投票來決定分類双霍。




幾個問題

為什么要隨機抽樣訓練集?(add @2016.05.28)

  • 如果不進行隨機抽樣惩激,每棵樹的訓練集都一樣店煞,那么最終訓練出的樹分類結果也是完全一樣的,這樣的話完全沒有bagging的必要风钻;

為什么要有放回地抽樣顷蟀?(add @2016.05.28)

  • 我理解的是這樣的:如果不是有放回的抽樣,那么每棵樹的訓練樣本都是不同的骡技,都是沒有交集的鸣个,這樣每棵樹都是"有偏的"羞反,都是絕對"片面的"(當然這樣說可能不對),也就是說每棵樹訓練出來都是有很大的差異的囤萤;而隨機森林最后分類取決于多棵樹(弱分類器)的投票表決昼窗,這種表決應該是"求同",因此使用完全不同的訓練集來訓練每棵樹這樣對最終分類結果是沒有幫助的涛舍,這樣無異于是"盲人摸象"澄惊。

這兩個隨機有什么好處?

  • 兩個隨機性的引入對隨機森林的分類性能至關重要富雅。由于它們的引入掸驱,使得隨機森林不容易陷入過擬合,并且具有很好得抗噪能力(比如:對缺省值不敏感)没佑。

隨機森林分類效果與什么有關毕贼?

  • 森林中任意兩棵樹的相關性:相關性越大,錯誤率越大蛤奢;
  • 森林中每棵樹的分類能力:每棵樹的分類能力越強鬼癣,整個森林的錯誤率越低。
  • 減小特征選擇個數(shù)m啤贩,樹的相關性和分類能力也會相應的降低待秃;增大m,兩者也會隨之增大瓜晤。所以關鍵問題是如何選擇最優(yōu)的m(或者是范圍)锥余,這也是隨機森林唯一的一個參數(shù)。




袋外錯誤率--近似于交叉驗證

構建隨機森林的關鍵問題就是如何選擇最優(yōu)的m痢掠,要解決這個問題主要依據(jù)計算袋外錯誤率oob error(out-of-bag error)驱犹。

我們知道,在構建每棵樹時足画,我們對訓練集使用了不同的bootstrap sample(隨機且有放回地抽刃劬浴)。所以對于每棵樹而言(假設對于第k棵樹)淹辞,大約有1/3的訓練實例沒有參與第k棵樹的生成医舆,它們稱為第k棵樹的oob樣本。
而這樣的采樣特點就允許我們進行oob估計象缀,它的計算方式如下:

    1. 對每個樣本蔬将,計算它作為oob樣本的樹對它的分類情況(約1/3的樹);
  • 2.然后以簡單多數(shù)投票作為該樣本的分類結果央星;

    1. 最后用誤分個數(shù)占樣本總數(shù)的比率作為隨機森林的oob誤分率霞怀。




Feature Importance函數(shù)

在特征選擇的許多方法中,我們可以使用隨機森林模型中的特征重要屬性來篩選特征莉给,并得到其與分類的相關性毙石。
由于隨機森林存在的固有隨機性廉沮,該模型可能每次給予特征不同的重要性權重。但是通過多次訓練該模型徐矩,即每次通過選取一定量的特征與上次特征中的交集進行保留滞时,以此循環(huán)一定次數(shù),從而我們最后可以得到一定量對分類任務的影響有重要貢獻的特征滤灯。

具體來說坪稽,在隨機森林中某個特征X的重要性的計算方法如下:

1:對于隨機森林中的每一顆決策樹,使用相應的OOB(袋外數(shù)據(jù))數(shù)據(jù)來計算它的袋外數(shù)據(jù)誤差,記為errOOB1.

2: 隨機地對袋外數(shù)據(jù)OOB所有樣本的特征X加入噪聲干擾(就可以隨機的改變樣本在特征X處的值),再次計算它的袋外數(shù)據(jù)誤差,記為errOOB2.

3:假設隨機森林中有Ntree棵樹,那么對于特征X的重要性=∑(errOOB2-errOOB1)/Ntree,之所以可以用這個表達式來作為相應特征的重要性的度量值是因為:若給某個特征隨機加入噪聲之后,袋外的準確率大幅度降低,則說明這個特征對于樣本的分類結果影響很大,也就是說它的重要程度比較高。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末力喷,一起剝皮案震驚了整個濱河市刽漂,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌弟孟,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,639評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件样悟,死亡現(xiàn)場離奇詭異拂募,居然都是意外死亡,警方通過查閱死者的電腦和手機窟她,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,277評論 3 385
  • 文/潘曉璐 我一進店門陈症,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人震糖,你說我怎么就攤上這事录肯。” “怎么了吊说?”我有些...
    開封第一講書人閱讀 157,221評論 0 348
  • 文/不壞的土叔 我叫張陵论咏,是天一觀的道長。 經(jīng)常有香客問我颁井,道長厅贪,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,474評論 1 283
  • 正文 為了忘掉前任雅宾,我火速辦了婚禮养涮,結果婚禮上,老公的妹妹穿的比我還像新娘眉抬。我一直安慰自己贯吓,他們只是感情好,可當我...
    茶點故事閱讀 65,570評論 6 386
  • 文/花漫 我一把揭開白布蜀变。 她就那樣靜靜地躺著悄谐,像睡著了一般。 火紅的嫁衣襯著肌膚如雪昏苏。 梳的紋絲不亂的頭發(fā)上尊沸,一...
    開封第一講書人閱讀 49,816評論 1 290
  • 那天威沫,我揣著相機與錄音,去河邊找鬼洼专。 笑死棒掠,一個胖子當著我的面吹牛,可吹牛的內容都是我干的屁商。 我是一名探鬼主播烟很,決...
    沈念sama閱讀 38,957評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼蜡镶!你這毒婦竟也來了雾袱?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,718評論 0 266
  • 序言:老撾萬榮一對情侶失蹤官还,失蹤者是張志新(化名)和其女友劉穎芹橡,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體望伦,經(jīng)...
    沈念sama閱讀 44,176評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡林说,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,511評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了屯伞。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片腿箩。...
    茶點故事閱讀 38,646評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖劣摇,靈堂內的尸體忽然破棺而出珠移,到底是詐尸還是另有隱情,我是刑警寧澤末融,帶...
    沈念sama閱讀 34,322評論 4 330
  • 正文 年R本政府宣布钧惧,位于F島的核電站,受9級特大地震影響滑潘,放射性物質發(fā)生泄漏垢乙。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,934評論 3 313
  • 文/蒙蒙 一语卤、第九天 我趴在偏房一處隱蔽的房頂上張望追逮。 院中可真熱鬧,春花似錦粹舵、人聲如沸钮孵。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,755評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽巴席。三九已至,卻和暖如春诅需,著一層夾襖步出監(jiān)牢的瞬間漾唉,已是汗流浹背荧库。 一陣腳步聲響...
    開封第一講書人閱讀 31,987評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留赵刑,地道東北人分衫。 一個月前我還...
    沈念sama閱讀 46,358評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像般此,于是被迫代替她去往敵國和親蚪战。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,514評論 2 348

推薦閱讀更多精彩內容