隨機(jī)森林

0. 決策樹的不足

在機(jī)器學(xué)習(xí)方法中,任何一次實(shí)現(xiàn)都是基于一個(gè)特定的數(shù)據(jù)集乏德,而這個(gè)數(shù)據(jù)集可能只是訓(xùn)練集中的一次隨機(jī)抽樣撤奸,所以才有了所謂的10折交叉驗(yàn)證等方法。在不使用該方法的情況下喊括,很多機(jī)器學(xué)習(xí)算法受到了這種隨機(jī)性的影響胧瓜,因此,得到的模型也具有一定的偶然性郑什。而隨機(jī)森林通過與該方式結(jié)合府喳,在一定程度提高了準(zhǔn)確性和推廣能力。


1. 自助法

自助法

2. 隨機(jī)森林

2.1 算法流程

  1. 對樣本數(shù)據(jù)進(jìn)行自舉法重采樣蘑拯,得到多個(gè)樣本集钝满,即:每次從原來的N個(gè)訓(xùn)練樣本中又放回的隨機(jī)抽取N個(gè)樣本(包括可能重復(fù)的樣本)。
  2. 利用重采樣樣本集作為訓(xùn)練樣本構(gòu)造一個(gè)決策樹申窘,在構(gòu)造決策樹的過程中弯蚜,每次從所有候選特征中隨機(jī)選擇m個(gè)特征(不一定要考慮所有的特征,這是與普通決策樹的區(qū)別所在)剃法,作為當(dāng)前節(jié)點(diǎn)下決策的備選特征碎捺,從該特征中進(jìn)行劃分。
  3. 重復(fù)步驟1,,2贷洲,得到一定的數(shù)量的決策樹后收厨,通過一種方法對這些樹的輸出進(jìn)行投票,得到票數(shù)最多的類作為最終的輸出結(jié)果优构。

2.2 模型評估與參數(shù)選擇

在第一節(jié)中提到帽氓,自助法大概有1/3的數(shù)據(jù)無法被用于訓(xùn)練,于是俩块,我們可通過包外估計(jì)對算流程步驟2中的m值進(jìn)行選擇黎休,確定最佳的m值。


3. 缺失數(shù)據(jù)

一般來說玉凯,缺失的特征可能會(huì)出現(xiàn)在兩種情況下:

  1. 在訓(xùn)練集中有部分?jǐn)?shù)據(jù)的特征值缺失势腮。
  2. 在待分類的樣本中,有部分?jǐn)?shù)據(jù)的特征值缺失漫仆。

3.1 訓(xùn)練數(shù)據(jù)特征缺失

1. 根據(jù)完整樣本填充數(shù)據(jù)

  • 離散值:選取該特征中所占比例較大的特征數(shù)據(jù)捎拯。
  • 連續(xù)值:取該特征的中位數(shù)或是均值。
    在這里插入圖片描述

    在上圖中盲厌,第四條數(shù)據(jù)的Blocked Arteries和Weight特征缺失署照。根據(jù)前三條數(shù)據(jù)的信息祸泪,在特征Blocked ArteriesNo最多,Weight中位數(shù)為180建芙,因此没隘,填補(bǔ)數(shù)據(jù)為:
    在這里插入圖片描述

2. 構(gòu)造隨機(jī)森林,并計(jì)算所有數(shù)據(jù)在隨機(jī)森林模型上的輸出結(jié)果禁荸,構(gòu)造鄰近矩陣(proximity)記錄每條數(shù)據(jù)之間的相似程度右蒲。[圖片上傳失敗...(image-8b7e94-1569722308083)]

由于第三條數(shù)據(jù)和第四條數(shù)據(jù)結(jié)束與同一葉子節(jié)點(diǎn),于是構(gòu)造的鄰近矩陣為:
[圖片上傳失敗...(image-c1d711-1569722308083)]自助法
同樣的赶熟,對于第二個(gè)決策樹瑰妄,假設(shè)有:
[圖片上傳失敗...(image-9b562b-1569722308083)]
于是更新矩陣為:
[圖片上傳失敗...(image-38150e-1569722308083)]
依次類推:
假設(shè)經(jīng)過10個(gè)決策樹后,鄰近矩陣的結(jié)果為:
[圖片上傳失敗...(image-7b05f5-1569722308083)]
相似矩陣中每個(gè)元素均除以決策樹個(gè)數(shù)后映砖,結(jié)果如下:
[圖片上傳失敗...(image-22284-1569722308083)]

3. 計(jì)算每個(gè)特征值的權(quán)重

特征值的權(quán)重計(jì)算公式為:
w_i^j=p_i*\frac{M_i}{\sum M_i} \tag{3.1}
在公式(3.1)中间坐,w_i^j代表第j個(gè)特征的第i個(gè)特征值,p_i代表第i個(gè)特征值在完整數(shù)據(jù)中所占的比例邑退,M_i代表第i個(gè)特征的近似程度竹宋。
舉個(gè)栗子:在特征Blocked Arteries中,有yesno兩個(gè)特征值瓜饥,其中:
對于yes來說:

在這里插入圖片描述

對于no來說:
在這里插入圖片描述

所以:逝撬,,因此乓土,為no的可能性更大些宪潮。
同樣的,對于Weight有:
在這里插入圖片描述

最后的插補(bǔ)數(shù)據(jù)結(jié)果如下:
在這里插入圖片描述

4. 重復(fù)步驟1~3趣苏,直到所有數(shù)據(jù)不再變化為止狡相。

3.2 測試數(shù)據(jù)缺失

[圖片上傳失敗...(image-e4172e-1569722308083)]

1. 假定標(biāo)簽值的取值

在這里插入圖片描述

2. 假定特征值的取值

在這里插入圖片描述

3.在模型中運(yùn)行該數(shù)據(jù),統(tǒng)計(jì)結(jié)果

在決策樹中食磕,輸出結(jié)果即可確定目標(biāo)值的缺失特征值以及標(biāo)簽值尽棕。

4. 參考文獻(xiàn)

  • 《西瓜書》
  • 《模式識(shí)別(第三版)》
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市彬伦,隨后出現(xiàn)的幾起案子滔悉,更是在濱河造成了極大的恐慌,老刑警劉巖单绑,帶你破解...
    沈念sama閱讀 221,331評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件回官,死亡現(xiàn)場離奇詭異,居然都是意外死亡搂橙,警方通過查閱死者的電腦和手機(jī)歉提,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,372評論 3 398
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人苔巨,你說我怎么就攤上這事版扩。” “怎么了侄泽?”我有些...
    開封第一講書人閱讀 167,755評論 0 360
  • 文/不壞的土叔 我叫張陵礁芦,是天一觀的道長。 經(jīng)常有香客問我蔬顾,道長宴偿,這世上最難降的妖魔是什么湘捎? 我笑而不...
    開封第一講書人閱讀 59,528評論 1 296
  • 正文 為了忘掉前任诀豁,我火速辦了婚禮,結(jié)果婚禮上窥妇,老公的妹妹穿的比我還像新娘舷胜。我一直安慰自己,他們只是感情好活翩,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,526評論 6 397
  • 文/花漫 我一把揭開白布烹骨。 她就那樣靜靜地躺著,像睡著了一般材泄。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上拉宗,一...
    開封第一講書人閱讀 52,166評論 1 308
  • 那天,我揣著相機(jī)與錄音魁巩,去河邊找鬼。 笑死姐浮,一個(gè)胖子當(dāng)著我的面吹牛谷遂,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播卖鲤,決...
    沈念sama閱讀 40,768評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼集晚!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起换怖,我...
    開封第一講書人閱讀 39,664評論 0 276
  • 序言:老撾萬榮一對情侶失蹤甩恼,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體条摸,經(jīng)...
    沈念sama閱讀 46,205評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,290評論 3 340
  • 正文 我和宋清朗相戀三年切端,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了顷啼。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片踏枣。...
    茶點(diǎn)故事閱讀 40,435評論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡钙蒙,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出躬厌,到底是詐尸還是另有隱情,我是刑警寧澤扛施,帶...
    沈念sama閱讀 36,126評論 5 349
  • 正文 年R本政府宣布,位于F島的核電站疙渣,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏妄荔。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,804評論 3 333
  • 文/蒙蒙 一灶轰、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧笋颤,春花似錦、人聲如沸伴澄。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,276評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽荆针。三九已至颁糟,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間棱貌,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,393評論 1 272
  • 我被黑心中介騙來泰國打工婚脱, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留勺像,地道東北人障贸。 一個(gè)月前我還...
    沈念sama閱讀 48,818評論 3 376
  • 正文 我出身青樓吟宦,卻偏偏與公主長得像,于是被迫代替她去往敵國和親督函。 傳聞我的和親對象是個(gè)殘疾皇子激挪,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,442評論 2 359

推薦閱讀更多精彩內(nèi)容

  • 裝袋(Bagging) 全稱Bootstrap Aggregation的集成算法。每個(gè)基學(xué)習(xí)器都會(huì)對訓(xùn)練集進(jìn)行有放...
    dingtom閱讀 1,539評論 0 1
  • 1.隨機(jī)森林使用背景 1.1隨機(jī)森林定義 隨機(jī)森林是一種比較新的機(jī)器學(xué)習(xí)模型宛篇。經(jīng)典的機(jī)器學(xué)習(xí)模型是神經(jīng)網(wǎng)絡(luò),有半個(gè)...
    山的那邊是什么_閱讀 27,680評論 0 28
  • 概念 決策樹(Decision Tree)分為兩大類蚕泽,回歸樹(Regression Decision Tree)和...
    HRain閱讀 5,501評論 1 30
  • 在媽媽的學(xué)校里桥嗤,有一片美麗的燕津湖须妻,雖然我不常去那泛领,但是它給我留下了深刻的印象。至于來歷嘛渊鞋,取自“燕乃河北...
    zhjz閱讀 129評論 0 0
  • 我望著鏡子里的自己瞧挤,嫵媚的咖啡色卷發(fā),正紅色口紅皿伺,微挑的眉宇下,只有那一雙晶亮的眼眸鸵鸥,里面盛滿淚水。 剛剛見過前任...
    轉(zhuǎn)椅嗜好者閱讀 614評論 1 8