決策樹(shù)與隨機(jī)森林(二)

轉(zhuǎn)自小象學(xué)院 鄒博

學(xué)習(xí)筆記

Bootstraping

是一種有放回的抽樣方法

Bagging的策略

bootstrap aggregation

從樣本集中重采樣(有重復(fù))選出n個(gè)樣本

在所有屬性上述吸,最這n個(gè)樣本建立分類器(ID3冤竹,C4.5岭皂,CART,SVM,LR等)

重復(fù)上面兩步m次权悟,即獲得了m個(gè)分類器

將數(shù)據(jù)放在這m個(gè)分類器上脓规,最后根據(jù)這m個(gè)分類器的投票結(jié)果宫峦,決定數(shù)據(jù)屬于哪一類


隨機(jī)森林:
在Bagging基礎(chǔ)上做了修改禁灼。

從樣本集中用bootstrap采樣選出n個(gè)樣本谤绳;

從所有屬性中隨機(jī)選擇k個(gè)屬性碉考,選擇最佳分割屬性作為節(jié)點(diǎn)建立CART決策樹(shù)

重復(fù)以上兩步m次塌计,即建立了m棵CART決策樹(shù)

這m個(gè)CART形成隨機(jī)森林,通過(guò)投票表決結(jié)果侯谁,決定數(shù)據(jù)屬于哪一類

應(yīng)用實(shí)例實(shí)時(shí)人類動(dòng)作識(shí)別

隨機(jī)森林/Bagging和決策樹(shù)的關(guān)系

使用決策樹(shù)作為基本分類器

也可以使用SVM锌仅,LR等其他分類器,這些分類器組成的“總分類器”墙贱,仍然叫隨機(jī)森林

舉例:回歸問(wèn)題--離散點(diǎn)為臭氧(橫軸)和溫度(縱軸)的關(guān)系

試擬合變化曲線

---使用Bagging

記原始數(shù)據(jù)為D热芹,長(zhǎng)度為N(有N個(gè)離散點(diǎn))


算法過(guò)程:

? ?做100次bootstrap,每次得到的數(shù)據(jù)Di惨撇,Di的長(zhǎng)度為N

? ?對(duì)于每個(gè)Di伊脓,使用局部回歸(LOESS)擬合一條曲線(擬合10條灰色曲線)

? ?將這些曲線取平均,即得到紅色的最終擬合曲線

? ?顯然紅色的曲線更加穩(wěn)定魁衙,并且過(guò)擬合明顯減弱

投票機(jī)制:

簡(jiǎn)單投票機(jī)制

? ? ?一票否決(一致表決)

? ? 少數(shù)服從多數(shù)(有效多數(shù)--加權(quán))

? ? 閾值表決

貝葉斯投票機(jī)制

投票機(jī)制舉例:


一種可能的方案:


樣本不均衡常用處理方法

假定樣本數(shù)目A類比B類多报腔,且嚴(yán)重不平衡:

A類欠采樣

?-- ? 隨機(jī)采樣

?-- ? A類分成若干子類,分別與B類進(jìn)入ML模型

? -- ?基于聚類的A類分割

B類過(guò)采樣

? ? -- 避免欠采樣造成信息丟失

B類數(shù)據(jù)合成

? ? -- 隨機(jī)插值得到新樣本

? ?--- SMOTE

代價(jià)敏感學(xué)習(xí)

? ? --- 降低A類的權(quán)值纺棺,提供B類的權(quán)值

總結(jié):

決策樹(shù)/隨機(jī)森林代碼清晰榄笙、邏輯簡(jiǎn)單,在解決分類問(wèn)題的同時(shí)祷蝌,往往也可以作為對(duì)數(shù)據(jù)分布探索的首要嘗試算法

隨機(jī)森林的集成思想也可以用在其他分類器的設(shè)計(jì)中

如果正負(fù)樣本數(shù)量差別很大茅撞,如何處理?

思考:在得到新的決策樹(shù)后巨朦,對(duì)樣本權(quán)值進(jìn)行合理的調(diào)整---分類正確的則降低權(quán)值米丘,分類錯(cuò)誤的則增大權(quán)值,是否可行糊啡?

可行拄查,這樣的話,會(huì)增加錯(cuò)誤樣本的重視率

權(quán)值調(diào)整:AdaBoost算法提高了那些被上一輪分類器錯(cuò)誤分類的樣本權(quán)值棚蓄,降低了正確分類的權(quán)值堕扶,這樣使得上一輪被分類錯(cuò)誤的在下一輪受到了更大的重視碍脏。

也是adaBoost的核心思想之一

隨機(jī)森林為何可以提高正確率且降低過(guò)擬合?

降低過(guò)擬合主要依賴3個(gè)隨機(jī)過(guò)程

即產(chǎn)生決策樹(shù)的樣本是隨機(jī)生成稍算,構(gòu)建決策樹(shù)的特征值是隨機(jī)選取典尾,樹(shù)產(chǎn)生過(guò)程中裂變的時(shí)候是選擇N個(gè)最佳方向中的隨機(jī)一個(gè)裂變的。

最后思考為什么決策樹(shù)可以作為分類標(biāo)準(zhǔn)糊探?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末钾埂,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子科平,更是在濱河造成了極大的恐慌褥紫,老刑警劉巖,帶你破解...
    沈念sama閱讀 210,914評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件瞪慧,死亡現(xiàn)場(chǎng)離奇詭異髓考,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)汞贸,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,935評(píng)論 2 383
  • 文/潘曉璐 我一進(jìn)店門(mén)绳军,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)印机,“玉大人矢腻,你說(shuō)我怎么就攤上這事∩淙” “怎么了多柑?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,531評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)楣责。 經(jīng)常有香客問(wèn)我竣灌,道長(zhǎng),這世上最難降的妖魔是什么秆麸? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,309評(píng)論 1 282
  • 正文 為了忘掉前任初嘹,我火速辦了婚禮,結(jié)果婚禮上沮趣,老公的妹妹穿的比我還像新娘屯烦。我一直安慰自己,他們只是感情好房铭,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,381評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布驻龟。 她就那樣靜靜地躺著,像睡著了一般缸匪。 火紅的嫁衣襯著肌膚如雪翁狐。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,730評(píng)論 1 289
  • 那天凌蔬,我揣著相機(jī)與錄音露懒,去河邊找鬼闯冷。 笑死,一個(gè)胖子當(dāng)著我的面吹牛懈词,可吹牛的內(nèi)容都是我干的窃躲。 我是一名探鬼主播,決...
    沈念sama閱讀 38,882評(píng)論 3 404
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼钦睡,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼蒂窒!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起荞怒,我...
    開(kāi)封第一講書(shū)人閱讀 37,643評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤洒琢,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后褐桌,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體衰抑,經(jīng)...
    沈念sama閱讀 44,095評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,448評(píng)論 2 325
  • 正文 我和宋清朗相戀三年荧嵌,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了呛踊。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,566評(píng)論 1 339
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡啦撮,死狀恐怖谭网,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情赃春,我是刑警寧澤愉择,帶...
    沈念sama閱讀 34,253評(píng)論 4 328
  • 正文 年R本政府宣布,位于F島的核電站织中,受9級(jí)特大地震影響锥涕,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜狭吼,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,829評(píng)論 3 312
  • 文/蒙蒙 一层坠、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧刁笙,春花似錦破花、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,715評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至磅氨,卻和暖如春尺栖,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背烦租。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,945評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工延赌, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留除盏,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,248評(píng)論 2 360
  • 正文 我出身青樓挫以,卻偏偏與公主長(zhǎng)得像者蠕,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子掐松,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,440評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容