轉(zhuǎn)自小象學(xué)院 鄒博
學(xué)習(xí)筆記
Bootstraping
是一種有放回的抽樣方法
Bagging的策略
bootstrap aggregation
從樣本集中重采樣(有重復(fù))選出n個(gè)樣本
在所有屬性上述吸,最這n個(gè)樣本建立分類器(ID3冤竹,C4.5岭皂,CART,SVM,LR等)
重復(fù)上面兩步m次权悟,即獲得了m個(gè)分類器
將數(shù)據(jù)放在這m個(gè)分類器上脓规,最后根據(jù)這m個(gè)分類器的投票結(jié)果宫峦,決定數(shù)據(jù)屬于哪一類
隨機(jī)森林:
在Bagging基礎(chǔ)上做了修改禁灼。
從樣本集中用bootstrap采樣選出n個(gè)樣本谤绳;
從所有屬性中隨機(jī)選擇k個(gè)屬性碉考,選擇最佳分割屬性作為節(jié)點(diǎn)建立CART決策樹(shù)
重復(fù)以上兩步m次塌计,即建立了m棵CART決策樹(shù)
這m個(gè)CART形成隨機(jī)森林,通過(guò)投票表決結(jié)果侯谁,決定數(shù)據(jù)屬于哪一類
應(yīng)用實(shí)例實(shí)時(shí)人類動(dòng)作識(shí)別
隨機(jī)森林/Bagging和決策樹(shù)的關(guān)系
使用決策樹(shù)作為基本分類器
也可以使用SVM锌仅,LR等其他分類器,這些分類器組成的“總分類器”墙贱,仍然叫隨機(jī)森林
舉例:回歸問(wèn)題--離散點(diǎn)為臭氧(橫軸)和溫度(縱軸)的關(guān)系
試擬合變化曲線
---使用Bagging
記原始數(shù)據(jù)為D热芹,長(zhǎng)度為N(有N個(gè)離散點(diǎn))
算法過(guò)程:
? ?做100次bootstrap,每次得到的數(shù)據(jù)Di惨撇,Di的長(zhǎng)度為N
? ?對(duì)于每個(gè)Di伊脓,使用局部回歸(LOESS)擬合一條曲線(擬合10條灰色曲線)
? ?將這些曲線取平均,即得到紅色的最終擬合曲線
? ?顯然紅色的曲線更加穩(wěn)定魁衙,并且過(guò)擬合明顯減弱
投票機(jī)制:
簡(jiǎn)單投票機(jī)制
? ? ?一票否決(一致表決)
? ? 少數(shù)服從多數(shù)(有效多數(shù)--加權(quán))
? ? 閾值表決
貝葉斯投票機(jī)制
投票機(jī)制舉例:
一種可能的方案:
樣本不均衡常用處理方法
假定樣本數(shù)目A類比B類多报腔,且嚴(yán)重不平衡:
A類欠采樣
?-- ? 隨機(jī)采樣
?-- ? A類分成若干子類,分別與B類進(jìn)入ML模型
? -- ?基于聚類的A類分割
B類過(guò)采樣
? ? -- 避免欠采樣造成信息丟失
B類數(shù)據(jù)合成
? ? -- 隨機(jī)插值得到新樣本
? ?--- SMOTE
代價(jià)敏感學(xué)習(xí)
? ? --- 降低A類的權(quán)值纺棺,提供B類的權(quán)值
總結(jié):
決策樹(shù)/隨機(jī)森林代碼清晰榄笙、邏輯簡(jiǎn)單,在解決分類問(wèn)題的同時(shí)祷蝌,往往也可以作為對(duì)數(shù)據(jù)分布探索的首要嘗試算法
隨機(jī)森林的集成思想也可以用在其他分類器的設(shè)計(jì)中
如果正負(fù)樣本數(shù)量差別很大茅撞,如何處理?
思考:在得到新的決策樹(shù)后巨朦,對(duì)樣本權(quán)值進(jìn)行合理的調(diào)整---分類正確的則降低權(quán)值米丘,分類錯(cuò)誤的則增大權(quán)值,是否可行糊啡?
可行拄查,這樣的話,會(huì)增加錯(cuò)誤樣本的重視率
權(quán)值調(diào)整:AdaBoost算法提高了那些被上一輪分類器錯(cuò)誤分類的樣本權(quán)值棚蓄,降低了正確分類的權(quán)值堕扶,這樣使得上一輪被分類錯(cuò)誤的在下一輪受到了更大的重視碍脏。
也是adaBoost的核心思想之一
隨機(jī)森林為何可以提高正確率且降低過(guò)擬合?
降低過(guò)擬合主要依賴3個(gè)隨機(jī)過(guò)程
即產(chǎn)生決策樹(shù)的樣本是隨機(jī)生成稍算,構(gòu)建決策樹(shù)的特征值是隨機(jī)選取典尾,樹(shù)產(chǎn)生過(guò)程中裂變的時(shí)候是選擇N個(gè)最佳方向中的隨機(jī)一個(gè)裂變的。
最后思考為什么決策樹(shù)可以作為分類標(biāo)準(zhǔn)糊探?