Bagging---Bootstrap aggregating
是并行式集成學(xué)習(xí)方法最著名的代表,基于自助采樣法允許在同一種分類器上?對訓(xùn)練集進(jìn)行多次采樣
自助采樣法(bootstrap sampling)
給定包含m個樣本的數(shù)據(jù)集,我們先隨機(jī)取出一個樣本放入采樣集中,再把該樣本放回初始數(shù)據(jù)集耐薯,使得下次采樣時該樣本仍有可能被選中,經(jīng)過m次隨機(jī)采樣操作,得到m個樣本的采樣集补箍,初始訓(xùn)練集中約有63.2%的樣本出現(xiàn)在采樣集中。
Bagging的基本流程
采樣出T個含m個訓(xùn)練樣本的采樣集啸蜜,然后基于每個采樣集訓(xùn)練出一個基學(xué)習(xí)器坑雅,再將這些基學(xué)習(xí)器進(jìn)行結(jié)合。
例子
1.因?yàn)槊總€樣本被選中的概率相同衬横,所以bagging并不側(cè)重于訓(xùn)練數(shù)據(jù)集中的任何特定實(shí)例
2.從偏差-方差的角度裹粤,Bagging主要關(guān)注降低方差,因此它在容易受到樣本擾動的學(xué)習(xí)器(如不剪枝的決策樹蜂林、神經(jīng)網(wǎng)絡(luò))中效果更明顯遥诉。意思就是說不容易受極端樣本影響,因?yàn)樽詈笫峭镀钡脑胄穑越档土朔讲?/p>
隨機(jī)森林(Random Forest RF)
RF在以決策樹為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上突那,進(jìn)一步在決策樹的訓(xùn)練過程中引入了隨機(jī)屬性選擇。
傳統(tǒng)決策樹在選擇劃分屬性時是在當(dāng)前結(jié)點(diǎn)的屬性集合(假定有d個屬性)中選擇一個最優(yōu)屬性构眯;
在RF中愕难,對基決策樹的每個結(jié)點(diǎn),先從該結(jié)點(diǎn)的屬性集合中隨機(jī)選擇一個包含k個屬性的集合,然后再從這個子集中選擇一個最優(yōu)屬性用于劃分猫缭。一般情況下葱弟,推薦值k=log2d