Bagging和Boosting都是將已有的分類或回歸算法通過一定方式組合起來芋类,形成一個性能更加強大的分類器隆嗅,更準確的說這是一種分類算法的組裝方法。即將弱分類器組裝成強分類器的方法侯繁。
在這之前先了解一下什么是Bootstraping胖喳。
Bootstraping
中文翻譯自助法(Bootstrap Method,Bootstrapping或自助抽樣法)贮竟,自助法是一種從給定訓練集中有放回的均勻抽樣丽焊,也就是說,每當選中一個樣本咕别,它等可能地被再次選中并被再次添加到訓練集中技健。
在統(tǒng)計學中,自助法(Bootstrap Method惰拱,Bootstrapping或自助抽樣法)是一種從給定訓練集中有放回的均勻抽樣雌贱,也就是說,每當選中一個樣本,它等可能地被再次選中并被再次添加到訓練集中欣孤。
摘自 Wikipedia
.632自助法
.632自助法馋没,假設(shè)給定的數(shù)據(jù)集包含d個樣本。該數(shù)據(jù)集有放回地抽樣d次降传,產(chǎn)生d個樣本的訓練集披泪。這樣原數(shù)據(jù)樣本中的某些樣本很可能在該樣本集中出現(xiàn)多次。沒有進入該訓練集的樣本最終形成檢驗集(測試集)搬瑰。 顯然每個樣本被選中的概率是1/d款票,因此未被選中的概率就是(1-1/d),這樣一個樣本在訓練集中沒出現(xiàn)的概率就是d次都未被選中的概率泽论,即(1-1/d)d艾少。當d趨于無窮大時,這一概率就將趨近于e-1=0.368翼悴,所以留在訓練集中的樣本大概就占原來數(shù)據(jù)集的63.2%缚够。
Bagging
Bagging即Bootstrap Aggregating的縮寫,中文可翻譯為自舉匯聚法鹦赎。
bagging每次從原始數(shù)據(jù)集中有放回的隨機抽樣n個樣本形成自助訓練集谍椅,重復S次后得到S個新的訓練集。
對每個自助訓練集應用弱分類器古话,這樣就得到了S個弱分類器雏吭。
最后將預測數(shù)據(jù)放在這S個弱分類器上計算,計算結(jié)果采用投票方式(分類問題)和簡單求平均(回歸問題)即可陪踩。
Bagging算法之Random Forest
理解了Bagging之后杖们,就容易理解隨機森林(Random Forest)了,RF是Bagging算法的改進版本肩狂。
隨機森林由很多決策樹構(gòu)成(常見的決策樹算法有C4.5摘完、ID3和CART),每一棵決策樹之間沒有關(guān)聯(lián)傻谁,RF計算過程中孝治,在每個節(jié)點上隨機選擇一部分樣本特征,然后在這些隨機選擇的樣本特征中审磁,選擇一個最優(yōu)的特征來做決策樹的左右子樹劃分谈飒。這是一種非常有效的降維方法。
Boosting
Boosting和Bagging相比力图,加大了多錯誤樣本的學習步绸。Boosting的訓練方式是串行的,這和Bagging并行的方式不同吃媒,Boosting在初始化時賦予每個樣本的權(quán)重都相同為1/m瓤介。
第一輪訓練完成后吕喘,弱分類器對預測錯誤的樣本給了較大的權(quán)重,那么在第二輪訓練中就會更加重視這些權(quán)重大的樣本刑桑。
這樣迭代訓練n輪后得到n個弱分類器氯质,最后會給這n個弱分類器分配不同的權(quán)重,一般分類誤差小的權(quán)重越大祠斧。
對于最終的結(jié)果會根據(jù)n個帶權(quán)重的分類器通過投票法產(chǎn)生闻察。
Boosting的思想更像中學時候的錯題集,反復去做錯誤的題目 =琢锋。=
參考文獻
[1] 自助法Wikipedia https://zh.wikipedia.org/wiki/%E8%87%AA%E5%8A%A9%E6%B3%95
[2] An Introduction to Boosting and Leveraging http://www.boosting.org/papers/MeiRae03.pdf
[3] Machine Learning in Action [美] Peter Harrington
[4] 總結(jié):Bootstrap(自助法)辕漂,Bagging,Boosting(提升)http://www.reibang.com/p/708dff71df3a