bagging與boosting的區(qū)別
bagging采用自主采樣方法。給定m個樣本的數(shù)據(jù)集,先隨機取出一個樣本(每個樣本的權(quán)值相等,也就是說每個樣本被取出的概率相等)放入采樣集中帅容,在把該樣本放回到初始數(shù)據(jù)集中麦乞,使得下次采樣時該樣本任有可能被選中,這樣,經(jīng)過多次隨機采樣操作,得到多個樣本的采樣集,初始訓(xùn)練集中有的樣本在采樣集中多次出現(xiàn)真椿,有的則從未出現(xiàn)過锋八。在每個采樣集中訓(xùn)練出一個基學(xué)習(xí)器,再將這些基學(xué)習(xí)器進(jìn)行組合胸竞。Bagging通常對分類任務(wù)進(jìn)行簡單投票法煎饼,對回歸任務(wù)使用簡單平均法。典型代表是隨機森林怜奖。
Boosting方法:是指將弱學(xué)習(xí)器轉(zhuǎn)化為強學(xué)習(xí)器的一類算法,把很多個弱學(xué)習(xí)器組合在一起槐雾,形成具有良好的泛化能力的強學(xué)習(xí)器擎值。由于Boosting方法將注意力集中在難分的樣本上,使得它對訓(xùn)練樣本的噪聲非常敏感,會影響最終的分類性能。對于 Boosting 來說堡僻,有兩個問題需要回答:
一是在每一輪如何如何改變訓(xùn)練數(shù)據(jù)的概率分布:在上一次分類錯誤的數(shù)據(jù)的權(quán)值會增加、而分類正確的數(shù)據(jù)的權(quán)值會減小疫剃。
二是如何將多個弱分類器組合成一個強分類器:分類錯誤率小的分類器對應(yīng)的權(quán)值會更大钉疫,分類錯誤率大的分類器對應(yīng)的權(quán)值會更小。
而且boosting存在一個重大的缺陷:該分類算法要求預(yù)先知道弱分類器識別準(zhǔn)確率的下限巢价。
典型代表是Adaboost(對boosting進(jìn)行改進(jìn))牲阁。
區(qū)別:
1、樣本選擇上:
Bagging:訓(xùn)練集是在原始集中有放回選取的壤躲,從原始集中選出的各輪訓(xùn)練集之間是獨立的城菊。
Boosting:每一輪的訓(xùn)練集不變,只是訓(xùn)練集中每個樣例在分類器中的權(quán)重發(fā)生變化碉克。而權(quán)值是根據(jù)上一輪的分類結(jié)果進(jìn)行調(diào)整凌唬。(不改變所給的訓(xùn)練數(shù)據(jù),而不斷改變訓(xùn)練數(shù)據(jù)的權(quán)值分布漏麦,使得訓(xùn)練數(shù)據(jù)在弱學(xué)習(xí)器中起不同的作用)
bagging中的模型是強模型客税,偏差低,方差高撕贞。目標(biāo)是降低方差更耻。在bagging中,每個模型的bias(偏差)和variance(方差)近似相同捏膨,但是互相相關(guān)性不太高秧均,因此一般不能降低Bias,而一定程度上能降低variance号涯。典型的bagging是random forest熬北。
boosting中每個模型是弱模型,偏差高诚隙,方差低讶隐。目標(biāo)是通過平均降低偏差。boosting的基本思想就是用貪心法最小化損失函數(shù)久又,顯然能降低偏差巫延,但是通常模型的相關(guān)性很強,因此不能顯著降低variance地消。典型的Boosting是adaboost炉峰,另外一個常用的并行Boosting算法是GBDT(gradient boosting decision tree)。這一類算法通常不容易出現(xiàn)過擬合脉执。
2疼阔、樣例權(quán)重:
Bagging:使用均勻取樣,每個樣例的權(quán)重相等。
Boosting:根據(jù)錯誤率不斷調(diào)整樣例的權(quán)值婆廊,錯誤率越大則權(quán)重越大迅细。
3、預(yù)測函數(shù):
Bagging:所有預(yù)測函數(shù)的權(quán)重相等淘邻。
Boosting:每個弱分類器都有相應(yīng)的權(quán)重茵典,對于分類誤差小的分類器會有更大的權(quán)重。
4宾舅、并行計算:
Bagging:各個預(yù)測函數(shù)可以并行生成统阿。
Boosting:各個預(yù)測函數(shù)只能順序生成,因為后一個模型參數(shù)需要前一輪模型的結(jié)果筹我。(Xgboost除外扶平,它可以并行生成)