bagging
bagging:bootstrap aggregating的縮寫,對訓(xùn)練集合隨機(jī)抽取樣本,每輪的分訓(xùn)練集由訓(xùn)練集中N個樣本構(gòu)成刨裆,某個訓(xùn)練樣本在一輪訓(xùn)練集中可以出現(xiàn)多次或根本不出現(xiàn)。將隨機(jī)抽取的子集放到算法中訓(xùn)練彬檀,計算預(yù)測函數(shù)帆啃,T輪循環(huán)后得到一個結(jié)果集。最終的預(yù)測函數(shù)對分類問題采用投票方式窍帝,對回歸問題采用簡單平均方法判別努潘。
boosting
主要是AdaBoost(Adaptive Boosting)。
初始化時對每一個訓(xùn)練例賦相等的權(quán)重1/n,然后用該學(xué)算法對訓(xùn)練集訓(xùn)練t輪慈俯。
每次訓(xùn)練后渤刃,對訓(xùn)練失敗的訓(xùn)練例賦以較大的權(quán)重,也就是讓學(xué)習(xí)算法在后續(xù)的學(xué)習(xí)中集中對比較難的訓(xùn)練例進(jìn)行學(xué)習(xí)贴膘,從而得到一個預(yù)測函數(shù)序列h_1,?, h_m 卖子。
其中h_i也有一定的權(quán)重,預(yù)測效果好的預(yù)測函數(shù)權(quán)重較大刑峡,反之較小洋闽。
最終的預(yù)測函數(shù)H對分類問題采用有權(quán)重的投票方式,對回歸問題采用加權(quán)平均的方法對新示例進(jìn)行判別突梦。
(類似Bagging方法诫舅,但是訓(xùn)練是串行進(jìn)行的,第k個分類器訓(xùn)練時關(guān)注對前k-1分類器中錯分的文檔宫患,即不是隨機(jī)取刊懈,而是加大取這些文檔的概率。)
bagging 和 boosting 都可以有效的提高分類的準(zhǔn)確性娃闲。在大多數(shù)數(shù)據(jù)集中虚汛,boosting準(zhǔn)確性比較高,在有些情況里皇帮,boosting會引起一些退化卷哩。