集成學習中三個著名的算法boosting、bagging和random forest.
bagging算法使用了重采樣的方法:即樣本有放回的采樣恩敌。
boosting:以AdaBoost為例。學習器的訓練過程為串行海洼。首先將初始訓練集中的每一個樣本(假設(shè)有m個)的權(quán)重設(shè)置為1/m竖慧。然后對每一個訓練集進行T輪訓練,在一輪訓練中將錯分的樣本的權(quán)重提高座每。在一個訓練集完成之后,新的訓練集也有了相應(yīng)的權(quán)重摘悴。
bagging:bagging是基學習器對每一個訓練集進行訓練峭梳,對分類問題采用學習器投票法,對回歸問題采用學習器的簡單平均法蹂喻。
random forest:random forest是bagging算法的一個延展算法葱椭。基學習器采用決策樹口四,在對每一個訓練集訓練時候采用隨機的特征子集進行訓練孵运,分類和決策方法與bagging類似。