集成方法將多個(gè)分類器組合在一起牲芋,產(chǎn)生比單個(gè)分類器更好的預(yù)測性能蔫磨。集成模型的主要原理是,一組較弱的學(xué)習(xí)器聚集在一起形成一個(gè)較強(qiáng)的學(xué)習(xí)器旭愧,從而提高模型的準(zhǔn)確性追逮。
造成學(xué)習(xí)錯(cuò)誤的主要原因是噪聲逊桦、偏差和方差卜高。集成有助于最小化這些因素醉冤。這些方法旨在提高機(jī)器學(xué)習(xí)算法的穩(wěn)定性和準(zhǔn)確性。多分類器的組合降低了方差蚁阳,特別是在不穩(wěn)定分類器的情況下,可能產(chǎn)生比單個(gè)分類器更可靠的分類螺捐。
Bagging
Bagging是并行式集成學(xué)習(xí)方法的代表。主要方法是從隨機(jī)選擇的訓(xùn)練樣本中創(chuàng)建幾個(gè)數(shù)據(jù)子集定血。每個(gè)子集數(shù)據(jù)的集合被用來訓(xùn)練對(duì)應(yīng)的分類器,由此得到了不同模型的集合澜沟。預(yù)測時(shí),采用不同分類器的預(yù)測結(jié)果的平均值茫虽,比單一的分類器具有更強(qiáng)的魯棒性刊苍。
Bagging的步驟:
- 假設(shè)訓(xùn)練數(shù)據(jù)集中有N個(gè)觀測值和M個(gè)特征濒析。從訓(xùn)練數(shù)據(jù)集中隨機(jī)抽取樣本進(jìn)行替換。隨機(jī)選取M個(gè)特征的子集号杏,以分割效果最好的特征迭代分割節(jié)點(diǎn)。
- 以上步驟重復(fù)n次盾致,根據(jù)n棵樹的預(yù)測值的集合給出預(yù)測主经。
優(yōu)勢:
- 減少模型的過度擬合庭惜。
- 很好地處理高維數(shù)據(jù)。
- 保持丟失數(shù)據(jù)的準(zhǔn)確性蜈块。
缺點(diǎn):
由于最終預(yù)測是基于子集樹的平均預(yù)測迷扇,因此它不能為分類和回歸模型提供精確的值百揭。
Boosting
定義:
Boosting的主要思想是蜓席,先讓學(xué)習(xí)器在初始訓(xùn)練集上依次進(jìn)行初步的訓(xùn)練器一,然后根據(jù)學(xué)習(xí)器的表現(xiàn)進(jìn)行加權(quán)厨内。當(dāng)一個(gè)樣本被一個(gè)學(xué)習(xí)器錯(cuò)誤分類時(shí)祈秕,它的權(quán)重會(huì)增加,這樣下一次就更有可能正確分類请毛。重復(fù)這一過程,直到學(xué)習(xí)器的數(shù)量達(dá)到指定值方仿,最終的預(yù)測結(jié)果是多個(gè)學(xué)習(xí)器的加權(quán)投票的結(jié)果。這一過程將弱學(xué)習(xí)器轉(zhuǎn)化為表現(xiàn)更好的學(xué)習(xí)器仙蚜,這里的“弱學(xué)習(xí)器”指的是表現(xiàn)比隨機(jī)猜稍微好一點(diǎn)的學(xué)習(xí)器。
Boosting的一個(gè)著名的代表是AdaBoost委粉。
假設(shè)有一個(gè)數(shù)據(jù)集, 贾节,一個(gè)分類器在訓(xùn)練集的錯(cuò)誤率為
假設(shè)現(xiàn)在有了一系列的弱學(xué)習(xí)器,將它們組合在一起:
這里的是權(quán)重氮双,在boosting的算法過程中得到的。
Boosting的步驟
- 在初始訓(xùn)練集上訓(xùn)練一個(gè)分類器戴差,根據(jù)分類表現(xiàn)修改數(shù)據(jù)權(quán)重
- 在修改過的數(shù)據(jù)集上再訓(xùn)練一個(gè)分類器, 再更改權(quán)重
- 重復(fù)直到分類器數(shù)量足夠暖释,得到
每個(gè)樣本的初始權(quán)值為,在常規(guī)方法訓(xùn)練第一個(gè)分類器之后球匕,修改樣本的權(quán)重。在第步分類錯(cuò)誤的樣本的權(quán)重會(huì)在第步增加亮曹,而分類正確的樣本權(quán)重則會(huì)減小。
樣本加權(quán)的效果是照卦,難以正確分類的樣本權(quán)重會(huì)越來越大,而后面的分類器會(huì)被迫更多的關(guān)注于之前分類錯(cuò)誤的樣本上役耕。
學(xué)習(xí)器權(quán)重更新公式:
,樣本權(quán)重的更新
Boosting在一組基本函數(shù)中擬合加性模型瞬痘。
優(yōu)勢:
支持不同的損失函數(shù)
缺點(diǎn):
容易過度合身板熊。
需要仔細(xì)調(diào)整不同的超參數(shù)。
Bagging | Boosting | |
---|---|---|
目標(biāo) | 減小方差 | 降低偏差 |
劃分?jǐn)?shù)據(jù) | 隨機(jī) | 錯(cuò)誤分類的樣本更高的投票權(quán) |
使用的方法 | 隨機(jī)子空間 | 梯度下降 |
組合單個(gè)模型的方式 | 加權(quán)平均 | 多數(shù)加權(quán)投票 |
例子 | 隨機(jī)森林 | Ada Boost |
Bagging的弱學(xué)習(xí)器是來自過擬合干签,而Boosting的弱學(xué)習(xí)器是由于欠擬合。
參考
- 周志華-機(jī)器學(xué)習(xí)