機(jī)器學(xué)習(xí)-集成方法 Bagging vs Boosting

集成方法將多個(gè)分類器組合在一起牲芋,產(chǎn)生比單個(gè)分類器更好的預(yù)測性能蔫磨。集成模型的主要原理是,一組較弱的學(xué)習(xí)器聚集在一起形成一個(gè)較強(qiáng)的學(xué)習(xí)器旭愧,從而提高模型的準(zhǔn)確性追逮。

造成學(xué)習(xí)錯(cuò)誤的主要原因是噪聲逊桦、偏差和方差卜高。集成有助于最小化這些因素醉冤。這些方法旨在提高機(jī)器學(xué)習(xí)算法的穩(wěn)定性和準(zhǔn)確性。多分類器的組合降低了方差蚁阳,特別是在不穩(wěn)定分類器的情況下,可能產(chǎn)生比單個(gè)分類器更可靠的分類螺捐。

Bagging

Bagging是并行式集成學(xué)習(xí)方法的代表。主要方法是從隨機(jī)選擇的訓(xùn)練樣本中創(chuàng)建幾個(gè)數(shù)據(jù)子集定血。每個(gè)子集數(shù)據(jù)的集合被用來訓(xùn)練對(duì)應(yīng)的分類器,由此得到了不同模型的集合澜沟。預(yù)測時(shí),采用不同分類器的預(yù)測結(jié)果的平均值茫虽,比單一的分類器具有更強(qiáng)的魯棒性刊苍。

Bagging的步驟:

  • 假設(shè)訓(xùn)練數(shù)據(jù)集中有N個(gè)觀測值和M個(gè)特征濒析。從訓(xùn)練數(shù)據(jù)集中隨機(jī)抽取樣本進(jìn)行替換。隨機(jī)選取M個(gè)特征的子集号杏,以分割效果最好的特征迭代分割節(jié)點(diǎn)。
  • 以上步驟重復(fù)n次盾致,根據(jù)n棵樹的預(yù)測值的集合給出預(yù)測主经。

優(yōu)勢:

  • 減少模型的過度擬合庭惜。
  • 很好地處理高維數(shù)據(jù)。
  • 保持丟失數(shù)據(jù)的準(zhǔn)確性蜈块。

缺點(diǎn):
由于最終預(yù)測是基于子集樹的平均預(yù)測迷扇,因此它不能為分類和回歸模型提供精確的值百揭。

Boosting

定義:
Boosting的主要思想是蜓席,先讓學(xué)習(xí)器在初始訓(xùn)練集上依次進(jìn)行初步的訓(xùn)練器一,然后根據(jù)學(xué)習(xí)器的表現(xiàn)進(jìn)行加權(quán)厨内。當(dāng)一個(gè)樣本被一個(gè)學(xué)習(xí)器錯(cuò)誤分類時(shí)祈秕,它的權(quán)重會(huì)增加,這樣下一次就更有可能正確分類请毛。重復(fù)這一過程,直到學(xué)習(xí)器的數(shù)量達(dá)到指定值方仿,最終的預(yù)測結(jié)果是多個(gè)學(xué)習(xí)器的加權(quán)投票的結(jié)果。這一過程將弱學(xué)習(xí)器轉(zhuǎn)化為表現(xiàn)更好的學(xué)習(xí)器仙蚜,這里的“弱學(xué)習(xí)器”指的是表現(xiàn)比隨機(jī)猜稍微好一點(diǎn)的學(xué)習(xí)器。

Boosting的一個(gè)著名的代表是AdaBoost委粉。

假設(shè)有一個(gè)數(shù)據(jù)集D=\{(x_i,y_i) i=1...n \}\y=\{-1, 1\} \贾节,一個(gè)分類器G(x)在訓(xùn)練集的錯(cuò)誤率為
err =\frac{1}{N} \sum_{i=1}^N I(y_i != G(x_i))

假設(shè)現(xiàn)在有了一系列的弱學(xué)習(xí)器,將它們組合在一起: G(x) = sign(\sum_{m=1}^M \alpha_m G_m(x))
這里的\alpha_1...\alpha_M是權(quán)重氮双,在boosting的算法過程中得到的。

Boosting的步驟

  • 在初始訓(xùn)練集上訓(xùn)練一個(gè)分類器G_1(x)戴差,根據(jù)分類表現(xiàn)修改數(shù)據(jù)權(quán)重
  • 在修改過的數(shù)據(jù)集上再訓(xùn)練一個(gè)分類器G_2(x), 再更改權(quán)重
  • 重復(fù)直到分類器數(shù)量足夠暖释,得到G(x) = sign(\sum_{m=1}^M \alpha_m G_m(x))

每個(gè)樣本的初始權(quán)值為w_i = \frac{1}{N},在常規(guī)方法訓(xùn)練第一個(gè)分類器之后球匕,修改樣本的權(quán)重。在第m-1步分類錯(cuò)誤的樣本的權(quán)重會(huì)在第m步增加亮曹,而分類正確的樣本權(quán)重則會(huì)減小。

樣本加權(quán)的效果是照卦,難以正確分類的樣本權(quán)重會(huì)越來越大,而后面的分類器會(huì)被迫更多的關(guān)注于之前分類錯(cuò)誤的樣本上役耕。

學(xué)習(xí)器權(quán)重更新公式:
\alpha_m = log(\frac{1-err_m}{err_m}),樣本權(quán)重的更新w_i = w_i exp[\alpha_mI(y_i != G_m(x_i))]

Boosting在一組基本函數(shù)中擬合加性模型瞬痘。

優(yōu)勢:
支持不同的損失函數(shù)

缺點(diǎn):
容易過度合身板熊。
需要仔細(xì)調(diào)整不同的超參數(shù)。

Bagging Boosting
目標(biāo) 減小方差 降低偏差
劃分?jǐn)?shù)據(jù) 隨機(jī) 錯(cuò)誤分類的樣本更高的投票權(quán)
使用的方法 隨機(jī)子空間 梯度下降
組合單個(gè)模型的方式 加權(quán)平均 多數(shù)加權(quán)投票
例子 隨機(jī)森林 Ada Boost

Bagging的弱學(xué)習(xí)器是來自過擬合干签,而Boosting的弱學(xué)習(xí)器是由于欠擬合。

參考

  • 周志華-機(jī)器學(xué)習(xí)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末筒严,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子鸭蛙,更是在濱河造成了極大的恐慌,老刑警劉巖筋岛,帶你破解...
    沈念sama閱讀 218,386評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異睁宰,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)柒傻,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,142評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來红符,“玉大人,你說我怎么就攤上這事预侯。” “怎么了萎馅?”我有些...
    開封第一講書人閱讀 164,704評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長糜芳。 經(jīng)常有香客問我,道長峭竣,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,702評(píng)論 1 294
  • 正文 為了忘掉前任邪驮,我火速辦了婚禮傲茄,結(jié)果婚禮上毅访,老公的妹妹穿的比我還像新娘。我一直安慰自己喻粹,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,716評(píng)論 6 392
  • 文/花漫 我一把揭開白布守呜。 她就那樣靜靜地躺著,像睡著了一般查乒。 火紅的嫁衣襯著肌膚如雪弥喉。 梳的紋絲不亂的頭發(fā)上玛迄,一...
    開封第一講書人閱讀 51,573評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音蓖议,去河邊找鬼。 笑死勒虾,一個(gè)胖子當(dāng)著我的面吹牛纺阔,可吹牛的內(nèi)容都是我干的修然。 我是一名探鬼主播笛钝,決...
    沈念sama閱讀 40,314評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼愕宋,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了掏婶?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,230評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤雄妥,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后老厌,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,680評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡枝秤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,873評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片丹壕。...
    茶點(diǎn)故事閱讀 39,991評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖缭乘,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情琉用,我是刑警寧澤,帶...
    沈念sama閱讀 35,706評(píng)論 5 346
  • 正文 年R本政府宣布邑时,位于F島的核電站,受9級(jí)特大地震影響晶丘,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜铣口,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,329評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望脑题。 院中可真熱鬧件缸,春花似錦叔遂、人聲如沸他炊。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,910評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽哩掺。三九已至凿叠,卻和暖如春嚼吞,著一層夾襖步出監(jiān)牢的瞬間盒件,已是汗流浹背舱禽。 一陣腳步聲響...
    開封第一講書人閱讀 33,038評(píng)論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留誊稚,地道東北人翔始。 一個(gè)月前我還...
    沈念sama閱讀 48,158評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像渤闷,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子全谤,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,941評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容