機(jī)器學(xué)習(xí)經(jīng)典算法 - Bagging & Boosting

Ensemble Learning

集成學(xué)習(xí)通過(guò)整合多個(gè)不同模型來(lái)實(shí)現(xiàn)對(duì)復(fù)雜問(wèn)題的更準(zhǔn)確建模,其實(shí)現(xiàn)方式多樣,但共同的特征是:從總體數(shù)據(jù)集的多個(gè)子集中發(fā)掘出針對(duì)該子集具有分類能力,但不一定在其他子集當(dāng)中同樣有效的特征腊满,通過(guò)該特征分別實(shí)現(xiàn)數(shù)據(jù)集的分類扯旷,再將結(jié)果進(jìn)行集成拯爽。

Bagging & Boosting 是集成學(xué)習(xí)的典型代表。最簡(jiǎn)單的 Ensemble Learning 就是通過(guò)將數(shù)據(jù)隨機(jī)劃分多個(gè)子集钧忽,在每個(gè)子集上進(jìn)行擬合毯炮,再將最終結(jié)果進(jìn)行平均化,這種方法也被稱為 Bagging耸黑,或者稱為 Bootstrap aggregation桃煎,其實(shí)現(xiàn)優(yōu)化的原理在于其可以通過(guò)平均化差異使得最終的模型可以有效的防止異常數(shù)據(jù)的影響。

Boosting

在此重點(diǎn)介紹以 AdaBoost (Adaptive Boosting) 為代表的 Boosting 算法大刊,Boosting 算法想解決的核心問(wèn)題就在于是否可以通過(guò)一系列的 Weak Learner 的組合來(lái)實(shí)現(xiàn)一個(gè)更高性能的 Learner 模型为迈,這個(gè)過(guò)程中的性能增強(qiáng)也就是 Boosting 這個(gè)名稱的由來(lái)。AdaBoost 算法中涉及到的兩個(gè)重要的概念是 Weak learner 和樣本權(quán)重:

  • Weak Learner:被定義為對(duì)于服從任意分布 D 的樣本缺菌,其分類準(zhǔn)確率僅需高于隨機(jī)猜測(cè)的結(jié)果曲尸,在實(shí)際算法中 Weak Learner 可以是任意已知的監(jiān)督學(xué)習(xí)方法,如 SVM男翰,線性回歸另患,邏輯回歸,甚至是深度神經(jīng)網(wǎng)絡(luò)蛾绎,但最常用的是決策樹(shù)

What weak learner you should choose is then a trade off between 3 factors:

  • The bias of the model. A lower bias is almost always better, but you don't want to pick something that will overfit (yes, boosting can and does overfit)
  • The training time for the weak learner. Generally we want to be able to learn a weak learner quickly, as we are going to be building a few hundred (or thousand) of them.
  • The prediction time for our weak learner. If we use a model that has a slow prediction rate, our ensemble of them is going to be a few hundred times slower!
  • 樣本權(quán)重:在實(shí)際問(wèn)題中昆箕,很可能存在的情況是某些樣本相對(duì)另一些樣本來(lái)說(shuō)出現(xiàn)的可能性更大鸦列,此時(shí)僅僅采用平均化的方式過(guò)于簡(jiǎn)化,在實(shí)際的 Boosting 算法中一般采用加權(quán)平均的方式

The observation weight might come in as domain knowledge for example, we may know, based on past experience, that we are more likely to encounter a training example j compared to example k. Therefore we should assign a larger weight to example j, since it is the one that will have a greater influence on our function approximation process.

對(duì)于樣本給予權(quán)重的一個(gè)好處是我們可以在計(jì)算分類器的誤差的同時(shí)也將樣本權(quán)重考慮在內(nèi)鹏倘。具體地薯嗤,對(duì)于一個(gè)包含 N 個(gè)樣本的樣本集 (xi, yi),xi 為包含多個(gè)特征的向量纤泵,yi 的取值為 -1 或 1骆姐,假設(shè)對(duì)于任意一個(gè)分類器 G 來(lái)說(shuō),其針對(duì)任意輸入 xi 對(duì)應(yīng)的預(yù)測(cè)值為 G(xi) ∈ {-1, 1}捏题,此時(shí)在不考慮樣本權(quán)重時(shí)可以通過(guò)統(tǒng)計(jì)被錯(cuò)誤分類的樣本數(shù)量來(lái)計(jì)算誤差值:

  • error = ΣI(yi ≠ G(xi)), i = 1, 2, ... , N

在考慮權(quán)重后玻褪,這一誤差值則可以改進(jìn)為:

  • error = ΣwiI(yi ≠ G(xi)) / Σwi, i = 1, 2, ... , N

AdaBoost 算法實(shí)現(xiàn)

AdaBoost 算法的實(shí)現(xiàn)過(guò)程為:

  • 首先初始化各個(gè)樣本的權(quán)重值,令 wi = 1 / N

  • 對(duì)于 m = 1 到 M公荧,循環(huán)執(zhí)行:

    • 在考慮樣本權(quán)重 wi 的前提下訓(xùn)練一個(gè)分類器 Gm(x)
    • 計(jì)算考慮權(quán)重的誤差值 errm = ΣwiI(yi ≠ G(xi)) / Σwi, i = 1, 2, ... , N
    • 計(jì)算 αm = log((1 - errm) / errm)
    • 對(duì)于 i = 1, 2, ... , N带射,更新權(quán)重 wi = wi ? eαmI(yi ≠ G(xi))
  • G(x) = sign[αmGm(x)], m = 1, 2, ... , M

上述計(jì)算過(guò)程中 αm 和 errm 的關(guān)系如下圖所示,其中:

  • 當(dāng) errm < 0.5循狰,也即若分類器的誤差表現(xiàn)高于隨機(jī)猜測(cè)時(shí)窟社,αm > 0,且誤差 errm 越小绪钥,αm 越大灿里,也即當(dāng)前這個(gè)分類器 Gm(x) 的準(zhǔn)確率越高

  • 樣本權(quán)重更新過(guò)程中,當(dāng) Gm(x) 無(wú)法準(zhǔn)確分類樣本 xi 時(shí)程腹,wi 會(huì)變大匣吊,后續(xù)的分類器 Gm+1(x) 就會(huì)對(duì)這個(gè)樣本更加重視,反之亦然

The AdaBoost algorithm trains multiple weak classifiers on training data, and then combines those weak classifiers into a single boosted classifier. The combination is done through a weighted sum of the weak classifiers with weights dependent on the weak classifier accuracy.

The relationship between α and error

注意事項(xiàng)

盡管 Boosting 在對(duì)抗過(guò)擬合方面有先天的優(yōu)勢(shì)跪楞,當(dāng)采用深度神經(jīng)網(wǎng)絡(luò)作為 Weak learner 時(shí)缀去,這一優(yōu)勢(shì)將不再明顯侣灶。另外甸祭,當(dāng)數(shù)據(jù)中存在 pink noise 也即 uniform noise 時(shí),Boosting 仍然無(wú)法避免過(guò)擬合褥影。

參考閱讀

  1. What is a weak learner?

  2. The Boosting Approach to Machine Learning

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末池户,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子凡怎,更是在濱河造成了極大的恐慌校焦,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件统倒,死亡現(xiàn)場(chǎng)離奇詭異寨典,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)房匆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門耸成,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)报亩,“玉大人,你說(shuō)我怎么就攤上這事井氢∠易罚” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵花竞,是天一觀的道長(zhǎng)劲件。 經(jīng)常有香客問(wèn)我,道長(zhǎng)约急,這世上最難降的妖魔是什么零远? 我笑而不...
    開(kāi)封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮烤宙,結(jié)果婚禮上遍烦,老公的妹妹穿的比我還像新娘。我一直安慰自己躺枕,他們只是感情好服猪,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著拐云,像睡著了一般罢猪。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上叉瘩,一...
    開(kāi)封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天膳帕,我揣著相機(jī)與錄音,去河邊找鬼薇缅。 笑死危彩,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的泳桦。 我是一名探鬼主播汤徽,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼灸撰!你這毒婦竟也來(lái)了谒府?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤浮毯,失蹤者是張志新(化名)和其女友劉穎完疫,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體债蓝,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡壳鹤,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了饰迹。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片芳誓。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡讯嫂,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出兆沙,到底是詐尸還是另有隱情欧芽,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布葛圃,位于F島的核電站千扔,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏库正。R本人自食惡果不足惜曲楚,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望褥符。 院中可真熱鬧龙誊,春花似錦、人聲如沸喷楣。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)铣焊。三九已至逊朽,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間曲伊,已是汗流浹背叽讳。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留坟募,地道東北人岛蚤。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像懈糯,于是被迫代替她去往敵國(guó)和親涤妒。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 以西瓜書為主線昂利,以其他書籍作為參考進(jìn)行補(bǔ)充届腐,例如《統(tǒng)計(jì)學(xué)習(xí)方法》铁坎,《PRML》等 第一章 緒論 1.2 基本術(shù)語(yǔ) ...
    danielAck閱讀 4,486評(píng)論 0 6
  • 這里總結(jié)了常見(jiàn)的幾個(gè)機(jī)器學(xué)習(xí)算法:樸素貝葉斯蜂奸、決策樹(shù)、邏輯回歸硬萍、線性回歸扩所、KNN、SVM朴乖、Boosting祖屏、聚類助赞、...
    xzhren閱讀 894評(píng)論 0 6
  • 以前一直畫素描,慢慢地覺(jué)得顏色太過(guò)于單一袁勺,就嘗試著畫水彩雹食。我喜歡顏色鮮艷的花,所以就在網(wǎng)上找了花兒的圖片照著畫期丰。 ...
    Roby楓落閱讀 324評(píng)論 0 0
  • 上午查房宣教群叶,詢問(wèn)是否滿意,都表示非常滿意钝荡,關(guān)系緊張嗎街立?20多年的工作經(jīng)歷有時(shí)候確實(shí)也會(huì)碰到不講理的,可哪行哪業(yè)都...
    鑲金邊的云閱讀 143評(píng)論 0 1
  • 初冬的下午的陽(yáng)光隔著玻璃照在身上埠通,暖暖的赎离,讓人覺(jué)得很舒服。屋子遮擋了已經(jīng)有些寒意的風(fēng)端辱,我特意挑了一張靠窗的位子梁剔,...
    驚恐的小餛飩閱讀 252評(píng)論 0 1