bagging&boosting

bagging和boosting都屬于組合學(xué)習(xí)算法,都是將簡單的分類或者回歸算法組合在一起來提高模型的分類或者回歸效果吮便,但是兩者還是有區(qū)別的贴膘,這篇文章主要梳理下兩者的區(qū)別和特點灵巧。

1、bagging
步驟:
(1)從原始樣本里抽取訓(xùn)練集夏伊。每一輪從原始樣本中使用又放回的方法抽取n個訓(xùn)練樣本摇展,一共進行k次抽取,得到k個訓(xùn)練集溺忧。
(2)每次使用一個訓(xùn)練集得到一個模型咏连,k個訓(xùn)練集一共得到k個模型。
(3)對于分類問題鲁森,對k個模型投票得到結(jié)果祟滴,對于回歸問題,將均值作為最后的結(jié)果

注意:
(1)在訓(xùn)練集中歌溉,有的樣本可能被多次抽到垄懂,有的可能一次都沒有被抽中。
(2)k個訓(xùn)練集之間是獨立的痛垛。
(3)所有模型的重要性是相同的草慧。

2、boosting
核心思想:將弱分類器組合成強分類器匙头。
通過加法模型將弱分類器進行線性組合漫谷,比如說最經(jīng)典的就是adaboost,以及后面學(xué)習(xí)的gbdt和xgboost蹂析,對于adaboot舔示,這里注意有兩個權(quán)值:
(1)訓(xùn)練數(shù)據(jù)的權(quán)值:提高前一輪被弱分類器分錯樣本的權(quán)值,減小分對的樣本的權(quán)值电抚,是分類器重點關(guān)注誤分類的樣本斩郎。
(2)分類器的權(quán)重:采用加權(quán)多數(shù)表決,增大錯誤率小的權(quán)值喻频,減小錯誤率大的分類器的權(quán)值。就是分的越準(zhǔn)肘迎,說的越算甥温。對于gbdt來說,是通過擬合殘差妓布,一步步降低殘差的方法來的得到最終的組合模型的姻蚓。

3、兩者的區(qū)別
(1)樣本選擇
bagging:有放回抽樣
boosting:全量數(shù)據(jù)訓(xùn)練
(2)樣本權(quán)重
bagging:每個樣本權(quán)重相等
boosting:不斷調(diào)整權(quán)重匣沼,分錯的重點關(guān)注狰挡,權(quán)重變大
(3)預(yù)測函數(shù)
bagging:所有預(yù)測函數(shù)(分類器/回歸器)權(quán)重相等
boosting:每個預(yù)測函數(shù)都有自己的權(quán)重,誤差小的權(quán)重高
(4)并行計算
bagging:每個預(yù)測函數(shù)之間相互獨立,可并行
boosting:按順序生成加叁,相互依賴倦沧,不能并行。但是可以對分裂點的計算實行并行化它匕。

4展融、擴展
(1)Bagging + 決策樹 = 隨機森林
(2)AdaBoost + 決策樹 = 提升樹
(3)Gradient Boosting + 決策樹 = GBDT

5、與偏差方差的對應(yīng)關(guān)系
我們先回顧一下高偏差和高方差的原因:
高偏差:模型過于簡單豫柬,損失函數(shù)過大
高方差:模型過于復(fù)雜告希,記住了太多的細節(jié)噪音

bagging中的每一個預(yù)測函數(shù)的偏差都比較低(如果是決策樹,是需要完全分裂的)烧给,并且都有可能發(fā)生過擬合燕偶,所以將多個預(yù)測函數(shù)進行平均,起到了降低方差的作用础嫡。

boosting是對弱分類器的組合指么,弱分類器的偏差高,強分類器的偏差低驰吓,所以boosting起到了降低偏差的作用

參考文章:
統(tǒng)計學(xué)習(xí)方法
http://www.cnblogs.com/liuwu265/p/4690486.html
https://www.zhihu.com/question/26760839

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末涧尿,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子檬贰,更是在濱河造成了極大的恐慌姑廉,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,734評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件翁涤,死亡現(xiàn)場離奇詭異桥言,居然都是意外死亡,警方通過查閱死者的電腦和手機葵礼,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評論 3 394
  • 文/潘曉璐 我一進店門号阿,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人鸳粉,你說我怎么就攤上這事扔涧。” “怎么了届谈?”我有些...
    開封第一講書人閱讀 164,133評論 0 354
  • 文/不壞的土叔 我叫張陵枯夜,是天一觀的道長。 經(jīng)常有香客問我艰山,道長湖雹,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,532評論 1 293
  • 正文 為了忘掉前任曙搬,我火速辦了婚禮摔吏,結(jié)果婚禮上鸽嫂,老公的妹妹穿的比我還像新娘。我一直安慰自己征讲,他們只是感情好据某,可當(dāng)我...
    茶點故事閱讀 67,585評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著稳诚,像睡著了一般哗脖。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上扳还,一...
    開封第一講書人閱讀 51,462評論 1 302
  • 那天才避,我揣著相機與錄音,去河邊找鬼氨距。 笑死桑逝,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的俏让。 我是一名探鬼主播楞遏,決...
    沈念sama閱讀 40,262評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼首昔!你這毒婦竟也來了寡喝?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,153評論 0 276
  • 序言:老撾萬榮一對情侶失蹤勒奇,失蹤者是張志新(化名)和其女友劉穎预鬓,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體赊颠,經(jīng)...
    沈念sama閱讀 45,587評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡格二,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,792評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了竣蹦。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片顶猜。...
    茶點故事閱讀 39,919評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖痘括,靈堂內(nèi)的尸體忽然破棺而出长窄,到底是詐尸還是另有隱情,我是刑警寧澤纲菌,帶...
    沈念sama閱讀 35,635評論 5 345
  • 正文 年R本政府宣布挠日,位于F島的核電站,受9級特大地震影響驰后,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜矗愧,卻給世界環(huán)境...
    茶點故事閱讀 41,237評論 3 329
  • 文/蒙蒙 一灶芝、第九天 我趴在偏房一處隱蔽的房頂上張望郑原。 院中可真熱鬧,春花似錦夜涕、人聲如沸犯犁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽酸役。三九已至,卻和暖如春驾胆,著一層夾襖步出監(jiān)牢的瞬間涣澡,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評論 1 269
  • 我被黑心中介騙來泰國打工丧诺, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留入桂,地道東北人。 一個月前我還...
    沈念sama閱讀 48,048評論 3 370
  • 正文 我出身青樓驳阎,卻偏偏與公主長得像抗愁,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子呵晚,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,864評論 2 354

推薦閱讀更多精彩內(nèi)容