Boosting 和 GBDT簡介

GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一種迭代的決策樹算法溶褪,該算法由多棵決策樹組成食茎,所有樹的結(jié)論累加起來做最終答案。它在被提出之初就和SVM一起被認(rèn)為是泛化能力(generalization)較強(qiáng)的算法稀颁。近些年更因為被用于搜索排序的機(jī)器學(xué)習(xí)模型而引起大家關(guān)注芬失。在正式介紹GBDT之前,我想先簡單的介紹一下boosting算法匾灶。

Boosting

Boosting算法是一種把若干個分類器整合為一個分類器的方法棱烂,在boosting算法產(chǎn)生之前,還出現(xiàn)過兩種比較重要的將多個分類器整合為一個分類器的方法阶女,即boostrapping方法和bagging方法颊糜。我們先簡要介紹一下bootstrapping方法和bagging方法。

1)bootstrapping方法的主要過程:

i)重復(fù)地從一個樣本集合D中采樣n個樣本

ii)針對每次采樣的子樣本集秃踩,進(jìn)行統(tǒng)計學(xué)習(xí)衬鱼,獲得假設(shè)Hi

iii)將若干個假設(shè)進(jìn)行組合,形成最終的假設(shè)Hfinal

iv)將最終的假設(shè)用于具體的分類任務(wù)

2)bagging方法的主要過程:

i)訓(xùn)練分類器憔杨,從整體樣本集合中鸟赫,抽樣n* < N個樣本 針對抽樣的集合訓(xùn)練分類器Ci

ii)分類器進(jìn)行投票,最終的結(jié)果是分類器投票的優(yōu)勝結(jié)果

但是,上述這兩種方法抛蚤,都只是將分類器進(jìn)行簡單的組合台谢,實際上,并沒有發(fā)揮出分類器組合的威力來岁经。到了1995年对碌,F(xiàn)reund and schapire提出了現(xiàn)在的adaboost算法,其主要框架可以描述為:

i)循環(huán)迭代多次

ii)更新樣本分布

iii)尋找當(dāng)前分布下的最優(yōu)弱分類器

iv)計算弱分類器誤差率

v)聚合多次訓(xùn)練的弱分類器

數(shù)學(xué)上蒿偎,如下表達(dá):


具體實例見這篇博文朽们。

GBDT

目前GBDT有兩個不同的描述版本,兩者各有支持者诉位,讀文獻(xiàn)時要注意區(qū)分骑脱。殘差版本把GBDT說成一個殘差迭代樹,認(rèn)為每一棵回歸樹都在學(xué)習(xí)前N-1棵樹的殘差苍糠,可以參見這篇博客叁丧;Gradient版本把GBDT說成一個梯度迭代樹,使用梯度下降法求解岳瞭,認(rèn)為每一棵回歸樹在學(xué)習(xí)前N-1棵樹的梯度下降值拥娄,之前leftnoteasy的博客中介紹的為此版本(準(zhǔn)確的說是LambdaMART中的MART為這一版本,MART實現(xiàn)則是前一版本)瞳筏。

總的來說兩者相同之處在于稚瘾,都是迭代回歸樹,都是累加每顆樹結(jié)果作為最終結(jié)果(Multiple Additive Regression Tree)姚炕,每棵樹都在學(xué)習(xí)前N-1棵樹尚存的不足摊欠,從總體流程和輸入輸出上兩者是沒有區(qū)別的;兩者的不同主要在于每步迭代時柱宦,是否使用Gradient作為求解方法些椒。前者不用Gradient而是用殘差----殘差是全局最優(yōu)值,Gradient是局部最優(yōu)方向*步長掸刊,即前者每一步都在試圖讓結(jié)果變成最好免糕,后者則每步試圖讓結(jié)果更好一點。

兩者優(yōu)缺點忧侧∈ぃ看起來前者更科學(xué)一點--有絕對最優(yōu)方向不學(xué),為什么舍近求遠(yuǎn)去估計一個局部最優(yōu)方向呢苍柏?原因在于靈活性尼斧。前者最大問題是,由于它依賴殘差试吁,cost function一般固定為反映殘差的均方差棺棵,因此很難處理純回歸問題之外的問題楼咳。而后者求解方法為梯度下降,只要可求導(dǎo)的cost function都可以使用烛恤,所以用于排序的LambdaMART就是用的后者母怜。

文章來源:Markdown原文

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市缚柏,隨后出現(xiàn)的幾起案子苹熏,更是在濱河造成了極大的恐慌,老刑警劉巖币喧,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件轨域,死亡現(xiàn)場離奇詭異,居然都是意外死亡杀餐,警方通過查閱死者的電腦和手機(jī)干发,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來史翘,“玉大人枉长,你說我怎么就攤上這事∏矸恚” “怎么了必峰?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長钻蹬。 經(jīng)常有香客問我吼蚁,道長,這世上最難降的妖魔是什么脉让? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任桂敛,我火速辦了婚禮,結(jié)果婚禮上溅潜,老公的妹妹穿的比我還像新娘。我一直安慰自己薪伏,他們只是感情好滚澜,可當(dāng)我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著嫁怀,像睡著了一般设捐。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上塘淑,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天萝招,我揣著相機(jī)與錄音,去河邊找鬼存捺。 笑死槐沼,一個胖子當(dāng)著我的面吹牛曙蒸,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播岗钩,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼纽窟,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了兼吓?” 一聲冷哼從身側(cè)響起臂港,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎视搏,沒想到半個月后审孽,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡浑娜,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年佑力,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片棚愤。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡搓萧,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出宛畦,到底是詐尸還是另有隱情瘸洛,我是刑警寧澤,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布次和,位于F島的核電站反肋,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏踏施。R本人自食惡果不足惜石蔗,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望畅形。 院中可真熱鬧养距,春花似錦、人聲如沸日熬。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽竖席。三九已至耘纱,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間毕荐,已是汗流浹背束析。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留憎亚,地道東北人员寇。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓弄慰,卻偏偏與公主長得像,于是被迫代替她去往敵國和親丁恭。 傳聞我的和親對象是個殘疾皇子曹动,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容