機器學習之XGBoost(簡單理解)

這篇文章打算介紹一下boosting 和xgboost漂羊,這兩天也看了好多文章稽寒,也感覺了解的不深,算是做個記錄磁椒。

Boost算法

先簡單提一下Bagging堤瘤, 原理是從現(xiàn)有數(shù)據(jù)中有放回的抽取若干個樣本構(gòu)建分類器,重復若干次建立若干個分類器進行投票浆熔。
而Boost(提升)是指每一步都產(chǎn)生一個弱預測模型本辐,然后加權(quán)累加到總模型中。每一步弱預測模型生成的依據(jù)都是損失函數(shù)的負梯度方向,若干步以后就可以達到逼近損失函數(shù)局部的最小值慎皱。

首先Boost是一個加法模型环葵,有若干個基函數(shù)及其權(quán)重乘積之和的累加。

image.png

其中b是基函數(shù)宝冕,beta是基函數(shù)的系數(shù),這就是最終分類器的樣子邓萨。目標就是想辦法使損失函數(shù)的期望最小值地梨。
image.png

一步對m個分類起優(yōu)化太難,因此有一個稍微折中的辦法缔恳,因為是加法模型宝剖,每一步只對其中一個基函數(shù)及其系數(shù)進行求解,逐步逼近損失函數(shù)的最小值歉甚。
image.png

要使損失函數(shù)最小万细,那么新加的這一項剛好等于損失函數(shù)的負梯度。這樣一步一步就使得損失函數(shù)下降最快纸泄。


image.png

這里的lambda可以和beta合并表示步長赖钞。對于這個基函數(shù)而言,其實就是關于x和這個函數(shù)梯度的一個擬合聘裁,然后步長的選擇可以根據(jù)線性搜索雪营,即尋找在這個梯度上下降最小值的那個步長,盡快逼近損失函數(shù)的最小值衡便。
梯度提升完

GBDT

首先既然是樹献起,上一篇介紹過,基函數(shù)是決策樹镣陕,而損失函數(shù)則是根據(jù)具體問題具體分析谴餐,不過總體方法都是一樣,梯度下降呆抑。
比如到第m步岂嗓, 計算殘差。


image.png

有了殘差理肺,再用(xi摄闸, rim)去擬合第m個基函數(shù)。假設這顆樹把輸入空間劃分成j個空間R1m, R2m, ...., Rjm妹萨。假設在每個空間的輸出為bjm年枕。這樣,第m棵樹可以表示如下:


image.png

下一步乎完,對樹的每個區(qū)域分別用線性搜索的方法尋找最佳步長熏兄,然后與上面的區(qū)域預測值合并,最后可以得到第m步的目標函數(shù)。


image.png

對于GBDT容易出現(xiàn)過擬合摩桶,所以有必要增加一點正則項桥状,比如葉子節(jié)點數(shù)目或葉子節(jié)點預測值的平方和,限制模型復雜度的過度提升硝清。

XGBoost

之前用的梯度下降只考慮了一階信息辅斟,根據(jù)泰勒展開,把二階信息用上:


image.png

其中fm為參數(shù)的函數(shù)是正則項芦拿∈快可以表示如下:


image.png

對于決策樹而言,最重要的一共有多少個節(jié)點以及節(jié)點的權(quán)值蔗崎。所以決策樹可以表示為:


image.png

各種公式酵幕,最后得到

image.png

可以得到的結(jié)果是:把新一步函數(shù)的損失函數(shù)變成了只與上一步相關的一個新的損失函數(shù)。這樣可以遍歷數(shù)據(jù)中所有的分割點缓苛,尋找新的損失函數(shù)下降最多的分割點芳撒,重復上述操作。

相比于梯度下降提升未桥,XGBoost在劃分新的樹的時候還用到了二階信息笔刹,因此能夠更快的收斂;由于用c/c++寫的钢属,速度也快徘熔。在尋找最加分割點的時候,還可以引入并行計算淆党,因此速度進一步提高酷师。

參考文章:
XGBoost 與 Boosted Tree:多看幾遍

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市染乌,隨后出現(xiàn)的幾起案子山孔,更是在濱河造成了極大的恐慌,老刑警劉巖荷憋,帶你破解...
    沈念sama閱讀 206,968評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件台颠,死亡現(xiàn)場離奇詭異,居然都是意外死亡勒庄,警方通過查閱死者的電腦和手機串前,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來实蔽,“玉大人荡碾,你說我怎么就攤上這事【肿埃” “怎么了坛吁?”我有些...
    開封第一講書人閱讀 153,220評論 0 344
  • 文/不壞的土叔 我叫張陵劳殖,是天一觀的道長。 經(jīng)常有香客問我拨脉,道長哆姻,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,416評論 1 279
  • 正文 為了忘掉前任玫膀,我火速辦了婚禮矛缨,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘帖旨。我一直安慰自己劳景,他們只是感情好,可當我...
    茶點故事閱讀 64,425評論 5 374
  • 文/花漫 我一把揭開白布碉就。 她就那樣靜靜地躺著,像睡著了一般闷串。 火紅的嫁衣襯著肌膚如雪瓮钥。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,144評論 1 285
  • 那天烹吵,我揣著相機與錄音碉熄,去河邊找鬼。 笑死肋拔,一個胖子當著我的面吹牛锈津,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播凉蜂,決...
    沈念sama閱讀 38,432評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼琼梆,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了窿吩?” 一聲冷哼從身側(cè)響起茎杂,我...
    開封第一講書人閱讀 37,088評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎纫雁,沒想到半個月后煌往,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,586評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡轧邪,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,028評論 2 325
  • 正文 我和宋清朗相戀三年刽脖,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片忌愚。...
    茶點故事閱讀 38,137評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡曲管,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出菜循,到底是詐尸還是另有隱情翘地,我是刑警寧澤申尤,帶...
    沈念sama閱讀 33,783評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站衙耕,受9級特大地震影響昧穿,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜橙喘,卻給世界環(huán)境...
    茶點故事閱讀 39,343評論 3 307
  • 文/蒙蒙 一时鸵、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧厅瞎,春花似錦饰潜、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至锁保,卻和暖如春薯酝,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背爽柒。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評論 1 262
  • 我被黑心中介騙來泰國打工吴菠, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人浩村。 一個月前我還...
    沈念sama閱讀 45,595評論 2 355
  • 正文 我出身青樓做葵,卻偏偏與公主長得像,于是被迫代替她去往敵國和親心墅。 傳聞我的和親對象是個殘疾皇子酿矢,可洞房花燭夜當晚...
    茶點故事閱讀 42,901評論 2 345

推薦閱讀更多精彩內(nèi)容