XGBoost: A Scalable Tree Boosting System 總結(jié)

1.算法公式推導(dǎo)

? ? ????XGBoost目標(biāo)函數(shù)不止有損失函數(shù)雕沉,同時(shí)加入樹的結(jié)構(gòu)風(fēng)險(xiǎn)項(xiàng)(即正則項(xiàng)),這樣在構(gòu)建樹的過程颇玷,會(huì)約束樹的生長結(jié)構(gòu)笨农,減少過擬合問題。這樣一來帖渠,目標(biāo)函數(shù)就變成:

? ? ????再來看看如何表示一棵樹的復(fù)雜度谒亦,T為樹的節(jié)點(diǎn)數(shù),w為樹節(jié)點(diǎn)的取值阿弃。w,T前是正則項(xiàng)的超參數(shù):

? ?????要最小化這個(gè)目標(biāo)函數(shù)诊霹,我們需要枚舉所有可能的樹組合羞延,然后選擇損失函數(shù)最小的模型渣淳,這是十分不現(xiàn)實(shí)的,是NP完全問題伴箩,所以采用一種貪心思想入愧,假設(shè)已經(jīng)建好了最優(yōu)的k-1棵樹,那么第k棵樹是什么樣的呢嗤谚?無非就是前k-1棵樹加上第k棵樹的預(yù)測值與真實(shí)值最接近棺蛛,使總損失最小,目標(biāo)函數(shù)可以寫成:

????????在GBDT中巩步,僅用了損失函數(shù)的負(fù)梯度去構(gòu)建當(dāng)前第k棵樹旁赊,而XGBoost則用了損失函數(shù)的二階近似,加快損失函數(shù)的下降速度椅野,使迭代速度更快终畅。具體的,對上面的目標(biāo)函數(shù)作二階泰勒展開竟闪,得到:

?????????去掉常數(shù)項(xiàng)得? ? ? ?

? ? ? ? 因?yàn)闃涞墓?jié)點(diǎn)已經(jīng)確定离福,可以知道那些樣本落在樹的那些節(jié)點(diǎn)上。對樹節(jié)點(diǎn)上的所有樣本做求和炼蛤,得到損失函數(shù)為:

????????式6中是關(guān)于wj的 二次函數(shù)妖爷,當(dāng)樹結(jié)構(gòu)固定時(shí),wj的最優(yōu)值為:

? ? ? ? 目標(biāo)函數(shù)的最小值為:

? ? ? ? 上圖公式可以作為構(gòu)建決策樹時(shí)特征選擇和決策點(diǎn)選擇的依據(jù),加到某個(gè)節(jié)點(diǎn)分裂為兩個(gè)子樹理朋,則一定是分裂后的損失比原來的損失要小絮识,二者的差為:

2.分裂算法介紹

????????精確貪心算法(Basic Exact Greedy Algorithm )

????????尋找一個(gè)最優(yōu)的分裂點(diǎn),遍歷每個(gè)特征的每個(gè)可能的分裂點(diǎn)嗽上,找到目標(biāo)函數(shù)增加最大的點(diǎn)作為新的分裂特征和分裂點(diǎn)次舌。

????????近似算法

????????當(dāng)數(shù)據(jù)量過大,精確算法就不好用了炸裆,因?yàn)橐闅v每個(gè)分割點(diǎn)垃它,甚至內(nèi)存都放不下,所以,xgb提出了額外一種近似算法能加快運(yùn)行時(shí)間:

? ? ? ? 這個(gè)算法根據(jù)特征的分布情況国拇,然后做個(gè)proposal洛史,然后這一列的分割點(diǎn)就從這幾個(gè)proposed candidate points里選,能大大提高效率酱吝。有兩種proposal的方式也殖,分別是global和local。global的是在建樹之前就做proposal然后每次分割都要更新一下proposal务热,local的方法是在每次split之后更新proposal忆嗜。通常發(fā)現(xiàn)local的方法需要更少的candidate,而global的方法在有足夠的candidate的時(shí)候效果跟local差不多崎岂。系統(tǒng)能充分支持exact greedy跑在單臺(tái)機(jī)器或多臺(tái)機(jī)器上捆毫,也支持這個(gè)proposal的近似算法,并且都能設(shè)定global還是local的proposal方式冲甘。

????????存在稀疏值時(shí)的分裂 Sparsity-aware Split Finding

????????另外绩卤,在分割的時(shí)候,這個(gè)系統(tǒng)還能感知稀疏值江醇,我們給每個(gè)樹的結(jié)點(diǎn)都加了一個(gè)默認(rèn)方向濒憋,當(dāng)一個(gè)值是缺失值時(shí),我們就把他分類到默認(rèn)方向陶夜,每個(gè)分支有兩個(gè)選擇凛驮,論文提出一個(gè)算法,枚舉向左和向右的情況条辟,哪個(gè)gain大選哪個(gè):

3.總結(jié)

????????基于決策樹的集成學(xué)習(xí)在傳統(tǒng)機(jī)器學(xué)習(xí)方法中取得了非常好的效果黔夭,尤其是XGB,被數(shù)據(jù)科學(xué)家廣泛使用捂贿,并在很多問題上有很好的表現(xiàn)纠修。

????????論文除了給出XGB的模型和算法,在工程實(shí)現(xiàn)方面精耕細(xì)作厂僧,做了盡可能的優(yōu)化扣草,這些方法也保證了模型能夠取得更好的效果,并能夠構(gòu)建端到端的學(xué)習(xí)系統(tǒng)颜屠。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末辰妙,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子甫窟,更是在濱河造成了極大的恐慌密浑,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,639評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件粗井,死亡現(xiàn)場離奇詭異尔破,居然都是意外死亡街图,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,277評論 3 385
  • 文/潘曉璐 我一進(jìn)店門懒构,熙熙樓的掌柜王于貴愁眉苦臉地迎上來餐济,“玉大人,你說我怎么就攤上這事胆剧⌒跄罚” “怎么了?”我有些...
    開封第一講書人閱讀 157,221評論 0 348
  • 文/不壞的土叔 我叫張陵秩霍,是天一觀的道長篙悯。 經(jīng)常有香客問我,道長铃绒,這世上最難降的妖魔是什么鸽照? 我笑而不...
    開封第一講書人閱讀 56,474評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮匿垄,結(jié)果婚禮上移宅,老公的妹妹穿的比我還像新娘。我一直安慰自己椿疗,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,570評論 6 386
  • 文/花漫 我一把揭開白布糠悼。 她就那樣靜靜地躺著届榄,像睡著了一般。 火紅的嫁衣襯著肌膚如雪倔喂。 梳的紋絲不亂的頭發(fā)上铝条,一...
    開封第一講書人閱讀 49,816評論 1 290
  • 那天,我揣著相機(jī)與錄音席噩,去河邊找鬼班缰。 笑死,一個(gè)胖子當(dāng)著我的面吹牛悼枢,可吹牛的內(nèi)容都是我干的埠忘。 我是一名探鬼主播,決...
    沈念sama閱讀 38,957評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼馒索,長吁一口氣:“原來是場噩夢啊……” “哼莹妒!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起绰上,我...
    開封第一講書人閱讀 37,718評論 0 266
  • 序言:老撾萬榮一對情侶失蹤旨怠,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后蜈块,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體鉴腻,經(jīng)...
    沈念sama閱讀 44,176評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡迷扇,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,511評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了爽哎。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片谋梭。...
    茶點(diǎn)故事閱讀 38,646評論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖倦青,靈堂內(nèi)的尸體忽然破棺而出瓮床,到底是詐尸還是另有隱情,我是刑警寧澤产镐,帶...
    沈念sama閱讀 34,322評論 4 330
  • 正文 年R本政府宣布隘庄,位于F島的核電站,受9級特大地震影響癣亚,放射性物質(zhì)發(fā)生泄漏丑掺。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,934評論 3 313
  • 文/蒙蒙 一述雾、第九天 我趴在偏房一處隱蔽的房頂上張望街州。 院中可真熱鬧,春花似錦玻孟、人聲如沸唆缴。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,755評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽面徽。三九已至,卻和暖如春匣掸,著一層夾襖步出監(jiān)牢的瞬間趟紊,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,987評論 1 266
  • 我被黑心中介騙來泰國打工碰酝, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留霎匈,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,358評論 2 360
  • 正文 我出身青樓送爸,卻偏偏與公主長得像铛嘱,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子碱璃,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,514評論 2 348

推薦閱讀更多精彩內(nèi)容