淺析XGBOOST

前言

xgboost是一種集成學(xué)習(xí)算法驶忌,通過(guò)回歸樹叠骑,每一次對(duì)殘差(實(shí)際值與預(yù)測(cè)值之差)進(jìn)行擬合,最后把預(yù)測(cè)值相加得到最終的預(yù)測(cè)值固该。比如一個(gè)小男孩是10歲伸眶,我用一棵樹去擬合劫侧,得到4.殘差是6惭蹂,第二課樹擬合挪捕,得到3,這時(shí)殘差是3.第三棵樹繼續(xù)擬合拼坎,得到2.這時(shí)我們的預(yù)測(cè)值就是4+3+2=9.和實(shí)際值10比較接近了浮毯。

tree

淺析

1)先看下前言說(shuō)的相加的數(shù)學(xué)公式。

equ1

q代表每棵樹的結(jié)構(gòu)演痒,通過(guò)它我們能知道每個(gè)樣本在每棵樹的位置。T是樹的葉子數(shù)趋惨。

2)然后我們看下目標(biāo)函數(shù)的形式

equ2

\hat{y} _{i} 是樣本i的預(yù)測(cè)值鸟顺,y_{i} 則是樣本i的實(shí)際值。w代表每個(gè)葉子節(jié)點(diǎn)的分?jǐn)?shù)。l(\hat{y} _{i} ,y_{i} )代表預(yù)測(cè)值與真實(shí)值的差異讯嫂。\Omega (f)作為懲罰項(xiàng)蹦锋,主要是降低模型的復(fù)雜度,避免過(guò)擬合欧芽。懲罰主要包含兩個(gè)方面莉掂,\gamma T表示更少的葉子數(shù),而||w||的平方項(xiàng)則希望更小的葉子節(jié)點(diǎn)分?jǐn)?shù)千扔。

3)我們先令\hat{y} _{i} =\hat{y}_{i}^{t-1}  +f_{t} (x_{i} ).其中\hat{y}_{i}^{t-1} 表示前t-1顆樹對(duì)樣本i的預(yù)測(cè)值之和憎妙,而f_{t} (x_{i} )表示第t棵樹對(duì)樣本i的預(yù)測(cè)值,然后對(duì)equ2進(jìn)行泰勒二階展開曲楚。

taylor

上式便是泰勒二階展開公式厘唾。equ2按照泰勒公式展開后如下

equ3

g_{i} 為一階導(dǎo)數(shù),h_{i} 為二階導(dǎo)數(shù)龙誊。仔細(xì)看equ2似乎和泰勒展開表達(dá)式不太一樣抚垃,可以把l(y_{i} ,\hat{y} _{i} ^{t-1} )當(dāng)成是f(x),\Delta x當(dāng)作是f_{t} (x_{i} ).

4)去掉常數(shù)項(xiàng)l(y_{i} ,\hat{y}_{i}^{t-1}   )---實(shí)際值和前t-1顆樹在第t輪都是已知的。然后把\Omega 代入趟大,得

equ4

其中j是葉子鹤树,I_{j} 是葉子j上所有的樣本集合。此時(shí)逊朽,我們可以求解目標(biāo)函數(shù)的最小值罕伯。令上式的導(dǎo)數(shù)為0,我們可以解得w_{j}^*  =? -\frac{\Sigma i\in I_{j}   g_{i}  }{\Sigma i\in I_{j} h_{i}+\lambda  } .代入equ4得

equ5

這是目標(biāo)函數(shù)的最小值惋耙。然而捣炬,需要注意的是,它依然是一個(gè)變量绽榛。因?yàn)闃涞慕Y(jié)構(gòu)未知湿酸。那么,能窮舉么灭美?似乎不太現(xiàn)實(shí)推溃。這時(shí)我們使用貪婪算法

5)我們首先將所有樣本置于一個(gè)葉子節(jié)點(diǎn)上,然后再對(duì)這個(gè)葉子節(jié)點(diǎn)進(jìn)行分裂届腐。然后不斷分裂铁坎,樹不斷生長(zhǎng)。然而犁苏,前面我們說(shuō)過(guò)\Omega 懲罰項(xiàng)不希望模型太過(guò)復(fù)雜硬萍。我們可以先計(jì)算下分裂帶來(lái)的目標(biāo)函數(shù)下降是多少

equ6

這個(gè)式子是分裂前的目標(biāo)函數(shù)減去分裂后的目標(biāo)函數(shù)。當(dāng)然围详,我們希望它是正數(shù)

6)上式的值同樣是未知的朴乖。問(wèn)題在于用哪個(gè)特征劃分祖屏?又用哪個(gè)特征值劃分?我們首先能想到的是精確算法买羞。遍歷每一個(gè)特征袁勺,遍歷每一個(gè)特征值,肯定能找出最佳分裂點(diǎn)畜普。這個(gè)計(jì)算量有點(diǎn)大期丰。于是又有近似算法。簡(jiǎn)單說(shuō)這時(shí)我們不再遍歷每一個(gè)特征值吃挑,而只是計(jì)算部分特征值钝荡,從中選取最優(yōu)分裂點(diǎn)(only? among? proposed splits)。如下所示

approximate

其中k代表各個(gè)特征儒鹿,s_{k1} ,s_{k2} 就是特征k上面的分割點(diǎn)化撕。然后計(jì)算各個(gè)區(qū)間段的G_{kv} ,H_{kv} .x_{jk} 便是特征k上的特征值。另外约炎,劃分分割點(diǎn)也有兩種不同的方法植阴,主要是根據(jù)劃分的時(shí)間點(diǎn)。global會(huì)在初始階段就把分割點(diǎn)確定好了圾浅,后面怎么分裂都是用這些分割點(diǎn)掠手。而local方法會(huì)在分裂后對(duì)這些分割點(diǎn)進(jìn)行調(diào)整,分割點(diǎn)不是固定的狸捕。通常global需要更多的分割點(diǎn)才能達(dá)到和local同樣的效果喷鸽。下面的圖形可以說(shuō)明精確算法、近似算法(global/local)的差異

split? finding

eps可以看成是特征分隔區(qū)間的倒數(shù)灸拍。圖中可以看出global方法如果只是把特征分成3個(gè)左右區(qū)間做祝,準(zhǔn)確率是不怎么高的。而local只需要3個(gè)鸡岗,global提升到20個(gè)混槐,就能媲美精確算法了。

7)如何處理缺失值轩性。xgboost對(duì)于缺失值声登,要么劃分到左子樹,要么劃分到右子樹揣苏。具體劃分到哪一邊是從訓(xùn)練數(shù)據(jù)中得到的悯嗓。首先我們把所有的樣本分到右子樹,然后從右子樹不斷把不缺失的樣本分到左子樹卸察,計(jì)算最大的分?jǐn)?shù)增加值脯厨。然后又把所有樣本分到左子樹,同樣操作坑质,計(jì)算最大的分?jǐn)?shù)增加值合武。如果分到右邊分?jǐn)?shù)增加的更多个少,則默認(rèn)方向就是右邊。以后測(cè)試時(shí)有缺失值到達(dá)這個(gè)節(jié)點(diǎn)時(shí)自動(dòng)分到右邊眯杏。原文算法如下

direction

I_{k} 是不含缺失值的集合。注意畫紅線的地方壳澳,先把缺失值劃分到右邊時(shí)岂贩,是按從小到大的順序把非缺失值劃分到左子樹的。而后面是從大到小排序巷波。這樣能加快計(jì)算速度

陳天奇博士論文:https://arxiv.org/pdf/1603.02754v1.pdf? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 陳天奇博士PPT:https://homes.cs.washington.edu/~tqchen/pdf/BoostedTree.pdf

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末萎津,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子抹镊,更是在濱河造成了極大的恐慌锉屈,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,919評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件垮耳,死亡現(xiàn)場(chǎng)離奇詭異颈渊,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)终佛,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,567評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門俊嗽,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人铃彰,你說(shuō)我怎么就攤上這事绍豁。” “怎么了牙捉?”我有些...
    開封第一講書人閱讀 163,316評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵竹揍,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我邪铲,道長(zhǎng)芬位,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,294評(píng)論 1 292
  • 正文 為了忘掉前任霜浴,我火速辦了婚禮晶衷,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘阴孟。我一直安慰自己晌纫,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,318評(píng)論 6 390
  • 文/花漫 我一把揭開白布永丝。 她就那樣靜靜地躺著锹漱,像睡著了一般。 火紅的嫁衣襯著肌膚如雪慕嚷。 梳的紋絲不亂的頭發(fā)上哥牍,一...
    開封第一講書人閱讀 51,245評(píng)論 1 299
  • 那天毕泌,我揣著相機(jī)與錄音,去河邊找鬼嗅辣。 笑死撼泛,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的澡谭。 我是一名探鬼主播愿题,決...
    沈念sama閱讀 40,120評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼蛙奖!你這毒婦竟也來(lái)了潘酗?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,964評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤雁仲,失蹤者是張志新(化名)和其女友劉穎仔夺,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體攒砖,經(jīng)...
    沈念sama閱讀 45,376評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡缸兔,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,592評(píng)論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了吹艇。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片灶体。...
    茶點(diǎn)故事閱讀 39,764評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖掐暮,靈堂內(nèi)的尸體忽然破棺而出蝎抽,到底是詐尸還是另有隱情,我是刑警寧澤路克,帶...
    沈念sama閱讀 35,460評(píng)論 5 344
  • 正文 年R本政府宣布樟结,位于F島的核電站,受9級(jí)特大地震影響精算,放射性物質(zhì)發(fā)生泄漏瓢宦。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,070評(píng)論 3 327
  • 文/蒙蒙 一灰羽、第九天 我趴在偏房一處隱蔽的房頂上張望驮履。 院中可真熱鬧,春花似錦廉嚼、人聲如沸玫镐。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,697評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)恐似。三九已至,卻和暖如春傍念,著一層夾襖步出監(jiān)牢的瞬間矫夷,已是汗流浹背葛闷。 一陣腳步聲響...
    開封第一講書人閱讀 32,846評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留双藕,地道東北人淑趾。 一個(gè)月前我還...
    沈念sama閱讀 47,819評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像忧陪,于是被迫代替她去往敵國(guó)和親治笨。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,665評(píng)論 2 354