xgboost論文

陳天奇xgb論文
算法部分:
提升樹方面:
1.受正則貪心森林(RGF)的啟發(fā)在損失中引入了l2正則項和葉節(jié)點個數(shù)來控制模型的復(fù)雜度從而防止過擬合吏口。(RGF中的正則項會隨著節(jié)點變深而加大懲罰力度與xgb不同)其中xgb的正則項權(quán)重對應(yīng)參數(shù)中的lambda,節(jié)點數(shù)權(quán)重對應(yīng)gamma成艘。
2.xgb在損失優(yōu)化時的原理:通過對損失函數(shù)進行二階展開憋他,將以前的多次迭代結(jié)果和當(dāng)前樹區(qū)分開诗良,從而在一次迭代中只需優(yōu)化與當(dāng)前樹相關(guān)的損失部分嚷兔。并且將損失簡化為了二次函數(shù),來簡化計算趾娃。每次構(gòu)建樹時,選取使損失減少最多的點作為分裂點缔御。
3.權(quán)值收縮和列采樣:權(quán)值收縮率可理解為學(xué)習(xí)時的步長抬闷,每生成一個樹就在樹的前面乘上一個收縮系數(shù)eta 列采樣:(在隨機森林中使用)是指在生成一棵樹進行節(jié)點分裂時選取隨機特征集合來進行分裂,最后得到的最優(yōu)分割點來自于該隨機特征集合耕突。
分裂查找算法:
1.精確貪心算法:遍歷每個特征以及特征中所有的分裂點笤成,從而精確的找出使loss減少最多的分裂點。O(n2)的復(fù)雜度(代碼中通過EnumerateSplit函數(shù)進行遍歷再利用ComputeSplitscore獲取評分)
2.近似分裂算法:利用分位點對原來對特征進行分桶眷茁,對分位點進行評估找出使loss減少最多的點炕泳。O(n)的復(fù)雜度。這種分法有兩種實現(xiàn)方式上祈,一種是global分割培遵,在開始時就把所有特征中的待選點分桶。另一種是loacl分割登刺,在每次進行分割時都要進行分桶籽腕。gloabl算法需要分出更多的侯選點,來保證精度塘砸,而local算法不用节仿。
3.加權(quán)分位圖:在對損失函數(shù)式進行變形之后發(fā)現(xiàn),特征點關(guān)于損失函數(shù)的二階梯度的值可以被單獨提出來作為系數(shù)掉蔬,(我目前的理解是這樣可以看作增益以hi為單位進行增長所以用hi作為權(quán)重)廊宪。
4.稀疏感知分裂查找:由于應(yīng)用中的特征有比較強的稀疏性,對于那些缺省值女轿。在進行分裂時直接將為缺省值的點單獨拿出來箭启,最后統(tǒng)一分在一邊,這樣就不再對缺省點進行遍歷分裂從而提高了算法的效率蛉迹,具體是放在左分支還是右分支要計算增益來決定傅寡。
系統(tǒng)設(shè)計部分:
1.可并行學(xué)習(xí)的特征塊:在進行訓(xùn)練之前先將特征值排序并存儲在block中,以減少排序的耗時北救。在尋找分裂點時在不同的block中對不同的特征進行并行計算荐操。對于貪婪分裂法,一個block就對應(yīng)一個特征中的所有數(shù)據(jù)珍策。對于分布式計算托启,可將某列數(shù)據(jù)分成多個塊分別存儲在不同的地方,并且可以通過不同的機器對某列進行線性掃描攘宙。
2.緩存感知訪問:由于需要對特征所對應(yīng)的梯度值進行順序訪問屯耸,但是梯度是按照example的index存儲的,因而不是連續(xù)的內(nèi)存訪問這樣會導(dǎo)致緩存的命中率低從而降速蹭劈。在精確貪婪分割中xgboost中采用了預(yù)取的方式疗绣,在每個線程中設(shè)置了緩沖,小批量地把相應(yīng)的梯度數(shù)據(jù)放在緩沖當(dāng)中這樣就把不連續(xù)的數(shù)據(jù)變成了連續(xù)數(shù)據(jù)(這部分的實現(xiàn)在分裂查找的代碼中有體現(xiàn))铺韧。在近似分裂方法中通過選取合適的block size從而找到存取和運行效率之間的平衡多矮。
3.塊的核外計算:在數(shù)據(jù)量大的情況下,需要在運算的同時對磁盤數(shù)據(jù)進行讀取哈打,為了加快讀取速度采用了壓縮算法對數(shù)據(jù)進行壓縮工窍,在讀取時用專門對線程進行解壓。另一種方式是用多個磁盤進行數(shù)據(jù)預(yù)取前酿,并將他們存入內(nèi)存中對緩沖區(qū)患雏。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市罢维,隨后出現(xiàn)的幾起案子淹仑,更是在濱河造成了極大的恐慌,老刑警劉巖肺孵,帶你破解...
    沈念sama閱讀 219,589評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件匀借,死亡現(xiàn)場離奇詭異,居然都是意外死亡平窘,警方通過查閱死者的電腦和手機吓肋,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,615評論 3 396
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來瑰艘,“玉大人是鬼,你說我怎么就攤上這事肤舞。” “怎么了均蜜?”我有些...
    開封第一講書人閱讀 165,933評論 0 356
  • 文/不壞的土叔 我叫張陵李剖,是天一觀的道長。 經(jīng)常有香客問我囤耳,道長篙顺,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,976評論 1 295
  • 正文 為了忘掉前任充择,我火速辦了婚禮德玫,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘椎麦。我一直安慰自己宰僧,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,999評論 6 393
  • 文/花漫 我一把揭開白布铃剔。 她就那樣靜靜地躺著撒桨,像睡著了一般。 火紅的嫁衣襯著肌膚如雪键兜。 梳的紋絲不亂的頭發(fā)上凤类,一...
    開封第一講書人閱讀 51,775評論 1 307
  • 那天,我揣著相機與錄音普气,去河邊找鬼谜疤。 笑死,一個胖子當(dāng)著我的面吹牛现诀,可吹牛的內(nèi)容都是我干的夷磕。 我是一名探鬼主播,決...
    沈念sama閱讀 40,474評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼仔沿,長吁一口氣:“原來是場噩夢啊……” “哼坐桩!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起封锉,我...
    開封第一講書人閱讀 39,359評論 0 276
  • 序言:老撾萬榮一對情侶失蹤绵跷,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后成福,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體碾局,經(jīng)...
    沈念sama閱讀 45,854評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,007評論 3 338
  • 正文 我和宋清朗相戀三年奴艾,在試婚紗的時候發(fā)現(xiàn)自己被綠了净当。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,146評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖像啼,靈堂內(nèi)的尸體忽然破棺而出俘闯,到底是詐尸還是另有隱情,我是刑警寧澤埋合,帶...
    沈念sama閱讀 35,826評論 5 346
  • 正文 年R本政府宣布备徐,位于F島的核電站萄传,受9級特大地震影響甚颂,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜秀菱,卻給世界環(huán)境...
    茶點故事閱讀 41,484評論 3 331
  • 文/蒙蒙 一振诬、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧衍菱,春花似錦赶么、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,029評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至琼锋,卻和暖如春放闺,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背缕坎。 一陣腳步聲響...
    開封第一講書人閱讀 33,153評論 1 272
  • 我被黑心中介騙來泰國打工怖侦, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人谜叹。 一個月前我還...
    沈念sama閱讀 48,420評論 3 373
  • 正文 我出身青樓匾寝,卻偏偏與公主長得像,于是被迫代替她去往敵國和親荷腊。 傳聞我的和親對象是個殘疾皇子艳悔,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,107評論 2 356