XGboost分類算法文章、參數(shù)

https://blog.csdn.net/weixin_41580067/article/details/86220782
關(guān)于分類算法我看過最好的一篇文章了

  • 對(duì)于缺失值污它,xgboost將其劃分為左子樹和右子樹驯用,然后比較左子樹和右子樹的score,取最大的score為缺失值劃分方向

參數(shù)

一般參數(shù)

(1) booster [default=gbtree]骂删,助推器[默認(rèn)gbtree]
選擇要在每次迭代時(shí)運(yùn)行的模型類型掌动。它有2個(gè)選項(xiàng):
gbtree:基于樹的模型,gblinear:線性模型

(2)silent [default=0]宁玫,無聲模式[default = 0]:
靜音模式激活設(shè)置為1粗恢,即不會(huì)打印正在運(yùn)行的消息。
取0時(shí)表示打印出運(yùn)行時(shí)信息欧瘪,有助于理解模型眷射。

(3)nthread [默認(rèn)為未設(shè)置的最大線程數(shù)]
運(yùn)行時(shí)的線程數(shù)(并行處理)。缺省值是當(dāng)前系統(tǒng)可以獲得的最大線程數(shù)

(4)num_pbuffer:預(yù)測緩沖區(qū)大小佛掖,通常設(shè)置為訓(xùn)練實(shí)例的數(shù)目妖碉。緩沖用于保存最后一步的預(yù)測結(jié)果,無需人為設(shè)置芥被。

(5)num_feature:Boosting過程中用到的特征維數(shù)喜命,設(shè)置為特征個(gè)數(shù)贤重。XGBoost會(huì)自動(dòng)設(shè)置拗馒,無需人為設(shè)置崖飘。

助推器參數(shù)

  1. max_depth [default=6] :樹的最大深度,缺省值為6 匹中,取值范圍為:[1,∞]蚀狰。用于控制過擬合,因?yàn)楦叩纳疃葘⒃试S模型學(xué)習(xí)特定于特定樣本的關(guān)系职员,需要使用CV函數(shù)來進(jìn)行調(diào)優(yōu)麻蹋,典型值:3-10
    max_leaf_nodes:樹中終端節(jié)點(diǎn)或葉子的最大數(shù)量,可以代替max_depth焊切。

  2. gamma [default=0] :Gamma指定節(jié)點(diǎn)分裂所需的最小損失函數(shù)下降值扮授。 這個(gè)參數(shù)的值越大,算法越保守专肪,該值可能會(huì)根據(jù)損失函數(shù)而有所不同刹勃,因此應(yīng)進(jìn)行調(diào)整。 取值范圍為:[0,∞]

  3. eta [default=0.3] :為了防止過擬合嚎尤,更新過程中用到的收縮步長荔仁。在每次提升計(jì)算之后,算法會(huì)直接獲得新特征的權(quán)重。 eta通過縮減特征的權(quán)重使提升計(jì)算過程更加保守乏梁,使模型更健壯次洼。缺省值為0.3 ,取值范圍為:[0,1]

  4. min_child_weight [default=1] :子節(jié)點(diǎn)最小樣本權(quán)重和遇骑。如果一個(gè)葉子節(jié)點(diǎn)的樣本權(quán)重和小于min_child_weight卖毁,則拆分過程結(jié)束。在線性回歸模型中落萎,該參數(shù)是指建立每個(gè)模型所需要的最小樣本數(shù)亥啦。可用于避免過擬合练链,值較大時(shí)可以避免模型學(xué)習(xí)到局部的特殊樣本翔脱,但值過高時(shí)會(huì)導(dǎo)致欠擬合∶焦模可用CV來調(diào)整碍侦,范圍:[0,∞]

助推器參數(shù)

  1. subsample [default=1] :用于訓(xùn)練模型的子樣本占整個(gè)樣本集合的比例,能夠防止過擬合隶糕,取值范圍為:(0,1]

  2. colsample_bytree [default=1] :在建立樹時(shí)對(duì)特征采樣的比例,缺省值為1 站玄,取值范圍為:(0,1]

  3. Linear Booster參數(shù):

alpha [default=0] :L1 正則的懲罰系數(shù)

lambda [default=0] :L2 正則的懲罰系數(shù)

lambda_bias :在偏置上的L2正則枚驻。缺省值為0

學(xué)習(xí)任務(wù)參數(shù)

  1. objective [ default=reg:linear ]
    定義學(xué)習(xí)任務(wù)及相應(yīng)的學(xué)習(xí)目標(biāo),可選的目標(biāo)函數(shù)如下:

reg:linear —— 線性回歸株旷。
reg:logistic—— 邏輯回歸再登。
binary:logistic—— 二分類的邏輯回歸問題,輸出為概率晾剖。
binary:logitraw—— 二分類的邏輯回歸問題锉矢,輸出的結(jié)果為wTx。
count:poisson—— 計(jì)數(shù)問題的poisson回歸齿尽,輸出結(jié)果為poisson分布沽损。
multi:softmax——讓XGBoost采用softmax目標(biāo)函數(shù)處理多分類問題,同時(shí)需要設(shè)置參 數(shù)num_class(類別個(gè)數(shù))
multi:softprob ——和softmax一樣循头,輸出的是ndata * nclass的向量绵估,可以將該向量reshape成 ndata行nclass列的矩陣。每行數(shù)據(jù)表示樣本所屬于每個(gè)類別的概率卡骂。
rank:pairwise——set XGBoost to do ranking task by minimizing the pairwise loss

  1. eval_metric [ default according to objective ]
    校驗(yàn)數(shù)據(jù)所需要的評(píng)價(jià)指標(biāo)国裳,不同的目標(biāo)函數(shù)將會(huì)有缺省的評(píng)價(jià)指標(biāo)
    (rmse for regression, and error for classification, mean average precision for ranking)
    用戶可以添加多種評(píng)價(jià)指標(biāo),可供的選擇如下:

rmse 均方根誤差
mae 平均絕對(duì)誤差
logloss 負(fù)對(duì)數(shù)似然函數(shù)值
error 二分類錯(cuò)誤率(閾值為0.5)
merror 多分類錯(cuò)誤率
mlogloss 多分類logloss損失函數(shù)
auc 曲線下面積

  1. seed [ default=0 ] 隨機(jī)數(shù)的種子全跨。缺省值為0

關(guān)于base_score:
base_score就是總體的均值缝左,對(duì)于二元分類問題,base_score就是1占據(jù)的比重;對(duì)于回歸問題渺杉,base_score就是整體的均值蛇数。

如果樣本有權(quán)重,base_score就應(yīng)該設(shè)置為加權(quán)均值少办。

base_score相當(dāng)于是迭代的初始的起點(diǎn)苞慢,如果設(shè)置base_score的話,并且設(shè)置為總體均值的話英妓,應(yīng)該能夠起到加快收斂的效果挽放,但是即使沒有設(shè)置base_score,只要Learning rate適當(dāng)蔓纠,迭代步數(shù)夠多辑畦,設(shè)置base_score與否也不影響最終結(jié)果。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末腿倚,一起剝皮案震驚了整個(gè)濱河市纯出,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌敷燎,老刑警劉巖暂筝,帶你破解...
    沈念sama閱讀 216,591評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異硬贯,居然都是意外死亡焕襟,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,448評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門饭豹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來鸵赖,“玉大人,你說我怎么就攤上這事拄衰∷剩” “怎么了?”我有些...
    開封第一講書人閱讀 162,823評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵翘悉,是天一觀的道長茫打。 經(jīng)常有香客問我,道長妖混,這世上最難降的妖魔是什么包吝? 我笑而不...
    開封第一講書人閱讀 58,204評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮源葫,結(jié)果婚禮上诗越,老公的妹妹穿的比我還像新娘。我一直安慰自己息堂,他們只是感情好嚷狞,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,228評(píng)論 6 388
  • 文/花漫 我一把揭開白布块促。 她就那樣靜靜地躺著,像睡著了一般床未。 火紅的嫁衣襯著肌膚如雪竭翠。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,190評(píng)論 1 299
  • 那天薇搁,我揣著相機(jī)與錄音斋扰,去河邊找鬼。 笑死啃洋,一個(gè)胖子當(dāng)著我的面吹牛传货,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播宏娄,決...
    沈念sama閱讀 40,078評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼问裕,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了孵坚?” 一聲冷哼從身側(cè)響起粮宛,我...
    開封第一講書人閱讀 38,923評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎卖宠,沒想到半個(gè)月后巍杈,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,334評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡扛伍,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,550評(píng)論 2 333
  • 正文 我和宋清朗相戀三年筷畦,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蜒秤。...
    茶點(diǎn)故事閱讀 39,727評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖亚斋,靈堂內(nèi)的尸體忽然破棺而出作媚,到底是詐尸還是另有隱情,我是刑警寧澤帅刊,帶...
    沈念sama閱讀 35,428評(píng)論 5 343
  • 正文 年R本政府宣布纸泡,位于F島的核電站,受9級(jí)特大地震影響赖瞒,放射性物質(zhì)發(fā)生泄漏女揭。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,022評(píng)論 3 326
  • 文/蒙蒙 一栏饮、第九天 我趴在偏房一處隱蔽的房頂上張望吧兔。 院中可真熱鬧,春花似錦袍嬉、人聲如沸境蔼。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,672評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽箍土。三九已至逢享,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間吴藻,已是汗流浹背瞒爬。 一陣腳步聲響...
    開封第一講書人閱讀 32,826評(píng)論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留沟堡,地道東北人侧但。 一個(gè)月前我還...
    沈念sama閱讀 47,734評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像弦叶,于是被迫代替她去往敵國和親俊犯。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,619評(píng)論 2 354