xgboost特征重要性指標(biāo): weight, gain, cover

官方解釋
Python中的xgboost可以通過get_fscore獲取特征重要性,先看看官方對于這個方法的說明:

get_score(fmap=’’, importance_type=‘weight’)

Get feature importance of each feature. Importance type can be defined as:
‘weight’: the number of times a feature is used to split the data across all trees.
‘gain’: the average gain across all splits the feature is used in.
‘cover’: the average coverage across all splits the feature is used in.
‘total_gain’: the total gain across all splits the feature is used in.
‘total_cover’: the total coverage across all splits the feature is used in.

看釋義不直觀,下面通過訓(xùn)練一個簡單的模型,輸出這些重要性指標(biāo),再結(jié)合釋義進(jìn)行解釋米奸。
代碼實踐
首先構(gòu)造10個樣例的樣本,每個樣例有兩維特征,標(biāo)簽為0或1步绸,二分類問題:

import numpy as np

sample_num = 10
feature_num = 2

np.random.seed(0)
data = np.random.randn(sample_num, feature_num)
np.random.seed(0)
label = np.random.randint(0, 2, sample_num)

輸出data和label:

array([[ 1.76405235,  0.40015721],
       [ 0.97873798,  2.2408932 ],
       [ 1.86755799, -0.97727788],
       [ 0.95008842, -0.15135721],
       [-0.10321885,  0.4105985 ],
       [ 0.14404357,  1.45427351],
       [ 0.76103773,  0.12167502],
       [ 0.44386323,  0.33367433],
       [ 1.49407907, -0.20515826],
       [ 0.3130677 , -0.85409574]])
# label:
array([0, 1, 1, 0, 1, 1, 1, 1, 1, 1])

訓(xùn)練,這里為了便于下面計算吃媒,將樹深度設(shè)為3(‘max_depth’: 3)瓤介,只用一棵樹(num_boost_round=1):

import xgboost as xgb

train_data = xgb.DMatrix(data, label=label)
params = {'max_depth': 3}
bst = xgb.train(params, train_data, num_boost_round=1)

輸出重要性指標(biāo):

for importance_type in ('weight', 'gain', 'cover', 'total_gain', 'total_cover'):
    print('%s: ' % importance_type, bst.get_score(importance_type=importance_type))

結(jié)果:

weight:  {'f0': 1, 'f1': 2}
gain:  {'f0': 0.265151441, 'f1': 0.375000015}
cover:  {'f0': 10.0, 'f1': 4.0}
total_gain:  {'f0': 0.265151441, 'f1': 0.75000003}
total_cover:  {'f0': 10.0, 'f1': 8.0}

畫出唯一的一棵樹圖:

xgb.to_graphviz(bst, num_trees=0)

下面就結(jié)合這張圖,解釋下各指標(biāo)含義:

weight: {‘f0’: 1, ‘f1’: 2}
在所有樹中赘那,某特征被用來分裂節(jié)點的次數(shù)惑朦,在本例中,可見分裂第1個節(jié)點時用到f0漓概,分裂第2漾月,3個節(jié)點時用到f1,所以weight_f0 = 1, weight_f1 = 2胃珍。
total_cover: {‘f0’: 10.0, ‘f1’: 8.0}
第1個節(jié)點梁肿,f0被用來對所有10個樣例進(jìn)行分裂蜓陌,之后的節(jié)點中f0沒再被用到,所以f0的total_cover為10.0吩蔑,此時f0 >= 0.855563045的樣例有5個钮热,落入右子樹;
第2個節(jié)點烛芬,f1被用來對上面落入右子樹的5個樣例進(jìn)行分裂隧期,其中f1 >= -0.178257734的樣例有3個,落入右子樹赘娄;
第3個節(jié)點仆潮,f1被用來對上面落入右子樹的3個樣例進(jìn)行分裂。
總結(jié)起來遣臼,f0在第1個節(jié)點分裂了10個樣例性置,所以total_cover_f0 = 10,f1在第2揍堰、3個節(jié)點分別用于分裂5鹏浅、3個樣例,所以total_cover_f1 = 5 + 3 = 8屏歹。total_cover表示在所有樹中隐砸,某特征在每次分裂節(jié)點時處理(覆蓋)的所有樣例的數(shù)量。
cover: {‘f0’: 10.0, ‘f1’: 4.0}
cover = total_cover / weight蝙眶,在本例中季希,cover_f0 = 10 / 1,cover_f1 = 8 / 2 = 4.
total_gain: {‘f0’: 0.265151441, ‘f1’: 0.75000003}
在所有樹中械馆,某特征在每次分裂節(jié)點時帶來的總增益胖眷,如果用熵或基尼不純衡量分裂前后的信息量分別為i0和i1,則增益為(i0 - i1)霹崎。
gain: {‘f0’: 0.265151441, ‘f1’: 0.375000015}
gain = total_gain / weight珊搀,在本例中,gain_f0 = 0.265151441 / 1尾菇,gain_f1 = 75000003 / 2 = 375000015.
在平時的使用中境析,多用total_gain來對特征重要性進(jìn)行排序。

構(gòu)造xgboost分類器還有另外一種方式派诬,這種方式類似于sklearn中的分類器劳淆,采用fit, transform形式訓(xùn)練模型:

from xgboost import XGBClassifier

cls = XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
       colsample_bytree=1, gamma=0, learning_rate=0.07, max_delta_step=0,
       max_depth=3, min_child_weight=1, missing=None, n_estimators=300,
       n_jobs=1, nthread=None, objective='binary:logistic', random_state=0,
       reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=None,
       silent=True, subsample=1)
# 訓(xùn)練模型
# cls.fit(data, label)

采用下面的方式獲取特征重要性指標(biāo):

for importance_type in ('weight', 'gain', 'cover', 'total_gain', 'total_cover'):
    print('%s: ' % importance_type, cls.get_booster().get_score(importance_type=importance_type))
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市默赂,隨后出現(xiàn)的幾起案子沛鸵,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,402評論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件曲掰,死亡現(xiàn)場離奇詭異疾捍,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)栏妖,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評論 3 392
  • 文/潘曉璐 我一進(jìn)店門乱豆,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人吊趾,你說我怎么就攤上這事宛裕。” “怎么了论泛?”我有些...
    開封第一講書人閱讀 162,483評論 0 353
  • 文/不壞的土叔 我叫張陵揩尸,是天一觀的道長。 經(jīng)常有香客問我孵奶,道長疲酌,這世上最難降的妖魔是什么蜡峰? 我笑而不...
    開封第一講書人閱讀 58,165評論 1 292
  • 正文 為了忘掉前任了袁,我火速辦了婚禮,結(jié)果婚禮上湿颅,老公的妹妹穿的比我還像新娘载绿。我一直安慰自己,他們只是感情好油航,可當(dāng)我...
    茶點故事閱讀 67,176評論 6 388
  • 文/花漫 我一把揭開白布崭庸。 她就那樣靜靜地躺著,像睡著了一般谊囚。 火紅的嫁衣襯著肌膚如雪怕享。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,146評論 1 297
  • 那天镰踏,我揣著相機(jī)與錄音函筋,去河邊找鬼。 笑死奠伪,一個胖子當(dāng)著我的面吹牛跌帐,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播绊率,決...
    沈念sama閱讀 40,032評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼谨敛,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了滤否?” 一聲冷哼從身側(cè)響起脸狸,我...
    開封第一講書人閱讀 38,896評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎藐俺,沒想到半個月后炊甲,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體盯仪,經(jīng)...
    沈念sama閱讀 45,311評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,536評論 2 332
  • 正文 我和宋清朗相戀三年蜜葱,在試婚紗的時候發(fā)現(xiàn)自己被綠了全景。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,696評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡牵囤,死狀恐怖爸黄,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情揭鳞,我是刑警寧澤炕贵,帶...
    沈念sama閱讀 35,413評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站野崇,受9級特大地震影響称开,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜乓梨,卻給世界環(huán)境...
    茶點故事閱讀 41,008評論 3 325
  • 文/蒙蒙 一鳖轰、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧扶镀,春花似錦蕴侣、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至蝠筑,卻和暖如春狞膘,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背什乙。 一陣腳步聲響...
    開封第一講書人閱讀 32,815評論 1 269
  • 我被黑心中介騙來泰國打工挽封, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人稳强。 一個月前我還...
    沈念sama閱讀 47,698評論 2 368
  • 正文 我出身青樓场仲,卻偏偏與公主長得像,于是被迫代替她去往敵國和親退疫。 傳聞我的和親對象是個殘疾皇子渠缕,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,592評論 2 353