評分卡模型開發(fā)-定量特征篩選

在模型開發(fā)中程腹,并不是所有的特征要全部篩選進模型,因為金融數(shù)據(jù)一般特征有很多焕数,如果全部放入模型纱昧,一方面可能會引起“維度災難”,另一方面得到的結(jié)果也許并不是最好的堡赔,因為有些特征之間的相關(guān)性較強识脆。所以我們有必要對特征進行一定程度的篩選.數(shù)據(jù)的話可以去評分卡模型開發(fā)-數(shù)據(jù)集缺失值處理下載

import pandas as pd
import os
os.chdir("C:\\Users\\Administrator\\OneDrive\\步履不停\\評分卡制作\\數(shù)據(jù)")
df = pd.read_csv(".\\GermanCredit.csv",index_col=0)
df.head()

#將違約樣本用"1"表示,正常樣本用0表示
import numpy as np
df['credit_risk'] = df['credit_risk'].apply(lambda x:np.where(x=='good',0,1))

#獲取定量指標
df.info()

continuous_vars = []
category_vars = []
for i in df.columns: 
    if df[i].dtype=='int64': #判斷條件依據(jù)df.info()的結(jié)果而定
        continuous_vars.append(i)
    else:
        category_vars.append(i) 

X = df.loc[:,continuous_vars[:-1]]
X.head()

y = df.loc[:,continuous_vars[-1]]
y.head()

至此善已,我們將數(shù)據(jù)源中的所有特征分為了定量和定性灼捂,接下來我們講講怎么在python中選取定量特征

  • 通過隨機森林判斷特征的重要性
from sklearn.ensemble import RandomForestClassifier
#無需對基于樹的模型做標準化或歸一化處理
forest = RandomForestClassifier(n_estimators=10000,random_state=0,n_jobs=-1)
forest.fit(X,y)
importances=forest.feature_importances_
importances

得到如下結(jié)果:

array([ 0.18996948,  0.34514053,  0.06920705,  0.07587584,  0.2470823 ,
        0.04564897,  0.02707582])

接下來我們利用numpy中argsort函數(shù)得到imoortances中從大到小排列的索引值,并根據(jù)索引值將每個特征的重要性值排列出來

indices=np.argsort(importances)[::-1]
feat_labels=X.columns
for f in range(X.shape[1]):
    print("%2d) %-*s %f " %(f+1,30,feat_labels[f],importances[indices[f]]))

得到如下結(jié)果:該結(jié)果是根據(jù)均值精度下降法得出來的

1) duration                       0.345141 
 2) amount                         0.247082 
 3) installment_rate               0.189969 
 4) present_residence              0.075876 
 5) age                            0.069207 
 6) number_credits                 0.045649 
 7) people_liable                  0.027076 

最后我們可以將其可視化:

import matplotlib.pyplot as plt
%matplotlib inline
plt.title('Feature Importances')
plt.bar(range(X.shape[1]),importances[indices],color='lightblue',align='center')
plt.xticks(range(X.shape[1]),feat_labels,rotation=90)
plt.xlim([-1,X.shape[1]])
plt.tight_layout()
1.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市换团,隨后出現(xiàn)的幾起案子悉稠,更是在濱河造成了極大的恐慌,老刑警劉巖艘包,帶你破解...
    沈念sama閱讀 211,884評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件的猛,死亡現(xiàn)場離奇詭異耀盗,居然都是意外死亡,警方通過查閱死者的電腦和手機卦尊,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,347評論 3 385
  • 文/潘曉璐 我一進店門叛拷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人岂却,你說我怎么就攤上這事忿薇。” “怎么了躏哩?”我有些...
    開封第一講書人閱讀 157,435評論 0 348
  • 文/不壞的土叔 我叫張陵署浩,是天一觀的道長。 經(jīng)常有香客問我扫尺,道長筋栋,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,509評論 1 284
  • 正文 為了忘掉前任器联,我火速辦了婚禮二汛,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘拨拓。我一直安慰自己肴颊,他們只是感情好,可當我...
    茶點故事閱讀 65,611評論 6 386
  • 文/花漫 我一把揭開白布渣磷。 她就那樣靜靜地躺著婿着,像睡著了一般。 火紅的嫁衣襯著肌膚如雪醋界。 梳的紋絲不亂的頭發(fā)上竟宋,一...
    開封第一講書人閱讀 49,837評論 1 290
  • 那天,我揣著相機與錄音形纺,去河邊找鬼丘侠。 笑死,一個胖子當著我的面吹牛逐样,可吹牛的內(nèi)容都是我干的蜗字。 我是一名探鬼主播,決...
    沈念sama閱讀 38,987評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼脂新,長吁一口氣:“原來是場噩夢啊……” “哼挪捕!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起争便,我...
    開封第一講書人閱讀 37,730評論 0 267
  • 序言:老撾萬榮一對情侶失蹤级零,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后滞乙,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體奏纪,經(jīng)...
    沈念sama閱讀 44,194評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡鉴嗤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,525評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了序调。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片躬窜。...
    茶點故事閱讀 38,664評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖炕置,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情男韧,我是刑警寧澤朴摊,帶...
    沈念sama閱讀 34,334評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站此虑,受9級特大地震影響甚纲,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜朦前,卻給世界環(huán)境...
    茶點故事閱讀 39,944評論 3 313
  • 文/蒙蒙 一介杆、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧韭寸,春花似錦春哨、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,764評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至晶渠,卻和暖如春凰荚,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背褒脯。 一陣腳步聲響...
    開封第一講書人閱讀 31,997評論 1 266
  • 我被黑心中介騙來泰國打工便瑟, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人番川。 一個月前我還...
    沈念sama閱讀 46,389評論 2 360
  • 正文 我出身青樓到涂,卻偏偏與公主長得像,于是被迫代替她去往敵國和親爽彤。 傳聞我的和親對象是個殘疾皇子养盗,可洞房花燭夜當晚...
    茶點故事閱讀 43,554評論 2 349

推薦閱讀更多精彩內(nèi)容