信用評(píng)分卡的初級(jí)探索及疑問

對(duì)于整體情況的評(píng)分常用的方法有層次分析法祭饭,模糊分析法芜茵。
近期發(fā)現(xiàn)金融行業(yè)常用的評(píng)分卡模型,經(jīng)過初步探索以后有了一定的理解倡蝙,同時(shí)也存在一些待解決的疑問九串。

一、有監(jiān)督數(shù)據(jù)

評(píng)分卡模型是有監(jiān)督的打分模型寺鸥,所以訓(xùn)練模型的數(shù)據(jù)集需要包含特征和二分類標(biāo)簽猪钮。以GiveMeSomeCredit數(shù)據(jù)集為例,第一列target為我們的目標(biāo)標(biāo)簽胆建,1表示存在違約烤低,0表示無(wú)違約情況。


.

二笆载、特征提取

特征之間不宜存在強(qiáng)的相關(guān)關(guān)系扑馁,否則會(huì)影響算法的結(jié)果。
并不是所有特征都對(duì)target起重要作用的宰译,通過計(jì)算IV值判斷每個(gè)特征的影響權(quán)重檐蚜。
評(píng)分卡算法有三個(gè)關(guān)鍵詞:分箱、WOE沿侈、IV

2.1 分箱

分箱就是把每個(gè)特征劃分為幾個(gè)等級(jí)闯第。比如年齡特征經(jīng)過分箱以后為20-30、31-50缀拭、51-70咳短、71-100五類填帽。
分箱的目的是為了使模型更加穩(wěn)定。
分箱的方法分為有監(jiān)督分箱(卡方分箱咙好、cart分箱等)和無(wú)監(jiān)督分箱(等距劃分篡腌、等頻劃分)兩種,有監(jiān)督分箱效果會(huì)更好勾效。

2.2嘹悼、WOE證據(jù)權(quán)重

2.3 IV信息價(jià)值

2.4、計(jì)算案例

以年齡這一特征為例层宫,對(duì)年齡采用等頻分箱后杨伙,分為九個(gè)等級(jí):21-33、34-39萌腿、40-45限匣、46-49、50-53毁菱、...米死,代入公式計(jì)算出每個(gè)層級(jí)的WOE,基于WOE計(jì)算出特征的IV值贮庞。

2.5峦筒、特征價(jià)值

顯然有些特征對(duì)target的影響程度不高,不必作為模型訓(xùn)練參數(shù)贸伐,可以刪除勘天。


.

三怔揩、邏輯回歸

把符合IV條件的特征的WOE值作為模型訓(xùn)練數(shù)據(jù)捉邢,target為目標(biāo)值,訓(xùn)練邏輯回歸模型商膊。


特征
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
x = train_X.drop('target',axis = 1)
y = train_X['target']
train_x,test_x,train_y,test_y = train_test_split(x,y,test_size = 0.3,random_state = 0)
train = pd.concat([train_y,train_x], axis =1)
test = pd.concat([test_y,test_x], axis =1)
train = train.reset_index(drop=True)
test = test.reset_index(drop=True)
lr = LogisticRegression(penalty= 'l1')
lr.fit(train_x,train_y)

回歸模型驗(yàn)證的AUC值為0.83伏伐,效果還是不錯(cuò)的,標(biāo)明這些特征能夠比較好的預(yù)測(cè)target的值晕拆。

ROC驗(yàn)證

.

四藐翎、得分計(jì)算

4.1、得分計(jì)算原理

4.2实幕、PDO和P0的定義

計(jì)算score的前提是需要自定義PDO和P0的值吝镣,這個(gè)值定義的依據(jù)是什么?應(yīng)該如何科學(xué)的定義昆庇?(還不知道)

def cal_base(pdo, p0, lr):
    B = pdo / math.log(2)
    A = p0 - B / math.log(pdo)
    base = round(A + B * lr.intercept_[0], 0)
    print('base',base)

以下為PDO=100末贾,600,700整吆,800拱撵,900辉川,1000;P0=5乓旗,10,20對(duì)應(yīng)的基礎(chǔ)得分集索。

4.4屿愚、計(jì)算每個(gè)變量每個(gè)等級(jí)的分值

#計(jì)算分值函數(shù)
def compute_score(coe, woe, factor):
    scores = []
    for w in woe:
        score = round(coe * w * factor, 0)
        scores.append(score)
    return scores

當(dāng)設(shè)置PDO的值為20、p0為600务荆,可以計(jì)算出A,B值渺鹦,同時(shí)推出基礎(chǔ)分A+BW0為: 314.0,計(jì)算出的評(píng)分卡分值如下:

五個(gè)特征及對(duì)應(yīng)分組的分值

當(dāng)有新的人員數(shù)據(jù)生成是蛹含,可根據(jù)評(píng)分卡判斷新成員的得分毅厚。以某一批新成員數(shù)據(jù)為例,經(jīng)該評(píng)分卡判斷后浦箱,這批成員的最高得分為604.0吸耿,最低得分為429.0(基礎(chǔ)分314)

新成員得分分布

五、問題小結(jié)

1酷窥、PDO咽安、p0是隨便設(shè)置的嗎?
2蓬推、怎么設(shè)置閾值妆棒,超過這個(gè)閾值就接受,不超過就不接受借貸服務(wù)沸伏。
3糕珊、不同的分箱手段帶來(lái)的AUC值的變動(dòng)

參考資料

[1]數(shù)據(jù)集來(lái)源于kaggle平臺(tái):https://www.kaggle.com/c/GiveMeSomeCredit/data
[2]參考代碼(學(xué)習(xí)資源):https://github.com/htbeker/Application_score_card/blob/master/appliaction_score_card.py
[3]分箱的優(yōu)點(diǎn) https://blog.csdn.net/hxcaifly/article/details/80203663
[4]評(píng)分卡理論 https://blog.csdn.net/sscc_learning/article/details/78591210

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市毅糟,隨后出現(xiàn)的幾起案子红选,更是在濱河造成了極大的恐慌,老刑警劉巖姆另,帶你破解...
    沈念sama閱讀 206,378評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件喇肋,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡迹辐,警方通過查閱死者的電腦和手機(jī)蝶防,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)明吩,“玉大人间学,你說我怎么就攤上這事。” “怎么了菱鸥?”我有些...
    開封第一講書人閱讀 152,702評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵宗兼,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我氮采,道長(zhǎng)殷绍,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,259評(píng)論 1 279
  • 正文 為了忘掉前任鹊漠,我火速辦了婚禮主到,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘躯概。我一直安慰自己登钥,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評(píng)論 5 371
  • 文/花漫 我一把揭開白布娶靡。 她就那樣靜靜地躺著牧牢,像睡著了一般。 火紅的嫁衣襯著肌膚如雪姿锭。 梳的紋絲不亂的頭發(fā)上塔鳍,一...
    開封第一講書人閱讀 49,036評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音呻此,去河邊找鬼轮纫。 笑死,一個(gè)胖子當(dāng)著我的面吹牛焚鲜,可吹牛的內(nèi)容都是我干的掌唾。 我是一名探鬼主播,決...
    沈念sama閱讀 38,349評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼忿磅,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼糯彬!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起贝乎,我...
    開封第一講書人閱讀 36,979評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤情连,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后览效,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,469評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡虫几,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評(píng)論 2 323
  • 正文 我和宋清朗相戀三年锤灿,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片辆脸。...
    茶點(diǎn)故事閱讀 38,059評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡但校,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出啡氢,到底是詐尸還是另有隱情状囱,我是刑警寧澤术裸,帶...
    沈念sama閱讀 33,703評(píng)論 4 323
  • 正文 年R本政府宣布,位于F島的核電站亭枷,受9級(jí)特大地震影響袭艺,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜叨粘,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評(píng)論 3 307
  • 文/蒙蒙 一猾编、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧升敲,春花似錦答倡、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至港庄,卻和暖如春设江,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背攘轩。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工叉存, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人度帮。 一個(gè)月前我還...
    沈念sama閱讀 45,501評(píng)論 2 354
  • 正文 我出身青樓歼捏,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親笨篷。 傳聞我的和親對(duì)象是個(gè)殘疾皇子瞳秽,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 信用風(fēng)險(xiǎn)計(jì)量體系包括主體評(píng)級(jí)模型和債項(xiàng)評(píng)級(jí)兩部分。主體評(píng)級(jí)和債項(xiàng)評(píng)級(jí)均有一系列評(píng)級(jí)模型組成率翅,其中主體評(píng)級(jí)模型可用“...
    YoLean閱讀 101,400評(píng)論 34 153
  • 早上工作后练俐,健身房后,持續(xù)工作室 果然昨天不等93是對(duì)的冕臭。惡心的113
    DeathKnightR閱讀 127評(píng)論 0 0
  • 真正的喜歡過四個(gè)男人 第一個(gè) 那是愛 第二個(gè) 是戀愛 第三個(gè) 是約定 第四個(gè) 是不舍
    Healer_e8b3閱讀 212評(píng)論 0 0
  • 2017年3月20日腺晾,開始混跡“簡(jiǎn)書”,隨筆紀(jì)念一下辜贵。
    mikeliuy閱讀 112評(píng)論 0 0
  • 臨近零點(diǎn)時(shí)悯蝉,縱然知道這個(gè)特殊的時(shí)刻即到來(lái),但卻因?yàn)槌撩杂诰W(wǎng)上的搞笑段子而赤果果錯(cuò)過了托慨。直到朋友圈被無(wú)數(shù)新年倒計(jì)...
    Morninghere閱讀 221評(píng)論 0 1