python-風(fēng)控模型分析01

數(shù)據(jù)導(dǎo)入與查看

# -*- coding: utf-8 -*-
# %%time
# from pyhive import presto
import pandas as pd
import numpy as np
import warnings
import os
data=pd.read_csv('*/全域風(fēng)險(xiǎn).csv')
data.head(2)
# label= pd.DataFrame(list(result),columns=columns_names)
# label.to_csv('/data/ljk/baixin.csv',index=False)

數(shù)據(jù)篩選

data2=data[data['fina_date']<'2020-01-01']
feature=['num_id','zhiye','weiyue','gongzhai','qingchang','zhuxing','lvyue','shouxin','xiaofei','xingqu','chengzhang']
data2=data2[feature]
data2.head()

scorecardpy Python包的使用

import scorecardpy as sc
import matplotlib.pyplot as plt
%matplotlib inline

plt.show()

bins_new=sc.woebin(data_new.loc[data_new.overdue!=-1,['zhiye','overdue']], y="overdue")
woebin_plot=sc.woebin_plot(bins_new)

woebin_plot

結(jié)果編輯

# data_new = data_new.drop(['flag','var_name'],axis=1)

merge_result_total = pd.DataFrame()
for cl in data_new.columns[1:]:  
    x=data_new[data_new[cl]>=0][cl]
    if len(set(x))>=10:
        value_bins=pd.qcut(x,5,duplicates='drop',retbins=True)[0]
        data_new['flag']=value_bins #攔截點(diǎn)打標(biāo)
        data_new['var_name']= cl  #變量 
        tmp = data_new[['var_name','flag','overdue']]
        tmp.rename(columns={'overdue':'label'},inplace=True)
        result_stp=tmp.groupby(['var_name','flag']).count() #攔截?cái)?shù) 
        result_pos=tmp.groupby(['var_name','flag'])['label'].sum().to_frame()  #黑樣本
        result_neg=tmp[tmp['label']==0].groupby(['var_name','flag'])['label'].count().to_frame() #白樣本
        merge_result=result_stp.merge(result_pos,how='left',on=['var_name','flag']).merge(result_neg,how='left',on=['var_name','flag'])
        merge_result.reset_index(inplace=True)
        merge_result.rename(columns={'label_x':'stp','label_y':'pos','label':'neg'},inplace=True) 
        
        merge_result['rank']=pd.Series([i+1 for i in range(merge_result.shape[0])])
        merge_result.sort_values(by=['rank'],axis=0,ascending=True,inplace=True,na_position='last')
        
        merge_result['cunsum_pos']=merge_result.groupby('var_name')['pos'].cumsum()
        merge_result['cunsum_neg']=merge_result.groupby('var_name')['neg'].cumsum()
        merge_result['cunsum_stp']=merge_result.groupby('var_name')['stp'].cumsum()
        
        merge_result['total_pos']=merge_result[merge_result['rank']== merge_result.shape[0]]['cunsum_pos'].values[0]
        merge_result['total_neg']=merge_result[merge_result['rank']== merge_result.shape[0]]['cunsum_neg'].values[0]
        merge_result['total_stp']=merge_result[merge_result['rank']== merge_result.shape[0]]['cunsum_stp'].values[0]
    res = merge_result

    res['intercept']=res['stp']/res['total_stp'] # 區(qū)間攔截率
    res['precision']=res['pos']/res['stp'] # 準(zhǔn)確率
    res['recall']=res['pos']/res['total_pos']  #召回率
    res['Disturb']=res['neg']/res['total_neg'] #打擾率
    res['cum_precision']=res['cunsum_pos']/res['cunsum_stp']  # 累計(jì)準(zhǔn)確率
    res['avg_precision']=res['total_pos']/res['total_stp']
    res['cum_recall']=res['cunsum_pos']/res['total_pos'] # 累計(jì)召回率
    res['cum_Disturb']=res['cunsum_neg']/res['total_neg'] # 累計(jì)打擾率

    res['ks']=res['cum_recall']-res['cum_Disturb']
    res['ks_max']=res.groupby('var_name')['ks'].max().values[0]

    rs=res.drop_duplicates(subset=None, keep='first', inplace=False) #去重
    
    merge_result_total = merge_result_total.append(rs)
    
merge_result_total.rename(columns={'var_name':'變量','flag':'攔截區(qū)間','stp':'攔截樣本數(shù)','pos':'黑樣本數(shù)','neg':'白樣本數(shù)','cunsum_pos':'累計(jì)黑樣本數(shù)','cunsum_neg':'累計(jì)白樣本數(shù)','cunsum_stp':'累計(jì)攔截?cái)?shù)','intercept':'攔截率','precision':'準(zhǔn)確率','recall':'召回率','Disturb':'打擾率','cum_precision':'累計(jì)準(zhǔn)確率','avg_precision':'平均準(zhǔn)確率','cum_recall':'累計(jì)召回率','cum_Disturb':'累計(jì)打擾率','ks':'ks區(qū)間值','ks_max':'ks值','total_pos':'總黑樣本','total_neg':'總白樣本','total_stp':'總樣本'},inplace=True)
merge_result_total.to_csv('*/quanyumob3_result0421.csv',header=True,index=False)

merge_result_total

ks曲線函數(shù)

調(diào)用方法

ks=PlotKS(data_new3['zhiye'],data_new3['overdue'],n=20,asc=True)
ks
plt.show

import pandas as pd
import matplotlib.pyplot as plt
####################### PlotKS ##########################
def PlotKS(preds, labels, n=20, asc=True):
    
    # preds is score: asc=1
    # preds is prob: asc=0
    
    pred = preds  # 預(yù)測(cè)值
    bad = labels  # 取1為bad, 0為good
    ksds = pd.DataFrame({'bad': bad, 'pred': pred})
    ksds['good'] = 1 - ksds.bad
    
    if asc == 1:
        ksds1 = ksds.sort_values(by=['pred', 'bad'], ascending=[True, True])
    elif asc == 0:
        ksds1 = ksds.sort_values(by=['pred', 'bad'], ascending=[False, True])
    ksds1.index = range(len(ksds1.pred))
    ksds1['cumsum_good1'] = 1.0*ksds1.good.cumsum()/sum(ksds1.good)
    ksds1['cumsum_bad1'] = 1.0*ksds1.bad.cumsum()/sum(ksds1.bad)
    
    if asc == 1:
        ksds2 = ksds.sort_values(by=['pred', 'bad'], ascending=[True, False])
    elif asc == 0:
        ksds2 = ksds.sort_values(by=['pred', 'bad'], ascending=[False, False])
    ksds2.index = range(len(ksds2.pred))
    ksds2['cumsum_good2'] = 1.0*ksds2.good.cumsum()/sum(ksds2.good)
    ksds2['cumsum_bad2'] = 1.0*ksds2.bad.cumsum()/sum(ksds2.bad)
    
    # ksds1 ksds2 -> average
    ksds = ksds1[['cumsum_good1', 'cumsum_bad1']]
    ksds['cumsum_good2'] = ksds2['cumsum_good2']
    ksds['cumsum_bad2'] = ksds2['cumsum_bad2']
    ksds['cumsum_good'] = (ksds['cumsum_good1'] + ksds['cumsum_good2'])/2
    ksds['cumsum_bad'] = (ksds['cumsum_bad1'] + ksds['cumsum_bad2'])/2
    
    # ks
    ksds['ks'] = ksds['cumsum_bad'] - ksds['cumsum_good']
    ksds['tile0'] = range(1, len(ksds.ks) + 1)
    ksds['tile'] = 1.0*ksds['tile0']/len(ksds['tile0'])
    
    qe = list(np.arange(0, 1, 1.0/n))
    qe.append(1)
    qe = qe[1:]
    
    ks_index = pd.Series(ksds.index)
    ks_index = ks_index.quantile(q = qe)
    ks_index = np.ceil(ks_index).astype(int)
    ks_index = list(ks_index)
    
    ksds = ksds.loc[ks_index]
    ksds = ksds[['tile', 'cumsum_good', 'cumsum_bad', 'ks']]
    ksds0 = np.array([[0, 0, 0, 0]])
    ksds = np.concatenate([ksds0, ksds], axis=0)
    ksds = pd.DataFrame(ksds, columns=['tile', 'cumsum_good', 'cumsum_bad', 'ks'])
    
    ks_value = ksds.ks.max()
    ks_pop = ksds.tile[ksds.ks.idxmax()]
    print ('ks_value is ' + str(np.round(ks_value, 4)) + ' at pop = ' + str(np.round(ks_pop, 4)))
    
    # chart
    plt.plot(ksds.tile, ksds.cumsum_good, label='cum_good',
                         color='blue', linestyle='-', linewidth=2)
                         
    plt.plot(ksds.tile, ksds.cumsum_bad, label='cum_bad',
                        color='red', linestyle='-', linewidth=2)
                        
    plt.plot(ksds.tile, ksds.ks, label='ks',
                   color='green', linestyle='-', linewidth=2)
                       
    plt.axvline(ks_pop, color='gray', linestyle='--')
    plt.axhline(ks_value, color='green', linestyle='--')
    plt.axhline(ksds.loc[ksds.ks.idxmax(), 'cumsum_good'], color='blue', linestyle='--')
    plt.axhline(ksds.loc[ksds.ks.idxmax(),'cumsum_bad'], color='red', linestyle='--')
    plt.title('KS=%s ' %np.round(ks_value, 4) +  
                'at Pop=%s' %np.round(ks_pop, 4), fontsize=15)
    return ksds

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末类缤，一起剝皮案震驚了整個(gè)濱河市局待，隨后出現(xiàn)的幾起案子森瘪，更是在濱河造成了極大的恐慌，老刑警劉巖险领，帶你破解...
沈念sama閱讀 218,204評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡捐顷，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,091評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門雨效，熙熙樓的掌柜王于貴愁眉苦臉地迎上來迅涮，“玉大人，你說我怎么就攤上這事徽龟《９茫” “怎么了？”我有些...
開封第一講書人閱讀 164,548評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)传透。經(jīng)常有香客問我耘沼，道長(zhǎng)，這世上最難降的妖魔是什么朱盐？我笑而不...
開封第一講書人閱讀 58,657評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任群嗤，我火速辦了婚禮，結(jié)果婚禮上兵琳，老公的妹妹穿的比我還像新娘狂秘。我一直安慰自己，他們只是感情好躯肌，可當(dāng)我...
茶點(diǎn)故事閱讀 67,689評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布者春。她就那樣靜靜地躺著，像睡著了一般清女。火紅的嫁衣襯著肌膚如雪钱烟。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,554評(píng)論 1贊 305
城市分裂傳說
那天嫡丙，我揣著相機(jī)與錄音拴袭，去河邊找鬼。笑死曙博，一個(gè)胖子當(dāng)著我的面吹牛稻扬，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播羊瘩，決...
沈念sama閱讀 40,302評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼泰佳，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了尘吗？” 一聲冷哼從身側(cè)響起逝她，我...
開封第一講書人閱讀 39,216評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎睬捶，沒想到半個(gè)月后黔宛，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,661評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡擒贸，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,851評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年臀晃，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片介劫。...
茶點(diǎn)故事閱讀 39,977評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡徽惋，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出座韵，到底是詐尸還是另有隱情险绘，我是刑警寧澤踢京，帶...
沈念sama閱讀 35,697評(píng)論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站宦棺，受9級(jí)特大地震影響瓣距，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜代咸，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,306評(píng)論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一蹈丸、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧呐芥，春花似錦白华、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,898評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽厦取。三九已至潮太，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間虾攻，已是汗流浹背铡买。一陣腳步聲響...
開封第一講書人閱讀 33,019評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留霎箍，地道東北人奇钞。一個(gè)月前我還...
沈念sama閱讀 48,138評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像漂坏，于是被迫代替她去往敵國和親景埃。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,927評(píng)論 2贊 355