貸款逾期用戶畫像分析

覺得可以的話哥力,點個贊呀蔗怠!
數(shù)據(jù)來自拍拍貸真實業(yè)務數(shù)據(jù)。拍拍貸是美國紐交所上市公司。成立于2007年6月遵從金融本質(zhì)寞射,以數(shù)據(jù)為基石渔工,用創(chuàng)新技術(shù)為用戶提供最便捷可得的借款撮合服務,拍拍貸平臺借款端服務包括面向廣大個人用戶的通用性借款和其他借款怠惶。

一涨缚、數(shù)據(jù)清洗

df_copy = df.copy()

(1)空值、重復值處理(所有的都重復)

主要關(guān)注的是標當前狀態(tài)策治,都不存在空值


df = df.drop_duplicates()

刪除106個重復值

(2)異常值處理

對指標分析的時候逐個進行處理分析脓魏,這邊觀察的是標狀態(tài)是否存在異常值

df['標當前狀態(tài)'].value_counts()

  • 正常還款中 172505

  • 已還清 109129

  • 逾期中 9596

  • 0 409

  • 2.35 24

  • 4.25 24

  • ....

df.loc[(df['標當前逾期天數(shù)']!=0),'標當前狀態(tài)'] = '逾期中'

對于0的通過觀察可知都是正常還款中的


df.loc[(df['標當前狀態(tài)']=='0'),'標當前狀態(tài)'] = '正常還款中'
df.loc[(df['標當前狀態(tài)']=='0.49'),'標當前狀態(tài)'] = '正常還款中'

  • 正常還款中 172915

  • 已還清 109129

  • 逾期中 10389

二、數(shù)據(jù)分析

本部分分析主要目的是:根據(jù)幾個維度的數(shù)據(jù)構(gòu)建逾期用戶畫像

1通惫、用戶維度

這部分主要關(guān)注的是是否逾期茂翔,做定性分析,因此創(chuàng)建一個新的數(shù)據(jù)


df.loc[df['標當前狀態(tài)']=='逾期中','是否逾期'] = '逾期中'
df.loc[df['標當前狀態(tài)']!='逾期中','是否逾期'] = '未逾期'

用戶基本信息

(1)性別

df_sex = df.groupby('性別')['是否逾期'].value_counts()
df_sex = pd.DataFrame(df_sex.unstack(level=1))
df_sex['逾期占比'] = df_sex['逾期中']/(df_sex['逾期中'] + df_sex['未逾期'])
df_sex['總?cè)藬?shù)'] = df_sex['逾期中'] + df_sex['未逾期']

貸款中男履腋、女分別占65.08%和34.92%珊燎。

plt.pie(df_sex['總?cè)藬?shù)'],labels=['女','男'],autopct='%.2f%%')
image

df_sex['逾期占比'].plot(kind='bar',rot=1,alpha=0.6)

image

男逾期占比為3.79%,女逾期占比為3.11%遵湖。從逾期占比情況來看悔政,男逾期占比高于女22%。因此在后續(xù)分析中將男延旧、女進行分開分析谋国。

(2)年齡

df['年齡'].describe()

  • mean 29.353838

  • std 6.164796

  • min 18.000000

  • 25% 25.000000

  • 50% 28.000000

  • 75% 32.000000

  • max 65.000000

年齡分布最小18歲,最大65歲迁沫,平均年齡29.35歲

sns.distplot(df['年齡'],label='整體年齡分布')
sns.distplot(df[df['是否逾期'] =='逾期中']['年齡'],label='逾期人員年齡分布',color='r')
plt.legend()

image

從圖中可知芦瘾,逾期人員年齡分布與整體年齡、男女性年齡分布相似集畅。因此在這邊考慮對年齡進行統(tǒng)一劃分處理:18-23,24-29,30-35,36-41,42-47,48-53,54-59,60-65

labels = ['18-23','24-29','30-35','36-41','42-47','48-53','54-59','60-65']
bin_age = [18,24,30,36,42,48,54,60,66]
df['年齡段'] = pd.cut(df['年齡'],bins=bin_age,labels=labels,right=False)
df_age = df.groupby(['年齡段','性別'])['是否逾期'].value_counts()
df_age = df_age.unstack(level=2)
df_age['逾期占比%'] = round(df_age['逾期中']/(df_age['逾期中']+df_age['未逾期'])*100,2)
image
image

男性不同年齡段逾期占比:

df_age[('逾期占比%','男')].sort_values(ascending=False).plot(kind='bar',title='男性不同年齡段逾期占比%')
y = df_age[('逾期占比%','男')].sort_values(ascending=False)
y = y.dropna()
x = len(y)
for i,j in zip(range(x),y):    
    plt.text(i-0.4,j+0.1,'%.2f%%'%j)
    ')

image

男性逾期率高的年齡段為54-59近弟,逾期占比為7.9%,其次是42-47挺智、18-23祷愉、36-41(均高于平均值)。

由于54-59歲的男性逾期率非常高逃贝,因此在這邊做進一步觀察:

df[(df['年齡段'] =='54-59')&(df['是否逾期']=='逾期中')&(df['性別']=='男')]

54-59歲男性中谣辞,所有用戶借款利率在18%及以上,借款類型屬于普通或者其他沐扳,83%的用戶借款期限為12個月泥从,91%的借款金額在7000及以上,初級評分為B沪摄、C躯嫉、D類纱烘。

女性不同年齡段逾期占比:

df_age[('逾期占比%','女')].sort_values(ascending=False).plot(kind='bar',title='女性不同年齡段逾期占比%')
y = df_age[('逾期占比%','女')].sort_values(ascending=False)
y = y.dropna()
x = len(y)
for i,j in zip(range(x),y):    
    plt.text(i-0.4,j+0.1,'%.2f%%'%j)

image

女性逾期占比較高的年齡段是:48-53,其次是36-41祈餐,42-47擂啥,30-35均高于平均值。

(3)初級評級——逾期占比

女性初始評級逾期占比:


df_pre = df.groupby(['性別','初始評級'])['是否逾期'].value_counts()
df_pre = df_pre.unstack(level=2)
df_pre['逾期占比'] = df_pre['逾期中'] / (df_pre['逾期中'] + df_pre['未逾期'])
df_pre_f = df_pre.loc['女',:].sort_values(by='逾期占比%',ascending=False)
sns.barplot(df_pre.index,df_pre['逾期占比'])

image

女性最高位E類帆阳,其次是D哺壶、C(均超過平均值)

同樣由于E類人群中逾期占比非常高,在這也做進一步觀察


df[(df['初始評級']=='E')&(df['是否逾期']=='逾期中')&(df['性別']=='女')]

觀察知蜒谤,這類人群:

  • 年齡段:40歲以下

  • 借款金額:2000-10000元

  • 借款類型:普通或其他

  • 借款期限:95%的都是12個月

男性初始評級逾期占比:

image

男性最高是E類山宾,其次是F、D鳍徽、G资锰、A類均高于平均值

進一步觀察E類

df[(df['初始評級']=='E')&(df['是否逾期']=='逾期中')&(df['性別']=='男')]
  • 年齡段:45歲以下

  • 借款金額:80%的2000-5000元

  • 借款類型:98%普通或其他

  • 借款期限:91%的都是12個月

各初始評級中年齡段分布情況相似

g = sns.FacetGrid(df, col='初始評級',row = '性別',palette='seismic', size=4)
g.map(sns.countplot, '年齡段', alpha=0.8)
g.add_legend()
image

從初始評級與逾期占比的情況來看,初始評級在一定程度上能夠衡量逾期占比情況阶祭,像AA绷杜、AAA類的逾期占比都比較低。

2濒募、用戶行為屬性

(1)借款類型

借款類型中普通和其他類占了近72%鞭盟。

image
df_type = df.groupby(['性別','借款類型'])['是否逾期'].value_counts()
df_type = df_type.unstack(level=2)
df_type['逾期占比'] = df_type['逾期中']/(df_type['逾期中']+df_type['未逾期'])
df_type['逾期占比%'] = df_type['逾期中']/(df_type['逾期中']+df_type['未逾期'])*100
y = df_type.loc['女',:]['逾期占比'].sort_values(ascending=False)
sns.barplot(y.index,y,alpha=0.8)
x = len(y)
for i,j in zip(range(x),y):    
    plt.text(i-0.4,j+0.1,'%.2f%%'%j)
plt.title('女性借款類型逾期占比')
plt.legend()
image

女性用戶借款類型為電商類的逾期占比最高,其次是APP閃電類瑰剃,這可能和女性用戶網(wǎng)購頻率高懊缺、數(shù)目大有關(guān)∨嗨可以進一步通過挖掘這些用戶的網(wǎng)購習慣進行分析。

y = df_type.loc['男',:]['逾期占比'].sort_values(ascending=False)
sns.barplot(y.index,y,alpha=0.8)
x = len(y)
for i,j in zip(range(x),y):    
    plt.text(i-0.4,j+0.1,'%.2f%%'%j)
plt.title('男性借款類型逾期占比')
plt.legend()
image.png

男性用戶借款類型為APP閃電類的逾期占比最高遗座,其次是其他類舀凛,這可能和男性用戶玩游戲,對游戲充值有關(guān)途蒋。

(2)借款期限

男:

df_time = df.groupby(['性別','借款期限'])['是否逾期'].value_counts()
df_time = df_time.unstack(level=2)
df_time['逾期占比'] = df_time['逾期中']/(df_time['逾期中']+df_time['未逾期'])
df_time['逾期占比%'] = df_time['逾期中']/(df_time['逾期中']+df_time['未逾期'])*100
y = df_time.loc['男',:]['逾期占比%'].sort_values(ascending=False)
plt.figure(figsize=(10,5))
y.plot(kind='bar',alpha=0.6,rot=1)
x = len(y)
for i,j in zip(range(x),y):    
    plt.text(i-0.5,j+0.2,'%.2f%%'%j)
plt.title('女性借款日期逾期占比%')
plt.legend()

image

女:

y = df_time.loc['女',:]['逾期占比%'].sort_values(ascending=False)
plt.figure(figsize=(10,5))
y.plot(kind='bar',alpha=0.6,rot=1)
x = len(y)
for i,j in zip(range(x),y):    
    plt.text(i-0.5,j+0.2,'%.2f%%'%j)
plt.title('男性借款日期逾期占比%')
plt.legend()

image

男猛遍、女借款期限為24個月的逾期占比最高。進一步觀察借款期限為24個月的用戶号坡,發(fā)現(xiàn)這批用戶

  • 年齡段:70%30-41歲

  • 借款金額:90%的借款金額在24000及以上元

  • 借款類型:普通或其他

  • 初始評級:64%的是C

(3)借款金額

將借款金額按人數(shù)平均分成四個區(qū)間懊烤,分別是:100-3000/3001-4170/4170-7000/7000+

df['借款金額區(qū)間'] = pd.qcut(df['借款金額'],4)
df_money = df.groupby(['性別','借款金額區(qū)間'])['是否逾期'].value_counts()
df_money = df_money.unstack(level=2)
df_money['逾期占比'] = df_money['逾期中']/(df_money['逾期中']+df_money['未逾期'])
df_money['逾期占比%'] = df_money['逾期中']/(df_money['逾期中']+df_money['未逾期'])*100

女性

image

男性

image

男女性借款金額來看,100-3000的低金額借款的逾期占比都比較高宽堆。

三腌紧、結(jié)論——構(gòu)建用戶畫像

總結(jié)論1:逾期占比分布最高的男性用戶普遍的標簽為:

  1. 年齡段為54-59歲;

  2. 初始評級為E類畜隶;

  3. 借款類型為APP閃電壁肋;

  4. 借款期限為24個月号胚;

  5. 借款金額區(qū)間在3000元及以下;

總結(jié)論2:逾期占比分布最高的女性用戶普遍的標簽為:

  1. 年齡段為48-53歲浸遗;猫胁;

  2. 初始評級為E類;

  3. 借款類型為電商跛锌;

  4. 借款期限為24個月弃秆;

  5. 借款金額區(qū)間在3000元及以下焚鹊;

總結(jié)論3:

  1. 總結(jié)論1和總結(jié)論2的標簽滿足3個及以上可以考慮為逾期率較高的人群入撒;

  2. 對于逾期占比特別高的幾類人可以做進一步的細分(在文中已經(jīng)進行了部分的分析)叶雹;

  3. 本文分析中由于不同年齡段內(nèi)人數(shù)差異大幕庐,因此可以考慮在性別的基礎(chǔ)上對不同年齡段進行分析申屹,得到在性別和年齡段下的用戶標簽喷鸽;

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末附井,一起剝皮案震驚了整個濱河市驹愚,隨后出現(xiàn)的幾起案子译秦,更是在濱河造成了極大的恐慌峡捡,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,214評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件筑悴,死亡現(xiàn)場離奇詭異们拙,居然都是意外死亡,警方通過查閱死者的電腦和手機阁吝,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評論 2 382
  • 文/潘曉璐 我一進店門砚婆,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人突勇,你說我怎么就攤上這事装盯。” “怎么了甲馋?”我有些...
    開封第一講書人閱讀 152,543評論 0 341
  • 文/不壞的土叔 我叫張陵埂奈,是天一觀的道長。 經(jīng)常有香客問我定躏,道長账磺,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,221評論 1 279
  • 正文 為了忘掉前任痊远,我火速辦了婚禮垮抗,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘碧聪。我一直安慰自己冒版,他們只是感情好,可當我...
    茶點故事閱讀 64,224評論 5 371
  • 文/花漫 我一把揭開白布逞姿。 她就那樣靜靜地躺著壤玫,像睡著了一般豁护。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上欲间,一...
    開封第一講書人閱讀 49,007評論 1 284
  • 那天楚里,我揣著相機與錄音,去河邊找鬼猎贴。 笑死班缎,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的她渴。 我是一名探鬼主播达址,決...
    沈念sama閱讀 38,313評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼趁耗!你這毒婦竟也來了沉唠?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,956評論 0 259
  • 序言:老撾萬榮一對情侶失蹤苛败,失蹤者是張志新(化名)和其女友劉穎满葛,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體罢屈,經(jīng)...
    沈念sama閱讀 43,441評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡嘀韧,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,925評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了缠捌。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片锄贷。...
    茶點故事閱讀 38,018評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖曼月,靈堂內(nèi)的尸體忽然破棺而出谊却,到底是詐尸還是另有隱情,我是刑警寧澤哑芹,帶...
    沈念sama閱讀 33,685評論 4 322
  • 正文 年R本政府宣布因惭,位于F島的核電站,受9級特大地震影響绩衷,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜激率,卻給世界環(huán)境...
    茶點故事閱讀 39,234評論 3 307
  • 文/蒙蒙 一咳燕、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧乒躺,春花似錦招盲、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽咆繁。三九已至,卻和暖如春顶籽,著一層夾襖步出監(jiān)牢的瞬間玩般,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評論 1 261
  • 我被黑心中介騙來泰國打工礼饱, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留坏为,地道東北人。 一個月前我還...
    沈念sama閱讀 45,467評論 2 352
  • 正文 我出身青樓镊绪,卻偏偏與公主長得像匀伏,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子蝴韭,可洞房花燭夜當晚...
    茶點故事閱讀 42,762評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 金融業(yè)務大體可以分為資金端够颠、資產(chǎn)端兩個大模塊,這和金融的本質(zhì)不謀而合:即盈余補赤字榄鉴。隨著支付技術(shù)的提升履磨,將二者更加...
    時間流沙閱讀 1,516評論 0 12
  • 今天你改了網(wǎng)易云音樂的用戶名,差一點點就找不到你了,知道你收藏的歌單线欲,一個個去翻關(guān)注人欺嗤,還好找到了,還好综苔。就這樣默...
    追夢Nobody閱讀 145評論 0 0
  • 張清的日精進第516天 沉沒成本最大的經(jīng)濟學含義,是一旦你確定它沉沒了位岔,那么它就不能成為你做決策的參考變量如筛。換句話...
    kiyoi2017閱讀 110評論 0 0
  • 我是一個表面上溫柔賢淑,但內(nèi)心很女漢子的人抒抬。偶爾“漢子力”會爆發(fā)杨刨,讓周圍的朋友都有些目瞪口呆,刷新對我的認識...
    洛翊殤閱讀 572評論 0 1
  • 人生短暫擦剑,日常工作的負荷是沉重的妖胀,幸而有書可讀。讀書惠勒,是通向精神廣場的最容易的一條途徑赚抡。 半個月前,夜...
    笑若葉子閱讀 506評論 0 1