覺得可以的話哥力,點個贊呀蔗怠!
數(shù)據(jù)來自拍拍貸真實業(yè)務數(shù)據(jù)。拍拍貸是美國紐交所上市公司。成立于2007年6月遵從金融本質(zhì)寞射,以數(shù)據(jù)為基石渔工,用創(chuàng)新技術(shù)為用戶提供最便捷可得的借款撮合服務,拍拍貸平臺借款端服務包括面向廣大個人用戶的通用性借款和其他借款怠惶。
一涨缚、數(shù)據(jù)清洗
df_copy = df.copy()
(1)空值、重復值處理(所有的都重復)
主要關(guān)注的是標當前狀態(tài)策治,都不存在空值
df = df.drop_duplicates()
刪除106個重復值
(2)異常值處理
對指標分析的時候逐個進行處理分析脓魏,這邊觀察的是標狀態(tài)是否存在異常值
df['標當前狀態(tài)'].value_counts()
正常還款中 172505
已還清 109129
逾期中 9596
0 409
2.35 24
4.25 24
....
df.loc[(df['標當前逾期天數(shù)']!=0),'標當前狀態(tài)'] = '逾期中'
對于0的通過觀察可知都是正常還款中的
df.loc[(df['標當前狀態(tài)']=='0'),'標當前狀態(tài)'] = '正常還款中'
df.loc[(df['標當前狀態(tài)']=='0.49'),'標當前狀態(tài)'] = '正常還款中'
正常還款中 172915
已還清 109129
逾期中 10389
二、數(shù)據(jù)分析
本部分分析主要目的是:根據(jù)幾個維度的數(shù)據(jù)構(gòu)建逾期用戶畫像
1通惫、用戶維度
這部分主要關(guān)注的是是否逾期茂翔,做定性分析,因此創(chuàng)建一個新的數(shù)據(jù)
df.loc[df['標當前狀態(tài)']=='逾期中','是否逾期'] = '逾期中'
df.loc[df['標當前狀態(tài)']!='逾期中','是否逾期'] = '未逾期'
用戶基本信息
(1)性別
df_sex = df.groupby('性別')['是否逾期'].value_counts()
df_sex = pd.DataFrame(df_sex.unstack(level=1))
df_sex['逾期占比'] = df_sex['逾期中']/(df_sex['逾期中'] + df_sex['未逾期'])
df_sex['總?cè)藬?shù)'] = df_sex['逾期中'] + df_sex['未逾期']
貸款中男履腋、女分別占65.08%和34.92%珊燎。
plt.pie(df_sex['總?cè)藬?shù)'],labels=['女','男'],autopct='%.2f%%')
df_sex['逾期占比'].plot(kind='bar',rot=1,alpha=0.6)
男逾期占比為3.79%,女逾期占比為3.11%遵湖。從逾期占比情況來看悔政,男逾期占比高于女22%。因此在后續(xù)分析中將男延旧、女進行分開分析谋国。
(2)年齡
df['年齡'].describe()
mean 29.353838
std 6.164796
min 18.000000
25% 25.000000
50% 28.000000
75% 32.000000
max 65.000000
年齡分布最小18歲,最大65歲迁沫,平均年齡29.35歲
sns.distplot(df['年齡'],label='整體年齡分布')
sns.distplot(df[df['是否逾期'] =='逾期中']['年齡'],label='逾期人員年齡分布',color='r')
plt.legend()
從圖中可知芦瘾,逾期人員年齡分布與整體年齡、男女性年齡分布相似集畅。因此在這邊考慮對年齡進行統(tǒng)一劃分處理:18-23,24-29,30-35,36-41,42-47,48-53,54-59,60-65
labels = ['18-23','24-29','30-35','36-41','42-47','48-53','54-59','60-65']
bin_age = [18,24,30,36,42,48,54,60,66]
df['年齡段'] = pd.cut(df['年齡'],bins=bin_age,labels=labels,right=False)
df_age = df.groupby(['年齡段','性別'])['是否逾期'].value_counts()
df_age = df_age.unstack(level=2)
df_age['逾期占比%'] = round(df_age['逾期中']/(df_age['逾期中']+df_age['未逾期'])*100,2)
男性不同年齡段逾期占比:
df_age[('逾期占比%','男')].sort_values(ascending=False).plot(kind='bar',title='男性不同年齡段逾期占比%')
y = df_age[('逾期占比%','男')].sort_values(ascending=False)
y = y.dropna()
x = len(y)
for i,j in zip(range(x),y):
plt.text(i-0.4,j+0.1,'%.2f%%'%j)
')
男性逾期率高的年齡段為54-59近弟,逾期占比為7.9%,其次是42-47挺智、18-23祷愉、36-41(均高于平均值)。
由于54-59歲的男性逾期率非常高逃贝,因此在這邊做進一步觀察:
df[(df['年齡段'] =='54-59')&(df['是否逾期']=='逾期中')&(df['性別']=='男')]
54-59歲男性中谣辞,所有用戶借款利率在18%及以上,借款類型屬于普通或者其他沐扳,83%的用戶借款期限為12個月泥从,91%的借款金額在7000及以上,初級評分為B沪摄、C躯嫉、D類纱烘。
女性不同年齡段逾期占比:
df_age[('逾期占比%','女')].sort_values(ascending=False).plot(kind='bar',title='女性不同年齡段逾期占比%')
y = df_age[('逾期占比%','女')].sort_values(ascending=False)
y = y.dropna()
x = len(y)
for i,j in zip(range(x),y):
plt.text(i-0.4,j+0.1,'%.2f%%'%j)
女性逾期占比較高的年齡段是:48-53,其次是36-41祈餐,42-47擂啥,30-35均高于平均值。
(3)初級評級——逾期占比
女性初始評級逾期占比:
df_pre = df.groupby(['性別','初始評級'])['是否逾期'].value_counts()
df_pre = df_pre.unstack(level=2)
df_pre['逾期占比'] = df_pre['逾期中'] / (df_pre['逾期中'] + df_pre['未逾期'])
df_pre_f = df_pre.loc['女',:].sort_values(by='逾期占比%',ascending=False)
sns.barplot(df_pre.index,df_pre['逾期占比'])
女性最高位E類帆阳,其次是D哺壶、C(均超過平均值)
同樣由于E類人群中逾期占比非常高,在這也做進一步觀察
df[(df['初始評級']=='E')&(df['是否逾期']=='逾期中')&(df['性別']=='女')]
觀察知蜒谤,這類人群:
年齡段:40歲以下
借款金額:2000-10000元
借款類型:普通或其他
借款期限:95%的都是12個月
男性初始評級逾期占比:
男性最高是E類山宾,其次是F、D鳍徽、G资锰、A類均高于平均值
進一步觀察E類
df[(df['初始評級']=='E')&(df['是否逾期']=='逾期中')&(df['性別']=='男')]
年齡段:45歲以下
借款金額:80%的2000-5000元
借款類型:98%普通或其他
借款期限:91%的都是12個月
各初始評級中年齡段分布情況相似
g = sns.FacetGrid(df, col='初始評級',row = '性別',palette='seismic', size=4)
g.map(sns.countplot, '年齡段', alpha=0.8)
g.add_legend()
從初始評級與逾期占比的情況來看,初始評級在一定程度上能夠衡量逾期占比情況阶祭,像AA绷杜、AAA類的逾期占比都比較低。
2濒募、用戶行為屬性
(1)借款類型
借款類型中普通和其他類占了近72%鞭盟。
df_type = df.groupby(['性別','借款類型'])['是否逾期'].value_counts()
df_type = df_type.unstack(level=2)
df_type['逾期占比'] = df_type['逾期中']/(df_type['逾期中']+df_type['未逾期'])
df_type['逾期占比%'] = df_type['逾期中']/(df_type['逾期中']+df_type['未逾期'])*100
y = df_type.loc['女',:]['逾期占比'].sort_values(ascending=False)
sns.barplot(y.index,y,alpha=0.8)
x = len(y)
for i,j in zip(range(x),y):
plt.text(i-0.4,j+0.1,'%.2f%%'%j)
plt.title('女性借款類型逾期占比')
plt.legend()
女性用戶借款類型為電商類的逾期占比最高,其次是APP閃電類瑰剃,這可能和女性用戶網(wǎng)購頻率高懊缺、數(shù)目大有關(guān)∨嗨可以進一步通過挖掘這些用戶的網(wǎng)購習慣進行分析。
y = df_type.loc['男',:]['逾期占比'].sort_values(ascending=False)
sns.barplot(y.index,y,alpha=0.8)
x = len(y)
for i,j in zip(range(x),y):
plt.text(i-0.4,j+0.1,'%.2f%%'%j)
plt.title('男性借款類型逾期占比')
plt.legend()
男性用戶借款類型為APP閃電類的逾期占比最高遗座,其次是其他類舀凛,這可能和男性用戶玩游戲,對游戲充值有關(guān)途蒋。
(2)借款期限
男:
df_time = df.groupby(['性別','借款期限'])['是否逾期'].value_counts()
df_time = df_time.unstack(level=2)
df_time['逾期占比'] = df_time['逾期中']/(df_time['逾期中']+df_time['未逾期'])
df_time['逾期占比%'] = df_time['逾期中']/(df_time['逾期中']+df_time['未逾期'])*100
y = df_time.loc['男',:]['逾期占比%'].sort_values(ascending=False)
plt.figure(figsize=(10,5))
y.plot(kind='bar',alpha=0.6,rot=1)
x = len(y)
for i,j in zip(range(x),y):
plt.text(i-0.5,j+0.2,'%.2f%%'%j)
plt.title('女性借款日期逾期占比%')
plt.legend()
女:
y = df_time.loc['女',:]['逾期占比%'].sort_values(ascending=False)
plt.figure(figsize=(10,5))
y.plot(kind='bar',alpha=0.6,rot=1)
x = len(y)
for i,j in zip(range(x),y):
plt.text(i-0.5,j+0.2,'%.2f%%'%j)
plt.title('男性借款日期逾期占比%')
plt.legend()
男猛遍、女借款期限為24個月的逾期占比最高。進一步觀察借款期限為24個月的用戶号坡,發(fā)現(xiàn)這批用戶
年齡段:70%30-41歲
借款金額:90%的借款金額在24000及以上元
借款類型:普通或其他
初始評級:64%的是C
(3)借款金額
將借款金額按人數(shù)平均分成四個區(qū)間懊烤,分別是:100-3000/3001-4170/4170-7000/7000+
df['借款金額區(qū)間'] = pd.qcut(df['借款金額'],4)
df_money = df.groupby(['性別','借款金額區(qū)間'])['是否逾期'].value_counts()
df_money = df_money.unstack(level=2)
df_money['逾期占比'] = df_money['逾期中']/(df_money['逾期中']+df_money['未逾期'])
df_money['逾期占比%'] = df_money['逾期中']/(df_money['逾期中']+df_money['未逾期'])*100
女性
男性
男女性借款金額來看,100-3000的低金額借款的逾期占比都比較高宽堆。
三腌紧、結(jié)論——構(gòu)建用戶畫像
總結(jié)論1:逾期占比分布最高的男性用戶普遍的標簽為:
年齡段為54-59歲;
初始評級為E類畜隶;
借款類型為APP閃電壁肋;
借款期限為24個月号胚;
借款金額區(qū)間在3000元及以下;
總結(jié)論2:逾期占比分布最高的女性用戶普遍的標簽為:
年齡段為48-53歲浸遗;猫胁;
初始評級為E類;
借款類型為電商跛锌;
借款期限為24個月弃秆;
借款金額區(qū)間在3000元及以下焚鹊;
總結(jié)論3:
總結(jié)論1和總結(jié)論2的標簽滿足3個及以上可以考慮為逾期率較高的人群入撒;
對于逾期占比特別高的幾類人可以做進一步的細分(在文中已經(jīng)進行了部分的分析)叶雹;
本文分析中由于不同年齡段內(nèi)人數(shù)差異大幕庐,因此可以考慮在性別的基礎(chǔ)上對不同年齡段進行分析申屹,得到在性別和年齡段下的用戶標簽喷鸽;