Lending Club貸款數(shù)據(jù)分析——數(shù)據(jù)分析(一)

數(shù)據(jù)分析

接上篇
針對(duì) Lending Club 數(shù)據(jù)集的各個(gè)方面進(jìn)行簡單數(shù)據(jù)分析收班。
主要有

  1. 貸款基本情況
  2. 用戶畫像
  3. 平臺(tái)業(yè)務(wù)分析
數(shù)據(jù)分析主要方面

先說結(jié)論:

  1. 貸款基本情況:
    • 貸款品質(zhì)中以好賬為主,占比高達(dá)92.46%,壞賬占比不到8%,情況樂觀怠肋;
    • Lendding Club 平臺(tái)在2011到2015期間飛速發(fā)展,壞賬數(shù)量在2015年明顯下降淹朋,說明平臺(tái)開始重視對(duì)風(fēng)險(xiǎn)的控制笙各;
  2. 用戶畫像1:
    • 用戶主要分布在加州,因?yàn)長ending Club總部在加州瑞你,對(duì)本地業(yè)務(wù)開拓比較深酪惭;其次是紐約州和德克薩斯州;
    • 用戶職業(yè)主要都是老師者甲、管理者春感;
    • 大部分用戶工作了10+年以上,其余用戶工作年限非常均勻虏缸,從1到9年的都有鲫懒,數(shù)量相差不多;
    • 極大部分用戶年收入都大于20000美元,其中高于60000的用戶占比大于50%刽辙;
  3. 用戶畫像2:
    • 大部分用戶貸款是為了債務(wù)整合(借新債還舊債)窥岩、還信用卡;
    • 50% 以上用戶房子還在按揭宰缤,40%用戶還在租房颂翼,不到10%的用戶擁有自己的房子;
    • 絕大部分用戶的 貶損公共設(shè)施的記錄次數(shù)小于三次
  4. 平臺(tái)業(yè)務(wù)分析
    • 人均貸款數(shù)額逐年增加慨灭,2009年不到10000美元朦乏,在2015年達(dá)到16000美元。貸款總額逐年飆升氧骤,從2012年不到10億呻疹,到2015年接近60億进鸠。
    • 信用等級(jí)越高结榄,貸款利率越低; 信用等級(jí)越高捅厂,好賬率越低
    • 大部分貸款用戶的DTI低于35%费薄,這部分用戶還款壓力較小,一小部分客戶DIT達(dá)到40%冯遂,還款壓力大档冬,存在壞賬風(fēng)險(xiǎn)

1.貸款質(zhì)量情況

loanData.loan_status.value_counts()
# Current                                                558269
# Fully Paid                                             197119
# Charged Off                                             41288
# Late (31-120 days)                                      10683
# In Grace Period                                          5778
# Late (16-30 days)                                        2155
# Does not meet the credit policy. Status:Fully Paid       1862
# Default                                                  1131
# Does not meet the credit policy. Status:Charged Off       697
# Issued   40

將逾期15天以上的貸款視為壞賬瞧柔,簡化貸款質(zhì)量

good_loan = [
    'Current', 'Fully Paid',
    'Does not meet the credit policy. Status:Fully Paid', 'Issued '
]


def loan_condition(status):
    if status in good_loan:
        return 'good_loan'
    else:
        return 'bad_loan'


loanData['loan_condition'] = loanData.loan_status.apply(loan_condition)

貸款質(zhì)量和貸款總額情況

#時(shí)間轉(zhuǎn)換為年
loanData['issue_d'] = pd.to_datetime(loanData.issue_d)
loanData['issue_year'] = loanData.issue_d.dt.year

f, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))
#貸款品質(zhì)情況
loanData.loan_condition.value_counts().plot.pie(
    autopct='%1.2f%%', ax=ax1, fontsize=12, startangle=70)
ax1.set_title('GOOD OR BAD')
ax1.set_ylabel("% of Loan Condition")
ax1.legend()
#正負(fù)樣本數(shù)量差距懸殊语稠,對(duì)于后面建模而言是個(gè)很大問題

#發(fā)放貸款數(shù)量按照年度分布情況
sns.barplot(
    x='issue_year',
    y='loan_amnt',
    data=loanData,
    hue='loan_condition',
    estimator=lambda x: len(x) / len(loanData) * 100,
    ax=ax2)
ax2.set_title('Loan Amount by Year ')
ax2.set_ylabel('%')
ax2.set_xlabel('Issue Year')
ax2.legend()

貸款質(zhì)量和貸款總額百分比

可以看出纺荧,壞賬僅有不到8%,但是實(shí)際上的金額也是比較驚人的。
2011年后宙暇,貸款總額每年都在飆升

貸款人數(shù)量

f1, (ax3, ax4) = plt.subplots(1, 2, figsize=(16, 6))
day_dist = loanData.groupby(['issue_d']).size()
day_dist.plot(ax=ax3)
ax3.set_title('Amount of Borrowers by Day')
ax3.set_ylabel('Amount of borrowers')
ax3.set_xlabel('Time')
year_dist = loanData.groupby(['issue_year']).size()
year_dist.plot(kind='bar', ax=ax4)
ax4.set_title('Amount of Borrowers by Year')
ax4.set_ylabel('Amount of borrowers')
ax4.set_xlabel('Time')
#
貸款人數(shù)逐年飆升

可以看出2012年后Lending Club飛速發(fā)展,客戶飛速增加议泵,雖然有波動(dòng)占贫,但總體再增加

2.客戶畫像1

1-1地域分布

loanData.addr_state.value_counts()[:20].plot(kind='bar', figsize=(8, 4))
人數(shù)相差不大

2-1職業(yè)分布前20

#客戶畫像1-2:職業(yè)分布前20
loanData.emp_title.value_counts()[:20].plot(kind='bar', figsize=(8, 4))
職業(yè)分布

各行各業(yè)的人都有,居然是老師最多先口,管理者次之型奥。

1-3:工作年限分布

#客戶畫像1-3:工作年限分布
loanData.emp_length.value_counts().plot(kind='bar')
工作年限分布

工作年限越長越容易貸款嗎,看來是了

1-4: 用戶年收入(美元)分布

這里將年收入大致分為三個(gè)區(qū)間
20000以下的視為低年收入碉京,20000-60000視為中等厢汹,高于60000的就是高收入人群

#客戶畫像1-4: 用戶年收入收入分布
def inc_strata(income):
    if income <= 20000:
        return 'low'
    elif income > 2000 and income <= 60000:
        return 'mid'
    else:
        return 'hign'


loanData['inc_strata'] = loanData.annual_inc.apply(inc_strata)
loanData.inc_strata.value_counts().plot(kind='bar')
年收入分布

大部分客戶年收入都在20000以上

#貸款質(zhì)量與年收入的關(guān)系
sns.countplot(x='inc_strata', data=loanData, hue='loan_condition')
貸款質(zhì)量與年收入的關(guān)系

中等人群壞賬數(shù)量最多

2-1 貸款目的分布

#客戶畫像2-1  貸款目的分布
loanData.purpose.value_counts().plot(kind='barh')
貸款目的

可以看出人們貸款主要是為了債務(wù)整合和信用卡償還,債務(wù)整合就是借信用卡還其他信用卡谐宙,和信用卡償還貌似沒區(qū)別

2-2 住房類型分布

#客戶畫像2-2 住房類型分布
loanData.home_ownership.value_counts().plot.pie(
    autopct='%.3f%%', figsize=(5, 5))
住房類型

一半客戶按揭烫葬,四成客戶租房。有房子的不足10%

2-3 貶損公共記錄的次數(shù)

#客戶畫像2-3 貶損公共記錄的次數(shù)
loanData.pub_rec.value_counts()[:3].plot(kind='bar')
貶損公共記錄的次數(shù)

看來有不良記錄的人很難申請(qǐng)貸款

業(yè)務(wù)分析

1-1 貸款量明細(xì):每年人均貸款總額凡蜻,年均貸款總金額

#業(yè)務(wù)分析1-1 貸款量明細(xì):每年人均貸款總額搭综,年均貸款總金額
f1, (ax4, ax5) = plt.subplots(1, 2, figsize=(16, 6))
loanData.groupby(['issue_year'])['loan_amnt'].mean().plot(kind='bar', ax=ax4)
ax4.set_xlabel('Year')
ax4.set_ylabel('Loan Amount per Capita')
loanData.groupby(['issue_year'])['loan_amnt'].sum().plot(kind='bar', ax=ax5)
ax5.set_xlabel('Year')
ax5.set_ylabel('Total Loan Amount')
貸款量明細(xì)

LC在2012-2015飛速發(fā)展,能發(fā)的錢越來越多

1-2平均貸款利率與信用等級(jí)關(guān)系划栓、貸款情況與信用等級(jí)的關(guān)系

#業(yè)務(wù)分析1-2

f2, (ax6, ax7) = plt.subplots(1, 2, figsize=(20, 6))
groupby_grade = loanData.groupby(['grade'])
groupby_grade['int_rate'].mean().plot(kind='bar', ax=ax6)
ax6.set_title('Interest Rate vs Grade')
ax6.set_ylabel('Interest Rate')
ax6.set_xlabel('Grade')
#
sns.countplot(x='grade', data=loanData, hue='loan_condition', ax=ax7)
ax7.set_title('Amount of Borrower vs Grade')
ax7.set_ylabel('Amount of Borrower')
信用等級(jí)關(guān)系很大

信用等級(jí)越低兑巾,貸款利率越高

1-3 DTI分布情況

DTI:每月還款占月收入的比例

#業(yè)務(wù)分析1-3 DTI分布情況
#DTI 每月還款占月收入的比例
f3, ax8 = plt.subplots(1, 1, figsize=(8, 4))
loanData.dti.plot(kind='hist', bins=100, ax=ax8)
ax8.set_xlim(left=0, right=50)
DIT分布

大部分的貸款客戶的DTI在35%以下,說明還款壓力不是很大
一小部分客戶DIT達(dá)到45%忠荞,存在風(fēng)險(xiǎn)
后續(xù)特征工程中將以35%為分界 分為兩類
在右側(cè)看不見的地方還存在極小一部分蒋歌,,基本屬于風(fēng)險(xiǎn)很大的貸款

1-4 貸款期限分布

#業(yè)務(wù)分析1-4 貸款期限分布
sns.countplot(x='term', data=loanData)
貸款期限

LC平臺(tái)以短期貸款為主委煤,但長期貸款比例也不低


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末堂油,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子素标,更是在濱河造成了極大的恐慌称诗,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,110評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件头遭,死亡現(xiàn)場離奇詭異寓免,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)计维,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,443評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門袜香,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人鲫惶,你說我怎么就攤上這事蜈首。” “怎么了?”我有些...
    開封第一講書人閱讀 165,474評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵欢策,是天一觀的道長吆寨。 經(jīng)常有香客問我,道長踩寇,這世上最難降的妖魔是什么啄清? 我笑而不...
    開封第一講書人閱讀 58,881評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮俺孙,結(jié)果婚禮上辣卒,老公的妹妹穿的比我還像新娘。我一直安慰自己睛榄,他們只是感情好荣茫,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,902評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著场靴,像睡著了一般啡莉。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上憎乙,一...
    開封第一講書人閱讀 51,698評(píng)論 1 305
  • 那天票罐,我揣著相機(jī)與錄音,去河邊找鬼泞边。 笑死该押,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的阵谚。 我是一名探鬼主播蚕礼,決...
    沈念sama閱讀 40,418評(píng)論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼梢什!你這毒婦竟也來了奠蹬?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,332評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤嗡午,失蹤者是張志新(化名)和其女友劉穎囤躁,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體荔睹,經(jīng)...
    沈念sama閱讀 45,796評(píng)論 1 316
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡狸演,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,968評(píng)論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了僻他。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片宵距。...
    茶點(diǎn)故事閱讀 40,110評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖吨拗,靈堂內(nèi)的尸體忽然破棺而出满哪,到底是詐尸還是另有隱情婿斥,我是刑警寧澤,帶...
    沈念sama閱讀 35,792評(píng)論 5 346
  • 正文 年R本政府宣布哨鸭,位于F島的核電站民宿,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏像鸡。R本人自食惡果不足惜勘高,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,455評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望坟桅。 院中可真熱鬧,春花似錦蕊蝗、人聲如沸仅乓。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,003評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽夸楣。三九已至,卻和暖如春子漩,著一層夾襖步出監(jiān)牢的瞬間豫喧,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,130評(píng)論 1 272
  • 我被黑心中介騙來泰國打工幢泼, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留紧显,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,348評(píng)論 3 373
  • 正文 我出身青樓缕棵,卻偏偏與公主長得像孵班,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子招驴,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,047評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 數(shù)據(jù)可視化 結(jié)論 上一篇文章中篙程,我們說到了如何處理數(shù)據(jù),并且最后篩選出比較重要的一些特征别厘。按道理來說虱饿,接下來我們應(yīng)...
    萬能滴小籠包閱讀 9,258評(píng)論 4 7
  • 家鄉(xiāng)人認(rèn)為過罷元宵節(jié),年才算結(jié)束触趴,那么元宵節(jié)這天即是真正的年尾了氮发,因此上還要美美的大鬧一番哩! 這...
    田爾盛閱讀 622評(píng)論 1 3
  • 2017年9月17日 星期天 天氣晴 崔笑媽媽親子日記 親子日記的第150天雕蔽!五個(gè)月了折柠,沒有什么感覺時(shí)...
    崔笑媽媽閱讀 138評(píng)論 1 4
  • 文/馮友蘭 何謂“意義”?意義發(fā)生于自覺及了解批狐;任何事物扇售,如果我們對(duì)它能夠了解前塔,便有意義,否則便無意義承冰;了解越多华弓,...
    秦東魁閱讀 387評(píng)論 0 1
  • 你的愛已模糊你的憂傷還清楚我們于是流浪這座城市彷徨著彷徨迷茫著迷茫選擇在月光下被遺忘 默名的憂傷寂屏,想起許美靜這首《...
    doMyselfzy閱讀 425評(píng)論 0 0