1.項目背景
問題是要求對用戶貸款是否會違約進行預測南吮,是一個二分類問題蜜猾,評價指標是AUC辱姨,一共有8個數(shù)據(jù)集柿菩,包括1個主訓練集,1個測試集和6個輔助信息表雨涛,主訓練集特征主要有用戶的個人屬性枢舶,包括用戶的性別,職業(yè)替久,是否有車凉泄,是否有房,房子面積等基本信息侣肄,輔助信息表包括用戶的歷史申請信息旧困,歷史賬戶余額信息,分期付款信息稼锅,信用卡信息吼具,信用局信息和在信用局上的額度信息。這些表之間可以通過一些特定鍵相連接矩距。我認為我做這個項目最大亮點主要是在理解業(yè)務的基礎上拗盒,對特征進行了比較深的挖掘,做出質量比較好的特征工程锥债。
2. 項目流程
第一步是對數(shù)據(jù)做一些可視化分析陡蝇,探索數(shù)據(jù)集,目標主要是兩點,第一點是對數(shù)據(jù)集中的缺失值哮肚、異常值進行探索登夫,為后面的數(shù)據(jù)處理做準備。第二點是探索違約用戶和非違約
用戶特征的分布情況允趟,建立違約用戶的基本畫像恼策,理解數(shù)據(jù)為后面的特征工程做基礎。
3.數(shù)據(jù)可視化+數(shù)據(jù)清洗
首先是對缺失值的探索潮剪,在這里我先查看了不同特征的缺失分布情況涣楷,缺失度最高的列是74%,因為選擇的模型是
lgb模型分唾,可以自動對缺失值做出處理,所以這里我沒有對缺失值做一些填補操作狮斗,在缺失值探索中绽乔,我發(fā)現(xiàn)很有
意思的一點是有一些特征它們的缺失度是完全一樣的,并且發(fā)現(xiàn)這些特征都是用戶的房屋信息碳褒,由此我猜測這些
值的缺失是有規(guī)律的折砸,用戶可能是沒有房屋才會缺失房屋相關的信息,由此我做出了一個新的特征骤视,一個是房屋
信息有缺失的用戶鞍爱,一個是房屋信息沒有缺失的用戶,經(jīng)驗證這個特征是對預測有區(qū)分度的专酗,房屋信息有缺失的
用戶違約率更高然后是對異常值的觀察睹逃,比如在雇傭時間這一列特征里,有些用戶的雇傭時間顯示超過了100
年祷肯,這明顯是不合理的沉填,我的理解是這些值可能實質上是缺失值,所以就將其替換成nan佑笋。
在數(shù)據(jù)質量做完探索后翼闹,我再對違約用戶和非違約用戶的特征分布做了一些探索,對違約用戶的畫像有了一個基
本的概念蒋纬,比如男性比女性更容易違約猎荠,年紀小的人比年紀大的人更容易違約,住在城市以外的人要比住在城市
里的人更容易違約等等蜀备。
4.特征工程
在對數(shù)據(jù)清洗完畢后是做特征工程关摇,我是主要是從兩個角度來對違約用戶的畫像進行刻畫,一個是用戶的個人信
息特征碾阁,包括用戶的收入输虱,職業(yè),是否有車脂凶,是否有房等這么一些基本信息特征宪睹。第二個角度是從用戶的行為出
發(fā),衡量用戶是否是一個具有高風險傾向的人
基于上面兩個思路蚕钦,首先在個人信息這里亭病,除了用戶基本的年齡等信息外,我從輔助數(shù)據(jù)集里還增加了一些統(tǒng)計
特征嘶居,比如說通過征信數(shù)據(jù)可以知道用戶在不同金融機構的開戶時間命贴,我計算了用戶的平均信用歷史時間長度,
這個時間越長說明用戶具有越長的信用記錄,其違約的可能性就越小胸蛛。
在用戶行為特征的角度,我也增加了一些新的特征樱报,比如說用戶申請的金額和他年收入的比值葬项,這個比值越高說
明用戶在申請高于其年收入的貸款,貸款很有可能會超出他的還款能力迹蛤,違約的概率可能就比較高民珍。
最終在做完特征工程后,我使用lgb模型進行建模預測
數(shù)據(jù)一共有122列盗飒,有67列存在缺失情況嚷量,最高缺失值的列缺失度為69.9%,對缺失值的處理在房價預測案例中已經(jīng)提到過逆趣,對于缺失值的處理一是我們可以采用XGBoost這種能夠自動處理缺失值的模型蝶溶,這樣我們就無需處理缺失值。二是可以進行填補宣渗,三是可以對缺失值較高的列直接刪除這里有一點大家注意抖所,可以發(fā)現(xiàn)前面的幾列特征缺失度的都是一樣的,并且它們都是屬于房屋信息痕囱,根據(jù)這個規(guī)律我們可以猜測用戶缺失房屋信息可能是因為某種特定原因導致的田轧,而不是隨機缺失,這點我們會在后面的特征工程用上鞍恢。
異常值探索
對主訓練集進行一些異常值的探索傻粘,這次異常值探索,我們采取最簡單的描述統(tǒng)計的方法帮掉,即查看特征的均值弦悉、極大值、極小值等信息判斷是否有異常值
查看用戶年齡的數(shù)據(jù)分布情況(因為數(shù)據(jù)中旭寿,年齡的數(shù)值是負數(shù)警绩,反映的是申請貸款前,這個用戶活了多少天盅称,所以這里我除了負365做了下處理),發(fā)現(xiàn)數(shù)據(jù)的分布還是比較正常的肩祥,最大年齡69歲,最小年齡20歲缩膝,沒有很異常的數(shù)字
查看用戶的工作時間分布情況發(fā)現(xiàn)(同樣工作時間也是負數(shù)混狠,所以我除了負365),最小值是-1000年疾层,這里
的-1000年明顯是一個異常數(shù)據(jù)将饺,沒有人的工作時間是負數(shù)的,這可能是個異常值
看一下用戶受工作時間的數(shù)據(jù)分布情況,發(fā)現(xiàn)所有的異常值都是一個值予弧,365243刮吧,對于這個異常值我的理解是它
可能是代表缺失值,所以我的選擇是將這個異常值用空值去替換掖蛤,這樣可以保留這個信息杀捻,又抹去了異常值,替
換之后我們再看一下工作時間的分布情況蚓庭,正常了很多
違約用戶畫像探索
這部分分析的目標主要是查看違約用戶和非違約用戶的特征分布情況致讥,目標是對違約用戶的畫像建立一個基本的
了解,為后續(xù)特征工程打下基礎器赞。比如數(shù)據(jù)集里面有很多字段垢袱,包括性別、年齡港柜、工作時間等等请契,那么是男性更
容易違約還是女性?是年齡大的人更容易違約還是年齡小的人潘懊?查看這些數(shù)據(jù)的話姚糊,可以幫助我們對數(shù)據(jù)有更好
的理解。這也是和數(shù)據(jù)分析的業(yè)務緊密相關的部分授舟。
先作圖:
首先來看一下男性和女性用戶的違約率情況救恨,發(fā)現(xiàn)男性用戶違約率更高,男性用戶違約率為10%释树,女性為7%
下面我們再來看一下違約用戶和正常用戶的年齡分布情況肠槽,因為年齡是連續(xù)型變量,和性別不同奢啥,所以我們使用分布圖去看年齡的分布情況秸仙,通過數(shù)據(jù)分布我們可以看到,違約用戶年輕用戶分布更多桩盲,所以我們可以推斷的結論是用戶年齡越小寂纪,違約的可能性越大
我們可以對用戶的年齡進行分捅,進一步觀察觀察不同年齡段用戶的違約概率赌结,發(fā)現(xiàn)確實是用戶年齡越小捞蛋,違約的可能性越高
再來看一下不同貸款類型的違約率情況,對于現(xiàn)金貸款和流動資金循壞貸款柬姚,現(xiàn)金貸款的違約率更高
看下用戶有沒有房和車對違約率的影響拟杉,發(fā)現(xiàn)沒有車和房的人違約率更高,但相差并不是很大
從家庭情況看量承,申請的用戶大多已經(jīng)結婚搬设,單身和世俗結婚的違約率較高穴店,寡居的違約率最低
看一下子女信息,大部分申請者沒有孩子或孩子在3個以下拿穴,孩子越多的家庭違約率越高泣洞,發(fā)現(xiàn)對于有9、11個孩子的家庭違約率達到了100%(和樣本少也有關系)
根據(jù)申請者的收入類型區(qū)分贞言,可以發(fā)現(xiàn)休產假和沒有工作的人違約率較高斜棚,在35%以上骤公,對于這兩類人群放款需較為謹慎
從職業(yè)來看平项,越相對收入較低荠察、不穩(wěn)定的職業(yè)違約率越高,比如低廉勞動力酗失、司機、理發(fā)師昧绣,而像會計规肴、高科技員工等具有穩(wěn)定高收入的職業(yè)違約率就較低。
貸款申請人受教育程度大多為中學夜畴,學歷越低越容易違約
特征工程
接下來我們通過對特征的一些理解拖刃,嘗試做出一些新的特征
CREDIT_INCOME_PERCENT: 貸款金額/客戶收入,預期是這個比值越大贪绘,說明貸款金額大于用戶的收入兑牡,用戶違約的可能性就越大
ANNUITY_INCOME_PERCENT: 貸款的每年還款金額/客戶收入,邏輯與上面一致
CREDIT_TERM: 貸款的每年還款金額/貸款金額税灌,貸款的還款周期均函,猜測還款周期短的貸款,用戶的短期壓力可能會比較大菱涤,違約概率高
DAYS_EMPLOYED_PERCENT: 用戶工作時間/用戶年齡
INCOME_PER_CHILD:客戶收入/孩子數(shù)量苞也,客戶的收入平均到每個孩子身上,同樣的收入粘秆,如果這個人的家庭很大如迟,孩子很多,那么他的負擔可能比較重攻走,違約的可能性可能更高
HAS_HOUSE_INFORMATION : 殷勘, 這里我們根據(jù)客戶是否有缺失房屋信息設計一個二分類特征,如果未缺失的話是1陋气,缺失的是0
看一下通過缺失值設計的這個特征劳吠,通過下圖我們可以看到,缺失房屋信息的用戶違約概率要明顯高于未缺失用戶巩趁,這在模型的預測中可以算是一個比較有效的特征了
最后痒玩,利用現(xiàn)有的主數(shù)據(jù)集先進行一次建模預測淳附,模型的話選擇是LGB模型
這部分代碼過長,我放在了騰訊文檔中:【騰訊文檔】銀行信貸風險相關代碼
https://docs.qq.com/doc/DZVJER3VFR0Nja2tG
通過使用 LGM 模型在主訓練集上進行建模預測結果可以看出蠢古,貸款的還款周期奴曙、三個外部源數(shù)據(jù)標準化分數(shù)、用戶年齡等特征變量對于預測用戶違約率較為重要草讶,外部源數(shù)據(jù)標準化分數(shù)在特征描述表中未做過多描述洽糟。