200 多家明星企業(yè)着裹,20 位著名投資機構(gòu)頂級投資人共同參與揉忘!「新智造成長榜」致力于發(fā)掘 AI 領(lǐng)域有 “三年十倍” 成長潛力的創(chuàng)新公司最疆,下一波 AI 獨角獸荚守,會有你么珍德?點擊閱讀原文了解詳情!
雷鋒網(wǎng)按:中國消費金融市場的用戶大致可以劃分為四種類型:1. 白領(lǐng)和自雇人群矗漾;2. 藍領(lǐng)锈候;3 學(xué)生;4. 農(nóng)民敞贡。其中泵琳,前兩者為主力消費人群,市場規(guī)模十分廣闊嫡锌。
白領(lǐng)和自雇人群往往擁有央行征信報告虑稼,主要使用銀行信用卡,以及 BAT 和京東等大型企業(yè)提供的消費金融產(chǎn)品势木。而多達 2.5 億的藍領(lǐng)則主要為薄文件人群(央行征信報告能夠采集到的數(shù)據(jù)非常少)蛛倦,他們具有很強的消費沖動,是互聯(lián)網(wǎng)金融產(chǎn)品的主要目標啦桌。而由于傳統(tǒng)銀行放款周期過長溯壶,無法滿足他們的需求;即時高效的互聯(lián)網(wǎng)消費金融產(chǎn)品也就成了他們的最佳選擇甫男。
那么且改,互聯(lián)網(wǎng)消費金融企業(yè)如何才能抓住這一市場機遇,從廣大薄文件人群中尋找優(yōu)質(zhì)客戶板驳、提高用戶黏性又跛,同時降低風(fēng)險,將收益最大化呢若治?本期硬創(chuàng)公開課慨蓝,雷鋒網(wǎng)邀請到了秦蒼科技數(shù)據(jù)科學(xué)家沈赟博士感混,為大家分享 AI 在消費金融產(chǎn)品優(yōu)化以及風(fēng)險控制中的應(yīng)用。
內(nèi)容介紹:
本次公開課包含以下內(nèi)容:
1. 根據(jù)用戶多維弱變量數(shù)據(jù)的綜合信用評分
2. 社交網(wǎng)絡(luò)算法應(yīng)用于金融反欺詐
3. 基于機器學(xué)習(xí)模型的額度策略
4 基于機器學(xué)習(xí)的金融產(chǎn)品設(shè)計
5. 人工智能應(yīng)用的前沿探索:用戶生命周期管理
嘉賓介紹
沈赟博士礼烈,秦蒼科技數(shù)據(jù)科學(xué)家弧满,具有 9 年金融領(lǐng)域機器學(xué)習(xí)研究開發(fā)經(jīng)驗。擁有德國柏林工業(yè)大學(xué)電子信息科學(xué)與技術(shù)博士學(xué)位此熬、上海交通大學(xué)計算機科學(xué)與技術(shù)碩士學(xué)位庭呜、德國柏林工業(yè)大學(xué)電子信息科學(xué)與技術(shù)碩士學(xué)位、上海交通大學(xué)計算機科學(xué)與技術(shù)本科學(xué)位犀忱。
曾在 Journal of Machine Learning Research, Neural Computation, SIAM Journal on Control and Optimization 等機器學(xué)習(xí)募谎、神經(jīng)網(wǎng)絡(luò)以及應(yīng)用數(shù)學(xué)等領(lǐng)域的頂級期刊和會議上發(fā)表多篇學(xué)術(shù)論文。
曾任職德國 LOBSTER Data 量化分析師峡碉,分析處理高頻 Nasdaq 數(shù)據(jù)近哟,輔助完成產(chǎn)品上線⊥陨螅現(xiàn)擔(dān)任秦蒼科技數(shù)據(jù)科學(xué)家鲫寄,率領(lǐng)團隊構(gòu)建基于機器學(xué)習(xí)的信用評分、額度策略疯淫、反欺詐以及用戶生命周期內(nèi)的自動化動態(tài)調(diào)頻系統(tǒng)等地来。成功打造了基于用戶數(shù)據(jù) 1 秒內(nèi)完成信用評分的評分機制,相比傳統(tǒng)模型提高了 25%AUC熙掺。
(本期公開課完整視頻未斑,共 51 分鐘)
以下為雷鋒網(wǎng)對嘉賓分享內(nèi)容的實錄精編。
風(fēng)險控制
信用評分
風(fēng)險控制是消費金融領(lǐng)域的一大核心問題币绩,信用評分機制則是控制風(fēng)險的有效手段蜡秽。信用評分機制可以簡化為分類問題,即根據(jù)用戶歷史上的行為缆镣,來判斷他是 “好人” 還是 “壞人”芽突。假如一個用戶逾期幾個月,那么我們就認定他是 “壞人”董瞻,若沒有逾期行為寞蚌,則為 “好人”。
我們采用了機器監(jiān)督學(xué)習(xí)中的經(jīng)典分類算法來進行用戶信用評分钠糊。評分過程可以分為以下幾步:
數(shù)據(jù)導(dǎo)入和清洗挟秤。因為數(shù)據(jù)采集過程中可能會采集到臟數(shù)據(jù),此外抄伍,我們還需要剔除部分不可用艘刚、不可計算的數(shù)據(jù),以及空數(shù)據(jù)截珍。
特征提取攀甚。采集數(shù)據(jù)時啄糙,我們通常會采集多達一萬多個數(shù)據(jù)點,然后通過特征提取的方式提取幾百個特征點云稚。
模型選擇隧饼。在模型中,我們會運用到一些機器學(xué)習(xí)算法静陈,比如邏輯回歸燕雁、隨機森林、AdaBoost鲸拥、XgBoost拐格、神經(jīng)網(wǎng)絡(luò)等。選擇模型時刑赶,我們會采取 cross validation 的方式捏浊,同時運用基于 ROC 的 AUC 來決策模型的好壞。
決策撞叨。決策過后金踪,我們可以觀察用戶表現(xiàn),重新提取數(shù)據(jù)訓(xùn)練模型牵敷,形成正向反饋循環(huán)胡岔。也就是說,隨著收集到更多枷餐、更新的數(shù)據(jù)靶瘸,我們的模型將不斷迭代和進化。
從應(yīng)用結(jié)果來看毛肋,AI 決策相比傳統(tǒng)手工開發(fā)的算法決策怨咪,可以把決策時間從分鐘級別縮短至 0.1 秒,同時降低 25% 的壞賬率润匙,每年為企業(yè)節(jié)約高達上千萬的成本诗眨。
在大家熟知的,使用深度神經(jīng)網(wǎng)絡(luò)解決圖像識別和云識別的問題中趁桃,一般而言辽话,采集的數(shù)據(jù)越多,訓(xùn)練出的模型就越好卫病。但金融領(lǐng)域不同油啤,金融數(shù)據(jù)具有非常強的時間效應(yīng)购公,越靠近現(xiàn)在的數(shù)據(jù)越具備預(yù)測效力葡兑。并不是說擁有的數(shù)據(jù)越多怠肋,模型效果就越好坚冀。因此沟优,不斷定期更新模型至關(guān)重要瀑焦。
模型是基于歷史數(shù)據(jù)訓(xùn)練出來的翎碑,在未來不發(fā)生異常事件的前提下突颊,可以保持預(yù)測效力;一旦出現(xiàn)異常事件冗锁,模型的效力就有可能下降齐唆。為了保證系統(tǒng)預(yù)測的穩(wěn)定性,我們會同時開發(fā)多個模型彼此競賽冻河。
比方說箍邮,我們訓(xùn)練出了三個模型,分配給他們不同的流量:模型 2 流量最高叨叙,模型 1 次之锭弊;模型 3 最低。一段時間后擂错,我們可以收集到各個模型的表現(xiàn)味滞,根據(jù)其準確率動態(tài)調(diào)節(jié)流量。如果某個模型表現(xiàn)好钮呀,就多分配一些流量剑鞍,反之則減少流量。如果這個模型的效力長時間內(nèi)持續(xù)下降行楞,就將逐漸被淘汰攒暇,與此同時會有新的模型加入競爭∽臃浚總而言之,多模型并行就轧,擇優(yōu)進化证杭,對于保持系統(tǒng)的穩(wěn)定性十分重要。
通過社交網(wǎng)絡(luò)分析反欺詐
消費金融產(chǎn)品風(fēng)險控制中妒御,另一個非常重要的部分是反欺詐解愤。我們反欺詐的主要手段是社交網(wǎng)絡(luò)分析。用于社交網(wǎng)絡(luò)分析的數(shù)據(jù)通澈趵颍基于手機號碼送讲,比方說手機緊急聯(lián)系人、通聯(lián)紀錄惋啃、通訊錄等哼鬓。
上面是一張社交網(wǎng)絡(luò)關(guān)系結(jié)構(gòu)示意圖,圖中每個點代表一個用戶边灭,通過線段連接的兩個點互為手機聯(lián)系人异希。其中某些用戶可以通過一個共同的節(jié)點聯(lián)系到一起,那么我們就將其看作一個團绒瘦。以團為單位称簿,可以提取到一些社交網(wǎng)絡(luò)特征:
團內(nèi)其他用戶的表現(xiàn)扣癣,比方說逾期率、通過量等憨降。這一特征判斷的核心思想可以歸納為 “近朱者赤父虑,近墨者黑”。
團本身的特性授药,比方說節(jié)點數(shù)频轿、團內(nèi)用戶的連接緊密程度等。
團內(nèi)用戶的屬性烁焙,比方說團內(nèi)的女性人數(shù)航邢、地區(qū)分布、平均借款額度等骄蝇。一般而言膳殷,團內(nèi)女性人數(shù)占比越大,團內(nèi)用戶是 “好人” 的概率就越大九火。
從社交網(wǎng)絡(luò)中提取的特征主要可應(yīng)用于兩大方面:
一赚窃、將特征數(shù)據(jù)加入信用評分模型,提升其準確度岔激。根據(jù)以往的經(jīng)驗勒极,加入這些數(shù)據(jù)后,AUC 值可以提升 3-5%虑鼎。
二辱匿、通過無監(jiān)督的聚類方法來預(yù)防欺詐。我們將某個地區(qū)的所有用戶進行特征分析后炫彩,投影到二維平面匾七,通常可以發(fā)現(xiàn)兩到三個異常點江兢,他們距離其他用戶非常遠昨忆。這時候就會觸發(fā)我們的調(diào)查機制,調(diào)查這個用戶是否真的存在欺詐行為杉允。實踐檢驗邑贴,這種異常值檢測的方法可達到 60% 左右的準確率,證明對于預(yù)防欺詐叔磷,社交網(wǎng)絡(luò)特征分析確實行之有效拢驾。
產(chǎn)品優(yōu)化
優(yōu)化金融產(chǎn)品參數(shù)
消費金融產(chǎn)品主要指分期借貸,我們可以把它想象成信用卡世澜,其主要參數(shù)有額度独旷、利率和期數(shù)。設(shè)計這些參數(shù)時,我們主要需要考慮兩個方面:
產(chǎn)品的接受度嵌洼。我們向用戶推薦產(chǎn)品時案疲,用戶是否會接受?一般而言麻养,產(chǎn)品額度越大褐啡、利率越低,用戶接受的可能性就越大鳖昌。
風(fēng)險控制备畦。隨著用戶接受度提高,風(fēng)險也在增加许昨。如果我們向用戶提供的額度超出其償還能力懂盐,資金就很可能收不回來。
產(chǎn)品的接受度和風(fēng)險彼此沖突糕档,我們需要尋找折中方案莉恼。
下面介紹一個我們開發(fā)的基于貝葉斯算法的框架。在消費金融場景中速那,簡單來說俐银,可以把用戶劃分為 “好人” 和 “壞人”。在給定用戶表現(xiàn)和金融產(chǎn)品參數(shù)的前提下端仰,基本可以確定這款產(chǎn)品能夠帶來的受益捶惜。但同一個用戶在不同時期的表現(xiàn)是不一樣的。比方說荔烧,用戶這段時間經(jīng)濟狀況較好吱七,能夠及時還款;一段時間后他經(jīng)濟狀況變壞了茴晋,就很有可能還不上陪捷。用戶是 “好人” 還是 “壞人”,是個概率性問題诺擅。
上面的公式中,p 代表在給定某個金融產(chǎn)品和用戶的前提下啡直,這個用戶是 “好人” 還是 “壞人” 的概率烁涌。統(tǒng)籌考慮所有情況后,就能得出這個用戶身上的期望收益酒觅。
我們希望通過調(diào)整產(chǎn)品參數(shù)將收益最大化撮执,同時也需要關(guān)注用戶逾期的風(fēng)險。在給定某個產(chǎn)品的前提下舷丹,我們希望用戶是 “好人” 的概率大于某個值抒钱,比如 0.6 或者 0.8。這樣可以間接控制用戶可能帶來的損失。
上圖展示了我們對 “用戶是‘好人’還是‘壞人’” 的概率估計情況谋币。其中 x 軸代表額度仗扬,y 軸代表期數(shù),z 軸代表用戶是 “好人” 的概率蕾额,每一個曲面對應(yīng)一位用戶早芭。從圖中可以看出,有些用戶對于額度和期數(shù)不太敏感诅蝶。雖然隨著額度和期數(shù)增加退个,他們是 “好人” 的概率有所下降,但始終高于某個數(shù)值调炬。有些用戶則對額度和期數(shù)非常敏感语盈。通過大量提取用戶特征,我們可以不斷對模型進行優(yōu)化缰泡,為每個用戶量身打造合適的金融產(chǎn)品刀荒。
那么,這個模型的效力究竟如何呢匀谣?上圖進行了展示照棋。圖中 x 軸代表風(fēng)險閾值,左端表示閾值非常低武翎,我們可以冒巨大的風(fēng)險烈炭;右端表示閾值非常高,放款策略趨于保守宝恶。y 軸則代表我們針對某個用戶預(yù)測的放款金額符隙,與其歷史放款金額的比例關(guān)系。若比例大于 1垫毙,就說明預(yù)測的放款金額高于歷史放款金額霹疫,同理反推。從圖中可以看出:
在同一風(fēng)險閾值下综芥,“好人”(黑色)獲得的額度總是高于 “壞人”(橙色)丽蝎。
隨著風(fēng)險閾值提高,用戶獲得的放款額度逐漸下降膀藐。
在給定風(fēng)險閾值的前提下屠阻,“好人” 獲得的預(yù)期額度總是高于歷史額度,“壞人” 則恰恰相反额各。
結(jié)果和預(yù)期完全相符国觉,這證明了我們基于貝葉斯算法的分析框架確實行之有效。
延長用戶生命周期
企業(yè)總是希望用戶能盡可能長時間地使用自己的產(chǎn)品虾啦。因此新用戶借款并如期還款后麻诀,企業(yè)還會向其推薦其他金融產(chǎn)品痕寓。那么,如何最大限度地留住客戶蝇闭,延長其生命周期呢呻率?
在用戶的整個還款周期中,我們可以通過用戶在每一個還款節(jié)點的表現(xiàn)丁眼,判斷其是 “好人” 還是 “壞人”筷凤,并作出相應(yīng)調(diào)整。如果用戶還款表現(xiàn)好苞七,可適當(dāng)提升額度或降低利息藐守,鼓勵其使用我們的其他產(chǎn)品。若用戶表現(xiàn)差蹂风,則可以降低額度和提高利息卢厂,以防控風(fēng)險。極端情況下惠啄,將啟動調(diào)查或催收機制慎恒。
借助這些手段,企業(yè)可以提升用戶黏性撵渡,并將收益最大化融柬。
馬爾科夫決策過程 - 增強學(xué)習(xí)
為實現(xiàn)這一目的,我們采用了深度學(xué)習(xí)以及運籌學(xué)中非常經(jīng)典的馬爾科夫決策過程進行建模趋距。企業(yè)關(guān)注的是用戶在整個生命周期中帶來的累積收益粒氧,因此不同于前面提到產(chǎn)品參數(shù)優(yōu)化。產(chǎn)品參數(shù)優(yōu)化是單步?jīng)Q策节腐,而收益最大化是多步?jīng)Q策問題外盯,需要在每一步?jīng)Q策中不斷優(yōu)化我們的策略。
上圖中的公式中翼雀,r 是一個 reward 函數(shù)饱苟,它取決于 st 和θt 兩個變量。st 和θt 分別代表當(dāng)前賬期下用戶的表現(xiàn)(逾期或提前還款等)以及企業(yè)的決策(提額或降息等)狼渊。π則代表企業(yè)在每個賬期中的單步策略累計而成的整體策略箱熬。通過這個公式,我們可以得到預(yù)期的最大收益狈邑。
昨天阿爾法 go 再次戰(zhàn)勝了中國著名棋手柯潔坦弟。阿爾法 go 用到的一個核心算法叫做增強學(xué)習(xí),增強學(xué)習(xí)的本質(zhì)其實也是馬爾科夫決策過程官地。它用到了不斷迭代的 online learning 算法來解決多步?jīng)Q策問題。
馬爾科夫決策應(yīng)用到消費金融場景烙懦,過程大致如下:新用戶進來后驱入,系統(tǒng)會抽取他的個人特征,同時根據(jù)其當(dāng)前還款狀態(tài),以及在這個時間點上帶來的利潤或者損失亏较,優(yōu)化 value function 和 state representation莺褒。value function 和 state representation 是通過分析和學(xué)習(xí)用戶歷史數(shù)據(jù)得來的,加入新的數(shù)據(jù)后雪情,系統(tǒng)會不斷校正 value 值遵岩。如果某一步?jīng)Q策對我們不利,那么其 value 值就會降低巡通,反之則 value 值提高尘执。如此不斷循環(huán)往復(fù)。
總結(jié)
前面提到宴凉,AI 在消費金融風(fēng)險控制以及產(chǎn)品優(yōu)化方面誊锭,能夠發(fā)揮巨大重要。但需要強調(diào)的是弥锄,現(xiàn)在 AI 概念非常熱門丧靡,大家都希望學(xué)到最新的算法;但要把 AI 算法落地到實際生產(chǎn)和業(yè)務(wù)中籽暇,還是應(yīng)該立足業(yè)務(wù)本身温治,不斷挖掘數(shù)據(jù)優(yōu)化模型。選擇什么模型不重要戒悠,模型好壞最終還是要看它是否能夠給業(yè)務(wù)帶來增長熬荆。最理想的狀態(tài)是,企業(yè)能夠通過模型優(yōu)化業(yè)務(wù)流程救崔,獲取更多數(shù)據(jù)惶看,然后利用新的數(shù)據(jù)進一步優(yōu)化模型,形成良性循環(huán)六孵。
QA:
1. 除了風(fēng)險控制纬黎,未來 AI 還可以應(yīng)用到消費金融的哪些環(huán)節(jié),將給行業(yè)帶來怎樣的改變劫窒?
前面已經(jīng)提到了產(chǎn)品結(jié)構(gòu)優(yōu)化本今。通過優(yōu)化產(chǎn)品參數(shù)和結(jié)構(gòu),來提升用戶黏性主巍,將收益最大化冠息,這對于企業(yè)來說非常重要。除此之外孕索,AI 還可以用于產(chǎn)品推廣逛艰,比如通過現(xiàn)有的社交網(wǎng)絡(luò),向其他用戶推薦適合他們的金融產(chǎn)品搞旭。
2. 在目前技術(shù)條件下散怖,AI 風(fēng)控相比傳統(tǒng)風(fēng)控存在哪些不足菇绵?未來如何提高?
AI 技術(shù)立足于大數(shù)據(jù)镇眷。如果我們能夠獲取足夠多咬最、足夠新的,具有表征能力的數(shù)據(jù)欠动, AI 風(fēng)控一定能夠打敗傳統(tǒng)風(fēng)控永乌。但很多時候,企業(yè)獲取的數(shù)據(jù)往往不夠充分具伍。這時候翅雏,基于長期經(jīng)驗積累的傳統(tǒng)風(fēng)控往往能夠提供行之有效的風(fēng)險控制手段,雖然他們的方案不一定是最優(yōu)的沿猜。如果未來 AI 能夠進化到擁有學(xué)習(xí)和推理能力枚荣,那么它完全能夠取代傳統(tǒng)風(fēng)控,不過短期內(nèi)還很難實現(xiàn)啼肩。
3. 隨著人工智能發(fā)展趨于成熟橄妆,未來消費金融行業(yè)必然會大規(guī)模引進這項技術(shù),這是否會帶來風(fēng)險評估同質(zhì)化的問題祈坠?企業(yè)該如何進行產(chǎn)品的差異化開發(fā)害碾?
這個問題確實存在,未來同一個行業(yè)用到的 AI 算法大多類似赦拘。但每個企業(yè)采集到的數(shù)據(jù)端不同慌随。如果企業(yè)能夠采集到足夠新、足夠可靠的數(shù)據(jù)躺同,其風(fēng)險控制能力將顯著提升阁猜。因此,問題的本質(zhì)在于如何獲取盡可能多的優(yōu)質(zhì)數(shù)據(jù)蹋艺。
4. 人工智能能否代替?zhèn)€人征信的作用剃袍?
我個人認為是可以的。央行的征信系統(tǒng)能夠做到多好捎谨,取決于大型機構(gòu)民效,比如銀行和 BAT 等大企業(yè),愿意在多大程度上貢獻數(shù)據(jù)涛救。如果這些機構(gòu)愿意將數(shù)據(jù)完全共享出來畏邢,那么央行的征信系統(tǒng)可以做到非常完善,但其中存在非常大的阻力检吆。企業(yè)們還是更愿意基于自己采集到的數(shù)據(jù)舒萎,盡可能把風(fēng)控模型做到最好。如果央行無法采集到足夠多的數(shù)據(jù)蹭沛,其征信系統(tǒng)不見得一定比企業(yè)的風(fēng)險控制系統(tǒng)更好逆甜。
5. 入門應(yīng)該如何學(xué)習(xí) AI
個人認為可以分兩個層面:首先可以上網(wǎng)搜索一些教程虱肄,比如說雷鋒網(wǎng)硬闖公開課上的教程;另外還可以通過實現(xiàn)現(xiàn)有的交煞、開發(fā)好的 AI 程序,提升自己的動手能力斟或∷卣鳎總之,學(xué)習(xí)和實踐相結(jié)合萝挤。