2018年9月6日碉怔,在由“朗迪 Lendlt Fintech”主辦的 2018朗迪中國智能科技峰會上,《清華金融評論》金融家理事會會員ZRobot CEO 喬楊以“信用科技 智能生活”為主題做了分享,本文根據(jù)其演講內(nèi)容整理。
(圖為ZRobot CEO喬楊)
大家好愉舔,今天想和大家分享的主題是“信用科技、智能生活”栖博。
首先屑宠,請允許我向大家簡單的介紹一下ZRobot這家公司,它是京東金融旗下的一家金融科技公司仇让。2016年11月ZRobot正式對外宣布成立典奉,公司致力于利用京東海量高維的數(shù)據(jù)資源,結(jié)合硅谷最先進的數(shù)據(jù)挖掘技術和模型算法丧叽。通過京東金融豐富的金融應用場景卫玖,不斷打磨提升自身技術實力的同時對外賦能,進而幫助合作伙伴提升自身的風控實力和運營效率踊淳。目前已為銀行假瞬、保險、信托迂尝、小貸公司脱茉、消費金融公司等金融機構(gòu)提供各類數(shù)據(jù)產(chǎn)品支持及智能風控解決方案,合作機構(gòu)近200家垄开。
一琴许、ZRobot核心競爭力
ZRobot的核心競爭力主要包括兩個層面:
第一、數(shù)據(jù)源優(yōu)勢明顯
作為股東及主要數(shù)據(jù)源之一溉躲,京東金融的數(shù)據(jù)具備大榜田、厚、動的特點锻梳,也就是數(shù)據(jù)量大箭券,數(shù)據(jù)維度高,同時具備實時更新的能力疑枯”缈椋基于自身多年在電商零售及不同金融場景下的積累,京東金融每天新增的數(shù)據(jù)量級達到800TB神汹,比一些小型科技公司1年的數(shù)據(jù)增量還要多庆捺。
同時,京東金融已與700多家金融機構(gòu)合作屁魏,共同服務線上線下商戶達800萬滔以,個人用戶數(shù)量4億左右∶テ矗活躍客戶65%以上為80后主力消費人群同衣,也是消費及金融領域的核心客戶人群。
除了京東金融及京東體系的數(shù)據(jù)之外汇竭,ZRobot也與中國銀聯(lián)、運營商等頭部數(shù)據(jù)合作方展開深度合作拟逮。加上與騰訊、百度等聯(lián)手成立的京騰計劃适滓、京度計劃等敦迄,目前可對超過6億的個人進行準確的信用風險評估。有了強大的數(shù)據(jù)基礎凭迹,ZRobot可以將數(shù)據(jù)技術發(fā)揮到極致罚屋。目前在AI領域?qū)崿F(xiàn)了一系列突破包括全流程智能風險識別,生物識別嗅绸,AI模型能力等脾猛。
通過這樣的技術實現(xiàn),ZRobot可將自身的數(shù)據(jù)挖掘能力鱼鸠、模型算法能力及系統(tǒng)能力對外輸出賦能猛拴。
例如我們的大規(guī)模聯(lián)合建模合作項目以及自主研發(fā)的自動化決策引擎。
第二蚀狰、模型算法和特征工程
特征工程是建模流程中最為重要的環(huán)節(jié)愉昆。在大數(shù)據(jù)領域的人,應該比較了解坊間一直流傳的一句話:“數(shù)據(jù)和特征決定了機器學習的上限麻蹋,模型和算法只是逼近這個上限的手段而已撼唾。”我認為在整個大數(shù)據(jù)的核心壁壘或者說核心競爭力就是數(shù)據(jù)和特征工程哥蔚。我們的特征工程應用了數(shù)學、統(tǒng)計學蛛蒙、信息論糙箍、計算機科學、行為經(jīng)濟學等理論指標牵祟,但更重要的是建模團隊對核心業(yè)務的深刻理解深夯。
怎么理解?舉個例子:我在發(fā)現(xiàn)金融就職期間組織過一次全國大學生建模大賽诺苹,邀請了內(nèi)部的一個兩年建模經(jīng)驗的建模師咕晋,他花了兩個小時做了一個簡單的模型,以此為參照物收奔。我們向全國所有985掌呜、211的高校進行征集,不管參賽選手什么專業(yè)都可以參加坪哄,可以組團參賽质蕉,但一組最多4個人势篡,建模期限為1個月。讓我們感到驚訝的是模暗,1個月后我們收到的超過120份模型文檔及代碼中禁悠,只有冠軍團隊的模型比我們建模師花兩小時建的模型效果好一點點。其他模型都沒有達到他的模型效果水平兑宇,甚至差距很大碍侦。盡管很多團隊提交的模型、算法和用到的技術都是非常先進的隶糕,讓我們大開眼界瓷产。大家知道,參賽的都是數(shù)學系若厚、統(tǒng)計系拦英、工程系等的博士和碩士,理論知識豐富但缺乏基礎的信貸經(jīng)驗测秸。對于信貸特征變量的處理能力也比較有限疤估,這也就是建出來的模型效果大打折扣的主要原因。
這個例子說明只具備模型算法理論基礎霎冯,沒有深刻的業(yè)務理解力作為支撐铃拇,特征加工能力就會被削弱,最終導致模型效果不佳沈撞。這就是為什么模型算法本身并不能成為核心競爭力慷荔。
我在美國時,主導了發(fā)現(xiàn)金融第二代反欺詐模型的建立:大家知道缠俺,Discover在美國金融信貸領域的反欺詐技術是有口皆碑的显晶,因為我們的第一代反欺詐模型是外包給像FICO、Falcon及Pattern的業(yè)內(nèi)頂尖的咨詢公司壹士。但2008年美國經(jīng)濟危機之后磷雇,監(jiān)管要求所有美國信貸機構(gòu)能夠解釋自己的模型,包括如何進行數(shù)據(jù)清洗躏救、特征工程唯笙、使用了什么樣的建模方法等等。因為外包模型為黑箱模型盒使,我們并不能解釋崩掘,因此監(jiān)管要求我們必須把外包模型全部替換掉。當時建這個模型給我們的時間是6個月少办,要求非常簡單苞慢,就是做出來的替代模型不能比第一代差。當時我們的項目組只有4個人凡泣,而第一代反欺詐模型核心成員是參與了深藍下棋軟件開發(fā)的枉疼,還戰(zhàn)勝了當時的棋王卡斯帕羅夫皮假。但在6個月后,我們的模型上線驗收時骂维,整體模型效果比第一代模型提升了3倍惹资,在一些分組模型里,最好的效果提升達到了6倍航闺。后面我們復盤分析發(fā)現(xiàn)褪测,能達到這樣的效果原因在于我們花了大量的時間和精力在特征工程環(huán)節(jié)。因為我們內(nèi)部的建模人員潦刃,對數(shù)據(jù)的產(chǎn)生及業(yè)務流程是最熟悉的侮措,在這個環(huán)節(jié)上,我們遠遠勝出外部的咨詢公司乖杠。
有了這樣的基礎分扎,結(jié)合我們多角度集成學習算法以及以多層神經(jīng)網(wǎng)絡為基礎的模型體系,使得我們的模型效果在行業(yè)內(nèi)達到領先水平胧洒。同時我們的計算能力可以保證處理大量數(shù)據(jù)的時效性畏吓,達到線上實時計算輸出以及毫秒級響應。
這是我對ZRobot的介紹卫漫,下面我再介紹一下ZRobot如何建立起完整的數(shù)據(jù)挖掘能力菲饼。
二、用戶畫像的挖掘能力
通過我們的數(shù)據(jù)挖掘技術列赎,我們目前形成了刻畫完整用戶畫像的數(shù)據(jù)維度及屬性宏悦。包括基本信息、生物特征包吝、家庭信息饼煞、職業(yè)信息、個人征信诗越、行政記錄派哲、資產(chǎn)信息、消費記錄等等掺喻。
如上圖,其中綠色的部分是我們通過深度挖掘已經(jīng)具備的完整的用戶畫像屬性储矩,黃色的部分是可加強的畫像屬性感耙。有了這個數(shù)據(jù)矩陣,我們不但能夠向B端賦能持隧,也可以讓有信用的個人享受到信用生活的便捷即硼,后面我會展開講。
用戶畫像的價值在哪屡拨?
有了用戶畫像只酥,我們就可以對B端進行輸出褥实、賦能,同時裂允,還可以為有信用的個體帶來便捷损离。
剛剛提到,我們擁有全面的用戶畫像構(gòu)建能力绝编,是怎么做到的僻澎?舉一個簡單的例子:
對于用戶的顯性偏好,往往通過一些表層特征的挖掘十饥,通過線性模型即可得到結(jié)論窟勃,但往往會出現(xiàn)較大偏差。如果不能對特征進行修正的話逗堵,結(jié)論會產(chǎn)生極大誤導性秉氧。如何修正?我們可以看一個例子蜒秤,整個修正過程是一個自下而上的過程汁咏。
那么,ZRobot是怎么做的垦藏?
第一步:信息修正梆暖。
第一步我們可以通過對比如瀏覽、關注掂骏、購物車轰驳、交易等表層特征進行提煉,通過牛頓冷卻定律對特征進行修正弟灼。
牛頓冷卻定律指的是物體當前溫度為前一時間單位下的溫度與時間衰減因子的乘積级解。這樣做的必要性在于,比如從時間維度考慮田绑,最近1個月的消費比6個月前甚至更久的消費對判斷用戶偏好的貢獻更大勤哗。引入牛頓冷卻定律,賦予不同時間節(jié)點消費特征不同的衰減因子掩驱,可以將特征的描述準確度提升芒划。
第二步:通過Wilson區(qū)間,修正低頻行為下的偏好置信度欧穴。
從上圖中可見民逼,通過修正得出用戶M的偏好向量是較為準確的。這類修正方法在數(shù)據(jù)不足涮帘,頻次較低的情況下是非常有效的拼苍。那從最上面的曲線可以看出偏好F是用戶M的顯性偏好。在沒有完善方法論的時候调缨,可以通過統(tǒng)計用戶在各個領域的購物頻次疮鲫、RMF的方法也能得到用戶顯性偏好的推斷吆你。但是對于隱形偏好,需要更深層的數(shù)據(jù)挖掘俊犯。比如我們可以將總體平均顯性行為做為先驗概率妇多,通過貝葉斯推斷對比推斷用戶的后驗隱性偏好。藍色曲線為上頁的顯性偏好曲線瘫析,黃色曲線為整體人群的平均偏好砌梆。我們可以看出偏好B和偏好E為用戶M的隱形偏好。如果說上頁的顯性偏好是對用戶單點偏好的挖掘贬循,這幅圖則是通過用戶與群體偏好對比推斷用戶隱形偏好概率的方法論咸包。
這就是我們?yōu)槭裁纯梢詫τ脩舢嬒衲軌蜃鋈嫔疃韧诰虻脑蛑弧R陨鲜怯脩舢嬒駱撕灧矫娴耐诰虬咐窒碚认海酉聛砼e一個基于深度學習的電商頁面特征挖掘的案例烂瘫。
三、深度學習能力挖掘
在電商領域奇适,用戶會在頁面留下大量觸點:比如點擊瀏覽不同層次頁面坟比,但幾乎所有深層次頁面都會到SKU或單品頁面,所以我們提出了item2vector概念嚷往。類似文本挖掘領域的text2vector或word2vector葛账,將文本分類為向量矩陣,比如高頻低頻文本皮仁,然后進行情感分析籍琳、語義分析等等。所以我們是將電商領域的item抽出贷祈,把用戶瀏覽路徑轉(zhuǎn)換為向量形式趋急,就可以用向量來描述一個用戶在一個瀏覽session當中對哪些品類或單品產(chǎn)生瀏覽記錄。
由于瀏覽是有時間順序的势誊,所以我們將整個頁面瀏覽時間順序和向量放入卷積神經(jīng)網(wǎng)絡模型中加工訓練特征呜达。通過RNN方式我們提煉了大量原本通過人類業(yè)務經(jīng)驗或其他構(gòu)建特征方法所不能提煉的特征。這些特征做為機器學習模型訓練特征可大幅提升模型效果粟耻。
這是我們對于深度學習方面的突破查近,有了這一理論基礎,以及我們對于整個用戶畫像標簽的深度挖掘能力挤忙,就可以把自身積累的經(jīng)驗對外進行賦能嗦嗡。
四、ZRobot對外服務的差異化
1.聯(lián)合建模
做過聯(lián)合建模的人都知道饭玲,對外做聯(lián)合建模,一般都遵循上面這5個步驟叁执。它高度依賴于建模團隊自身的能力茄厘。我們在流程中賦予了跟我們合作方的建模團隊額外的工具矮冬,提供了一系列定制化增值服務。比如:數(shù)據(jù)清洗次哈、特征工程的經(jīng)驗胎署。剛才我提到的各種各樣的特征加工的經(jīng)驗,注入到整個流程當中窑滞。
同時琼牧,我們不僅把我們積累的數(shù)據(jù)字段推送到建模環(huán)境供合作方使用。在整個建模過程中哀卫,通過我們的模型加工訓練方法提煉出的我們認為行之有效的變量特征也會輸出到我們的建模環(huán)境中去巨坊,幫助我們的B端用戶更好地搭建模型。另外此改,合作方團隊對于機器學習的建模方法并不是非常熟練時趾撵,或者是業(yè)務經(jīng)驗比較欠缺時,我們在整個建模過程中也會提供模型訓練的輔助和輔導共啃。包括后期的模型部署和模型的校驗方面占调,我們都會提供一系列的增值服務,這是我們對外服務的差異化移剪。
2.幫助B端客戶提升量化運營能力
剛才究珊,我也提到了ZRobot有大量的深度挖掘用戶畫像標簽以及如何對外賦能的問題。大家知道纵苛,在當下人口紅利逐漸衰退的趨勢下剿涮,我們的B端用戶產(chǎn)生了一系列的痛點,比如獲客成本高赶站、營銷費用高幔虏、用戶黏性低、復購率/復貸率降低趨勢明顯等贝椿。
通過ZRobot的用戶價值增長平臺想括,我們有針對性的采集相關數(shù)據(jù)同時注入不斷更新的用戶畫像標簽,定期不定期的結(jié)合合作方的數(shù)據(jù)進行加工和提煉烙博。幫助他們針對潛在用戶和已服務用戶進行深度用戶畫像標簽加工瑟蜈,更好的為C端用戶提供精準的服務。例如我們深加工后的標簽體系可以幫助B端用戶更好地判斷用戶的消費偏好渣窜、消費習慣的改變铺根、產(chǎn)品及信貸需求等等。同時我們還會在產(chǎn)品端提供指導性建議乔宿,比如產(chǎn)品如何進行改造位迂,推送方式以及推送內(nèi)容是否可以進行優(yōu)化等等。這樣的服務相當于為用戶提供了一整套精細化運營的工具,讓用戶價值實現(xiàn)高速增長掂林。
3. 跟蹤職場信用
我們知道臣缀,在網(wǎng)絡上經(jīng)常曝出因為求職人員背景沒有得到很好地披露的情況下,給公司泻帮、社會造成一系列嚴重后果的犯罪情況精置。
包括大家比較熟悉的杭州縱火案,以及發(fā)生的幾起順風車的案件等锣杂,這樣的案件造成的影響是非常嚴重的脂倦。其實如果我們對于職場求職應聘人員進行信用維度的提前判斷的話,很多悲劇都可以得到預防和阻止元莫。為什么沒有做到有效的提前預防和阻止赖阻?就是因為我們的職場更多的是依賴于對于候選人的就業(yè)經(jīng)驗以及薪資情況的背調(diào),而信用維度的審核是缺失的柒竞,所以我們推出了“安心查”這款產(chǎn)品政供。
這個產(chǎn)品有三個比較核心的維度,一個是欠款朽基,一個失信布隔,另一個則是涉訴的判斷。通過這樣的技術手段稼虎,那么以上我提到的這些犯罪案件是可以完全提前預防甚至避免發(fā)生的衅檀。目前我們已向包括家政、網(wǎng)約車霎俩、快遞和其他服務行業(yè)輸出哀军,都有比較成功的案例。在京東體系內(nèi)打却,快遞人員的背調(diào)的核心工具就是這款產(chǎn)品杉适。
五、消費金融發(fā)展趨勢
剛才億歐由總在他的演講中提到了柳击,目前消費金融的發(fā)展應該是T2B2C的過程猿推。我們通過我們的技術向B端賦能,讓B端企業(yè)能夠提升運營效率捌肴,讓C端用戶享受到更優(yōu)質(zhì)的服務以及這些B端企業(yè)自身的提升所帶來的用戶價值增長蹬叭。
最后,這是我們聯(lián)手聯(lián)通大數(shù)據(jù)公司‘智慧足跡’在智博會上提出的城市消費熱力指數(shù)状知。這個熱力指數(shù)完全是基于京東的數(shù)據(jù)做出來的秽五。大家可以看到在2017年上半年,整個重慶市的消費饥悴,從消費力度上來講坦喘,還是集中在重慶的主城區(qū)盲再,在邊緣的地帶是沒有消費出現(xiàn)的。消費不斷擴大瓣铣,而且周邊地區(qū)的消費人群陸續(xù)出現(xiàn)了上升勢頭洲胖。這些人群的消費習慣慢慢從線下向線上遷移,消費品類的趨勢也是非常明顯的坯沪。
通過以上分析,不難得出一個結(jié)論擒滑,目前腐晾,消費升級還是一個主流趨勢。同時對于信用體系的建設丐一,會使得這個消費趨勢更加明顯藻糖。
我希望通過我們的技術和能力輸出,能夠為我們的合作伙伴帶來更多的能力提升库车,為人們的生活帶來更多的便利巨柒。