用戶畫像在征信中的應(yīng)用
問題描述
?????? 傳統(tǒng)金融機(jī)構(gòu)的征信信息來源主要是央行征信蚤蔓,但央行征信系統(tǒng)中僅有3億多人有信貸記錄欧穴。這部分信貸記錄又主要來源于商業(yè)銀行和農(nóng)村信用社等金融機(jī)構(gòu)民逼,其數(shù)據(jù)的時(shí)效性、全面性和層次性上存在明顯短板涮帘,無法全面反映客戶的真實(shí)信息拼苍。央行整體的征信系統(tǒng)收集了8.68億個(gè)自然人的信息,還有將近6億多人的信息沒有被收集调缨。此外疮鲫,民間借貸的信息不會(huì)錄入征信系統(tǒng)吆你。可以說俊犯,目前央行征信數(shù)據(jù)缺失妇多,情況不容樂觀。
?????? 在央行征信數(shù)據(jù)缺失的前提下瘫析,我們?cè)撊绾螒?yīng)用大數(shù)據(jù)方法砌梆,準(zhǔn)確評(píng)估用戶信用風(fēng)險(xiǎn),建立征信系統(tǒng)呢贬循?
當(dāng)前存在的征信系統(tǒng)
芝麻信用是國內(nèi)最大的個(gè)人信用評(píng)分系統(tǒng)咸包。其數(shù)據(jù)來源于阿里巴巴生態(tài)系統(tǒng)內(nèi)部的數(shù)據(jù)、政府公共部門數(shù)據(jù)和合作機(jī)構(gòu)的數(shù)據(jù)等杖虾。芝麻信用通過網(wǎng)絡(luò)數(shù)據(jù)的收集和評(píng)估烂瘫,對(duì)不同的個(gè)體給出相應(yīng)的評(píng)分。其主要考慮的是個(gè)人信用歷史奇适、行為偏好坟比、履約能力、身份特征和人脈關(guān)系等嚷往。其評(píng)分模型以線性回歸和邏輯回歸為主。
國外的征信系統(tǒng)有FICO皮仁、ZestFinance等籍琳。
解決方案
用戶畫像構(gòu)建的目的:
?????? 解決當(dāng)前商業(yè)銀行和部分p2p金融機(jī)構(gòu)征信困難的問題,幫助互聯(lián)網(wǎng)金融機(jī)構(gòu)挖掘潛在用戶贷祈。
用戶畫像構(gòu)建的步驟:
(一)數(shù)據(jù)收集
對(duì)于一個(gè)用戶趋急,需要收集的信息有:
1、用戶個(gè)人信息:如用戶姓名势誊、年齡呜达、性別、職業(yè)粟耻、國籍查近、居住地址、聯(lián)系方式等挤忙。
2霜威、消費(fèi)信息明細(xì):消費(fèi)物品、價(jià)格饭玲、線上消費(fèi)還是線下消費(fèi)侥祭、購買什么服務(wù)、發(fā)生消費(fèi)時(shí)間等。
3矮冬、行為信息:在什么時(shí)間瀏覽了什么網(wǎng)站或頁面谈宛、發(fā)生什么點(diǎn)擊行為、發(fā)生什么停留行為胎署、使用搜索引擎搜索了什么信息等吆录。
4、地理位置信息:常用的登錄IP琼牧,常用的收貨地址恢筝,常去的地點(diǎn)等。
5巨坊、 產(chǎn)品明細(xì):用戶購買的產(chǎn)品信息撬槽,如價(jià)格、產(chǎn)地等趾撵。
6侄柔、 財(cái)務(wù)明細(xì):用戶每個(gè)月收支情況、使用哪種消費(fèi)方式較多等占调。
7暂题、 社交明細(xì):用戶經(jīng)常與哪些人發(fā)生金錢交易等
其他還有用戶的心理分析等。收集時(shí)盡量提高數(shù)據(jù)的真實(shí)性究珊。
(二)數(shù)據(jù)整理歸納
在收集了海量的數(shù)據(jù)以后薪者,需要進(jìn)行數(shù)據(jù)的整理歸納,以從中獲取有用的信息剿涮⊙越颍互聯(lián)網(wǎng)金融企業(yè)從企業(yè)的業(yè)務(wù)需求出發(fā),可將用戶的基礎(chǔ)數(shù)據(jù)劃分為人口屬性幔虏、信用評(píng)級(jí)纺念、消費(fèi)傾向贝椿、投資傾向想括、社交屬性、潛在價(jià)值等信息烙博。
具體的步驟有:
1瑟蜈、 數(shù)據(jù)核對(duì)
唯一性核對(duì):評(píng)估是否符合業(yè)務(wù)邏輯要求的唯一性,同一用戶能否在不同的系統(tǒng)環(huán)境中唯一識(shí)別渣窜。
完整性核對(duì):評(píng)估數(shù)據(jù)是否涵蓋了建模所需的信息铺根。
有效性核對(duì):確保數(shù)據(jù)的有效性。所有數(shù)據(jù)都落在取值范圍內(nèi)乔宿。
關(guān)聯(lián)性核對(duì):識(shí)別有關(guān)聯(lián)的屬性位迂,對(duì)關(guān)聯(lián)性進(jìn)行核對(duì)。
及時(shí)性檢查:確保數(shù)據(jù)的時(shí)效性。
一致性核對(duì):檢查數(shù)據(jù)在傳輸過程中是否有缺漏。
2、 數(shù)據(jù)清洗
檢查數(shù)據(jù)的有效性蹂随,對(duì)于有問題的數(shù)據(jù)耕魄,通過一定方法調(diào)整后使用。如果無法調(diào)整谭胚,則刪除。
3、單變量分析
單變量分析的目的是確保變量符合實(shí)際業(yè)務(wù)的意義脂倦。
????????1、變量區(qū)分能力分析:使用多個(gè)統(tǒng)計(jì)指標(biāo)進(jìn)行計(jì)算元莫,如AR等赖阻,通過計(jì)算結(jié)果對(duì)變量進(jìn)行篩選。
????????2踱蠢、經(jīng)濟(jì)學(xué)含義分析:分析篩選后各變量的經(jīng)濟(jì)學(xué)含義政供。變量應(yīng)當(dāng)反映業(yè)務(wù)需要,并具有明確的經(jīng)濟(jì)學(xué)含義朽基。
????????3布隔、變量轉(zhuǎn)換:部分變量可能具有多種類型的數(shù)據(jù),不同變量的取值范圍也有可能不同稼虎。常用的轉(zhuǎn)換方法是將不同類型的變量轉(zhuǎn)換為概率值衅檀。
4、 多變量分析
目的是降低變量間的相關(guān)性霎俩。
????????1哀军、 變量相關(guān)性分析。使用相關(guān)性矩陣打却、聚類分析等技術(shù)杉适,進(jìn)行變量的相關(guān)性分析。
????????2柳击、 聚合猿推。將相關(guān)性高的變量聚合,使用新的變量來替換這些變量捌肴。
5蹬叭、 變量衍生
部分互聯(lián)網(wǎng)數(shù)據(jù)業(yè)務(wù)相關(guān)性較低,在單變量分析中可能被淘汰状知。但是將這些變量通過相關(guān)性分析后秽五,這些變量與業(yè)務(wù)解釋性強(qiáng)的變量之間可能有強(qiáng)關(guān)聯(lián)。這就需要變量衍生饥悴,將這些數(shù)據(jù)整合衍生為更加稠密坦喘、業(yè)務(wù)解釋性更強(qiáng)的衍生變量盲再。衍生變量主要側(cè)重于商品的消費(fèi)信息。
(三)? 模型構(gòu)建以及標(biāo)簽
可選用的技術(shù)有文本挖掘瓣铣、自然語言處理洲胖、機(jī)器學(xué)習(xí)、各種分類算法坯沪。
傳統(tǒng)的模型是從業(yè)務(wù)邏輯出發(fā)绿映,通過人工調(diào)參的方式建立評(píng)估模型。而在這里腐晾,我們可以使用隨機(jī)森林模型為基本架構(gòu)搭建隨機(jī)模型叉弦,隨后使用線性回歸技術(shù)進(jìn)行分析,確定各種風(fēng)險(xiǎn)因子的權(quán)重藻糖。這樣就克服了傳統(tǒng)模型對(duì)于數(shù)據(jù)噪聲相當(dāng)敏感的缺陷淹冰,提高了系統(tǒng)的穩(wěn)定性。
通過分析分析用戶的人口屬性巨柒、信用屬性等樱拴,可以給用戶貼上年齡、消費(fèi)行為洋满、理財(cái)理念晶乔、風(fēng)險(xiǎn)愛好、消費(fèi)場景偏好等標(biāo)簽
(四)? 用戶畫像
用上述提到的各種標(biāo)簽牺勾,可以對(duì)用戶進(jìn)行畫像正罢。
用戶的各種行為會(huì)以數(shù)據(jù)形式被記錄。分析這些行為數(shù)據(jù)驻民,我們給用戶貼上標(biāo)簽翻具,最后得到一個(gè)用戶畫像。一個(gè)用戶會(huì)不斷地產(chǎn)生行為數(shù)據(jù)回还,我們?cè)诓粩嗟孬@取這些數(shù)據(jù)的同時(shí)裆泳,用戶畫像也會(huì)越來越貼近用戶的真實(shí)情況。
通過對(duì)不同的標(biāo)簽分配不同權(quán)值柠硕,我們可以評(píng)估一個(gè)用戶的信用情況工禾。在這基礎(chǔ)之上,我們就能建立征信系統(tǒng)仅叫,使用大數(shù)據(jù)的方式來補(bǔ)足央行征信系統(tǒng)的不足帜篇,降低互聯(lián)網(wǎng)金融企業(yè)的運(yùn)營風(fēng)險(xiǎn)糙捺。
以支付寶為例诫咱,用戶在使用支付寶的過程中,會(huì)產(chǎn)生如網(wǎng)購消費(fèi)洪灯、線下消費(fèi)坎缭、轉(zhuǎn)賬竟痰、理財(cái)?shù)葦?shù)據(jù)。支付寶會(huì)給用戶貼上不同的標(biāo)簽如平衡型掏呼、小有資金等坏快。支付寶通過建立用戶畫像,判斷一個(gè)用戶的信用狀態(tài)憎夷,由此決定了對(duì)每個(gè)用戶的花唄莽鸿、借唄放款額度。
結(jié)語
?????? 當(dāng)前的央行征信系統(tǒng)尚不完備拾给,這方面的缺陷可以由各金融機(jī)構(gòu)建立大數(shù)據(jù)征信系統(tǒng)來補(bǔ)足祥得。
在互聯(lián)網(wǎng)金融的發(fā)展過程中,大數(shù)據(jù)手段正不斷被應(yīng)用到實(shí)際業(yè)務(wù)中蒋得,其中用戶畫像就是一個(gè)強(qiáng)有力的工具级及。用戶畫像在互聯(lián)網(wǎng)金融企業(yè)提供個(gè)性化服務(wù)、精準(zhǔn)營銷额衙、風(fēng)險(xiǎn)控制等方面發(fā)揮著重要作用饮焦。
我們要發(fā)展互聯(lián)網(wǎng)金融,就得用好用戶畫像這一工具窍侧。