第二屆拍拍貸魔鏡杯數(shù)據(jù)應用大賽于2017年4月10日啟動趴樱,決賽路演于9月2日在上海舉行隙弛。相較于去年攘滩,今年的題目更專注于實用性庭猩,對開發(fā)能力提出了更多更高的要求乌奇。比賽可以從以下三個參考方向來展開角逐,和去年的三個子賽題基本對應:
- 投標類:開發(fā)一款投標工具眯娱,幫助投資人實現(xiàn)投資收益的優(yōu)化,并自動高效地完成從選標到投標的全過程爬凑♂憬桑可能包括部分策略開發(fā)等分析相關(guān)工作,更重要的是能夠調(diào)用投標接口完成投標功能;
- 分析類: 基于拍拍貸平臺的整體數(shù)據(jù)(類比上交所大盤)或投資者個人的投資歷史數(shù)據(jù)(經(jīng)授權(quán))于样,運用數(shù)據(jù)科學技術(shù)進行分析或挖掘疏叨,為投資人提供有價值的信息、建議等個性化服務穿剖;
- 創(chuàng)意類:不包含在前兩類內(nèi)容中的有價值的產(chǎn)品或服務蚤蔓。創(chuàng)意類方向不設任何限制,基于現(xiàn)有的數(shù)據(jù)與資源糊余,發(fā)揮創(chuàng)造力秀又,做出一個讓自己滿意、也被市場認可的有價值的作品贬芥。
作品思路
既然要搞吐辙,就搞個大的。與其單獨做投標類蘸劈、分析類或創(chuàng)意類中的一種昏苏,不如三者兼顧,做一個功能完善的系統(tǒng)出來威沫。
作品的思路在初賽階段便已想好:通過知情贤惯、知己兩個模塊,分別對平臺數(shù)據(jù)和個人記錄進行分析和展示(分析類)棒掠;通過知心模塊孵构,使用多種方法和模型實現(xiàn)投標功能(投標類);最后再擴充下數(shù)據(jù)句柠、開發(fā)個社區(qū)浦译,做個功能性聊天機器人(創(chuàng)意類)。這樣一來溯职,五臟俱全精盅、要啥有啥、一套帶走谜酒,可以說做了整個生態(tài)叹俏。
但是后來才慢慢發(fā)現(xiàn),這個思路僻族,從一開始就是錯誤的粘驰。
先介紹下比賽的評審機制,大賽分為初賽述么、復賽蝌数、決賽三輪,進入決賽的10支隊伍需要參加決賽路演答辯度秘。比賽獎金共計10W美金顶伞,30%由大眾投資人投票決定,70%由決賽現(xiàn)場的專家評委決定。其實對投資人和評委而言唆貌,真正關(guān)心的滑潘,只是簡單好用的投標工具,其它可有可無的也許根本不在意锨咙。
而我在很多內(nèi)容上消耗了時間和精力语卤,其結(jié)果便是投標功能做得不夠完善、不夠全面酪刀,所以30%即3W美金的大眾投資人投票中粹舵,我只拿到了1000多一點,在決賽10支隊伍中排第八蓖宦。而投標做得比較好的三支隊伍齐婴,分別拿到了1W3、4k稠茂、3k柠偶,因此在決賽開始前便取得了一個很高的起點,對于決賽專家評委的評審也會起到一定的引導作用睬关。
畢竟這不是一個算法比賽诱担,工作量多、模型性能都不重要电爹,投資人要看到的是選標策略對應的出標量蔫仙、預期收益、逾期率等回溯指標丐箩,所以關(guān)鍵得做好投標功能摇邦、穩(wěn)定運營、積累群眾基礎屎勘,才能在大眾評審部分拿到一個好的成績施籍,在決賽答辯中獲取一個更高的起點。如果我能一開始便認清這一點概漱,集中精力去做好投標功能丑慎,也許就可以取得更好的結(jié)果了。
諷刺的是瓤摧,拿到1W3大眾評審票竿裂、一直讓人充滿期待的隊伍,在決賽現(xiàn)場的答辯內(nèi)容卻十分單薄照弥,他們用的方法腻异,竟然只是人工構(gòu)建了一棵決策樹,然后將每個葉節(jié)點的篩選條件作為一種選標策略这揣。主講人的演講毫無波瀾悔常,評委問起問題來也支支吾吾敢会。盡管如此,他們最后還是拿了2W獎金这嚣、獲得了第一名,前期的群眾基礎起了很大的作用塞俱。
決賽答辯
決賽答辯設在上海的喜馬拉雅藝術(shù)中心大觀舞臺姐帚,現(xiàn)場還是很高大上的≌涎模看到舞臺兩邊的10個位子了嗎罐旗?對,就是給10個隊伍的隊長坐的……
這個隊長位子長這樣唯蝶,讓人亞歷山大九秀。
我在第四個答辯,還算順利粘我,稿子背得很熟鼓蜒。
最后一共拿了10693刀,排第四征字,在決賽答辯中漲了9000多刀都弹,算是10支隊伍中漲得比較多的了。
第一名是之前提到的那個隊伍匙姜,從1W3漲到2W畅厢,漲得還沒我多,主要是前期群眾基礎好氮昧;第二名是拍拍標師框杜,他們隊伍有五個人,而且確實在這個比賽上花了大量時間和精力袖肥,他們的作品做得也十分優(yōu)秀和完善咪辱,因此最終拿了一個額外的名譽大獎,雖然沒有獎金昭伸,但確實是對他們實力的認可梧乘。而我主要靠自己一個人,花的時間也不算多庐杨,拿到這樣的結(jié)果也算滿意了选调。
當然,還是有些遺憾灵份,如果一開始專注做投標仁堪,說不定能取得更好的結(jié)果。
作品詳情
以下是答辯的PPT和演講內(nèi)容填渠。
大家好弦聂,我是DI團隊的張宏倫鸟辅,作品名稱是,拍知心
拍拍貸的出現(xiàn)帶來了一系列變革莺葫,例如降低了借款人的借款門檻匪凉,提高了投資人的投資利潤
對投資人而言,最為重要的問題捺檬,便是如何進行選標再层。一般而言,選標的依據(jù)主要取決于標的特征堡纬、借款人特征聂受、投資人特征三大類因素
因此,我們工作的研究核心烤镐,便是如何在收益最大化蛋济、風險最小化的前提下,為投資人選擇最適合的標的
我們的系統(tǒng)架構(gòu)如下:通過知情炮叶、知己兩個模塊碗旅,對平臺標的數(shù)據(jù)和個人投資記錄進行全面的分析和展示;使用基于策略悴灵、基于學習扛芽、基于推薦三種方法,實現(xiàn)知心這一智能投資顧問模塊积瞒;在此基礎上川尖,我們進行了多源異構(gòu)數(shù)據(jù)擴充、開發(fā)了拍粉社區(qū)互動平臺茫孔,并使用積累的數(shù)據(jù)和語料叮喳,搭建了拍知心這一垂直領域的智能聊天機器人,為投資人提供各方面的決策建議和輔助功能
首先讓我們概覽一下數(shù)據(jù)缰贝,比賽官方提供了LC馍悟、LP、LCIS三類數(shù)據(jù)剩晴,它們之間可以通過ListingId這一字段進行對齊
我們通過知情實現(xiàn)平臺概覽锣咒,從基本統(tǒng)計、分類統(tǒng)計赞弥、密度分布毅整、認證分析、還款分析绽左、指標對比六個角度對拍拍貸整體投資數(shù)據(jù)進行分析悼嫉,輔助投資人全面綜合地了解平臺概況
這是作品實現(xiàn)中的平臺概覽頁面
我們通過知己實現(xiàn)個人中心,從資產(chǎn)概況拼窥、投資偏好戏蔑、歷史統(tǒng)計蹋凝、分類統(tǒng)計、期限分析总棵、逾期分析六個角度對投資人歷史投資記錄進行分析鳍寂,輔助投資人更好地了解個人投資行為
這是作品實現(xiàn)中的個人中心頁面
我們使用以下三種方法,實現(xiàn)知心這一智能投資顧問模塊情龄》ジ睿基于策略對應專家系統(tǒng),主要使用人工經(jīng)驗刃唤;基于學習對應機器學習,主要使用模型和算法白群;基于推薦對應推薦系統(tǒng)尚胞,主要使用數(shù)據(jù)之間的關(guān)聯(lián)和相似。我們?nèi)诤狭硕喾N方法帜慢,互相取長補短笼裳,從而實現(xiàn)更好的效果
基于策略是指使用預先設定好的投資策略對標的進行處理和篩選,對于可投標的粱玲,如果滿足啟用中的任意策略躬柬,則投資相應的金額。這里我們設計了四項系統(tǒng)策略
當然抽减,還可以設計更多的賠標策略和信用標策略允青,但在我們看來,無非都是使用更豐富的條件組合卵沉,以及更復雜的篩選規(guī)則。我們認為,基于策略的自動投標虏杰,拍精靈等現(xiàn)有工具已經(jīng)做得足夠完善怕吴,所以我們希望把更多的精力放在,探索如何將機器學習和人工智能應用到投資選標中來停撞。除了快瓷蛙,我們還想做到準和個性化
因此,我們使用機器學習和深度學習等方法戈毒,在經(jīng)過數(shù)據(jù)清洗艰猬、數(shù)據(jù)重塑、特征工程等步驟處理后副硅,實現(xiàn)了標的量化模型姥宝,ListingNet,從安全評分和逾期概率兩個角度來評估標的恐疲。這兩項任務的定義如下腊满,都屬于有監(jiān)督學習中的分類問題
ListingNet的模型結(jié)構(gòu)中主要包含了三塊內(nèi)容:邏輯回歸套么、隨機森林等基分類器,多個XGBoost模型集成學習碳蛋,由全連接層組成的神經(jīng)網(wǎng)絡胚泌。同時,基分類器的輸出經(jīng)過Stacking之后肃弟,作為二級特征進一步輸入到XGBoost和神經(jīng)網(wǎng)絡中
我們對ListingNet的模型性能進行了評測玷室,在安全評分和逾期概率兩項任務上,ListingNet的Accuracy和AUC都取得了最好的結(jié)果笤受。我們使用以下公式來實現(xiàn)投資的個性化穷缤,其中前兩項分別表示標的安全評分和投資人是否追求逾期收益,后兩項用于表示投資人的利率偏好和期限偏好
除此之外箩兽,我們還基于推薦系統(tǒng)津肛,使用基于內(nèi)容的協(xié)同過濾和基于模型的協(xié)同過濾,通過計算標的相似度和用戶相似度汗贫,為投資人推薦感興趣的標的
完成了知情身坐、知己、知心等工作之后落包,我們進行了數(shù)據(jù)擴充部蛇,從拍拍貸、網(wǎng)貸之家咐蝇、今日頭條等網(wǎng)站上涯鲁,獲取了聊天語料、問答數(shù)據(jù)有序、領域本體撮竿、知識圖譜等各種類型的數(shù)據(jù),經(jīng)過相關(guān)的NLP處理后笔呀,轉(zhuǎn)化成有用的數(shù)據(jù)資產(chǎn)
我們還開發(fā)了拍粉社區(qū)互動平臺幢踏,集資訊、問答许师、分享等常用社交功能于一體房蝉,為投資人提供各方面服務的同時,進一步積累更多的用戶產(chǎn)生內(nèi)容
在已有數(shù)據(jù)和語料的基礎上微渠,我們實現(xiàn)了面向拍拍貸用戶的垂直領域聊天機器人搭幻,拍知心,為投資人提供直接的對話服務逞盆。拍知心主要使用了基于規(guī)則檀蹋、基于檢索、基于學習三種方法來生成對話云芦,這里我們著重介紹一下基于學習的實現(xiàn)原理
基于學習俯逾,是指使用基于深度LSTM網(wǎng)絡的自編碼器模型贸桶,將用戶輸入轉(zhuǎn)換成文本詞向量序列,學習到對應的隱層表示后桌肴,再轉(zhuǎn)換成輸出文本詞向量序列皇筛,從而可以得到任意輸入內(nèi)容的對話輸出,即Sequence to Sequence Learning坠七,屬于生成式學習模型水醋,對話生成效果好,但對數(shù)據(jù)需求量大彪置、訓練成本較高
我們將以上功能全部實現(xiàn)并部署到網(wǎng)站上拄踪,包括平臺概覽、個人中心拳魁、投資顧問宫蛆、拍粉社區(qū)四個頁面,可以通過以下鏈接訪問我們的網(wǎng)站(訪問網(wǎng)站需要拍拍貸授權(quán)的猛,所以需要注冊拍拍貸賬號,不過注冊賬號之后想虎,可能會有拍拍貸工作人員電話聯(lián)系卦尊,詢問是否有借款或投資意向。所以如果只是想看一下產(chǎn)品展示舌厨,那么看展示視頻即可)岂却,讓我們一起來看一段展示視頻,https://v.qq.com/x/page/n0538boxfjx.html
最后裙椭,對我們的作品進行一個總結(jié)躏哩。我們通過知情、知己揉燃、知心扫尺,分別為投資人提供平臺概覽、個人中心炊汤、投資顧問三項功能正驻,新的投資數(shù)據(jù)可用于更新相應的模塊。通過擴充數(shù)據(jù)和用戶數(shù)據(jù)實現(xiàn)拍知心聊天機器人抢腐,拍粉社區(qū)則不斷地積累新的用戶數(shù)據(jù)姑曙,從而形成數(shù)據(jù)閉環(huán),共同打造一個智能投資數(shù)據(jù)生態(tài)系統(tǒng)
我們的團隊成員有兩位迈倍,都是上海交通大學的博士生
以上就是我們的作品內(nèi)容伤靠,拍知心,最懂你的智能投資顧問啼染,謝謝大家宴合!