機(jī)器學(xué)習(xí)建模老司機(jī)的幾點(diǎn)思考與總結(jié)

機(jī)器學(xué)習(xí)現(xiàn)在在很多地方都是十分流行住闯，無論現(xiàn)在的你是否從事建模工作，還是你將來想從事相關(guān)工作澳淑，對于從業(yè)者可以從中看出一些同感與意見比原，對于未來從業(yè)者可以了解這個(gè)職業(yè)到底是做些什么。

file

話不多說杠巡，一個(gè)機(jī)器學(xué)習(xí)模型的開發(fā)周期一般可以分為：

1量窘、業(yè)務(wù)需求挖掘（Business insight）

2、數(shù)據(jù)搜集處理（Data Curation）

3忽孽、模型訓(xùn)練開發(fā)（Modeling）

4绑改、部署及測試上線（Deployment）

5、模型閉環(huán)監(jiān)控及繼續(xù)優(yōu)化（Feedback & Improvement）

本文也是按照這個(gè)結(jié)構(gòu)來進(jìn)行展開總結(jié)與思考兄一。

01 業(yè)務(wù)需求挖掘（Business insight）

當(dāng)我們接到業(yè)務(wù)需求的時(shí)候厘线，第一件事情需要了解的，就是需求的整體邏輯出革。一個(gè)合理的產(chǎn)品設(shè)計(jì)通常都是與業(yè)務(wù)痛點(diǎn)相掛鉤的造壮。如果業(yè)務(wù)提出一個(gè)比較空泛的需求，如：

我想要提高一下營銷成功率骂束，幫我搞個(gè)模型吧耳璧。

這個(gè)時(shí)候，我們需要沉住氣,展箱，有的時(shí)候數(shù)據(jù)建模師也需要充當(dāng)起“心理輔導(dǎo)員”旨枯，慢慢引導(dǎo)業(yè)務(wù)說出實(shí)際的業(yè)務(wù)痛點(diǎn)與需求，好讓我們對癥下藥（當(dāng)然靠譜且有經(jīng)驗(yàn)的業(yè)務(wù)是不會犯這種行為的）混驰。在經(jīng)過若干分鐘的業(yè)務(wù)了解攀隔，其實(shí)業(yè)務(wù)真正想提高的，是最后的審批通過率栖榨，而繼續(xù)了解昆汹，發(fā)現(xiàn)是由于最近業(yè)務(wù)的增長，電銷人員的人手不足婴栽，導(dǎo)致審批的效率低下满粗，而真正有意愿購買產(chǎn)品的客戶被營銷的可能性降低，導(dǎo)致最終的整體轉(zhuǎn)換率過低愚争。

了解過后映皆，其實(shí)我們會有一個(gè)初步的模型設(shè)計(jì)思路挤聘，那就是可以設(shè)計(jì)一個(gè)模型對客戶進(jìn)行意愿度的預(yù)評估，根據(jù)評分對客戶進(jìn)行營銷優(yōu)先級劫扒，結(jié)合電銷人員的經(jīng)驗(yàn)度（營銷成功率）與營銷黃金時(shí)間等等維度的結(jié)合檬洞，輸出營銷計(jì)劃，提高轉(zhuǎn)化率沟饥。

那么在了解了業(yè)務(wù)需求后，接下來就需要針對具體的需求湾戳，繼續(xù)咨詢業(yè)務(wù)方一些業(yè)務(wù)知識點(diǎn)贤旷，而不是有了一點(diǎn)眉目就馬上開工，畢竟模型還是做出來還是業(yè)務(wù)在用砾脑，事先溝通好一些細(xì)節(jié)性的問題也是無礙幼驶，而且溝通的過程可以讓你對業(yè)務(wù)有更加深入的了解，對你后面的特征開發(fā)有很好的幫助韧衣。

02 數(shù)據(jù)搜集處理（Data Curation）

當(dāng)我們確定了要開發(fā)的模型之后盅藻，這個(gè)時(shí)候需要做的是搜集數(shù)據(jù)與處理數(shù)據(jù)了。顧名思義畅铭，這一步也就是收集你可以用的數(shù)據(jù)去訓(xùn)練模型氏淑，而這是我認(rèn)為是最為重要的一步。而在開始搜集數(shù)據(jù)前硕噩，需要了解幾點(diǎn)內(nèi)容：

1假残、模型應(yīng)用節(jié)點(diǎn)

2、時(shí)效性要求

2炉擅、有沒有預(yù)算辉懒，預(yù)算有多少

3、項(xiàng)目緊急程度

模型應(yīng)用節(jié)點(diǎn)

模型的應(yīng)用節(jié)點(diǎn)谍失，決定了你有哪些變量是不可以用的眶俩，避免說出現(xiàn)“事后變量”或者是無法上線的變量，這往往是和業(yè)務(wù)邏輯是掛鉤的快鱼，在上一步的Business insight過程需要了解清楚颠印。比如：一個(gè)模型是打算應(yīng)用于初審環(huán)節(jié)(貸款審批流程)，因此我們在初審節(jié)點(diǎn)后的變量都是不能用的攒巍，比如終審環(huán)節(jié)嗽仪、門店審核等等，還有一些貸后的變量都是不能用的柒莉。

時(shí)效性要求

有些模型可能需要應(yīng)用在實(shí)時(shí)的審批過程闻坚，要求秒級響應(yīng)，但也有些模型的時(shí)效性要求則沒那么高兢孝，小時(shí)級別的窿凤，次日級別的都會有仅偎，了解清楚，這樣子在設(shè)計(jì)你的模型或者變量的時(shí)候雳殊，更加地靈活橘沥。

預(yù)算多少

預(yù)算這個(gè)東西其實(shí)很難說，但是如果能有夯秃，那當(dāng)然是最好的了座咆，因?yàn)橛辛隋X，自然可以從第三方機(jī)構(gòu)接一些外部數(shù)據(jù)源仓洼，類似于外部征信之類的介陶，這對于我們的模型效果會有很好的提升。當(dāng)然色建，很多時(shí)候哺呜，我們都會是用公司已經(jīng)接入的數(shù)據(jù)源來開發(fā)特征的了。

項(xiàng)目緊急程度

這個(gè)不僅是對于模型開發(fā)項(xiàng)目箕戳，其實(shí)所有的項(xiàng)目都是需要的某残，了解清楚項(xiàng)目所能給的最大時(shí)長，做好項(xiàng)目計(jì)劃陵吸，馬上開始工作玻墅。搜集數(shù)據(jù)，不需要等到所有的特征都搜集完才開始開發(fā)特征或者訓(xùn)練模型走越，有多少數(shù)據(jù)椭豫，就先搞多少數(shù)據(jù)。

在了解了以上的內(nèi)容后旨指，你就可以開始搜集所有相關(guān)的數(shù)據(jù)了赏酥，因?yàn)槟愕臄?shù)據(jù)源會非常多，所以這里你必須做好數(shù)據(jù)的歸檔谆构，不然后期會很亂裸扶，而且原始數(shù)據(jù)需要備份一份不要?jiǎng)樱奖愫罄m(xù)復(fù)盤使用搬素。具體可以參考我先前的一篇文章內(nèi)容《分享8點(diǎn)超級有用的Python編程建議》: https://mp.weixin.qq.com/s/eOeXA0ctErvd2mmEexZcBA

搞到數(shù)據(jù)后呵晨，需要做的事情大概可以分為：

1、消化所有的數(shù)據(jù)含義熬尺、邏輯摸屠；

2、對數(shù)據(jù)進(jìn)行各種清洗粱哼，變成你熟悉的結(jié)構(gòu)季二；

3、對數(shù)據(jù)進(jìn)行質(zhì)量控制，找出明顯有問題的數(shù)據(jù)胯舷，探尋原因刻蚯，實(shí)在找不到原因就直接剔除不用；

4桑嘶、對數(shù)據(jù)衍生的特征做好備注炊汹，方便后面的回溯。

更加細(xì)致的數(shù)據(jù)挖掘過程這里就不展開逃顶，有很多好的書籍和開源代碼可以參考讨便。

03 模型訓(xùn)練開發(fā)（Modeling）

模型訓(xùn)練開發(fā)，這里指的是已經(jīng)做完特征工程的步驟口蝠，重點(diǎn)在于篩選變量器钟、選擇算法、算法調(diào)參妙蔗、模型評估等等的操作。這里也有幾點(diǎn)建議分享給大家：

1疆瑰、變量篩選眉反，盡量多用自動化工具，對你的效率提升很大穆役。最好還是通過自己總結(jié)多方特征篩選的方法寸五，寫一套自己的方法，方便自己調(diào)用耿币；
2梳杏、如果是使用傳統(tǒng)機(jī)器學(xué)習(xí)算法，如rf淹接、gbdt十性、xgb等，建議變量個(gè)數(shù)不要太多塑悼，50個(gè)以內(nèi)差不多了劲适。如果是一些深度學(xué)習(xí)相關(guān)的模型算法就另當(dāng)別論。
3厢蒜、對于模型算法的選擇霞势，如果不知道選啥，可以都試試看看效果最直接斑鸦。但是作為一個(gè)有經(jīng)驗(yàn)的模型開發(fā)專家愕贡，你還是需要了解算法的原理，根據(jù)實(shí)際問題的情況來選擇算法會更加好巷屿，比如類別型變量的占比固以、數(shù)據(jù)維度、樣本目標(biāo)占比攒庵、數(shù)據(jù)分布等等嘴纺。
4败晴、算法調(diào)參和模型評估的方法太多太成熟了，可以自己試著總結(jié)一份demo代碼栽渴。

04 部署及測試上線（Deployment）

關(guān)于模型部署尖坤，涉及到的步驟就沒那么多了，主要分成：

1闲擦、模型部署常用的就是pmml模型文件慢味，所以你需要導(dǎo)出來給到后臺開發(fā)小哥

2、而在這之前墅冷，一般需要我們寫好接口文檔纯路，確定好特征邏輯與部署節(jié)點(diǎn)，給到產(chǎn)品經(jīng)理

3寞忿、自己在對應(yīng)的平臺上寫sql驰唬，測試對數(shù)等，更多地腔彰，這一步考驗(yàn)的是模型開發(fā)者的細(xì)心程度叫编，當(dāng)然，熟悉的老司機(jī)會總結(jié)出合適自己的一套的變量上線套路霹抛，彎道超車

4搓逾、模型文件部署到生產(chǎn)環(huán)境后，拿一些實(shí)際的單子進(jìn)行A\B test杯拐，看下實(shí)際輸出是否滿足預(yù)期霞篡，沒有問題就萬事大吉，不然得細(xì)心從變量開發(fā)的邏輯開始檢查

05 模型閉環(huán)監(jiān)控及繼續(xù)優(yōu)化（Feedback & Improvement）

至于模型上線后端逼，我們并不是就完全不管了朗兵，我們需要時(shí)刻監(jiān)控模型的表現(xiàn)，對于排序模型裳食，主要可以從下面幾個(gè)角度去監(jiān)控：

1矛市、排序性情況，比如評分卡模型诲祸，各個(gè)分組間的badrate是否仍存在單調(diào)性

2浊吏、分類占比，也就是各個(gè)類別的占比情況救氯，如果出現(xiàn)與建模時(shí)候差異較大的情況找田，需要有所提示

3、與模型相關(guān)的業(yè)務(wù)指標(biāo)波動着憨，有些模型會直接影響通過率或者是轉(zhuǎn)化率的墩衙，通過這些指標(biāo)也是可以看出異常

除此之外，評分卡模型一般一年左右就需要迭代或更換，需要時(shí)刻留意效果作出決策漆改。

以上是對機(jī)器學(xué)習(xí)建模的一些總結(jié)與思考心铃，歡迎指正！

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末挫剑，一起剝皮案震驚了整個(gè)濱河市去扣，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌樊破，老刑警劉巖愉棱，帶你破解...
沈念sama閱讀 211,639評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異哲戚，居然都是意外死亡奔滑，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,277評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門顺少，熙熙樓的掌柜王于貴愁眉苦臉地迎上來朋其，“玉大人，你說我怎么就攤上這事脆炎×钏蓿” “怎么了？”我有些...
開封第一講書人閱讀 157,221評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵腕窥，是天一觀的道長。經(jīng)常有香客問我筛婉，道長簇爆，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,474評論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任爽撒，我火速辦了婚禮入蛆，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘硕勿。我一直安慰自己哨毁，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 65,570評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布源武。她就那樣靜靜地躺著扼褪，像睡著了一般。火紅的嫁衣襯著肌膚如雪粱栖。梳的紋絲不亂的頭發(fā)上话浇，一...
開封第一講書人閱讀 49,816評論 1贊 290
城市分裂傳說
那天，我揣著相機(jī)與錄音闹究，去河邊找鬼幔崖。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的赏寇。我是一名探鬼主播吉嫩，決...
沈念sama閱讀 38,957評論 3贊 408
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼嗅定！你這毒婦竟也來了自娩？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,718評論 0贊 266
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤露戒，失蹤者是張志新（化名）和其女友劉穎椒功，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體智什，經(jīng)...
沈念sama閱讀 44,176評論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡动漾，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,511評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了荠锭。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片旱眯。...
茶點(diǎn)故事閱讀 38,646評論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖证九，靈堂內(nèi)的尸體忽然破棺而出删豺，到底是詐尸還是另有隱情，我是刑警寧澤愧怜，帶...
沈念sama閱讀 34,322評論 4贊 330
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布呀页，位于F島的核電站，受9級特大地震影響拥坛，放射性物質(zhì)發(fā)生泄漏蓬蝶。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,934評論 3贊 313
男人毒藥：我在死后第九天來索命
文/蒙蒙一猜惋、第九天我趴在偏房一處隱蔽的房頂上張望丸氛。院中可真熱鬧，春花似錦著摔、人聲如沸缓窜。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,755評論 0贊 21
一樁弒父案谍咆，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽禾锤。三九已至，卻和暖如春卧波，著一層夾襖步出監(jiān)牢的瞬間时肿，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,987評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工港粱，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留螃成，地道東北人旦签。一個(gè)月前我還...
沈念sama閱讀 46,358評論 2贊 360
代替公主和親
正文我出身青樓，卻偏偏與公主長得像寸宏，于是被迫代替她去往敵國和親宁炫。傳聞我的和親對象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,514評論 2贊 348