數(shù)據(jù)挖掘識別招聘平臺招聘詐騙黑產(chǎn)

一很魂、項目背景

2017年8月檐涝，“李文星遭BOSS直聘求職詐騙誤入傳銷死亡”事件，讓網(wǎng)絡求職詐騙第一次大規(guī)模曝光在大眾視野范圍內(nèi)谁榜。
此后，網(wǎng)絡招聘平臺的高薪高待遇詐騙窃植、培訓貸詐騙、網(wǎng)絡兼職詐騙撕瞧、先收培訓費再編理由辭退陵叽，等諸多詐騙形式被頻繁曝光丛版。

2018年11月7日偏序、11日，北京市公安局官網(wǎng)兩次發(fā)布“高薪招聘詐騙”相關(guān)信息研儒，提醒求職者在求職時提高防范意識豫缨。

諸多詐騙形式中，影響范圍最大好芭、規(guī)模最廣的，當屬培訓貸詐騙舍败。招聘公司通過高薪職位吸引求職者，誤導邻薯、欺騙求職者簽署“培訓費貸款”，而這些貸款多為互聯(lián)網(wǎng)金融公司的高額貸款厕诡，大量剛步入社會的畢業(yè)生被騙累榜，諸如58同城灵嫌、智聯(lián)招聘、51job等招聘平臺上均出現(xiàn)過大量此類“培訓貸詐騙”招聘醒第。

除此以外存在虛假招聘公司,目的只為獲取應聘者的簡歷數(shù)據(jù)販賣給詐騙者,冒充正規(guī)公司,欺騙求職者。
在淘寶上稠曼，存在多家店鋪可以替企業(yè)發(fā)布招聘職位。根據(jù)上架天數(shù)霞幅、刷新次數(shù)不同收費不同漠吻，但均承諾為“企業(yè)會員賬號代發(fā)司恳，重點推薦職位，排名靠前”扔傅。而且，購買代發(fā)服務“不需要你提供任何企業(yè)資質(zhì)猎塞，求職者簡歷也是直接發(fā)到你的郵箱中”。

但是荠耽，諸多招聘詐騙并沒有隨著不斷曝光被遏制钩骇，反而其詐騙模式在多個地區(qū)被復制倘屹，成為詐騙高發(fā)區(qū)。
如何識別招聘平臺招聘詐騙黑產(chǎn),提高審核門檻,進而保護求職者利益,成為傳統(tǒng)招聘平臺的迫在眉睫需要解決的問題

本文將采用CRISP-DM數(shù)據(jù)挖掘標準流程進行數(shù)據(jù)挖掘
CRISP-DM纽匙，即跨行業(yè)數(shù)據(jù)挖掘標準流程（如下圖）务蝠，是迄今為止最流行的數(shù)據(jù)挖據(jù)流程參考模型烛缔。圖中所示的各個大小節(jié)點之間的關(guān)聯(lián)會有循環(huán)和粗略不一，過程并不是重點力穗，關(guān)鍵是數(shù)據(jù)挖掘的結(jié)果最終能嵌入到業(yè)務流程，以提升業(yè)務效率和效益当窗。

CRISP-DM

二、商業(yè)理解

在CRISP-DM的商業(yè)理解階段崖面，首先對企業(yè)進行擁有資源、需求巫员、風險庶香、成本收益的形勢評估简识，以便對數(shù)據(jù)挖掘目標的進行確定。
礙于本人非招聘行業(yè)出生,對招聘行業(yè)微薄的理解整理出本次數(shù)據(jù)挖掘的目標和思路方向如下：

1. 數(shù)據(jù)異常檢測

通過箱型圖可以簡單識別出異常數(shù)據(jù),計算第一和第三四分位數(shù)（Ql七扰、Qu），異常值是位于四分位數(shù)范圍之外的數(shù)據(jù)點：
如某公司的招聘崗位在同等崗位要求下其薪資水平明顯高于其他公司,或者某IP地址具有高頻訪問量

2. 對招聘企業(yè)進行無監(jiān)督聚類分析,并對聚類結(jié)果通過描述性統(tǒng)計或者決策樹描述企業(yè)信息,形成欺詐企業(yè)用戶畫像

3. 結(jié)合外部數(shù)據(jù)(如公安數(shù)據(jù))對已有招聘企業(yè)進行有監(jiān)督分類器構(gòu)建模型,并對潛在招聘企業(yè)進行預測

本文主要以第二點做詳細講解

三颈走、數(shù)據(jù)理解

3.1 數(shù)據(jù)初步采集

其核心的問題是:識別招聘平臺招聘詐騙黑產(chǎn)需要那些數(shù)據(jù)？

基于業(yè)務理解立由，應該盡可能找出對是否為招聘詐騙黑產(chǎn)有影響的變量,個人理解可以采集的數(shù)據(jù)可能有如下:

3.2 數(shù)據(jù)描述

對變量進行解釋性介紹,如招聘企業(yè)日均訪問量,為單日訪問招聘平臺內(nèi)該企業(yè)職位招聘網(wǎng)頁的用戶訪問量,并對變量進行變量特性(連續(xù),定性,有序,時間序列等)和變量屬性(個人信息屬性,狀態(tài)屬性,行為屬性,需求屬性)描述。

3.3 數(shù)據(jù)探索性分析

一般為分布分析,對異常數(shù)據(jù)進行解釋,如統(tǒng)計方式,數(shù)據(jù)庫擴容導致的缺失數(shù)據(jù),及由于統(tǒng)計標準,輸入錯誤導致的某些高頻數(shù)值的出現(xiàn)不符合樣本的實際分布锐膜。
可以通過變量的眾數(shù)與中位數(shù)的差值再除以變量上四分衛(wèi)與下四分位的差值(如果大于0.9)可以初步判斷該變量有高頻值的出現(xiàn)。

3.4 驗證數(shù)據(jù)質(zhì)量

根據(jù)獲取難度(成本),覆蓋率(缺失情況),準確率對數(shù)據(jù)進行可用性評估枣耀。

四、數(shù)據(jù)準備

參與聚類分析的變量應該少而精,參與聚類的指標變量如果太多捞奕，會顯著增加運算時間，更重要的變量之間的相關(guān)性會嚴重損害聚類的效果颅围，并且太多的變量參與會使隨后的聚類群體的業(yè)務解釋變得更加復雜

4.1 選擇數(shù)據(jù)

基于本次數(shù)據(jù)挖掘目的和業(yè)務需求,選取招聘企業(yè)平臺行為信息變量

4.2 數(shù)據(jù)清洗

重復值處理,缺失值處理,

4.3 數(shù)據(jù)構(gòu)建

由于某些變量預測價值較小,需結(jié)合業(yè)務理解創(chuàng)造預測價值較高的新變量,如求職者簡歷被查看時間和簡歷有意向時間是時間序列的原始變量,求職者簡歷被查看時長=簡歷有意向時間點-被查看時間點,為一級衍生變量,求職者簡歷被查看時長均值為二級衍生變量,該變量可解釋招聘企業(yè)為應聘人群簡歷的考察程度,如果考察程度很低,一定程度上可以說明企業(yè)沒有對員工進行簡歷初篩,有可能是招聘詐騙企業(yè)。

4.4 數(shù)據(jù)合并

先對數(shù)據(jù)進行 Z-Score中心標準化,再對變量進行主成分降維,消除共線性,使參與聚類的變量少而精,通過觀察變異變量累計貢獻率,決定降維后的變量個數(shù)

4.5 數(shù)據(jù)格式化

將特征選擇后的變量集合成進入模型的數(shù)據(jù)集院促。由于主成分降維后的數(shù)據(jù)沒有可解釋性,不需對數(shù)據(jù)集進行描述

數(shù)據(jù)準備階段在數(shù)據(jù)挖掘工作中占非常大的比重,直接決定了項目的成功與否,到了項目的后期也經(jīng)常會再回到這個點進行進一步的工作,最好參考行業(yè)內(nèi)現(xiàn)有的成熟解決方案或論文筏养。

四常拓、建立模型

本案例選取K-Means作為聚類模型,其有如下特點:

簡介高效，其算法的事件復雜度與數(shù)據(jù)集的大小呈正相關(guān)性
K-Means算法不依賴順序的算法弄抬，給定一個初始類分布，無論樣本算法的順序如何掂恕，聚類分類的結(jié)果都是一樣的

也可使用基于密度的DBSCAN聚類算法

聚類流程如下圖

聚類流程

選取K值(聚類個數(shù))一般有三種,異常識別直接取聚類個數(shù)2-10,通過K-means分別做多次聚類,然后使用每次聚類得到的標簽作為被解釋變量,聚類前數(shù)據(jù)整理后的數(shù)據(jù)集作為解釋變量,使用描述性統(tǒng)計或者構(gòu)建決策樹描述異常特征,尋找業(yè)務理解最具可解釋的聚類個數(shù),下圖為選取某個K值后的描述性統(tǒng)計(模擬數(shù)據(jù))

四、模型評估

由于聚類是一種無監(jiān)督方法,最直接有效的評估方法是通過外部數(shù)據(jù)去驗證聚類效果的好壞

其他主要評判聚類效果指標:

一般指標：輪廓系數(shù)silhouette（-1,1之間懊亡，值越大，聚類效果越好）店枣，蘭德指數(shù)rand；
商業(yè)上的指標：分群結(jié)果的覆蓋率鸯两；分群結(jié)果的穩(wěn)定性坏瞄；分群結(jié)果是否從商業(yè)上易于理解和執(zhí)行

最后可以通過聚類識別的招聘詐騙黑產(chǎn)作為被解釋變量,招聘企業(yè)信息作為解釋變量,使用描述性統(tǒng)計或者構(gòu)建決策樹模型對招聘詐騙黑產(chǎn)進行用戶畫像

下圖為模擬的用戶畫像

五鸠匀、案例擴展

通過機器學習識別的招聘詐騙黑產(chǎn)結(jié)合外部數(shù)據(jù),可對受騙應聘人群進行用戶畫像,在這些人群瀏覽或者投遞疑似詐騙黑產(chǎn)虛假招聘崗位時,發(fā)出友善提醒或警告,對招聘平臺也不失為一種有效的防護手段

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市逾柿，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌机错，老刑警劉巖爬范，帶你破解...
沈念sama閱讀 217,542評論 6贊 504
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件青瀑，死亡現(xiàn)場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機枝嘶，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,822評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來群扶，“玉大人，你說我怎么就攤上這事镀裤。” “怎么了暑劝？”我有些...
開封第一講書人閱讀 163,912評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長担猛。經(jīng)常有香客問我汪疮，道長毁习，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,449評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任纺且，我火速辦了婚禮，結(jié)果婚禮上载碌，老公的妹妹穿的比我還像新娘猜嘱。我一直安慰自己嫁艇，他們只是感情好，可當我...
茶點故事閱讀 67,500評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布步咪。她就那樣靜靜地躺著，像睡著了一般猾漫。火紅的嫁衣襯著肌膚如雪点晴。梳的紋絲不亂的頭發(fā)上悯周，一...
開封第一講書人閱讀 51,370評論 1贊 302
城市分裂傳說
那天，我揣著相機與錄音禽翼，去河邊找鬼族跛。笑死，一個胖子當著我的面吹牛锐墙，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播贮匕，決...
沈念sama閱讀 40,193評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼花枫，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了劳翰？” 一聲冷哼從身側(cè)響起敦锌，我...
開封第一講書人閱讀 39,074評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤佳簸，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后生均，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,505評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡马胧，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,722評論 3贊 335
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了佩脊。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蛙粘。...
茶點故事閱讀 39,841評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡威彰，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出歇盼，到底是詐尸還是另有隱情舔痕，我是刑警寧澤豹缀，帶...
沈念sama閱讀 35,569評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站耿眉，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏鸣剪。R本人自食惡果不足惜组底，卻給世界環(huán)境...
茶點故事閱讀 41,168評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望债鸡。院中可真熱鬧江滨，春花似錦厌均、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,783評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽模她。三九已至稻艰，卻和暖如春侈净，著一層夾襖步出監(jiān)牢的瞬間尊勿，已是汗流浹背元扔。一陣腳步聲響...
開封第一講書人閱讀 32,918評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工旋膳，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人溺忧。一個月前我還...
沈念sama閱讀 47,962評論 2贊 370
代替公主和親
正文我出身青樓咏连，卻偏偏與公主長得像鲁森，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子歌溉，可洞房花燭夜當晚...
茶點故事閱讀 44,781評論 2贊 354