一很魂、項目背景
2017年8月檐涝,“李文星遭BOSS直聘求職詐騙誤入傳銷死亡”事件,讓網(wǎng)絡求職詐騙第一次大規(guī)模曝光在大眾視野范圍內(nèi)谁榜。
此后,網(wǎng)絡招聘平臺的高薪高待遇詐騙窃植、培訓貸詐騙、網(wǎng)絡兼職詐騙撕瞧、先收培訓費再編理由辭退陵叽,等諸多詐騙形式被頻繁曝光丛版。
2018年11月7日偏序、11日,北京市公安局官網(wǎng)兩次發(fā)布“高薪招聘詐騙”相關(guān)信息研儒,提醒求職者在求職時提高防范意識豫缨。
諸多詐騙形式中,影響范圍最大好芭、規(guī)模最廣的,當屬培訓貸詐騙舍败。招聘公司通過高薪職位吸引求職者,誤導邻薯、欺騙求職者簽署“培訓費貸款”,而這些貸款多為互聯(lián)網(wǎng)金融公司的高額貸款厕诡,大量剛步入社會的畢業(yè)生被騙累榜,諸如58同城灵嫌、智聯(lián)招聘、51job等招聘平臺上均出現(xiàn)過大量此類“培訓貸詐騙”招聘醒第。
除此以外存在虛假招聘公司,目的只為獲取應聘者的簡歷數(shù)據(jù)販賣給詐騙者,冒充正規(guī)公司,欺騙求職者。
在淘寶上稠曼,存在多家店鋪可以替企業(yè)發(fā)布招聘職位。根據(jù)上架天數(shù)霞幅、刷新次數(shù)不同收費不同漠吻,但均承諾為“企業(yè)會員賬號代發(fā)司恳,重點推薦職位,排名靠前”扔傅。而且,購買代發(fā)服務“不需要你提供任何企業(yè)資質(zhì)猎塞,求職者簡歷也是直接發(fā)到你的郵箱中”。
但是荠耽,諸多招聘詐騙并沒有隨著不斷曝光被遏制钩骇,反而其詐騙模式在多個地區(qū)被復制倘屹,成為詐騙高發(fā)區(qū)。
如何識別招聘平臺招聘詐騙黑產(chǎn),提高審核門檻,進而保護求職者利益,成為傳統(tǒng)招聘平臺的迫在眉睫需要解決的問題
本文將采用CRISP-DM數(shù)據(jù)挖掘標準流程進行數(shù)據(jù)挖掘
CRISP-DM纽匙,即跨行業(yè)數(shù)據(jù)挖掘標準流程(如下圖)务蝠,是迄今為止最流行的數(shù)據(jù)挖據(jù)流程參考模型烛缔。圖中所示的各個大小節(jié)點之間的關(guān)聯(lián)會有循環(huán)和粗略不一,過程并不是重點力穗,關(guān)鍵是數(shù)據(jù)挖掘的結(jié)果最終能嵌入到業(yè)務流程,以提升業(yè)務效率和效益当窗。
二、商業(yè)理解
在CRISP-DM的商業(yè)理解階段崖面,首先對企業(yè)進行擁有資源、需求巫员、風險庶香、成本收益的形勢評估简识,以便對數(shù)據(jù)挖掘目標的進行確定。
礙于本人非招聘行業(yè)出生,對招聘行業(yè)微薄的理解整理出本次數(shù)據(jù)挖掘的目標和思路方向如下:
1. 數(shù)據(jù)異常檢測
通過箱型圖可以簡單識別出異常數(shù)據(jù),計算第一和第三四分位數(shù)(Ql七扰、Qu),異常值是位于四分位數(shù)范圍之外的數(shù)據(jù)點:
如某公司的招聘崗位在同等崗位要求下其薪資水平明顯高于其他公司,或者某IP地址具有高頻訪問量
2. 對招聘企業(yè)進行無監(jiān)督聚類分析,并對聚類結(jié)果通過描述性統(tǒng)計或者決策樹描述企業(yè)信息,形成欺詐企業(yè)用戶畫像
3. 結(jié)合外部數(shù)據(jù)(如公安數(shù)據(jù))對已有招聘企業(yè)進行有監(jiān)督分類器構(gòu)建模型,并對潛在招聘企業(yè)進行預測
本文主要以第二點做詳細講解
三颈走、數(shù)據(jù)理解
3.1 數(shù)據(jù)初步采集
其核心的問題是:識別招聘平臺招聘詐騙黑產(chǎn)需要那些數(shù)據(jù)?
基于業(yè)務理解立由,應該盡可能找出對是否為招聘詐騙黑產(chǎn)有影響的變量,個人理解可以采集的數(shù)據(jù)可能有如下:
3.2 數(shù)據(jù)描述
對變量進行解釋性介紹,如招聘企業(yè)日均訪問量,為單日訪問招聘平臺內(nèi)該企業(yè)職位招聘網(wǎng)頁的用戶訪問量,并對變量進行變量特性(連續(xù),定性,有序,時間序列等)和變量屬性(個人信息屬性,狀態(tài)屬性,行為屬性,需求屬性)描述。
3.3 數(shù)據(jù)探索性分析
一般為分布分析,對異常數(shù)據(jù)進行解釋,如統(tǒng)計方式,數(shù)據(jù)庫擴容導致的缺失數(shù)據(jù),及由于統(tǒng)計標準,輸入錯誤導致的某些高頻數(shù)值的出現(xiàn)不符合樣本的實際分布锐膜。
可以通過變量的眾數(shù)與中位數(shù)的差值再除以變量上四分衛(wèi)與下四分位的差值(如果大于0.9)可以初步判斷該變量有高頻值的出現(xiàn)。
3.4 驗證數(shù)據(jù)質(zhì)量
根據(jù)獲取難度(成本),覆蓋率(缺失情況),準確率對數(shù)據(jù)進行可用性評估枣耀。
四、數(shù)據(jù)準備
參與聚類分析的變量應該少而精,參與聚類的指標變量如果太多捞奕,會顯著增加運算時間,更重要的變量之間的相關(guān)性會嚴重損害聚類的效果颅围,并且太多的變量參與會使隨后的聚類群體的業(yè)務解釋變得更加復雜
4.1 選擇數(shù)據(jù)
基于本次數(shù)據(jù)挖掘目的和業(yè)務需求,選取招聘企業(yè)平臺行為信息變量
4.2 數(shù)據(jù)清洗
重復值處理,缺失值處理,
4.3 數(shù)據(jù)構(gòu)建
由于某些變量預測價值較小,需結(jié)合業(yè)務理解創(chuàng)造預測價值較高的新變量,如求職者簡歷被查看時間和簡歷有意向時間是時間序列的原始變量,求職者簡歷被查看時長=簡歷有意向時間點-被查看時間點,為一級衍生變量,求職者簡歷被查看時長均值為二級衍生變量,該變量可解釋招聘企業(yè)為應聘人群簡歷的考察程度,如果考察程度很低,一定程度上可以說明企業(yè)沒有對員工進行簡歷初篩,有可能是招聘詐騙企業(yè)。
4.4 數(shù)據(jù)合并
先對數(shù)據(jù)進行 Z-Score中心標準化,再對變量進行主成分降維,消除共線性,使參與聚類的變量少而精,通過觀察變異變量累計貢獻率,決定降維后的變量個數(shù)
4.5 數(shù)據(jù)格式化
將特征選擇后的變量集合成進入模型的數(shù)據(jù)集院促。由于主成分降維后的數(shù)據(jù)沒有可解釋性,不需對數(shù)據(jù)集進行描述
數(shù)據(jù)準備階段在數(shù)據(jù)挖掘工作中占非常大的比重,直接決定了項目的成功與否,到了項目的后期也經(jīng)常會再回到這個點進行進一步的工作,最好參考行業(yè)內(nèi)現(xiàn)有的成熟解決方案或論文筏养。
四常拓、建立模型
本案例選取K-Means作為聚類模型,其有如下特點:
- 簡介高效,其算法的事件復雜度與數(shù)據(jù)集的大小呈正相關(guān)性
- K-Means算法不依賴順序的算法弄抬,給定一個初始類分布,無論樣本算法的順序如何掂恕,聚類分類的結(jié)果都是一樣的
也可使用基于密度的DBSCAN聚類算法
聚類流程如下圖
選取K值(聚類個數(shù))一般有三種,異常識別直接取聚類個數(shù)2-10,通過K-means分別做多次聚類,然后使用每次聚類得到的標簽作為被解釋變量,聚類前數(shù)據(jù)整理后的數(shù)據(jù)集作為解釋變量,使用描述性統(tǒng)計或者構(gòu)建決策樹描述異常特征,尋找業(yè)務理解最具可解釋的聚類個數(shù),下圖為選取某個K值后的描述性統(tǒng)計(模擬數(shù)據(jù))
四、模型評估
由于聚類是一種無監(jiān)督方法,最直接有效的評估方法是通過外部數(shù)據(jù)去驗證聚類效果的好壞
其他主要評判聚類效果指標:
- 一般指標:輪廓系數(shù)silhouette(-1,1之間懊亡,值越大,聚類效果越好)店枣,蘭德指數(shù)rand;
- 商業(yè)上的指標:分群結(jié)果的覆蓋率鸯两;分群結(jié)果的穩(wěn)定性坏瞄;分群結(jié)果是否從商業(yè)上易于理解和執(zhí)行
最后可以通過聚類識別的招聘詐騙黑產(chǎn)作為被解釋變量,招聘企業(yè)信息作為解釋變量,使用描述性統(tǒng)計或者構(gòu)建決策樹模型對招聘詐騙黑產(chǎn)進行用戶畫像
下圖為模擬的用戶畫像
五鸠匀、案例擴展
通過機器學習識別的招聘詐騙黑產(chǎn)結(jié)合外部數(shù)據(jù),可對受騙應聘人群進行用戶畫像,在這些人群瀏覽或者投遞疑似詐騙黑產(chǎn)虛假招聘崗位時,發(fā)出友善提醒或警告,對招聘平臺也不失為一種有效的防護手段