原創(chuàng)作品蛹磺,轉(zhuǎn)載請(qǐng)注明出處粟瞬。
關(guān)注公眾號(hào)「熱薯?xiàng)l」獲取更多精彩文章。
前言
上一期我們講到了萤捆,透過初步數(shù)據(jù)洞悉裙品,我們猜測(cè)可能存在這么一群人,構(gòu)成貓幣黑市并進(jìn)行交易俗或。那么接著最關(guān)鍵的問題就是市怎,我們?cè)撊绾瓮高^歷史行為數(shù)據(jù)精準(zhǔn)地找到這些黑產(chǎn)并將他們跟正常用戶區(qū)分開來(lái)呢?
這一期主要我們想介紹辛慰,如何利用原始數(shù)據(jù)区匠,經(jīng)過數(shù)據(jù)處理、特征工程后得到有用的特征帅腌,并且如何施加對(duì)業(yè)務(wù)上的理解和公式到特征中驰弄,得到最終總權(quán)重來(lái)為圖計(jì)算做準(zhǔn)備蝠筑。
流程
技術(shù)流程圖
大數(shù)據(jù)和人工智能的核心就是數(shù)據(jù),有了數(shù)據(jù)我們才能深入挖掘每個(gè)用戶的行為特征揩懒,并進(jìn)行歸類。這里我們使用的歷史數(shù)據(jù)包含環(huán)境數(shù)據(jù)挽封、用戶行為數(shù)據(jù)以及用戶生產(chǎn)數(shù)據(jù)已球,基于口令紅包和車隊(duì)紅包等數(shù)據(jù)我們建構(gòu)一張基本的圖,接著使用用戶設(shè)備信息辅愿、IP信息智亮、昵稱相似度、彈幕相似度点待、搶紅包行為等進(jìn)行加權(quán)阔蛉,調(diào)整用戶之間聯(lián)系的強(qiáng)弱,最終得到一張完整的圖癞埠。
基于這些數(shù)據(jù)状原,通過數(shù)據(jù)計(jì)算平臺(tái)數(shù)據(jù)清洗、數(shù)據(jù)整理苗踪、特征提取颠区,通過圖計(jì)算平臺(tái)進(jìn)行社群挖掘算法實(shí)現(xiàn),就能夠找出不同用戶之間的相關(guān)性通铲,并提取重點(diǎn)群體進(jìn)行深入觀察毕莱、研究。
數(shù)據(jù)預(yù)處理
我們的目標(biāo)是盡可能得從原始數(shù)據(jù)上獲取有用的信息颅夺,一些原始數(shù)據(jù)本身往往不能直接作為模型的變量朋截。
在此對(duì)一些我們遇到的數(shù)據(jù)預(yù)處理工作進(jìn)行舉例。
從cookie中提取關(guān)鍵信息
由于后面需要用到用戶 pdft(設(shè)備號(hào))吧黄,rid(用戶)等相關(guān)信息部服,我們需要對(duì)cookie中的信息進(jìn)行提取:
cookie = 'R=r%3D14***********D,pdft=20180********************b,__guid=9*****.1*****.1***.****,pdftv1=****
使用正則表達(dá)式即可提取出關(guān)鍵信息:用戶 pdft稚字,rid
rid = 14******
pdft = 20180*******b
特征工程 (Feature Engineering)
數(shù)據(jù)和特征決定了上限饲宿,而一個(gè)好的模型只是逼近那個(gè)上限而已。
其他用戶之間的關(guān)系的維度
用戶忠誠(chéng)度參數(shù)
總權(quán)重
這樣加入到全局當(dāng)中胆描,即可求得所有用戶的總權(quán)重瘫想。
以上公式、模型中的權(quán)重昌讲、細(xì)節(jié)等只作為舉例指出国夜,實(shí)際操作中的公式由反復(fù)調(diào)參、迭代后得到短绸。
下期前瞻
得到權(quán)重后车吹,當(dāng)然就是畫出連通圖尋找社群關(guān)系了筹裕。下一期我們將重點(diǎn)介紹如何進(jìn)行繪圖,從連通圖中進(jìn)行社區(qū)發(fā)現(xiàn) (community detection)窄驹,社區(qū)發(fā)現(xiàn)不同算法的介紹朝卒,以及是如何運(yùn)用到我們的模型上找出紅包黑產(chǎn)的。
更多精彩推薦:
貓幣黑市第一期——通過大數(shù)據(jù)乐埠,機(jī)器學(xué)習(xí)揭露互聯(lián)網(wǎng)直播行業(yè)黑產(chǎn)
貓幣黑市第三期——圖計(jì)算抗斤、社區(qū)發(fā)現(xiàn)
貓幣黑市第五期——貓幣黑市規(guī)模、甄別手段評(píng)估
原創(chuàng)作品丈咐,轉(zhuǎn)載請(qǐng)注明出處瑞眼。
關(guān)注公眾號(hào)「熱薯?xiàng)l」獲取更多精彩文章。