1煮盼,怎么做惡意刷單檢驗(yàn)
分類(lèi)問(wèn)題用機(jī)器學(xué)習(xí)方法建模解決,特征有:
1)商家特征:商家歷史銷(xiāo)量集惋、信用孕似、產(chǎn)品類(lèi)別、發(fā)貨快遞公司等
2)用戶(hù)行為特征:用戶(hù)信用刮刑、下單量喉祭、轉(zhuǎn)化率、下單路徑雷绢、瀏覽店鋪行為泛烙、支付賬號(hào)
3)環(huán)境特征(主要是避免機(jī)器刷單):地區(qū)、ip翘紊、手機(jī)型號(hào)等
4)異常檢測(cè):ip地址經(jīng)常變動(dòng)蔽氨、經(jīng)常清空cookie信息、賬號(hào)近期交易成功率上升等
5)評(píng)論文本檢測(cè):刷單的評(píng)論文本可能套路較為一致帆疟,計(jì)算與已標(biāo)注評(píng)論文本的相似度作為特征
6)圖片相似度檢測(cè):同理鹉究,刷單可能重復(fù)利用圖片進(jìn)行評(píng)論
2,你系統(tǒng)地學(xué)過(guò)機(jī)器學(xué)習(xí)算法嗎
3踪宠,選個(gè)講下原理吧 K-Means算法及改進(jìn)自赔,遇到異常值怎么辦?評(píng)估算法的指標(biāo)有哪些柳琢?
1)k-means原理
2)改進(jìn):
a. kmeans++:初始隨機(jī)點(diǎn)選擇盡可能遠(yuǎn)绍妨,避免陷入局部解润脸。方法是n+1個(gè)中心點(diǎn)選擇時(shí),對(duì)于離前n個(gè)點(diǎn)選擇到的概率更大
b. mini batch kmeans:每次只用一個(gè)子集做重入類(lèi)并找到類(lèi)心(提高訓(xùn)練速度)
c. ISODATA:對(duì)于難以確定k的時(shí)候他去,使用該方法毙驯。思路是當(dāng)類(lèi)下的樣本小時(shí),剔除灾测;類(lèi)下樣本數(shù)量多時(shí)爆价,拆分
d. kernel kmeans:kmeans用歐氏距離計(jì)算相似度,也可以使用kernel映射到高維空間再聚類(lèi)
3)遇到異常值
a. 有條件的話(huà)使用密度聚類(lèi)或者一些軟聚類(lèi)的方式先聚類(lèi)行施,剔除異常值允坚。不過(guò)本來(lái)用kmeans就是為了快魂那,這么做有些南轅北轍了
b. 局部異常因子LOF:如果點(diǎn)p的密度明顯小于其鄰域點(diǎn)的密度蛾号,那么點(diǎn)p可能是異常值
c. 多元高斯分布異常點(diǎn)檢測(cè)
d. 使用PCA或自動(dòng)編碼機(jī)進(jìn)行異常點(diǎn)檢測(cè):使用降維后的維度作為新的特征空間,其降維結(jié)果可以認(rèn)為剔除了異常值的影響(因?yàn)檫^(guò)程是保留使投影后方差最大的投影方向)
e. isolation forest:基本思路是建立樹(shù)模型涯雅,一個(gè)節(jié)點(diǎn)所在的樹(shù)深度越低鲜结,說(shuō)明將其從樣本空間劃分出去越容易,因此越可能是異常值活逆。是一種無(wú)監(jiān)督的方法精刷,隨機(jī)選擇n個(gè)sumsampe,隨機(jī)選擇一個(gè)特征一個(gè)值蔗候。
f. winsorize:對(duì)于簡(jiǎn)單的怒允,可以對(duì)單一維度做上下截取
4)評(píng)估聚類(lèi)算法的指標(biāo):
a. 外部法(基于有標(biāo)注):Jaccard系數(shù)、純度
b. 內(nèi)部法(無(wú)標(biāo)注):內(nèi)平方和WSS和外平方和BSS
c. 此外還要考慮到算法的時(shí)間空間復(fù)雜度锈遥、聚類(lèi)穩(wěn)定性等
4纫事, 數(shù)據(jù)預(yù)處理過(guò)程有哪些?
1)缺失值處理:刪所灸、插
2)異常值處理
3)特征轉(zhuǎn)換:時(shí)間特征sin化表示
4)標(biāo)準(zhǔn)化:最大最小標(biāo)準(zhǔn)化丽惶、z標(biāo)準(zhǔn)化等
5)歸一化:對(duì)于文本或評(píng)分特征,不同樣本之間可能有整體上的差異爬立,如a文本共20個(gè)詞钾唬,b文本30000個(gè)詞,b文本中各個(gè)維度上的頻次都很可能遠(yuǎn)遠(yuǎn)高于a文本
6)離散化:onehot侠驯、分箱等
5抡秆,隨機(jī)森林原理?有哪些隨機(jī)方法吟策?
1)隨機(jī)森林原理:通過(guò)構(gòu)造多個(gè)決策樹(shù)儒士,做bagging以提高泛化能力
2)subsample(有放回抽樣)、subfeature踊挠、低維空間投影(特征做組合乍桂,參考林軒田的《機(jī)器學(xué)習(xí)基石》
6冲杀, PCA
1)主成分分析是一種降維的方法
2)思想是將樣本從原來(lái)的特征空間轉(zhuǎn)化到新的特征空間,并且樣本在新特征空間坐標(biāo)軸上的投影方差盡可能大睹酌,這樣就能涵蓋樣本最主要的信息
3)方法:
a. 特征歸一化
b. 求樣本特征的協(xié)方差矩陣A
c. 求A的特征值和特征向量权谁,即AX=λX
d. 將特征值從大到小排列,選擇topK憋沿,對(duì)應(yīng)的特征向量就是新的坐標(biāo)軸
4)PCA也可以看成激活函數(shù)為線性函數(shù)的自動(dòng)編碼機(jī)
7旺芽,還有一些圍繞著項(xiàng)目問(wèn)的具體問(wèn)題
8,參加過(guò)哪些活動(dòng)辐啄?
9采章,hive?spark壶辜?sql悯舟? nlp?
1)Hive允許使用類(lèi)SQL語(yǔ)句在hadoop集群上進(jìn)行讀砸民、寫(xiě)抵怎、管理等操作
2)Spark是一種與hadoop相似的開(kāi)源集群計(jì)算環(huán)境,將數(shù)據(jù)集緩存在分布式內(nèi)存中的計(jì)算平臺(tái)岭参,每輪迭代不需要讀取磁盤(pán)的IO操作反惕,從而答復(fù)降低了單輪迭代時(shí)間
10,XGBOOST
xgb也是一種梯度提升樹(shù)演侯,是gbdt高效實(shí)現(xiàn)姿染,差異是:
1)gbdt優(yōu)化時(shí)只用到了一階導(dǎo)數(shù)信息,xgb對(duì)代價(jià)函數(shù)做了二階泰勒展開(kāi)
2)xgb加入了正則項(xiàng)
3)xgb運(yùn)行完一次迭代后秒际,會(huì)對(duì)葉子節(jié)點(diǎn)的權(quán)重乘上shrinkage(縮減)系數(shù)悬赏,削弱當(dāng)前樹(shù)的影響,讓后面有更大的學(xué)習(xí)空間
4)支持列抽樣等特性
5)支持并行:決策樹(shù)中對(duì)特征值進(jìn)行排序以選擇分割點(diǎn)是耗時(shí)操作程癌,xgb訓(xùn)練之前就先對(duì)數(shù)據(jù)進(jìn)行排序舷嗡,保存為block結(jié)構(gòu),后續(xù)迭代中重復(fù)用該結(jié)構(gòu)嵌莉,大大減少計(jì)算量进萄。同時(shí)各個(gè)特征增益的計(jì)算也可以開(kāi)多線程進(jìn)行
6)尋找最佳分割點(diǎn)時(shí),實(shí)現(xiàn)了一種近似貪心法锐峭,同時(shí)優(yōu)化了對(duì)稀疏數(shù)據(jù)中鼠、缺對(duì)稀疏數(shù)據(jù)、缺失值的處理沿癞,提高了算法效率
7)剪枝:GBDT遇到負(fù)損失時(shí)回停止分裂援雇,是貪心算法。xgb會(huì)分裂到指定最大深度椎扬,然后再剪枝