京東數(shù)據(jù)分析崗面試題目整理

1煮盼,怎么做惡意刷單檢驗(yàn)

分類(lèi)問(wèn)題用機(jī)器學(xué)習(xí)方法建模解決,特征有:

1)商家特征:商家歷史銷(xiāo)量集惋、信用孕似、產(chǎn)品類(lèi)別、發(fā)貨快遞公司等

2)用戶(hù)行為特征:用戶(hù)信用刮刑、下單量喉祭、轉(zhuǎn)化率、下單路徑雷绢、瀏覽店鋪行為泛烙、支付賬號(hào)

3)環(huán)境特征(主要是避免機(jī)器刷單):地區(qū)、ip翘紊、手機(jī)型號(hào)等

4)異常檢測(cè):ip地址經(jīng)常變動(dòng)蔽氨、經(jīng)常清空cookie信息、賬號(hào)近期交易成功率上升等

5)評(píng)論文本檢測(cè):刷單的評(píng)論文本可能套路較為一致帆疟,計(jì)算與已標(biāo)注評(píng)論文本的相似度作為特征

6)圖片相似度檢測(cè):同理鹉究,刷單可能重復(fù)利用圖片進(jìn)行評(píng)論

2,你系統(tǒng)地學(xué)過(guò)機(jī)器學(xué)習(xí)算法嗎

3踪宠,選個(gè)講下原理吧 K-Means算法及改進(jìn)自赔,遇到異常值怎么辦?評(píng)估算法的指標(biāo)有哪些柳琢?

1)k-means原理

2)改進(jìn):

a. kmeans++:初始隨機(jī)點(diǎn)選擇盡可能遠(yuǎn)绍妨,避免陷入局部解润脸。方法是n+1個(gè)中心點(diǎn)選擇時(shí),對(duì)于離前n個(gè)點(diǎn)選擇到的概率更大

b. mini batch kmeans:每次只用一個(gè)子集做重入類(lèi)并找到類(lèi)心(提高訓(xùn)練速度)

c. ISODATA:對(duì)于難以確定k的時(shí)候他去,使用該方法毙驯。思路是當(dāng)類(lèi)下的樣本小時(shí),剔除灾测;類(lèi)下樣本數(shù)量多時(shí)爆价,拆分

d. kernel kmeans:kmeans用歐氏距離計(jì)算相似度,也可以使用kernel映射到高維空間再聚類(lèi)

3)遇到異常值

a. 有條件的話(huà)使用密度聚類(lèi)或者一些軟聚類(lèi)的方式先聚類(lèi)行施,剔除異常值允坚。不過(guò)本來(lái)用kmeans就是為了快魂那,這么做有些南轅北轍了

b. 局部異常因子LOF:如果點(diǎn)p的密度明顯小于其鄰域點(diǎn)的密度蛾号,那么點(diǎn)p可能是異常值

c. 多元高斯分布異常點(diǎn)檢測(cè)

d. 使用PCA或自動(dòng)編碼機(jī)進(jìn)行異常點(diǎn)檢測(cè):使用降維后的維度作為新的特征空間,其降維結(jié)果可以認(rèn)為剔除了異常值的影響(因?yàn)檫^(guò)程是保留使投影后方差最大的投影方向)

e. isolation forest:基本思路是建立樹(shù)模型涯雅,一個(gè)節(jié)點(diǎn)所在的樹(shù)深度越低鲜结,說(shuō)明將其從樣本空間劃分出去越容易,因此越可能是異常值活逆。是一種無(wú)監(jiān)督的方法精刷,隨機(jī)選擇n個(gè)sumsampe,隨機(jī)選擇一個(gè)特征一個(gè)值蔗候。

f. winsorize:對(duì)于簡(jiǎn)單的怒允,可以對(duì)單一維度做上下截取

4)評(píng)估聚類(lèi)算法的指標(biāo):

a. 外部法(基于有標(biāo)注):Jaccard系數(shù)、純度

b. 內(nèi)部法(無(wú)標(biāo)注):內(nèi)平方和WSS和外平方和BSS

c. 此外還要考慮到算法的時(shí)間空間復(fù)雜度锈遥、聚類(lèi)穩(wěn)定性等

4纫事, 數(shù)據(jù)預(yù)處理過(guò)程有哪些?

1)缺失值處理:刪所灸、插

2)異常值處理

3)特征轉(zhuǎn)換:時(shí)間特征sin化表示

4)標(biāo)準(zhǔn)化:最大最小標(biāo)準(zhǔn)化丽惶、z標(biāo)準(zhǔn)化等

5)歸一化:對(duì)于文本或評(píng)分特征,不同樣本之間可能有整體上的差異爬立,如a文本共20個(gè)詞钾唬,b文本30000個(gè)詞,b文本中各個(gè)維度上的頻次都很可能遠(yuǎn)遠(yuǎn)高于a文本

6)離散化:onehot侠驯、分箱等

5抡秆,隨機(jī)森林原理?有哪些隨機(jī)方法吟策?

1)隨機(jī)森林原理:通過(guò)構(gòu)造多個(gè)決策樹(shù)儒士,做bagging以提高泛化能力

2)subsample(有放回抽樣)、subfeature踊挠、低維空間投影(特征做組合乍桂,參考林軒田的《機(jī)器學(xué)習(xí)基石》

6冲杀, PCA

1)主成分分析是一種降維的方法

2)思想是將樣本從原來(lái)的特征空間轉(zhuǎn)化到新的特征空間,并且樣本在新特征空間坐標(biāo)軸上的投影方差盡可能大睹酌,這樣就能涵蓋樣本最主要的信息

3)方法:

a. 特征歸一化

b. 求樣本特征的協(xié)方差矩陣A

c. 求A的特征值和特征向量权谁,即AX=λX

d. 將特征值從大到小排列,選擇topK憋沿,對(duì)應(yīng)的特征向量就是新的坐標(biāo)軸

4)PCA也可以看成激活函數(shù)為線性函數(shù)的自動(dòng)編碼機(jī)

7旺芽,還有一些圍繞著項(xiàng)目問(wèn)的具體問(wèn)題

8,參加過(guò)哪些活動(dòng)辐啄?

9采章,hive?spark壶辜?sql悯舟? nlp?

1)Hive允許使用類(lèi)SQL語(yǔ)句在hadoop集群上進(jìn)行讀砸民、寫(xiě)抵怎、管理等操作

2)Spark是一種與hadoop相似的開(kāi)源集群計(jì)算環(huán)境,將數(shù)據(jù)集緩存在分布式內(nèi)存中的計(jì)算平臺(tái)岭参,每輪迭代不需要讀取磁盤(pán)的IO操作反惕,從而答復(fù)降低了單輪迭代時(shí)間

10,XGBOOST

xgb也是一種梯度提升樹(shù)演侯,是gbdt高效實(shí)現(xiàn)姿染,差異是:

1)gbdt優(yōu)化時(shí)只用到了一階導(dǎo)數(shù)信息,xgb對(duì)代價(jià)函數(shù)做了二階泰勒展開(kāi)

2)xgb加入了正則項(xiàng)

3)xgb運(yùn)行完一次迭代后秒际,會(huì)對(duì)葉子節(jié)點(diǎn)的權(quán)重乘上shrinkage(縮減)系數(shù)悬赏,削弱當(dāng)前樹(shù)的影響,讓后面有更大的學(xué)習(xí)空間

4)支持列抽樣等特性

5)支持并行:決策樹(shù)中對(duì)特征值進(jìn)行排序以選擇分割點(diǎn)是耗時(shí)操作程癌,xgb訓(xùn)練之前就先對(duì)數(shù)據(jù)進(jìn)行排序舷嗡,保存為block結(jié)構(gòu),后續(xù)迭代中重復(fù)用該結(jié)構(gòu)嵌莉,大大減少計(jì)算量进萄。同時(shí)各個(gè)特征增益的計(jì)算也可以開(kāi)多線程進(jìn)行

6)尋找最佳分割點(diǎn)時(shí),實(shí)現(xiàn)了一種近似貪心法锐峭,同時(shí)優(yōu)化了對(duì)稀疏數(shù)據(jù)中鼠、缺對(duì)稀疏數(shù)據(jù)、缺失值的處理沿癞,提高了算法效率

7)剪枝:GBDT遇到負(fù)損失時(shí)回停止分裂援雇,是貪心算法。xgb會(huì)分裂到指定最大深度椎扬,然后再剪枝

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末惫搏,一起剝皮案震驚了整個(gè)濱河市具温,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌筐赔,老刑警劉巖铣猩,帶你破解...
    沈念sama閱讀 211,639評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異茴丰,居然都是意外死亡达皿,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,277評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門(mén)贿肩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)峦椰,“玉大人,你說(shuō)我怎么就攤上這事汰规√拦Γ” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,221評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵控轿,是天一觀的道長(zhǎng)冤竹。 經(jīng)常有香客問(wèn)我,道長(zhǎng)茬射,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,474評(píng)論 1 283
  • 正文 為了忘掉前任冒签,我火速辦了婚禮在抛,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘萧恕。我一直安慰自己刚梭,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,570評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布票唆。 她就那樣靜靜地躺著朴读,像睡著了一般。 火紅的嫁衣襯著肌膚如雪走趋。 梳的紋絲不亂的頭發(fā)上衅金,一...
    開(kāi)封第一講書(shū)人閱讀 49,816評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音簿煌,去河邊找鬼氮唯。 笑死,一個(gè)胖子當(dāng)著我的面吹牛姨伟,可吹牛的內(nèi)容都是我干的惩琉。 我是一名探鬼主播,決...
    沈念sama閱讀 38,957評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼夺荒,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼瞒渠!你這毒婦竟也來(lái)了良蒸?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,718評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤伍玖,失蹤者是張志新(化名)和其女友劉穎诚啃,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體私沮,經(jīng)...
    沈念sama閱讀 44,176評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡始赎,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,511評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了仔燕。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片造垛。...
    茶點(diǎn)故事閱讀 38,646評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖晰搀,靈堂內(nèi)的尸體忽然破棺而出五辽,到底是詐尸還是另有隱情,我是刑警寧澤外恕,帶...
    沈念sama閱讀 34,322評(píng)論 4 330
  • 正文 年R本政府宣布杆逗,位于F島的核電站,受9級(jí)特大地震影響鳞疲,放射性物質(zhì)發(fā)生泄漏罪郊。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,934評(píng)論 3 313
  • 文/蒙蒙 一尚洽、第九天 我趴在偏房一處隱蔽的房頂上張望悔橄。 院中可真熱鬧,春花似錦腺毫、人聲如沸癣疟。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,755評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)睛挚。三九已至,卻和暖如春急黎,著一層夾襖步出監(jiān)牢的瞬間扎狱,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,987評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工叁熔, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留委乌,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,358評(píng)論 2 360
  • 正文 我出身青樓荣回,卻偏偏與公主長(zhǎng)得像遭贸,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子心软,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,514評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容