面試準備項目篇

項目1 :文本多分類

1、標注問題毅厚,使用tfidf提取關(guān)鍵詞人工標注塞颁。后來發(fā)現(xiàn)有情感字典,結(jié)合情感字典進行標注

2吸耿、去掉標點符號祠锣、分詞,生成word2vec詞向量

3咽安、訓(xùn)練測試切分锤岸,將停用詞存入dict

過擬合解決,L1和L2正則化板乙,Dropout正則化一般使用在全連接層中是偷。 提早停止

  當發(fā)現(xiàn)在繼續(xù)迭代時募逞,驗證集上的損失開始上升時蛋铆,即使此時訓(xùn)練集上的損失在下降,也應(yīng)該停止迭代放接。數(shù)據(jù)增強


3刺啦、電影情感分析數(shù)據(jù)評測文本多分類方法:

樣本:2w 條

textcnn: auc:0.83? time:6min

charcnn: auc:0.52? time:15min

bi-lstm:?auc:0.78 time:32min

bi-lstm-attention: auc:0.93? time:23min

rcnn:auc:0.71? time:27min

transformer:auc:0.93? time:10min

tf寫bp,cnn,rnn

項目2、協(xié)同過濾和矩陣分解:

數(shù)據(jù)準備:對物品行為次數(shù)超過95%的用戶刪除

als:交替最小二乘纠脾,先初始化兩個子矩陣玛瘸,固定一個更新另一個,然后固定另一個苟蹈,更新第一個糊渊,更新參數(shù)

協(xié)同過濾步驟:獲取ui稀疏矩陣、構(gòu)建物品物品相似度矩陣慧脱、兩個矩陣相乘渺绒,得出topk。準確率,召回率宗兼,f1

容易出現(xiàn)的問題躏鱼,1)兩個表join的時候,如果關(guān)聯(lián)的key有重復(fù)值殷绍,會出現(xiàn)笛卡爾積

2)刷單的情況染苛,導(dǎo)致一個用戶有很多物品記錄,spark總是卡在一個任務(wù)上主到,后來把異常數(shù)據(jù)剔除

項目3茶行、ctr預(yù)估

規(guī)則:老用戶:近3天平均每天瀏覽最多的商品、前一天瀏覽的商品

? ? ? ? ? ?新用戶:熱銷商品镰烧、商品建模

模型

eda:查看每天瀏覽次數(shù)分布,基本差不多楞陷。其中418異常數(shù)據(jù)刪除

標簽:當天瀏覽第二天又瀏覽的為1怔鳖,當天瀏覽第二天沒有瀏覽的為0

采樣:滑動窗口采樣,原始44萬固蛾,點擊率0.3%结执,降采樣到15萬

特征:近10天的瀏覽、加購艾凯、收藏次數(shù)献幔,轉(zhuǎn)化率,占比(用戶維度趾诗、物品維度蜡感、用戶物品維度、用戶類別維度)

數(shù)值型特征統(tǒng)一將大于95%的數(shù)據(jù)丟棄后恃泪,使用最大最小值歸一化

#just xgb:train:846 test:816? #just lr:train:801. test:799? #xgb+lr train:834. test:809

使用deepfm后:train 0.87? test:0.85? 加dropout減少了過擬合

嘗試加稀疏特征和bn郑兴,沒有顯著效果

其中遇到一個問題,正負樣本比在1:100左右贝乎,剛開始auc在0.5幾情连,后來調(diào)整class_weight,auc變正常

xgboost如何調(diào)參览效,deepfm如何調(diào)參却舀,輸入輸出數(shù)據(jù)處理

項目4、短文本相似度

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末锤灿,一起剝皮案震驚了整個濱河市挽拔,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌但校,老刑警劉巖篱昔,帶你破解...
    沈念sama閱讀 212,383評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡州刽,警方通過查閱死者的電腦和手機空执,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,522評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來穗椅,“玉大人辨绊,你說我怎么就攤上這事∑ケ恚” “怎么了门坷?”我有些...
    開封第一講書人閱讀 157,852評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長袍镀。 經(jīng)常有香客問我默蚌,道長,這世上最難降的妖魔是什么苇羡? 我笑而不...
    開封第一講書人閱讀 56,621評論 1 284
  • 正文 為了忘掉前任绸吸,我火速辦了婚禮,結(jié)果婚禮上设江,老公的妹妹穿的比我還像新娘锦茁。我一直安慰自己,他們只是感情好叉存,可當我...
    茶點故事閱讀 65,741評論 6 386
  • 文/花漫 我一把揭開白布码俩。 她就那樣靜靜地躺著,像睡著了一般歼捏。 火紅的嫁衣襯著肌膚如雪稿存。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,929評論 1 290
  • 那天瞳秽,我揣著相機與錄音挠铲,去河邊找鬼。 笑死寂诱,一個胖子當著我的面吹牛拂苹,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播痰洒,決...
    沈念sama閱讀 39,076評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼瓢棒,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了丘喻?” 一聲冷哼從身側(cè)響起脯宿,我...
    開封第一講書人閱讀 37,803評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎泉粉,沒想到半個月后连霉,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體榴芳,經(jīng)...
    沈念sama閱讀 44,265評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,582評論 2 327
  • 正文 我和宋清朗相戀三年跺撼,在試婚紗的時候發(fā)現(xiàn)自己被綠了窟感。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,716評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡歉井,死狀恐怖柿祈,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情哩至,我是刑警寧澤躏嚎,帶...
    沈念sama閱讀 34,395評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站菩貌,受9級特大地震影響卢佣,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜箭阶,卻給世界環(huán)境...
    茶點故事閱讀 40,039評論 3 316
  • 文/蒙蒙 一虚茶、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧尾膊,春花似錦媳危、人聲如沸荞彼。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,798評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽鸣皂。三九已至抓谴,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間寞缝,已是汗流浹背癌压。 一陣腳步聲響...
    開封第一講書人閱讀 32,027評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留荆陆,地道東北人滩届。 一個月前我還...
    沈念sama閱讀 46,488評論 2 361
  • 正文 我出身青樓,卻偏偏與公主長得像被啼,于是被迫代替她去往敵國和親帜消。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,612評論 2 350

推薦閱讀更多精彩內(nèi)容