項目1 :文本多分類
1、標注問題毅厚,使用tfidf提取關(guān)鍵詞人工標注塞颁。后來發(fā)現(xiàn)有情感字典,結(jié)合情感字典進行標注
2吸耿、去掉標點符號祠锣、分詞,生成word2vec詞向量
3咽安、訓(xùn)練測試切分锤岸,將停用詞存入dict
過擬合解決,L1和L2正則化板乙,Dropout正則化一般使用在全連接層中是偷。 提早停止
當發(fā)現(xiàn)在繼續(xù)迭代時募逞,驗證集上的損失開始上升時蛋铆,即使此時訓(xùn)練集上的損失在下降,也應(yīng)該停止迭代放接。數(shù)據(jù)增強
3刺啦、電影情感分析數(shù)據(jù)評測文本多分類方法:
樣本:2w 條
textcnn: auc:0.83? time:6min
charcnn: auc:0.52? time:15min
bi-lstm:?auc:0.78 time:32min
bi-lstm-attention: auc:0.93? time:23min
rcnn:auc:0.71? time:27min
transformer:auc:0.93? time:10min
tf寫bp,cnn,rnn
項目2、協(xié)同過濾和矩陣分解:
數(shù)據(jù)準備:對物品行為次數(shù)超過95%的用戶刪除
als:交替最小二乘纠脾,先初始化兩個子矩陣玛瘸,固定一個更新另一個,然后固定另一個苟蹈,更新第一個糊渊,更新參數(shù)
協(xié)同過濾步驟:獲取ui稀疏矩陣、構(gòu)建物品物品相似度矩陣慧脱、兩個矩陣相乘渺绒,得出topk。準確率,召回率宗兼,f1
容易出現(xiàn)的問題躏鱼,1)兩個表join的時候,如果關(guān)聯(lián)的key有重復(fù)值殷绍,會出現(xiàn)笛卡爾積
2)刷單的情況染苛,導(dǎo)致一個用戶有很多物品記錄,spark總是卡在一個任務(wù)上主到,后來把異常數(shù)據(jù)剔除
項目3茶行、ctr預(yù)估
規(guī)則:老用戶:近3天平均每天瀏覽最多的商品、前一天瀏覽的商品
? ? ? ? ? ?新用戶:熱銷商品镰烧、商品建模
模型:
eda:查看每天瀏覽次數(shù)分布,基本差不多楞陷。其中418異常數(shù)據(jù)刪除
標簽:當天瀏覽第二天又瀏覽的為1怔鳖,當天瀏覽第二天沒有瀏覽的為0
采樣:滑動窗口采樣,原始44萬固蛾,點擊率0.3%结执,降采樣到15萬
特征:近10天的瀏覽、加購艾凯、收藏次數(shù)献幔,轉(zhuǎn)化率,占比(用戶維度趾诗、物品維度蜡感、用戶物品維度、用戶類別維度)
數(shù)值型特征統(tǒng)一將大于95%的數(shù)據(jù)丟棄后恃泪,使用最大最小值歸一化
#just xgb:train:846 test:816? #just lr:train:801. test:799? #xgb+lr train:834. test:809
使用deepfm后:train 0.87? test:0.85? 加dropout減少了過擬合
嘗試加稀疏特征和bn郑兴,沒有顯著效果
其中遇到一個問題,正負樣本比在1:100左右贝乎,剛開始auc在0.5幾情连,后來調(diào)整class_weight,auc變正常
xgboost如何調(diào)參览效,deepfm如何調(diào)參却舀,輸入輸出數(shù)據(jù)處理
項目4、短文本相似度