召回模塊
- 標簽類
- 基于用戶歷史回答過的話題、關鍵詞召回
- 基于用戶關注、瀏覽等興趣話題去召回
- 基于內(nèi)容分類去召回
- embedding召回
- 創(chuàng)作話題、興趣話題有embedding,通過最近鄰去召回相似的問題
- 通過深度學習模型學習出來embedding召回
- 協(xié)同類模型
- 熱門或其他策略類召回
排序模塊
ranking特征
- 問題側主要是問題的話題寓辱、文本、時間赤拒、提問作者
- 用戶側主要是用戶基礎特征秫筏、用戶興趣诱鞠、用戶歷史創(chuàng)作特征
- 交叉特征:問題與歷史回答話題相似度、文本相似度等
ranking模型
- 傳統(tǒng)GBDT这敬、GBRank航夺,在一些不追求極致效果情況中有一定優(yōu)勢
- 深度學習模型:Wide&Deep、DeepFM崔涂,效果有較大提升阳掐,但訓練要求資源多,樣本規(guī)模大
- ESMM(多目標)
目前模型主要是天級更新冷蚂,在做onlinelearning的嘗試
一些tips
- 模型融合或者復雜網(wǎng)絡可能在比賽中有效缭保,但是在實際生產(chǎn)中要考慮實際情況,一般情況下留給ranking階段的時間不超過100ms蝙茶,如果模型過于復雜艺骂,運行時間往往得不到標準,一般會使用單一的模型隆夯,或者直接使用多目標或多任務目標學習模型钳恕。
- 線上仍有不少地方在使用GBDT、GBrank蹄衷,樹模型有一些非常大的優(yōu)勢:模型簡單忧额,可解釋性強,需要的樣本量不大愧口,訓練時間短宙址,使用資源少,模型穩(wěn)定调卑,一定時間不更新衰減比較弱,可維護性比較強大咱,在一些不過分追求極致效果的情況使用比較多恬涧。