Terminology
word2vec:
doc2vec embedding:
User profile?
R: 瀏覽過(guò)的文章數(shù)量
rh:doc2vec embedding
U:user profile(用戶概況)which?accounts for both the short term as well as the long term interests of the users.
采用了三種形式來(lái)表示user profile以便理解時(shí)間上的模式衅谷。加了discount的模型是為了給最近閱讀的文章更大權(quán)重椒拗,以前的權(quán)重更小。
DSSM模型(Deep Structured Semantic Model)
看做高斯分布不再合適,還要考慮潛在data和排序盏触,改進(jìn)loss函數(shù)為
實(shí)驗(yàn)
1. Settings
數(shù)據(jù)集:CLEF NewsREEL 2017. 用gensim 來(lái)學(xué)習(xí)doc2vec embedding(size設(shè)為300)雌芽。數(shù)據(jù)集中77%為小于3篇授艰,用10-15篇閱讀量的user來(lái)train(for cold start problem),2-4篇的來(lái)test膘怕。>15篇的user在frequency(想诅?)上變化比較大召庞,所以不采用岛心。
leave-one-out法來(lái)做evaluation,performance用HR@k(測(cè)試item是否在)top k list中篮灼;NDCG accounts for the position of the hit by assigning higher scores to hits at top ranks.?
(矩陣分解)Baseline:BPR 忘古,eALS ,NeuMF 等方法(待查)
用Keras 做诅诱,training集合和validation集合比例為4:1髓堪。全連接層的權(quán)重初始化用范圍內(nèi)均勻分布。batch size為256娘荡,梯度用adabelta干旁。