論文原文:
論文題目:《Learning Deep Structured Semantic Models for Web Search using Clickthrough Data》
論文地址:
https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/cikm2013_DSSM_fullversion.pdf
一 乖菱、背景
DSSM是Deep Structured Semantic Model的縮寫转唉,即我們通常說的基于深度網(wǎng)絡(luò)的語義模型摸航,其核心思想是將query和doc映射到到共同維度的語義空間中胸墙,通過最大化query和doc語義向量之間的余弦相似度,從而訓(xùn)練得到隱含語義模型蚊锹,達(dá)到檢索的目的咧虎。DSSM有很廣泛的應(yīng)用,比如:搜索引擎檢索喇辽,廣告相關(guān)性掌挚,問答系統(tǒng),機(jī)器翻譯等菩咨。
先來看看愿論文中的模型:
典型的DNN結(jié)構(gòu)是將原始的文本特征映射為在語義空間上表示的特征吠式。DNN在搜索引擎排序中主要是有下面2個作用:
1.將query中term的高維向量映射為低維語義向量
2.根據(jù)語義向量計算query與doc之間的相關(guān)性分?jǐn)?shù)
從模型上來看,x是用來表示輸入的term向量抽米,y是經(jīng)過DNN后的輸出向量特占,計算如下:
W,b是模型的參數(shù)云茸,f是激活函數(shù)是目,其中f為tahn激活函數(shù):
相似度計算為:
其中, 與是query與doc的語義向量标捺。在搜索引擎中懊纳,給定一個query,會返回一些按照相關(guān)性分?jǐn)?shù)排序的文檔亡容。
可以看到論文中有一個word hashing層嗤疯,用來解決在實際場景中,詞典的大小非常大闺兢,如果直接將該數(shù)據(jù)輸入給DNN茂缚,神經(jīng)網(wǎng)絡(luò)是無法進(jìn)行訓(xùn)練和預(yù)測的問題。
二、推薦廣告中的DSSM召回模型
2.1 樸素的雙塔模型
在模型訓(xùn)練完畢后脚囊,user塔跟item塔各自存儲在redis這樣的數(shù)據(jù)庫中帖汞,線上計算的時候,直接從內(nèi)存中取到兩個向量計算相似度即可凑术。
2.2 百度的雙塔模型
“百度的雙塔模型分別使用復(fù)雜的網(wǎng)絡(luò)對用戶相關(guān)的特征和廣告相關(guān)的特征進(jìn)行 embedding翩蘸,分別形成兩個獨立的塔,在最后的交叉層之前用戶特征和廣告特征之間沒有任何交互淮逊。這種方案就是訓(xùn)練時引入更多的特征完成復(fù)雜網(wǎng)絡(luò)離線訓(xùn)練催首,然后將得到的 user embedding 和 item embedding 存入 Redis 這一類內(nèi)存數(shù)據(jù)庫中。線上預(yù)測時使用 LR泄鹏、淺層 NN 等輕量級模型或者更方便的相似距離計算方式郎任。這也是業(yè)界很多大廠采用的推薦系統(tǒng)的構(gòu)造方式”缸眩”
事實上舶治,不管是前面提到的din還是dien都是隱約的有著雙塔模型的影子在,都把user跟item兩邊的特征分離车猬,構(gòu)建不同的子塔霉猛。
2.3 谷歌的雙塔模型
利用雙塔模型對 user-item 對的交互關(guān)系進(jìn)行建模,從而學(xué)習(xí)[用戶珠闰,上下文]向量和[item]向量的關(guān)聯(lián)惜浅。針對大規(guī)模流數(shù)據(jù),提出 in-batch softmax 損失函數(shù)與流數(shù)據(jù)頻率估計方法更好的適應(yīng) item 的多種數(shù)據(jù)分布伏嗜。
利用雙塔模型構(gòu)建 YouTube 視頻推薦系統(tǒng)坛悉,對于用戶側(cè)的塔根據(jù)用戶觀看視頻特征構(gòu)建 user embedding,對于視頻側(cè)的塔根據(jù)視頻特征構(gòu)建 video emebdding承绸。
三裸影、DSSM雙塔模型實戰(zhàn)
用戶特征為 user_id , user_age, user_city, user_gender
物品特征為 item_id, item_txt, item_img
3.1 構(gòu)建embedding層
ps:所有代碼均在pytorch下編寫
計算特征拼接后的長度:
由于數(shù)據(jù)集中的txt跟img都是固定長度128的向量,所以直接加128*2=256
3.2 DNN層
這里 hidden_dim = [256, 128, 64]军熏,dropout=[0.3, 0.3]
雙塔模型中的激活函數(shù)一般采用的都是tahn函數(shù)轩猩,如果用relu激活函數(shù),會導(dǎo)致很多向量都是0羞迷。
3.3 輸出層
輸入的數(shù)據(jù)x的格式是:每一列代表一個特征界轩,共有batch_size行
3.4 訓(xùn)練
簡單的DSSM實戰(zhàn)代碼到這里就結(jié)束啦,本文只是貼了部分核心代碼衔瓮,所有代碼等后續(xù)放在github上吧
0.o o.0
多謝大家閱讀本文浊猾,作為一個pytorch小白,還請各位多多指教~热鞍『鳎~