推薦系統(tǒng)論文閱讀(七)-借鑒DSSM構(gòu)建雙塔召回模型

論文原文:


論文題目:《Learning Deep Structured Semantic Models for Web Search using Clickthrough Data》

論文地址:

https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/cikm2013_DSSM_fullversion.pdf

一 乖菱、背景

DSSM是Deep Structured Semantic Model的縮寫转唉,即我們通常說的基于深度網(wǎng)絡(luò)的語義模型摸航,其核心思想是將query和doc映射到到共同維度的語義空間中胸墙,通過最大化query和doc語義向量之間的余弦相似度,從而訓(xùn)練得到隱含語義模型蚊锹,達(dá)到檢索的目的咧虎。DSSM有很廣泛的應(yīng)用,比如:搜索引擎檢索喇辽,廣告相關(guān)性掌挚,問答系統(tǒng),機(jī)器翻譯等菩咨。

先來看看愿論文中的模型:


典型的DNN結(jié)構(gòu)是將原始的文本特征映射為在語義空間上表示的特征吠式。DNN在搜索引擎排序中主要是有下面2個作用:

1.將query中term的高維向量映射為低維語義向量

2.根據(jù)語義向量計算query與doc之間的相關(guān)性分?jǐn)?shù)

從模型上來看,x是用來表示輸入的term向量抽米,y是經(jīng)過DNN后的輸出向量特占,計算如下:


W,b是模型的參數(shù)云茸,f是激活函數(shù)是目,其中f為tahn激活函數(shù):


相似度計算為:


其中, y_{q} y_85ihgv2 是query與doc的語義向量标捺。在搜索引擎中懊纳,給定一個query,會返回一些按照相關(guān)性分?jǐn)?shù)排序的文檔亡容。

可以看到論文中有一個word hashing層嗤疯,用來解決在實際場景中,詞典的大小非常大闺兢,如果直接將該數(shù)據(jù)輸入給DNN茂缚,神經(jīng)網(wǎng)絡(luò)是無法進(jìn)行訓(xùn)練和預(yù)測的問題。

二、推薦廣告中的DSSM召回模型

2.1 樸素的雙塔模型


在模型訓(xùn)練完畢后脚囊,user塔跟item塔各自存儲在redis這樣的數(shù)據(jù)庫中帖汞,線上計算的時候,直接從內(nèi)存中取到兩個向量計算相似度即可凑术。

2.2 百度的雙塔模型


“百度的雙塔模型分別使用復(fù)雜的網(wǎng)絡(luò)對用戶相關(guān)的特征和廣告相關(guān)的特征進(jìn)行 embedding翩蘸,分別形成兩個獨立的塔,在最后的交叉層之前用戶特征和廣告特征之間沒有任何交互淮逊。這種方案就是訓(xùn)練時引入更多的特征完成復(fù)雜網(wǎng)絡(luò)離線訓(xùn)練催首,然后將得到的 user embedding 和 item embedding 存入 Redis 這一類內(nèi)存數(shù)據(jù)庫中。線上預(yù)測時使用 LR泄鹏、淺層 NN 等輕量級模型或者更方便的相似距離計算方式郎任。這也是業(yè)界很多大廠采用的推薦系統(tǒng)的構(gòu)造方式”缸眩”

事實上舶治,不管是前面提到的din還是dien都是隱約的有著雙塔模型的影子在,都把user跟item兩邊的特征分離车猬,構(gòu)建不同的子塔霉猛。

2.3 谷歌的雙塔模型


利用雙塔模型對 user-item 對的交互關(guān)系進(jìn)行建模,從而學(xué)習(xí)[用戶珠闰,上下文]向量和[item]向量的關(guān)聯(lián)惜浅。針對大規(guī)模流數(shù)據(jù),提出 in-batch softmax 損失函數(shù)與流數(shù)據(jù)頻率估計方法更好的適應(yīng) item 的多種數(shù)據(jù)分布伏嗜。

利用雙塔模型構(gòu)建 YouTube 視頻推薦系統(tǒng)坛悉,對于用戶側(cè)的塔根據(jù)用戶觀看視頻特征構(gòu)建 user embedding,對于視頻側(cè)的塔根據(jù)視頻特征構(gòu)建 video emebdding承绸。

三裸影、DSSM雙塔模型實戰(zhàn)



用戶特征為 user_id , user_age, user_city, user_gender

物品特征為 item_id, item_txt, item_img

3.1 構(gòu)建embedding層

ps:所有代碼均在pytorch下編寫

計算特征拼接后的長度:


由于數(shù)據(jù)集中的txt跟img都是固定長度128的向量,所以直接加128*2=256

3.2 DNN層

這里 hidden_dim = [256, 128, 64]军熏,dropout=[0.3, 0.3]

雙塔模型中的激活函數(shù)一般采用的都是tahn函數(shù)轩猩,如果用relu激活函數(shù),會導(dǎo)致很多向量都是0羞迷。

3.3 輸出層


輸入的數(shù)據(jù)x的格式是:每一列代表一個特征界轩,共有batch_size行

3.4 訓(xùn)練


簡單的DSSM實戰(zhàn)代碼到這里就結(jié)束啦,本文只是貼了部分核心代碼衔瓮,所有代碼等后續(xù)放在github上吧

0.o o.0

多謝大家閱讀本文浊猾,作為一個pytorch小白,還請各位多多指教~热鞍『鳎~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末衔彻,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子偷办,更是在濱河造成了極大的恐慌艰额,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件椒涯,死亡現(xiàn)場離奇詭異柄沮,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)废岂,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進(jìn)店門祖搓,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人湖苞,你說我怎么就攤上這事拯欧。” “怎么了财骨?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵镐作,是天一觀的道長。 經(jīng)常有香客問我隆箩,道長该贾,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任摘仅,我火速辦了婚禮靶庙,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘娃属。我一直安慰自己,他們只是感情好护姆,可當(dāng)我...
    茶點故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布矾端。 她就那樣靜靜地躺著,像睡著了一般卵皂。 火紅的嫁衣襯著肌膚如雪秩铆。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天灯变,我揣著相機(jī)與錄音殴玛,去河邊找鬼。 笑死添祸,一個胖子當(dāng)著我的面吹牛滚粟,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播刃泌,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼凡壤,長吁一口氣:“原來是場噩夢啊……” “哼署尤!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起亚侠,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤曹体,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后硝烂,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體箕别,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年滞谢,在試婚紗的時候發(fā)現(xiàn)自己被綠了串稀。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡爹凹,死狀恐怖厨诸,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情禾酱,我是刑警寧澤微酬,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站颤陶,受9級特大地震影響颗管,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜滓走,卻給世界環(huán)境...
    茶點故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一垦江、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧搅方,春花似錦比吭、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至涛漂,卻和暖如春赏表,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背匈仗。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工瓢剿, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人悠轩。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓间狂,卻偏偏與公主長得像,于是被迫代替她去往敵國和親哗蜈。 傳聞我的和親對象是個殘疾皇子前标,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容