厲害了推薦系統(tǒng)—雙塔 DSSM 模型(上)

GGB_Two-Towers_-Robin-Hill.jpg
douyin.jpg

厲害了推薦系統(tǒng)

最近晚上睡前只要是打開了頭條叽讳,打底就是一個小時時間,控制也是控制不足自己坟募,已經(jīng)影響到了我休息時間岛蚤。自己也是感受到了推薦系統(tǒng)厲害。


reducation_dimension.jpg

降維

在機器學(xué)習(xí)中也好懈糯、在數(shù)據(jù)挖掘中也好涤妒,我們喜歡將事物(文本、圖像和音頻等信息)抽象為向量赚哗。我們用于語言描述世界她紫,傳遞信息。如何讓計算機學(xué)會我們語言呢蜂奸?這是一個看似簡單問題犁苏,其實做起來很難的事情,我們語言是建立我們?nèi)祟愡@個載體扩所,我們見過高山大海围详、我們經(jīng)歷人間滄桑而機器對于語言的理解缺失了這些,這些除了語言以外卻可以賦予語言生命力的東西祖屏。感覺這是應(yīng)該是我們想要搞好自然語言處理的關(guān)鍵助赞,僅是個人一點小見解。

DSSM 模型簡介

DSSM(Deep Structured Semantic Model)袁勺,有微軟研究院提出雹食,利用深度神經(jīng)網(wǎng)絡(luò)將文本表示為低維度的向量,應(yīng)用于文本相似度匹配場景下的一個算法期丰。不僅局限于文本群叶,在其他可以計算相似性計算的場景吃挑,例如推薦系統(tǒng)中。

其實我們現(xiàn)在來說一件事就是推薦系統(tǒng)和搜索引擎之間的關(guān)系街立。他們兩者之間很相似舶衬,都是根據(jù)滿足用戶需求,根據(jù)用戶喜好給出答案赎离,但又不是完全相同逛犹,只不過推薦系統(tǒng)更難,因為推薦系統(tǒng)需要挖掘用戶潛在喜好來推薦內(nèi)容和物品給用戶梁剔。這是因為搜索引擎和推薦系統(tǒng)的關(guān)系之間相似性虽画,所以適用于文本匹配的模型也可以應(yīng)用到推薦系統(tǒng)中。

DSSM 模型結(jié)構(gòu)

我們還是先看網(wǎng)絡(luò)結(jié)果荣病,網(wǎng)絡(luò)結(jié)果比較簡單码撰,是一個由幾層全連接組成網(wǎng)絡(luò),我們將要搜索文本(Query)和要匹配的文本(Document)的 embedding 輸入到網(wǎng)絡(luò)个盆,網(wǎng)絡(luò)輸出為 128 維的向量灸拍,然后通過向量之間計算余弦相似度來計算向量之間距離,可以看作每一個 D 和 Q 之間相似分?jǐn)?shù)砾省,然后在做 softmax ,網(wǎng)絡(luò)結(jié)構(gòu)如下圖


截屏2020-07-18下午4.12.52.png

R(Q,D) = consine(y_Q,y_D) = \frac{y_Q^Ty_D}{||y_Q|| ||y_D||}

名稱 說明
Term Vector 文本的向量
Word Hashing 文本的 embedding 向量
Multi-layer nonlinear projection 表示文本的 Embedding 向量
Semantic feature 文本的 embedding 向量
Relevance measured by consine similarity 表示計算 Query 與 Document 之間余弦相似度
Posterior probability computed by softmax 表示通過 softmax 函數(shù)把 Query 與正樣本 Document 的語義相似性轉(zhuǎn)換為一個后驗概率

Multi-layer nonlinear projection

  • l_i 表示第 i 隱藏層
  • w_i 表示第 i 層的權(quán)重
  • b_i 表示第 i 層的偏置項
  • y: 表示輸出為 128 維的向量
    \begin{aligned} l_i = W_i x\\ l_i = f(W_il_{i-1} + b_i)& i \in \{1,2,\cdots,N-1\}\\ y = f(W_Ll_{N-1} + b_N) \end{aligned}
    這里的隱藏層用 tanh 作為隱藏層和輸出層的激活函數(shù)
    f(x) = \frac{1 - e^{-2x}}{1 + e^{-2x}}

Posterior probability computed by softmax 層

P(D^{pos}|Q) = \frac{\exp(\gamma R(Q,D^{pos}))}{\sum_{D^{\prime} \in D} \exp(\gamma R(Q,D^{pos}))}

  • \gamma:softmax 的平滑因子
  • D^{pos}: 為 Query 下的正樣本混槐,D^{\prime} - D^{pos} 為 Query 的隨機采樣的負(fù)樣本编兄,D 為 Query 下的整個樣本空間。

代價函數(shù)

這里 Q 表示用戶特征声登,在給定用戶特征條件下狠鸳,匹配到正樣本 D 的極大似然,也就是說明在給定 Q 條件出現(xiàn)正樣本 D 概率分布參數(shù)是什么樣的悯嗓,因為我們要求損失件舵,所以前面加一個負(fù)號,最大值的問題轉(zhuǎn)化為最小值的問題脯厨。
L(A) = -\log \prod_{Q,D^{pos}} p(D^{pos}|Q)

訓(xùn)練也比較好理解就是輸入正負(fù)樣本铅祸,然后通過,正確匹配出文本合武,

DSSM 模型在信息檢索临梗、文本排序、問答稼跳、圖片描述盟庞、及機器翻譯等中有廣泛的應(yīng)用。

從圖上來看汤善,

DSSM 模型在推薦系統(tǒng)

之前在協(xié)同過濾多少給大家介紹一些基于內(nèi)容什猖、用戶或模型的協(xié)同過濾算法票彪,在推薦中我們主要通過用戶和物品之間關(guān)系,也是相似性來進(jìn)行推薦不狮,用戶到物品可以看作一條路徑降铸,可以是用戶到用戶再到物品的路徑,也可以是?物品到物品再到用戶路徑荤傲,這有很多種玩法垮耳。?

play.png

輸入 Qury 例如是一個用戶特征,然后我們將推薦給用戶一系列物品遂黍,假設(shè)是一系列房源终佛,然后用戶點擊的房源就是有可能用戶想要看的,其實這個也不一定是用戶真正意圖雾家。那么用戶點擊就是正樣本铃彰,反之其他的就是樣本。


截屏2020-07-18下午4.36.24.png

DSSM 模型在推薦召回環(huán)節(jié)的結(jié)果
DSSM 模型的特點是由 Query 和 Document 兩個相對獨立子網(wǎng)絡(luò)構(gòu)成芯咧,在推薦系統(tǒng)召回環(huán)節(jié)牙捉,這兩個子網(wǎng)分別為用戶端(User)和物品短(Item)菇民。這樣做好處是利于產(chǎn)品化捺典,可以分別對用戶和物品端向量做單獨的獲取和存儲敏释。

  • X 表示用戶特征痢虹,Y 表示物品的特征
  • 經(jīng)過神經(jīng)網(wǎng)絡(luò)分別得到各自 128 維的 Embedding 向量
  • 計算 sim(u(X),v(Y)) 的余弦相似度

候選集合召回
當(dāng)模型訓(xùn)練完成下梢,物品的 Embedding 是可以保存成詞表茎用,線上應(yīng)用的時候只要需要查找對應(yīng)的 Embedding 即可缚柳。因此線上只需要計算一側(cè)的 Embedding 這樣節(jié)省了計算資源旨别。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末英染,一起剝皮案震驚了整個濱河市揽惹,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌四康,老刑警劉巖搪搏,帶你破解...
    沈念sama閱讀 212,454評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異闪金,居然都是意外死亡疯溺,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評論 3 385
  • 文/潘曉璐 我一進(jìn)店門哎垦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來喝检,“玉大人,你說我怎么就攤上這事撼泛∧铀担” “怎么了?”我有些...
    開封第一講書人閱讀 157,921評論 0 348
  • 文/不壞的土叔 我叫張陵愿题,是天一觀的道長损俭。 經(jīng)常有香客問我蛙奖,道長,這世上最難降的妖魔是什么杆兵? 我笑而不...
    開封第一講書人閱讀 56,648評論 1 284
  • 正文 為了忘掉前任雁仲,我火速辦了婚禮,結(jié)果婚禮上琐脏,老公的妹妹穿的比我還像新娘攒砖。我一直安慰自己,他們只是感情好日裙,可當(dāng)我...
    茶點故事閱讀 65,770評論 6 386
  • 文/花漫 我一把揭開白布吹艇。 她就那樣靜靜地躺著,像睡著了一般昂拂。 火紅的嫁衣襯著肌膚如雪受神。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,950評論 1 291
  • 那天格侯,我揣著相機與錄音鼻听,去河邊找鬼。 笑死联四,一個胖子當(dāng)著我的面吹牛撑碴,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播朝墩,決...
    沈念sama閱讀 39,090評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼灰羽,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了鱼辙?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,817評論 0 268
  • 序言:老撾萬榮一對情侶失蹤玫镐,失蹤者是張志新(化名)和其女友劉穎倒戏,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體恐似,經(jīng)...
    沈念sama閱讀 44,275評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡杜跷,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,592評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了矫夷。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片葛闷。...
    茶點故事閱讀 38,724評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖双藕,靈堂內(nèi)的尸體忽然破棺而出淑趾,到底是詐尸還是另有隱情,我是刑警寧澤忧陪,帶...
    沈念sama閱讀 34,409評論 4 333
  • 正文 年R本政府宣布扣泊,位于F島的核電站近范,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏延蟹。R本人自食惡果不足惜评矩,卻給世界環(huán)境...
    茶點故事閱讀 40,052評論 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望阱飘。 院中可真熱鬧斥杜,春花似錦、人聲如沸沥匈。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,815評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽咐熙。三九已至弱恒,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間棋恼,已是汗流浹背返弹。 一陣腳步聲響...
    開封第一講書人閱讀 32,043評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留爪飘,地道東北人义起。 一個月前我還...
    沈念sama閱讀 46,503評論 2 361
  • 正文 我出身青樓,卻偏偏與公主長得像师崎,于是被迫代替她去往敵國和親默终。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,627評論 2 350