厲害了推薦系統(tǒng)
最近晚上睡前只要是打開了頭條叽讳,打底就是一個小時時間,控制也是控制不足自己坟募,已經(jīng)影響到了我休息時間岛蚤。自己也是感受到了推薦系統(tǒng)厲害。
降維
在機器學(xué)習(xí)中也好懈糯、在數(shù)據(jù)挖掘中也好涤妒,我們喜歡將事物(文本、圖像和音頻等信息)抽象為向量赚哗。我們用于語言描述世界她紫,傳遞信息。如何讓計算機學(xué)會我們語言呢蜂奸?這是一個看似簡單問題犁苏,其實做起來很難的事情,我們語言是建立我們?nèi)祟愡@個載體扩所,我們見過高山大海围详、我們經(jīng)歷人間滄桑而機器對于語言的理解缺失了這些,這些除了語言以外卻可以賦予語言生命力的東西祖屏。感覺這是應(yīng)該是我們想要搞好自然語言處理的關(guān)鍵助赞,僅是個人一點小見解。
DSSM 模型簡介
DSSM(Deep Structured Semantic Model)袁勺,有微軟研究院提出雹食,利用深度神經(jīng)網(wǎng)絡(luò)將文本表示為低維度的向量,應(yīng)用于文本相似度匹配場景下的一個算法期丰。不僅局限于文本群叶,在其他可以計算相似性計算的場景吃挑,例如推薦系統(tǒng)中。
其實我們現(xiàn)在來說一件事就是推薦系統(tǒng)和搜索引擎之間的關(guān)系街立。他們兩者之間很相似舶衬,都是根據(jù)滿足用戶需求,根據(jù)用戶喜好給出答案赎离,但又不是完全相同逛犹,只不過推薦系統(tǒng)更難,因為推薦系統(tǒng)需要挖掘用戶潛在喜好來推薦內(nèi)容和物品給用戶梁剔。這是因為搜索引擎和推薦系統(tǒng)的關(guān)系之間相似性虽画,所以適用于文本匹配的模型也可以應(yīng)用到推薦系統(tǒng)中。
DSSM 模型結(jié)構(gòu)
我們還是先看網(wǎng)絡(luò)結(jié)果荣病,網(wǎng)絡(luò)結(jié)果比較簡單码撰,是一個由幾層全連接組成網(wǎng)絡(luò),我們將要搜索文本(Query)和要匹配的文本(Document)的 embedding 輸入到網(wǎng)絡(luò)个盆,網(wǎng)絡(luò)輸出為 128 維的向量灸拍,然后通過向量之間計算余弦相似度來計算向量之間距離,可以看作每一個 D 和 Q 之間相似分?jǐn)?shù)砾省,然后在做 softmax ,網(wǎng)絡(luò)結(jié)構(gòu)如下圖
名稱 | 說明 |
---|---|
Term Vector | 文本的向量 |
Word Hashing | 文本的 embedding 向量 |
Multi-layer nonlinear projection | 表示文本的 Embedding 向量 |
Semantic feature | 文本的 embedding 向量 |
Relevance measured by consine similarity | 表示計算 Query 與 Document 之間余弦相似度 |
Posterior probability computed by softmax | 表示通過 softmax 函數(shù)把 Query 與正樣本 Document 的語義相似性轉(zhuǎn)換為一個后驗概率 |
Multi-layer nonlinear projection
- 表示第 i 隱藏層
- 表示第 i 層的權(quán)重
- 表示第 i 層的偏置項
-
: 表示輸出為 128 維的向量
這里的隱藏層用 tanh 作為隱藏層和輸出層的激活函數(shù)
Posterior probability computed by softmax 層
- :softmax 的平滑因子
- : 為 Query 下的正樣本混槐, 為 Query 的隨機采樣的負(fù)樣本编兄,D 為 Query 下的整個樣本空間。
代價函數(shù)
這里 Q 表示用戶特征声登,在給定用戶特征條件下狠鸳,匹配到正樣本 D 的極大似然,也就是說明在給定 Q 條件出現(xiàn)正樣本 D 概率分布參數(shù)是什么樣的悯嗓,因為我們要求損失件舵,所以前面加一個負(fù)號,最大值的問題轉(zhuǎn)化為最小值的問題脯厨。
訓(xùn)練也比較好理解就是輸入正負(fù)樣本铅祸,然后通過,正確匹配出文本合武,
DSSM 模型在信息檢索临梗、文本排序、問答稼跳、圖片描述盟庞、及機器翻譯等中有廣泛的應(yīng)用。
從圖上來看汤善,
DSSM 模型在推薦系統(tǒng)
之前在協(xié)同過濾多少給大家介紹一些基于內(nèi)容什猖、用戶或模型的協(xié)同過濾算法票彪,在推薦中我們主要通過用戶和物品之間關(guān)系,也是相似性來進(jìn)行推薦不狮,用戶到物品可以看作一條路徑降铸,可以是用戶到用戶再到物品的路徑,也可以是?物品到物品再到用戶路徑荤傲,這有很多種玩法垮耳。?
輸入 Qury 例如是一個用戶特征,然后我們將推薦給用戶一系列物品遂黍,假設(shè)是一系列房源终佛,然后用戶點擊的房源就是有可能用戶想要看的,其實這個也不一定是用戶真正意圖雾家。那么用戶點擊就是正樣本铃彰,反之其他的就是樣本。
DSSM 模型在推薦召回環(huán)節(jié)的結(jié)果
DSSM 模型的特點是由 Query 和 Document 兩個相對獨立子網(wǎng)絡(luò)構(gòu)成芯咧,在推薦系統(tǒng)召回環(huán)節(jié)牙捉,這兩個子網(wǎng)分別為用戶端(User)和物品短(Item)菇民。這樣做好處是利于產(chǎn)品化捺典,可以分別對用戶和物品端向量做單獨的獲取和存儲敏释。
- X 表示用戶特征痢虹,Y 表示物品的特征
- 經(jīng)過神經(jīng)網(wǎng)絡(luò)分別得到各自 128 維的 Embedding 向量
- 計算 sim(u(X),v(Y)) 的余弦相似度
候選集合召回
當(dāng)模型訓(xùn)練完成下梢,物品的 Embedding 是可以保存成詞表茎用,線上應(yīng)用的時候只要需要查找對應(yīng)的 Embedding 即可缚柳。因此線上只需要計算一側(cè)的 Embedding 這樣節(jié)省了計算資源旨别。