推薦系統(tǒng)遇上深度學(xué)習(xí)(四十六)-阿里電商推薦中億級商品的embedding策略

本文分享的論文題目是《Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba》

論文地址:https://arxiv.org/abs/1803.02349

在淘寶的推薦中卖氨,主要面臨著三個技術(shù)挑戰(zhàn)略荡,分別是可擴(kuò)展性(scalability)黎泣、稀疏性(sparsity)、冷啟動問題(cold start)专普。本文提出了一種圖嵌入(graph embedding)的方法來解決上面的三個問題,一起來看下吧。

值得一提的是圆恤,在本系列的第三十六篇:
http://www.reibang.com/p/285978e29458聋袋,我們介紹了阿里另一篇來做item embedding的文章队伟,大家不妨先回顧一下。最后我們會對比一下這兩種方法的區(qū)別幽勒。

1嗜侮、背景

在淘寶的推薦中,面臨以下三個問題:

可擴(kuò)展性(scalability):一些現(xiàn)有的推薦系統(tǒng)方法,在小規(guī)模數(shù)據(jù)集上效果很好锈颗,但是在想淘寶這樣的擁有十億用戶和二十億商品的數(shù)據(jù)集上顷霹,表現(xiàn)得并不好。

稀疏性(sparsity):用戶僅與非常少的商品有過交互行為击吱,這樣的話很難精確訓(xùn)練一個推薦模型淋淀。

冷啟動(cold start):在淘寶中,每個小時都有百萬級別的新的商品上線覆醇,這些商品沒有過用戶行為朵纷,預(yù)測用戶對這些商品的偏好是十分具有挑戰(zhàn)性的。

為了解決上面的這些問題永脓,淘寶也采用了業(yè)界常用的兩階段框架袍辞,第一階段稱為匹配階段,也可以叫做召回階段常摧,從大規(guī)模的商品集中召回一個比較小的候選集搅吁。第二階段是排序階段,對召回的候選集進(jìn)行精確排序落午。

在召回階段谎懦,主要的方法是計算商品之間的相似性,從而根據(jù)用戶的歷史交互行為得到用戶可能喜歡的相似商品板甘。計算商品的相似性党瓮,可以采用協(xié)同過濾的方法,但是協(xié)同過濾僅僅考慮了商品在交互矩陣中的共現(xiàn)性盐类;使用圖嵌入(Base Graph Embedding (BGE))的方法寞奸,比如隨機游走的方法,可以學(xué)習(xí)到比較好的商品之間的相似性在跳,但是對于出現(xiàn)次數(shù)很少甚至沒有用戶交互過的商品枪萄,依然難以有效地學(xué)習(xí)。

因此猫妙,本文提出使用基于side information的圖嵌入學(xué)習(xí)方法瓷翻,稱作Graph Embedding with Side information (GES)。這里的side information你可以理解為輔助信息割坠,比如一個商品的品牌齐帚、店鋪名、類別等等彼哼。使用side information來學(xué)習(xí)商品的embedding的話对妄,同一個品牌或者類別的商品應(yīng)當(dāng)更相似。但是在淘寶中敢朱,有數(shù)以百計的side information剪菱,這些side information對于商品向量的貢獻(xiàn)程度是不同的摩瞎,比如一個購買了iphone的用戶,傾向于查看mac或者ipad孝常,更多的是因為他們都是蘋果的牌子旗们。考慮不同的side information對最終的item embedding的不同影響构灸,這種方法稱作Enhanced Graph Embedding with Side information (EGES)上渴。

接下來,我們就來介紹三種方法冻押,分別是Base Graph Embedding (BGE)驰贷、Graph Embedding with Side information (GES)和Enhanced Graph Embedding with Side information (EGES)

2洛巢、模型介紹

2.1 Base Graph Embedding (BGE)

Base Graph Embedding (BGE)的完整流程可以參考下圖:

首先括袒,從用戶的行為中抽取出序列表示,這里有兩個地方需要注意:
1)如果使用用戶整個的行為歷史序列稿茉,計算和空間存儲資源耗費巨大
2)用戶的興趣在長時間內(nèi)是會變化的锹锰,但是用戶短時間內(nèi)的興趣是相同的
基于以上兩點原因檀何,需要對用戶的歷史行為序列進(jìn)行切割/這里以一小時為間隔褒繁,若兩個商品的交互時間超過1小時屯伞,就進(jìn)行切分贱呐。如圖中的U2,E和D的時間間隔大于1小時拗慨,所以將序列切割為BE和DEF鹅经。

接下來鳞贷,將所有的到的序列表示稱有向帶權(quán)圖茂装,如圖中的D->A出現(xiàn)了一次怠蹂,那么就會有一條從D指向A的邊,同時邊的權(quán)重記為1少态。再強調(diào)一次城侧,這里是用所有用戶經(jīng)上一步的到的序列匯總起來得到一個有向帶權(quán)圖,而非每個用戶對應(yīng)于一張圖彼妻。

在實際應(yīng)用中嫌佑,需要對一些噪聲信息進(jìn)行過濾,主要有:

1)點擊之后用戶停留時間小于1s侨歉,這可能是用戶的誤點擊屋摇,需要過濾。
2)太過活躍的用戶進(jìn)行過濾幽邓,比如三個月內(nèi)購買了1000件以上的商品摊册,點擊了3500個以上的商品。
3)同一個ID颊艳,但是發(fā)生變化的商品需要過濾茅特。

在得到有向帶權(quán)圖之后,基于隨機游走的方法產(chǎn)生一批序列棋枕,商品轉(zhuǎn)移概率基于邊的權(quán)重Mij

得到的序列舉例如下:

隨后白修,我們便可以通過Skip-Gram的方法來學(xué)習(xí)每個商品的向量啦。使用負(fù)采樣的方式重斑,我們的優(yōu)化目標(biāo)是:

感覺論文里這個地方寫錯了啊兵睛,應(yīng)該是maxmize。前面的vj是正樣本窥浪,后面的vt是采樣得到的負(fù)樣本祖很。

還有一點我覺得值得商榷的是,對于Skip-Gram來說漾脂,每個商品對應(yīng)了兩個embedding假颇,如下圖:

最終獲得的是商品在InputMatrix中對應(yīng)的embedding,當(dāng)前商品通過InputMatrix得到其Hidden Representation骨稿,然后與其計算dot product的應(yīng)該是outputMatrix中商品的對應(yīng)的embedding笨鸡,所以感覺這里的符號表示有點問題。

2.2 Graph Embedding with Side information (GES)

上面的Base方法坦冠,可以較好的學(xué)習(xí)到item embedding形耗,但是冷啟動問題無法很好的解決≌藁耄基于此激涤,提出了Graph Embedding with Side information方法。為了與之前的item embedding區(qū)分開判呕,在加入Side information之后倦踢,我們稱得到的embedding為商品的aggregated embeddings。商品v的aggregated embeddings計作Hv佛玄。

aggregated embeddings的計算公式如下:

其中硼一,W0代表item embedding,W1,Wn代表每種Side information對應(yīng)的embedding梦抢。

具體的流程我們在下一節(jié)再細(xì)講般贼,因為GES和EGES的原理都是相通的。

2.3 Enhanced Graph Embedding with Side information (EGES)

正如前文的例子奥吩,比如一個購買了iphone的用戶哼蛆,傾向于查看mac或者ipad,更多的是因為他們都是蘋果的牌子霞赫。因此不同的side information在最終的aggregated embeddings中所占的權(quán)重應(yīng)該是不同的腮介,所以此時的aggregated embeddings計算公式如下:

2.3 GES和EGES的學(xué)習(xí)

GES和EGES的流程如圖:

此時損失函數(shù)可以表示為:

這里的Zu應(yīng)該是商品u在OutputMatrix中對應(yīng)的embedding,通過反向傳播進(jìn)行學(xué)習(xí):

這里有一個需要注意的地方端衰,自身item embedding和每種side information的權(quán)重叠洗,對每個商品來說是不同的甘改,并非采用相同的權(quán)重,權(quán)重通過反向傳播算法進(jìn)行學(xué)習(xí)灭抑,具體表示為:

item embedding 和 side-information對應(yīng)的embedding同樣通過反向傳播學(xué)習(xí):

3十艾、實驗分析

3.1 實驗結(jié)果

這里主要進(jìn)行了兩部分的實驗,離線實驗和在線實驗腾节。

對于離線實驗忘嫉,對比了不同模型的AUC,咱們這里不是有正樣本和負(fù)樣本嘛案腺,使用學(xué)習(xí)到的embedding 計算dot-product之后庆冕,將樣本排序,計算AUC劈榨,結(jié)果如下:

在線實驗访递,對比了不同模型下推薦結(jié)果的CTR:

可以看到,都是EGES方法效果最好鞋既。

3.2 案例分析

可視化embedding結(jié)果

對于學(xué)習(xí)到的embedding力九,通過PCA降維的方式將其展示出來:

可以看到結(jié)果中,足球邑闺、羽毛球和網(wǎng)球相關(guān)的商品基本都聚集在了一起跌前。

解決冷啟動問題

對于新加入的商品,我們使用其side information對應(yīng)的embedding的均值來代替它的embedding陡舅,這樣做的效果如下:

可以看到抵乓,通過這樣的方式計算得到冷啟動商品的embedding,其相似商品結(jié)果是比較好的靶衍。

EGES中的權(quán)重

前面提到過灾炭,自身item embedding和每種side information的權(quán)重,對每個商品來說是不同的颅眶。這里我們展示了部分商品對應(yīng)的權(quán)重蜈出。

4、對比總結(jié)

與本系列第三十六篇相比涛酗,主要有下面兩個不同吧铡原。

1、本文混合了所有用戶的交互序列構(gòu)建了有向帶權(quán)圖商叹,進(jìn)一步通過隨機游走的方式生成新的序列燕刻;而第三十六篇中方法直接使用用戶的交互序列。感覺這兩種方式都是可行的剖笙。本文以淘寶推薦為基礎(chǔ)卵洗,商品數(shù)量巨大,通過隨機游走的方式可以生成更多的訓(xùn)練集弥咪;而第三十六篇中方法終过蹂,以盒馬鮮生推薦為基礎(chǔ)十绑,商品數(shù)量并沒有那么多。
2榴啸、兩篇文章對不同的side information都進(jìn)行了加權(quán)孽惰,本文的權(quán)重是通過模型訓(xùn)練得到的,而第三十六篇文章中權(quán)重是預(yù)先定義好的鸥印。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市坦报,隨后出現(xiàn)的幾起案子库说,更是在濱河造成了極大的恐慌,老刑警劉巖片择,帶你破解...
    沈念sama閱讀 217,657評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件潜的,死亡現(xiàn)場離奇詭異,居然都是意外死亡字管,警方通過查閱死者的電腦和手機啰挪,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,889評論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來嘲叔,“玉大人亡呵,你說我怎么就攤上這事×蚋辏” “怎么了锰什?”我有些...
    開封第一講書人閱讀 164,057評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長丁逝。 經(jīng)常有香客問我汁胆,道長,這世上最難降的妖魔是什么霜幼? 我笑而不...
    開封第一講書人閱讀 58,509評論 1 293
  • 正文 為了忘掉前任嫩码,我火速辦了婚禮,結(jié)果婚禮上罪既,老公的妹妹穿的比我還像新娘铸题。我一直安慰自己,他們只是感情好萝衩,可當(dāng)我...
    茶點故事閱讀 67,562評論 6 392
  • 文/花漫 我一把揭開白布回挽。 她就那樣靜靜地躺著,像睡著了一般猩谊。 火紅的嫁衣襯著肌膚如雪千劈。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,443評論 1 302
  • 那天牌捷,我揣著相機與錄音墙牌,去河邊找鬼涡驮。 笑死,一個胖子當(dāng)著我的面吹牛喜滨,可吹牛的內(nèi)容都是我干的捉捅。 我是一名探鬼主播,決...
    沈念sama閱讀 40,251評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼虽风,長吁一口氣:“原來是場噩夢啊……” “哼棒口!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起辜膝,我...
    開封第一講書人閱讀 39,129評論 0 276
  • 序言:老撾萬榮一對情侶失蹤无牵,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后厂抖,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體茎毁,經(jīng)...
    沈念sama閱讀 45,561評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,779評論 3 335
  • 正文 我和宋清朗相戀三年忱辅,在試婚紗的時候發(fā)現(xiàn)自己被綠了七蜘。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,902評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡墙懂,死狀恐怖橡卤,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情垒在,我是刑警寧澤蒜魄,帶...
    沈念sama閱讀 35,621評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站场躯,受9級特大地震影響谈为,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜踢关,卻給世界環(huán)境...
    茶點故事閱讀 41,220評論 3 328
  • 文/蒙蒙 一伞鲫、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧签舞,春花似錦秕脓、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,838評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至搂鲫,卻和暖如春傍药,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,971評論 1 269
  • 我被黑心中介騙來泰國打工拐辽, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留拣挪,地道東北人。 一個月前我還...
    沈念sama閱讀 48,025評論 2 370
  • 正文 我出身青樓俱诸,卻偏偏與公主長得像菠劝,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子睁搭,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,843評論 2 354

推薦閱讀更多精彩內(nèi)容