Introduction
互補(bǔ)商品推薦(Complementary Product Recommendataion, CPR)漠嵌,i2i問題。輸入的query是一個(gè)item饵婆,目標(biāo)是召回盡可能多種類的互補(bǔ)商品(例如手機(jī)和手機(jī)殼售貌,羽毛球拍和羽毛球)。
難點(diǎn):
- 互補(bǔ)關(guān)系是非對稱關(guān)系啃憎,例如,手機(jī)殼->手機(jī)是正確的似炎,但是手機(jī)->手機(jī)殼是錯誤的辛萍。并且互補(bǔ)關(guān)系不等于相似,通過常見的相似度量是不能得到互補(bǔ)關(guān)系的
- 多樣性:互補(bǔ)的推薦里面需要考慮多樣性
- 冷啟動:推薦的常見問題羡藐,低資源的item效果差
之前的方法(矩陣分解/協(xié)同過濾/神經(jīng)網(wǎng)絡(luò)等)大多數(shù)是基于相似度的贩毕,無法解決這個(gè)問題。專門做互補(bǔ)商品推薦的工作有兩個(gè)仆嗦,Sceptre(KDD'15), PMSC(WSDM'18)辉阶。這兩個(gè)工作都存在兩個(gè)問題:
- 分別使用co-view和co-purchase數(shù)據(jù)作為判斷相似商品和互補(bǔ)商品的依據(jù),但是實(shí)際上co-view和co-purchase是有重合的瘩扼,不同的類目重合度不一樣
- 只在一個(gè)大類內(nèi)部做推薦(例如電子/母嬰)谆甜,但是事實(shí)上互補(bǔ)的商品經(jīng)常會跨類目。
Contribution:
- 提出了一種新的構(gòu)建互補(bǔ)數(shù)據(jù)的模式
- 提出了一個(gè)新的模型 P-companion邢隧,可以生成多樣化的互補(bǔ)商品推薦店印,并且可以處理冷啟動的問題
- 效果:hit@10超過SOTA 7.1%
Preliminaries
Behaviour-based Product Graph (BPG)
節(jié)點(diǎn):商品
屬性:product catalog: title冈在、類目倒慧、短描述等文本信息
邊:
co-review: Bcv
co-purchase: Bcp
purchase-after-review: Bpv,瀏覽了x包券,最終購買了y
這里有一個(gè)疑問纫谅,co-review和co-purchase這兩種邊為什么是有向的?這影響了接下來構(gòu)造數(shù)據(jù)的時(shí)候怎么能構(gòu)造出來非對稱的label
問題定義:給定BPG溅固,給定query item i和它對應(yīng)的類目 wi付秕,給定目標(biāo)互補(bǔ)商品的類目數(shù)k,生成互補(bǔ)商品集合侍郭。目標(biāo)是優(yōu)化co-purchase概率
Data Generating: Distant supervision label collection for CPR problem
- 修改了對互補(bǔ)商品的生成規(guī)則:作者觀察到询吴,co-review和co-purchase整體上有20%的重合掠河,而且不同類目程度不同。符合人的直覺猛计,會同時(shí)購買兩件T恤唠摹,但是不會同時(shí)購買兩個(gè)電視。最終的互補(bǔ)商品集合如下奉瘤,人工評估這種方式的準(zhǔn)確率比只用cp高了30%
- 打破了之前的類目限制:互補(bǔ)商品會出現(xiàn)跨一級類目的情況勾拉,例如,網(wǎng)球拍在Sports大類下面盗温,但是網(wǎng)球鞋在Shoes大類下面藕赞。33%的電子商品的co-purchase類目是 home improvement 和 office product
- 最終生成的數(shù)據(jù)集:2.4kw 商品,3.5w 類目卖局,8kw 互補(bǔ)關(guān)系
Model
P-Companion:E2E模型斧蜕,分層多任務(wù)(預(yù)測類目&預(yù)測商品)聯(lián)合訓(xùn)練。主要有三個(gè)部分
- Product2vec: 基于圖的商品表示學(xué)習(xí)(一跳的GAT)砚偶,尤其適合解決冷啟動問題
- Complementary type transition: 預(yù)測互補(bǔ)商品的類目
- complementary item prediction: 根據(jù)query商品和目標(biāo)類目惩激,預(yù)測互補(bǔ)商品
1. Product2vec
整體上是一個(gè)一跳的GAT,單獨(dú)訓(xùn)練蟹演。這里訓(xùn)練出來的商品向量應(yīng)該會用來初始化后面2&3中的商品向量风钻。
-
商品初始表示:3層的網(wǎng)絡(luò)
image.png 鄰域選擇:根據(jù)BPG圖中邊的情況,把item之間的關(guān)系分成兩種:相似(substitute)和互補(bǔ)(complementary)酒请,這兩種會分別構(gòu)造鄰域作為正例和負(fù)例骡技。相似(左)和互補(bǔ)(右)的定義:
- 訓(xùn)練目標(biāo):經(jīng)過相似商品子圖聚合后,新的商品表示應(yīng)該和初始表示相似羞反;經(jīng)過互補(bǔ)商品子圖聚合后布朦,新的表示應(yīng)該和初始表示不相似
2. Complementary Type Transition
這里就是一個(gè)比較簡單的分類任務(wù)的網(wǎng)絡(luò),每個(gè)類目有兩個(gè)向量表達(dá)昼窗,一個(gè)用來做query向量是趴,一個(gè)用來做context向量[圖片上傳失敗...(image-6f62bc-1616648172252)] ,這里的目的是解決前面提到的互補(bǔ)關(guān)系非對稱的問題澄惊。
3. Complementary Item Prediction
商品向量和target互補(bǔ)類目向量點(diǎn)乘唆途,把商品向量transfer到target互補(bǔ)類目空間,再計(jì)算和target item的距離掸驱。
訓(xùn)練數(shù)據(jù):和Product2vec相反肛搬,相似數(shù)據(jù)作為負(fù)例,互補(bǔ)數(shù)據(jù)作為正例毕贼,正負(fù)例比例1:1
Joint Training:預(yù)測商品和預(yù)測類目的loss加權(quán)求和温赔,通過α控制比重(實(shí)際取的是0.8)
inference:需要分2步進(jìn)行,先預(yù)測type鬼癣,然后取Top K陶贼,再預(yù)測商品
Experiment
Experiment Setup
- Dataset:構(gòu)造方式見preliminaries
Baseline:
Co-purchase (CP): 直接把一起購買的商品作為CPR推薦的結(jié)果
Sceptre:根據(jù)商品的title/短描述/評論挖掘topic啤贩,然后通過LR預(yù)測substitute/complementary關(guān)系
PMSC:每個(gè)item分別有src embedding和tgt embedding兩個(gè)表示,分別在query和candidate context中使用拜秧。通過神經(jīng)網(wǎng)絡(luò)分類瓜晤。
JOIE:知識圖譜表示學(xué)習(xí)的一個(gè)模型,會用到實(shí)體對應(yīng)的type信息腹纳,這里把商品作為節(jié)點(diǎn)痢掠,把type改成是類目
Evaluation
目標(biāo)互補(bǔ)type數(shù)量的實(shí)驗(yàn),提升目標(biāo)type數(shù)量嘲恍,會同時(shí)提升多樣性和hit足画。
人工評測:0-3分,分越高表示推薦的結(jié)果越好佃牛,評測的人越想買淹辞。這個(gè)結(jié)果說明模型推薦的結(jié)果和實(shí)際上co-purchase數(shù)據(jù)很接近
Case study: CPR on cold-start items
Online 實(shí)驗(yàn)
base策略:co-purchase ,orders + 0.23%, GMV+ 0.18%
Conclusion
回顧一下這篇paper對于幾個(gè)challenge的解決方案:
- 互補(bǔ)是非對稱關(guān)系俘侠,且不等于相似:1) 構(gòu)造數(shù)據(jù)方式調(diào)整象缀,提升互補(bǔ)關(guān)系label的準(zhǔn)確率;2) 每個(gè)類目有query表達(dá)和context表達(dá)兩種向量
- 多樣性:hierarchical model爷速,先預(yù)測type央星,后預(yù)測item”苟可以人工指定type數(shù)量
- 冷啟動:通過product2vec圖模型預(yù)訓(xùn)練商品向量
一些比較奇怪的點(diǎn):
- 這篇論文里完全沒有用戶相關(guān)的建模莉给,只有通過泛化的用戶行為構(gòu)造的BPG上的邊,沒有個(gè)體用戶
- 對于item只用了類目&文本特征(product catalog)和邊信息廉沮,完全沒考慮商品自身的效率指標(biāo)(例如orders等)