Blog
1. Music Recommendations
- Spotify and Anghami 為例。
- 軟件中每個(gè)月有超過700 million首歌曲被聽幻赚,其中每個(gè)用戶為語料庫中的單個(gè)單詞旭等,其歌單就如一個(gè)句子威沫,通過該Context-Word信息芯丧,訓(xùn)練出每首歌單獨(dú)的嵌入蘸泻。
- 通過平均用戶所有喜歡歌單中的歌曲嵌入生成用戶的"Music Taste" Vector永品,該向量可以用于相似度查詢找到其他"Music Taste" Vector相似的用戶的歌單滚躯。
2. Listing Recommendations at Airbnb
-
用戶的活動(dòng)提供"click data"列表,特別是"user viewed" listings柳畔,Airbnb用Word2vec去學(xué)習(xí)這些列表以獲得向量表示房間(listing vectors)馍管,"user viewed" listings是一個(gè)句子,而每個(gè)房間是單獨(dú)的嵌入荸镊。
Important piece of the word2vec training algorithm: 在每個(gè)單詞訓(xùn)練的時(shí)候咽斧,隨機(jī)選取少量與其上下午去無關(guān)的詞作為nagative samples堪置,這樣可以學(xué)習(xí)到與Pair內(nèi)部區(qū)分的嵌入向量躬存。
** cold start problem**:how to learn vectors for new listings for which there isn’t user activity data,利用地理位置最近的三個(gè)列表來初始化新的嵌入舀锨。
這些listing vectors可以用于搜索具有相同查詢列表的房間岭洲。
3. Product Recommendations in Yahoo Mail
- 通過每個(gè)用戶的"purchase receipts"學(xué)習(xí)每件商品的嵌入,并且用于推薦類似的產(chǎn)品坎匿。
word2vec的學(xué)習(xí)基于假設(shè):用戶經(jīng)常在序列(購物清單)中買類似的東西盾剩,可能是一套釣魚的用具雷激。這一序列也許代表用戶的購物品味。
也許以上假設(shè)對(duì)于個(gè)人來說時(shí)常不符告私,但是基于大數(shù)據(jù)來說是一個(gè)可靠地統(tǒng)計(jì)規(guī)律屎暇。
Yahoo的創(chuàng)新。
4.1 利用聚類去促進(jìn)推薦的多樣性驻粟。在學(xué)習(xí)到數(shù)據(jù)庫中每個(gè)商品的嵌入后根悼,用聚類進(jìn)行分簇。
4.2 在用戶剛購買一個(gè)簇內(nèi)推薦產(chǎn)品時(shí)蜀撑,不會(huì)再去推薦該簇的產(chǎn)品挤巡,而傾向于推薦其他簇的產(chǎn)品。
4.3 當(dāng)用戶購買一個(gè)簇的產(chǎn)品后酷麦,會(huì)推薦最有可能購買的下個(gè)簇里的產(chǎn)品矿卑。
- 利用"bagging"技術(shù)給出現(xiàn)在同一張購物清單上的物品增加權(quán)重。
4. Matching Ads to Search Queries
通過學(xué)習(xí)搜索的嵌入和廣告的嵌入在同一個(gè)搜索空間沃饶,并且進(jìn)行相似度計(jì)算母廷,得到最相關(guān)的廣告推薦。
-
如何解決每天都有新的搜索糊肤,新的廣告的嵌入學(xué)些問題:訓(xùn)練數(shù)據(jù)由用戶搜索會(huì)話生成徘意,包括輸入的搜索查詢,點(diǎn)擊的廣告和點(diǎn)擊的數(shù)目轩褐,來學(xué)習(xí)查詢的嵌入椎咧。