部分內(nèi)容轉(zhuǎn)載+一些自己的應(yīng)用與理解,轉(zhuǎn)載部分內(nèi)容在最下方注明出處。
推薦系統(tǒng)是一個很大的話題昭卓,涉及到很多模塊,這里主要是調(diào)研了一下推薦召回環(huán)節(jié)的主流做法瘟滨。一般有如下幾條線路候醒。
所謂召回,在剛接觸推薦系統(tǒng)的時候可能只看字面意思無法理解召回的意思杂瘸,召回可以理解為向用戶粗選一批待推薦的商品倒淫,相當(dāng)于粗排序。之后會加一層CTR預(yù)估的rank模型败玉,相當(dāng)于精排序
推薦系統(tǒng)的主要模塊即為:召回 => 排序(精排) => 過濾模塊(對最終展示商品進(jìn)行過濾敌土,多樣性排序等)
基于Content的推薦
方法:只使用內(nèi)容信息,而不直接使用用戶行為數(shù)據(jù)运翼。通過分析內(nèi)容返干,推薦與用戶瀏覽歷史相似的內(nèi)容。因此血淌,如何計算內(nèi)容之間的相似性是問題的關(guān)鍵矩欠。一般分成“分詞”,“詞權(quán)重分析”悠夯,“降維”三個階段癌淮,每個階段都有很多可以優(yōu)化的地方,不同的做法會帶來不一樣的推薦體驗沦补。
優(yōu)點:(一)不依賴用戶行為數(shù)據(jù)乳蓄,因此不存在新內(nèi)容的冷啟動問題。(二)基于內(nèi)容的做法很容易在“降維”階段引入用戶行為夕膀,從而可以吸收一部分CF的優(yōu)點栓袖。
缺點:(一)需要精細(xì)優(yōu)化的地方會很多,沒有工匠精神店诗,效果比較難出來裹刮。(二)最重要的模塊是通過對用戶session實時分析用戶意圖。
應(yīng)用: 在電商推薦中庞瘸,如果基于內(nèi)容計算商品相似度捧弃,內(nèi)容相似度一般定義為(品牌+品類+價格+標(biāo)題的內(nèi)容相似度),大規(guī)模兩兩之間相似度計算非常困難,工程上實現(xiàn)需要LSH等方法
基于CF的推薦
方法:只使用用戶行為數(shù)據(jù)违霞,而不管內(nèi)容信息嘴办。通過用戶行為向量,使用item-base和user-base方法推薦相似內(nèi)容或者相似人群喜歡的內(nèi)容买鸽。
優(yōu)點:(一)當(dāng)用戶行為數(shù)據(jù)豐富的時候涧郊,itembase和userbase的協(xié)同過濾方法非常通用,很容易出效果眼五。(二)用戶行為關(guān)聯(lián)可以推薦出偏topic屬性的內(nèi)容妆艘,而不會局限于關(guān)鍵詞,因此相關(guān)性效果一般都很好看幼。
缺點:新內(nèi)容的冷啟動問題很嚴(yán)重批旺,只能通過EE的方式緩解。
應(yīng)用:電商中基本是item-based CF诵姜,即對于一個用戶汽煮,先取出用戶過去的行為session商品(如點擊,加購物車棚唆,下單等)暇赤,根據(jù)規(guī)則向用戶的召回集中選擇商品,可以配置多個召回源宵凌,如相似鞋囊、相關(guān)、偏好店鋪熱銷等摆寄。因此重點是離線計算好多種相似度關(guān)系(比如商品與商品的相似度失暴、相關(guān)度,店鋪下商品的熱門程度微饥、店鋪與店鋪的相似程度等) 逗扒,注:商品和商品的相似度,一般通過用戶的瀏覽行為欠橘,用頻繁項集(基于共現(xiàn)次數(shù)+熱門商品降權(quán)方法)來計算矩肩,這樣不用引入22之間計算的笛卡爾積,計算效率得到保證肃续。
如果是user-based CF黍檩,則首要任務(wù)是計算用戶之間的相似度,同樣計算量非常大始锚,但這種方法推薦新穎性較好(網(wǎng)易云音樂好像適用類似方法)刽酱。微信的deepwalk(用戶的相識關(guān)系是典型的圖模型),deepwalk通過節(jié)點的游走可以算出每個節(jié)點的embedding瞧捌,進(jìn)而求節(jié)點的相似度棵里。
基于內(nèi)容和CF的混合推薦
方法:不僅使用用戶行為信息润文,而且還使用內(nèi)容信息。一般是使用feature-based模型來進(jìn)行推薦殿怜。
優(yōu)點:(一)理論完備典蝌,通過模型的推廣能力來解決新內(nèi)容的冷啟動問題,而且在小數(shù)據(jù)集上離線指標(biāo)往往比CF能取得更好的效果头谜。(二)可以通過提高模型復(fù)雜度不斷提高推薦效果骏掀。
缺點:工程實現(xiàn)時難度比較大,需要解決用戶和海量內(nèi)容的打分服務(wù)柱告,這方面可以參考以下Facebook的一篇文章recommending-items-to-more-than-a-billion-people截驮。
部分內(nèi)容參考:
作者:EasonZhao
鏈接:http://www.reibang.com/p/92321832c18c
來源:簡書
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán)末荐,非商業(yè)轉(zhuǎn)載請注明出處侧纯。