學習筆記:《推薦算法——產品和內容推薦》

這節(jié)課是尹相志老師《數(shù)據(jù)科學心法與機器學習實戰(zhàn)》系列課程的最后一講:《數(shù)據(jù)科學實務案例:推薦算法的案例建模與評估》

老師介紹了基于商品萄窜、基于人與商品芯砸、基于相似人三個階段的推薦算法演進過程;以Facebook為例講了內容推薦相關知識躲庄;介紹了做產品推薦的思維方法和解題思路,以及如何透過追蹤機制來收集客戶數(shù)據(jù),充實推薦模型崭捍;最后講了通過深度學習對消費行為進行表征的推薦算法。

推薦算法的藝術在于不一定是要為消費者找到他需要的東西啰脚,而是讓他以為他需要這些東西……

  1. 產品設計階段:首先做出好的產品殷蛇,思考產品本身怎樣打動消費者——這個步驟與推薦算法沒太大關系
  2. 產品定型之后:找到能夠被我們的產品打動的用戶——推薦算法

一、產品推薦算法演進的三個階段

1. Item-based recommendation基于商品

基本原理:看產品和產品之間的關聯(lián)性橄浓。根據(jù)購物車數(shù)據(jù)/已經(jīng)買過的東西推薦新的產品:買了A產品會有多少幾率買B(購物車算法/購物車規(guī)則粒梦,哪些商品會同時出現(xiàn)在我的購物籃里面)
權重計算:主要有三點——Recency:最后一次買到現(xiàn)在有多久 ;Frenquency:購買的頻率荸实;Monetary:購買的金額
eg:Apriori算法1994

  • 購物車中哪些商品總是同時被購買匀们,基于貝葉斯條件概率,計算過程簡單准给。
  • 缺點:
    1. 只看商品的特征不看人的特征泄朴,不會給每個消費者畫像重抖;
    2. 缺少絕對好壞、具有全局觀的指標(support祖灰、confidence钟沛、lift三個指標都不完全work);
    3. 沒有辦法做冷啟動:客戶第一次來局扶,沒有任何信息的情況下做商品推薦恨统。
  • 現(xiàn)在適用情況:基本被拋棄了。某些匿名消費場景可能會被使用详民,但意義和效果不大延欠。

2. User-product-based recommendation基于人與商品

基本原理:N個客戶對應N個產品的矩陣,以客戶為基礎沈跨,關注人的差異+物的差異由捎,在商品特征和購買關聯(lián)性的基礎上,加入人的個性特征
算法奇異值分解SVD(n個客戶m個商品:拆解成nk用戶隱向量矩陣和km商品隱向量矩陣**)饿凛;因子分析狞玛;探討每一個因子跟產品之間的關聯(lián)性
缺點:同樣沒辦法冷啟動
現(xiàn)在適用情況:仍然是一個不錯的算法。
eg:Matrix Factorization Techniques for Recommender System 2009

3. User-based recommendation基于相似人

基本原理看人與人的相似性涧窒。誰跟A比較像心肪,找出BCD,BCD買了哪些東西A還沒有買纠吴,于是給A推薦那些他還沒買的商品硬鞍。
相似性算法最近鄰居法基于聚類(行為戴已、客戶價值等不同劃分標準)固该,把人切位一群一群,落在同一群默認為會有相似的購買行為
優(yōu)點:可以冷啟動糖儡;
缺點不能滿足人求新求變的喜好(一段時間內推薦的商品相對固定伐坏,累計時間夠久才會有變化)
K-nearest neighbors最近鄰居法:沒有被儲存下來的規(guī)則實體;歷史案例一個都不能丟握联;

二桦沉、內容推薦算法

內容推薦的重點是如何評估相似性,主要有下面4種:

  1. 詞頻:低階但有效=鹈觥:
  2. 詞向量:幫助找到詞匯和詞匯之間關系纯露。長文本詞向量效果會比較差,重要特征會被稀釋代芜,甚至不如詞頻埠褪。對于長文本,會取標題和第一段,组橄;監(jiān)督失磁向量 整體簡單粗暴但有效。
  3. LDA:內容推薦中不建議用罚随。本質上就是文本的聚類玉工,根據(jù)文本出現(xiàn)的頻次做成一個個聚類。需要數(shù)萬數(shù)十萬淘菩,訓練效果比較扯遵班。只管哪些關鍵詞會出現(xiàn),但不管遠近潮改,比較容易發(fā)生語義上的錯誤理解狭郑,不看詞頻,可能出現(xiàn)1次就會被誤中汇在。
  4. 文本分類:tag比對的形式翰萨。

eg:Facebook

  • 微信朋友圈:比較像twitter,完全按照時間軸的順序排列糕殉。
  • Facebook:屬于社交媒體內容亩鬼。內容上的推薦除了考慮時間順序外,還考慮以下方面:
    1. 誰發(fā)的
    2. 在哪里發(fā)的
    3. 內容類型:影片>圖片>文字
    4. 看過的人有什么反應
  • Facebook中有的一些功能:
    1. 三年前的今天
    2. 除了??之外還有其他很多表情阿蝶,表達對別人發(fā)表的內容的想法
    3. 廣告:可以叉掉雳锋,并選擇自己不感興趣的原因(便于之后更準確的推薦)
    4. 提醒朋友的生日
    5. 你可能喜歡的活動
    6. 最受facebook用戶歡迎:意外的驚喜、意外的隨機(防止推薦算法老化羡洁,防止持續(xù)給用戶推薦某一類型的東西玷过,沒有新東西進來)
內容推薦算法

三、產品推薦的思路和流程

產品推薦的思路和流程
  1. 冷啟動:關鍵在于如何在第一次取得盡量多的信息筑煮,而不在推薦算法辛蚊。
  2. New-new:在沒有買過的領域里面創(chuàng)造新消費。
    • 最熱門:爆款
    • 喜好推薦:基于商品咆瘟;基于人-商品嚼隘;基于相似人
    • 付費贊助
    • 驚喜的隨機:持續(xù)地補充新東西進來(但驚喜的隨機是排除負樣本后的隨機,即排除消費者厭煩的袒餐、不喜歡的飞蛹;喜好的東西可能會變,但討厭的東西一般都不會變灸眼,用戶表達討厭了一次就永遠不要再出現(xiàn)了)
    • 排除冷數(shù)據(jù):暖數(shù)據(jù)是比較新的內容卧檐;冷數(shù)據(jù)是早就看過的或已經(jīng)買過的。
  3. Old-new:以前買過這個品類焰宣,在舊有的消費體驗/購買歷史里面開創(chuàng)商機霉囚、推薦新產品

冷啟動

  • 用戶行為收集和追蹤——數(shù)據(jù)來自哪里
  • 發(fā)揮創(chuàng)意,收集更多的數(shù)據(jù)


    用戶行為追蹤

四匕积、基于表征為基礎的推薦

最早使用基于表征為基礎的推薦是YouTube:


YouTube視頻推薦(以前)

YouTube的視頻推薦分為兩個步驟:

  1. 用深度學習把以下多種需求綜合起來盈罐,得到候選推薦視頻清單榜跌。
    • A之前看了哪些影片
    • A搜索了哪些影片
    • A所在的地區(qū),什么影片受歡迎
    • 推出時間/性別……
候選推薦視頻清單生成
  1. 對1中生成的候選視頻清單產生排名和排序盅粪,主要看視頻內容和用戶偏好的匹配度钓葫,會考慮以下維度
    • 以前觀影記錄看內容是否匹配
    • 用戶語言的匹配
    • 最后一次瀏覽的時間長等
推薦視頻的排名

Graph神經(jīng)網(wǎng)絡

Graph神經(jīng)網(wǎng)絡

eg:尋找服裝的視覺表征

  1. 機器視覺的分割:機器先將圖片的各個組成元件/服裝分隔開;
  2. 比對相似的服裝/相似的品味/相似的款式票顾;

附課程PPT:

《數(shù)據(jù)科學方法論-產品內容推薦》
鏈接:https://pan.baidu.com/s/1SrNE9PkSZCBIf-l06p3KuQ
提取碼:95og

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末础浮,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子奠骄,更是在濱河造成了極大的恐慌豆同,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件含鳞,死亡現(xiàn)場離奇詭異影锈,居然都是意外死亡,警方通過查閱死者的電腦和手機蝉绷,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進店門精居,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人潜必,你說我怎么就攤上這事靴姿。” “怎么了磁滚?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵佛吓,是天一觀的道長。 經(jīng)常有香客問我垂攘,道長维雇,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任晒他,我火速辦了婚禮吱型,結果婚禮上,老公的妹妹穿的比我還像新娘陨仅。我一直安慰自己津滞,他們只是感情好,可當我...
    茶點故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布灼伤。 她就那樣靜靜地躺著触徐,像睡著了一般。 火紅的嫁衣襯著肌膚如雪狐赡。 梳的紋絲不亂的頭發(fā)上撞鹉,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天,我揣著相機與錄音,去河邊找鬼鸟雏。 笑死享郊,一個胖子當著我的面吹牛,可吹牛的內容都是我干的孝鹊。 我是一名探鬼主播拂蝎,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼惶室!你這毒婦竟也來了?” 一聲冷哼從身側響起玄货,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤皇钞,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后松捉,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體夹界,經(jīng)...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年隘世,在試婚紗的時候發(fā)現(xiàn)自己被綠了可柿。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,795評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡丙者,死狀恐怖复斥,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情械媒,我是刑警寧澤目锭,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站纷捞,受9級特大地震影響痢虹,放射性物質發(fā)生泄漏。R本人自食惡果不足惜主儡,卻給世界環(huán)境...
    茶點故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一奖唯、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧糜值,春花似錦丰捷、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至健无,卻和暖如春荣恐,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工叠穆, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留少漆,地道東北人。 一個月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓硼被,卻偏偏與公主長得像示损,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子嚷硫,可洞房花燭夜當晚...
    茶點故事閱讀 44,724評論 2 354

推薦閱讀更多精彩內容