一忙芒、 設(shè)計(jì)目的
①、商城已上線2周年讳侨,已有10萬+在售物品呵萨。需要推薦系統(tǒng),幫助用戶從過量的物品中跨跨,快速發(fā)現(xiàn)優(yōu)質(zhì)物品潮峦,縮短用戶路徑,提高訂單量勇婴。
②忱嘹、目前商城訂單量、用戶數(shù)增長緩慢耕渴。所以需要推薦系統(tǒng)拘悦,作為新的增長點(diǎn),帶動(dòng)業(yè)務(wù)增長橱脸。
③础米、通過全面采集用戶分苇、物品數(shù)據(jù),并分析各類用戶對(duì)各類物品的喜好屁桑,可以幫助商家快速了解平臺(tái)內(nèi)用戶喜好医寿,了解自己的物品特點(diǎn),提高訂單量
二蘑斧、產(chǎn)品結(jié)構(gòu)
三靖秩、推薦模型設(shè)計(jì)
3.1 基于物品的協(xié)同推薦
3.1.1 算法原理
基于物品的協(xié)同推薦算法認(rèn)為:當(dāng)用戶A喜歡物品a,且物品a和物品b相似竖瘾,則認(rèn)為用戶A喜歡物品b沟突。所以搭建該算法分為兩步:
1、計(jì)算用戶A對(duì)物品a的喜愛度
2准浴、計(jì)算物品a和物品b的相似度
用戶A對(duì)物品b的喜好矩陣=用戶A對(duì)物品a的喜好矩陣+物品a和物品b的相似度
3.1.2 明確用戶的喜愛特征的權(quán)重
根據(jù)和業(yè)務(wù)專家的初步討論事扭,明確用戶對(duì)物品的喜愛度,與以下行為有關(guān):
1乐横、瀏覽:用戶進(jìn)入物品詳情頁后,在詳情頁停留的時(shí)長超過5S
2今野、收藏:用戶點(diǎn)擊收藏按鈕葡公,收藏了物品,且未取消收藏
3条霜、下單:用戶購買過該物品催什,且未退貨
4、轉(zhuǎn)發(fā):用戶轉(zhuǎn)發(fā)過該物品
根據(jù)上述維度宰睡,可構(gòu)建判斷矩陣
瀏覽時(shí)長收藏下單轉(zhuǎn)發(fā)
瀏覽時(shí)長11/31/41/2
收藏311/22
下單4212
轉(zhuǎn)發(fā)21/21/21
將上述矩陣進(jìn)行歸一化蒲凶、計(jì)算權(quán)重后。最終計(jì)算的權(quán)重結(jié)果如下圖所示
瀏覽:0.1拆内,收藏:0.29旋圆;下單:0.43;轉(zhuǎn)發(fā):0.18
一致性檢驗(yàn)過程如下圖所示:CR=0.02<0.1 一致性檢驗(yàn)通過
最終確定標(biāo)準(zhǔn)化指標(biāo) 如下表
3.1.3 構(gòu)建用戶對(duì)物品的喜愛度矩陣
根據(jù)上述計(jì)算過程麸恍,可以計(jì)算用戶對(duì)某物品的喜愛度灵巧。例如用戶1,對(duì)物品a:
瀏覽了13S抹沪,未收藏刻肄,下單了1次,轉(zhuǎn)發(fā)了2次
則用戶1對(duì)物品a的喜愛度為:2*0.1+0*0.29+1*0.43+2*0.18
最終計(jì)算所有用戶對(duì)物品的喜愛度矩陣
3.1.4 構(gòu)建物品對(duì)物品的相似度矩陣S
按照喜愛度矩陣R融欧,根據(jù)皮爾遜相關(guān)系數(shù)公式(兩個(gè)變量之間的皮爾遜相關(guān)系數(shù)定義為兩個(gè)變量之間的協(xié)方差和標(biāo)準(zhǔn)差的商)敏弃,可計(jì)算出多個(gè)物品之間的相似度
Xi:用戶i對(duì)物品X的喜愛度
`X:所有用戶對(duì)物品X的喜愛度的算數(shù)平均值
Yi:用戶i對(duì)物品Y的喜愛度
`Y:所有用戶對(duì)物品Y的喜愛度的算數(shù)平均值
r: 物品x和物品y的相似度
最終可計(jì)算出相似度矩陣S。矩陣為對(duì)稱矩陣
3.1.5 預(yù)測(cè)用戶A對(duì)物品b的喜好
通過喜好矩陣R*相似度矩陣S噪馏,即用戶i對(duì)所有物品的評(píng)分作為權(quán)重麦到,和物品j中的物品相似度乘積加和虹茶,可得到用戶i對(duì)物品j的評(píng)分預(yù)測(cè)P(i,j)
3.2 基于用戶的協(xié)同過濾
基于用戶的協(xié)同推薦算法認(rèn)為:當(dāng)用戶A喜歡物品a,且用戶A和用戶B相似隅要,則認(rèn)為用戶B喜歡物品a蝴罪。所以搭建該算法分為兩步:
1、計(jì)算用戶A對(duì)物品a的喜愛度
2步清、計(jì)算用戶A和用戶B的相似度
用戶B對(duì)物品a的喜好矩陣=用戶A對(duì)物品a的喜好矩陣+用戶A和用戶B的相似度
計(jì)算過程和基于物品的協(xié)同過濾的極端過程基本一致
四要门、推薦效果驗(yàn)證
在推薦系統(tǒng)上線前的離線測(cè)試鸥跟、 AB測(cè)試階段改备,需要系統(tǒng)的驗(yàn)證推薦系統(tǒng)的效果觉渴。推薦系統(tǒng)推薦給用戶的東西有多少是用戶真正喜歡的预愤、帶來了多大的轉(zhuǎn)化率等等召夹。驗(yàn)證推薦系統(tǒng)的效果常見的指標(biāo)池户,包括:
準(zhǔn)確度
召回率
覆蓋率
多樣性
4.1 準(zhǔn)確率
準(zhǔn)確率表示預(yù)測(cè)為正的樣本中黎比,真正的正樣本的比例斩郎。公式如下
R(u)是根據(jù)用戶在訓(xùn)練集上的行為給用戶作出的推薦列表第步,而T(u)是用戶在測(cè)試集上的行為列表疮装。最簡(jiǎn)單的例子:例如推薦系統(tǒng)給用戶推薦了10件物品,用戶進(jìn)入物品詳情頁定義為判斷真正的正樣本的行為粘都,用戶進(jìn)入了其中3件物品的詳情頁廓推。則此時(shí)準(zhǔn)確率=3/10=30%
4.2 召回率
召回率表示的是真正的正樣本中,被推薦的真正的正樣本的比例翩隧。公式如下
R(u)是根據(jù)用戶在訓(xùn)練集上的行為給用戶作出的推薦列表樊展,而T(u)是用戶在測(cè)試集上的行為列表。最簡(jiǎn)單的例子:用戶進(jìn)入物品詳情頁定義為判斷真正的正樣本的行為堆生,用戶進(jìn)入了20件物品的詳情頁专缠,其中3件物品是從推薦列表中進(jìn)入的。則此時(shí)準(zhǔn)確率=3/20=15%
4.3 覆蓋率
覆蓋率表示的是被推薦出來的樣本淑仆,占總樣本的比例涝婉。公式如下
U是推薦系統(tǒng)中所有用戶的集合,R(u)是給每個(gè)用戶推薦的物品列表糯景,I是所有推薦池的物品嘁圈。最簡(jiǎn)單的例子:給用戶推薦了10件商品,總共100件商品蟀淮。則此時(shí)覆蓋率=10/100=10%
4.4 多樣性
多樣性表示被推薦的物品最住,兩兩之間的差異性。公式如下
s(i, j)是推薦的物品i和j之間的相似度怠惶,u是被推薦的用戶涨缚,R(u)是給用戶推薦的物品列表。
4.5 其他指標(biāo)
除了上述指標(biāo)外,也有從其他業(yè)務(wù)維度驗(yàn)證推薦系統(tǒng)效果的指標(biāo)脓魏。例如新穎性兰吟、驚喜度、信任性茂翔、實(shí)時(shí)性混蔼、健壯性,以及基于公司發(fā)展規(guī)劃的商業(yè)指標(biāo)等珊燎。
五惭嚣、總結(jié)
當(dāng)公司業(yè)務(wù)/產(chǎn)品,發(fā)展到一定規(guī)模悔政,積累了一定的數(shù)據(jù)量晚吞,為了進(jìn)一步提升業(yè)務(wù)指標(biāo)/用戶體驗(yàn),往往會(huì)考慮個(gè)性化推薦系統(tǒng)谋国。
從0搭建mvp的個(gè)性化推薦系統(tǒng)槽地,需要:
梳理數(shù)據(jù)源,維護(hù)底層數(shù)據(jù)質(zhì)量芦瘾、拓展數(shù)據(jù)維度捌蚊,
基于對(duì)業(yè)務(wù)的深入理解,形成符合業(yè)務(wù)需求的推薦模型旅急,
最終形成給用戶的個(gè)性化推薦功能
個(gè)性化推薦系統(tǒng)逢勾,最常見的就是基于用戶/基于物品的協(xié)同過濾。構(gòu)建協(xié)同過濾模型藐吮,需要:
計(jì)算用戶-物品的喜愛度矩陣R
計(jì)算用戶-用戶/物品-物品的相似度矩陣S
兩個(gè)矩陣相乘,得到用戶-物品的喜愛度預(yù)測(cè)值逃贝。根據(jù)預(yù)測(cè)值進(jìn)行推薦
驗(yàn)證推薦效果谣辞,并持續(xù)調(diào)優(yōu)
另外,在從0搭建推薦系統(tǒng)沐扳,開需要考慮用戶冷啟動(dòng)泥从、物品冷啟動(dòng)等問題