0-1搭建個(gè)性化推薦系統(tǒng)的設(shè)計(jì)思路

一忙芒、 設(shè)計(jì)目的

①、商城已上線2周年讳侨,已有10萬+在售物品呵萨。需要推薦系統(tǒng),幫助用戶從過量的物品中跨跨,快速發(fā)現(xiàn)優(yōu)質(zhì)物品潮峦,縮短用戶路徑,提高訂單量勇婴。

②忱嘹、目前商城訂單量、用戶數(shù)增長緩慢耕渴。所以需要推薦系統(tǒng)拘悦,作為新的增長點(diǎn),帶動(dòng)業(yè)務(wù)增長橱脸。

③础米、通過全面采集用戶分苇、物品數(shù)據(jù),并分析各類用戶對(duì)各類物品的喜好屁桑,可以幫助商家快速了解平臺(tái)內(nèi)用戶喜好医寿,了解自己的物品特點(diǎn),提高訂單量

二蘑斧、產(chǎn)品結(jié)構(gòu)

三靖秩、推薦模型設(shè)計(jì)

3.1 基于物品的協(xié)同推薦

3.1.1 算法原理

基于物品的協(xié)同推薦算法認(rèn)為:當(dāng)用戶A喜歡物品a,且物品a和物品b相似竖瘾,則認(rèn)為用戶A喜歡物品b沟突。所以搭建該算法分為兩步:

1、計(jì)算用戶A對(duì)物品a的喜愛度

2准浴、計(jì)算物品a和物品b的相似度

用戶A對(duì)物品b的喜好矩陣=用戶A對(duì)物品a的喜好矩陣+物品a和物品b的相似度

3.1.2 明確用戶的喜愛特征的權(quán)重

根據(jù)和業(yè)務(wù)專家的初步討論事扭,明確用戶對(duì)物品的喜愛度,與以下行為有關(guān):

1乐横、瀏覽:用戶進(jìn)入物品詳情頁后,在詳情頁停留的時(shí)長超過5S

2今野、收藏:用戶點(diǎn)擊收藏按鈕葡公,收藏了物品,且未取消收藏

3条霜、下單:用戶購買過該物品催什,且未退貨

4、轉(zhuǎn)發(fā):用戶轉(zhuǎn)發(fā)過該物品

根據(jù)上述維度宰睡,可構(gòu)建判斷矩陣

瀏覽時(shí)長收藏下單轉(zhuǎn)發(fā)

瀏覽時(shí)長11/31/41/2

收藏311/22

下單4212

轉(zhuǎn)發(fā)21/21/21

將上述矩陣進(jìn)行歸一化蒲凶、計(jì)算權(quán)重后。最終計(jì)算的權(quán)重結(jié)果如下圖所示

瀏覽:0.1拆内,收藏:0.29旋圆;下單:0.43;轉(zhuǎn)發(fā):0.18

一致性檢驗(yàn)過程如下圖所示:CR=0.02<0.1 一致性檢驗(yàn)通過

最終確定標(biāo)準(zhǔn)化指標(biāo) 如下表

3.1.3 構(gòu)建用戶對(duì)物品的喜愛度矩陣

根據(jù)上述計(jì)算過程麸恍,可以計(jì)算用戶對(duì)某物品的喜愛度灵巧。例如用戶1,對(duì)物品a:

瀏覽了13S抹沪,未收藏刻肄,下單了1次,轉(zhuǎn)發(fā)了2次

則用戶1對(duì)物品a的喜愛度為:2*0.1+0*0.29+1*0.43+2*0.18

最終計(jì)算所有用戶對(duì)物品的喜愛度矩陣

3.1.4 構(gòu)建物品對(duì)物品的相似度矩陣S

按照喜愛度矩陣R融欧,根據(jù)皮爾遜相關(guān)系數(shù)公式(兩個(gè)變量之間的皮爾遜相關(guān)系數(shù)定義為兩個(gè)變量之間的協(xié)方差和標(biāo)準(zhǔn)差的商)敏弃,可計(jì)算出多個(gè)物品之間的相似度

Xi:用戶i對(duì)物品X的喜愛度

`X:所有用戶對(duì)物品X的喜愛度的算數(shù)平均值

Yi:用戶i對(duì)物品Y的喜愛度

`Y:所有用戶對(duì)物品Y的喜愛度的算數(shù)平均值

r: 物品x和物品y的相似度

最終可計(jì)算出相似度矩陣S。矩陣為對(duì)稱矩陣

3.1.5 預(yù)測(cè)用戶A對(duì)物品b的喜好

通過喜好矩陣R*相似度矩陣S噪馏,即用戶i對(duì)所有物品的評(píng)分作為權(quán)重麦到,和物品j中的物品相似度乘積加和虹茶,可得到用戶i對(duì)物品j的評(píng)分預(yù)測(cè)P(i,j)

3.2 基于用戶的協(xié)同過濾

基于用戶的協(xié)同推薦算法認(rèn)為:當(dāng)用戶A喜歡物品a,且用戶A和用戶B相似隅要,則認(rèn)為用戶B喜歡物品a蝴罪。所以搭建該算法分為兩步:

1、計(jì)算用戶A對(duì)物品a的喜愛度

2步清、計(jì)算用戶A和用戶B的相似度

用戶B對(duì)物品a的喜好矩陣=用戶A對(duì)物品a的喜好矩陣+用戶A和用戶B的相似度

計(jì)算過程和基于物品的協(xié)同過濾的極端過程基本一致

四要门、推薦效果驗(yàn)證

在推薦系統(tǒng)上線前的離線測(cè)試鸥跟、 AB測(cè)試階段改备,需要系統(tǒng)的驗(yàn)證推薦系統(tǒng)的效果觉渴。推薦系統(tǒng)推薦給用戶的東西有多少是用戶真正喜歡的预愤、帶來了多大的轉(zhuǎn)化率等等召夹。驗(yàn)證推薦系統(tǒng)的效果常見的指標(biāo)池户,包括:

準(zhǔn)確度

召回率

覆蓋率

多樣性

4.1 準(zhǔn)確率

準(zhǔn)確率表示預(yù)測(cè)為正的樣本中黎比,真正的正樣本的比例斩郎。公式如下

R(u)是根據(jù)用戶在訓(xùn)練集上的行為給用戶作出的推薦列表第步,而T(u)是用戶在測(cè)試集上的行為列表疮装。最簡(jiǎn)單的例子:例如推薦系統(tǒng)給用戶推薦了10件物品,用戶進(jìn)入物品詳情頁定義為判斷真正的正樣本的行為粘都,用戶進(jìn)入了其中3件物品的詳情頁廓推。則此時(shí)準(zhǔn)確率=3/10=30%

4.2 召回率

召回率表示的是真正的正樣本中,被推薦的真正的正樣本的比例翩隧。公式如下

R(u)是根據(jù)用戶在訓(xùn)練集上的行為給用戶作出的推薦列表樊展,而T(u)是用戶在測(cè)試集上的行為列表。最簡(jiǎn)單的例子:用戶進(jìn)入物品詳情頁定義為判斷真正的正樣本的行為堆生,用戶進(jìn)入了20件物品的詳情頁专缠,其中3件物品是從推薦列表中進(jìn)入的。則此時(shí)準(zhǔn)確率=3/20=15%

4.3 覆蓋率

覆蓋率表示的是被推薦出來的樣本淑仆,占總樣本的比例涝婉。公式如下

U是推薦系統(tǒng)中所有用戶的集合,R(u)是給每個(gè)用戶推薦的物品列表糯景,I是所有推薦池的物品嘁圈。最簡(jiǎn)單的例子:給用戶推薦了10件商品,總共100件商品蟀淮。則此時(shí)覆蓋率=10/100=10%

4.4 多樣性

多樣性表示被推薦的物品最住,兩兩之間的差異性。公式如下

s(i, j)是推薦的物品i和j之間的相似度怠惶,u是被推薦的用戶涨缚,R(u)是給用戶推薦的物品列表。

4.5 其他指標(biāo)

除了上述指標(biāo)外,也有從其他業(yè)務(wù)維度驗(yàn)證推薦系統(tǒng)效果的指標(biāo)脓魏。例如新穎性兰吟、驚喜度、信任性茂翔、實(shí)時(shí)性混蔼、健壯性,以及基于公司發(fā)展規(guī)劃的商業(yè)指標(biāo)等珊燎。

五惭嚣、總結(jié)

當(dāng)公司業(yè)務(wù)/產(chǎn)品,發(fā)展到一定規(guī)模悔政,積累了一定的數(shù)據(jù)量晚吞,為了進(jìn)一步提升業(yè)務(wù)指標(biāo)/用戶體驗(yàn),往往會(huì)考慮個(gè)性化推薦系統(tǒng)谋国。

從0搭建mvp的個(gè)性化推薦系統(tǒng)槽地,需要:

梳理數(shù)據(jù)源,維護(hù)底層數(shù)據(jù)質(zhì)量芦瘾、拓展數(shù)據(jù)維度捌蚊,

基于對(duì)業(yè)務(wù)的深入理解,形成符合業(yè)務(wù)需求的推薦模型旅急,

最終形成給用戶的個(gè)性化推薦功能

個(gè)性化推薦系統(tǒng)逢勾,最常見的就是基于用戶/基于物品的協(xié)同過濾。構(gòu)建協(xié)同過濾模型藐吮,需要:

計(jì)算用戶-物品的喜愛度矩陣R

計(jì)算用戶-用戶/物品-物品的相似度矩陣S

兩個(gè)矩陣相乘,得到用戶-物品的喜愛度預(yù)測(cè)值逃贝。根據(jù)預(yù)測(cè)值進(jìn)行推薦

驗(yàn)證推薦效果谣辞,并持續(xù)調(diào)優(yōu)

另外,在從0搭建推薦系統(tǒng)沐扳,開需要考慮用戶冷啟動(dòng)泥从、物品冷啟動(dòng)等問題

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市沪摄,隨后出現(xiàn)的幾起案子躯嫉,更是在濱河造成了極大的恐慌,老刑警劉巖杨拐,帶你破解...
    沈念sama閱讀 218,386評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件祈餐,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡哄陶,警方通過查閱死者的電腦和手機(jī)帆阳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,142評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來屋吨,“玉大人蜒谤,你說我怎么就攤上這事山宾。” “怎么了鳍徽?”我有些...
    開封第一講書人閱讀 164,704評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵资锰,是天一觀的道長。 經(jīng)常有香客問我阶祭,道長绷杜,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,702評(píng)論 1 294
  • 正文 為了忘掉前任胖翰,我火速辦了婚禮接剩,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘萨咳。我一直安慰自己懊缺,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,716評(píng)論 6 392
  • 文/花漫 我一把揭開白布培他。 她就那樣靜靜地躺著鹃两,像睡著了一般。 火紅的嫁衣襯著肌膚如雪舀凛。 梳的紋絲不亂的頭發(fā)上俊扳,一...
    開封第一講書人閱讀 51,573評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音猛遍,去河邊找鬼馋记。 笑死,一個(gè)胖子當(dāng)著我的面吹牛懊烤,可吹牛的內(nèi)容都是我干的梯醒。 我是一名探鬼主播,決...
    沈念sama閱讀 40,314評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼腌紧,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼茸习!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起壁肋,我...
    開封第一講書人閱讀 39,230評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤号胚,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后浸遗,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體猫胁,經(jīng)...
    沈念sama閱讀 45,680評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,873評(píng)論 3 336
  • 正文 我和宋清朗相戀三年乙帮,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了杜漠。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,991評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖驾茴,靈堂內(nèi)的尸體忽然破棺而出盼樟,到底是詐尸還是另有隱情,我是刑警寧澤锈至,帶...
    沈念sama閱讀 35,706評(píng)論 5 346
  • 正文 年R本政府宣布晨缴,位于F島的核電站,受9級(jí)特大地震影響峡捡,放射性物質(zhì)發(fā)生泄漏击碗。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,329評(píng)論 3 330
  • 文/蒙蒙 一们拙、第九天 我趴在偏房一處隱蔽的房頂上張望稍途。 院中可真熱鬧,春花似錦砚婆、人聲如沸械拍。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,910評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽坷虑。三九已至,卻和暖如春埂奈,著一層夾襖步出監(jiān)牢的瞬間迄损,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,038評(píng)論 1 270
  • 我被黑心中介騙來泰國打工账磺, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留芹敌,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,158評(píng)論 3 370
  • 正文 我出身青樓垮抗,卻偏偏與公主長得像党窜,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子借宵,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,941評(píng)論 2 355