推薦系統(tǒng)原理

自今日頭條憑借精準(zhǔn)的個(gè)性化推薦崛起之后匠抗,個(gè)性化推薦系統(tǒng)被應(yīng)用于越來(lái)越多的產(chǎn)品上故源,并逐漸成為最重要的幫助用戶發(fā)現(xiàn)信息的方式,那么推薦系統(tǒng)到底是什么汞贸,是如何實(shí)現(xiàn)精準(zhǔn)推薦的绳军,又可能面臨哪些問(wèn)題,本篇文章嘗試為大家解答這些疑惑矢腻。

推薦系統(tǒng)是什么门驾?有什么用?

推薦系統(tǒng)是一種幫助用戶發(fā)現(xiàn)感興趣的信息的方式多柑,在推薦系統(tǒng)出現(xiàn)之前奶是,傳統(tǒng)的通過(guò)直接展現(xiàn)信息、搜索、分類來(lái)發(fā)現(xiàn)信息的方式都有一定的短板和局限聂沙。
直接展現(xiàn)信息在信息量過(guò)大時(shí)用戶很難找到自己需要的信息秆麸,非常費(fèi)時(shí)費(fèi)力;搜索雖然能很大程度上解決信息量過(guò)載的問(wèn)題及汉,但這種方式需要用戶明確的知道自己需要的信息的關(guān)鍵詞沮趣,當(dāng)不知道關(guān)鍵詞的時(shí)候搜索就無(wú)法發(fā)揮作用了;分類雖然不需要用戶知道所需信息的關(guān)鍵詞坷随,但是當(dāng)信息量過(guò)于龐大的時(shí)候房铭,就需要把類別一層層分下去,查找信息時(shí)非常繁瑣温眉,且需要用戶知道所需信息屬于每個(gè)層級(jí)的哪個(gè)類別缸匪。
而推薦系統(tǒng)既可以解決信息量過(guò)載的問(wèn)題,又不需要用戶主動(dòng)查找信息芍殖,可以把用戶感興趣的信息推送給用戶豪嗽,這解決了傳統(tǒng)的發(fā)現(xiàn)信息方式的諸如信息量過(guò)載、需要用戶有明確目的等問(wèn)題豌骏。

推薦系統(tǒng)有什么局限龟梦?

推薦系統(tǒng)主要有兩個(gè)局限,第一是需要信息量過(guò)載窃躲,如果信息量很少直接展現(xiàn)信息就可以了计贰,就不需要推薦系統(tǒng)了;第二是需要用戶沒(méi)有明確目的蒂窒,因?yàn)橛脩羧绻忻鞔_目的直接通過(guò)搜索或分類來(lái)找到信息就可以了躁倒,也不需要推薦系統(tǒng)。

推薦系統(tǒng)的推薦策略

常用的推薦策略包括以下幾種:

  1. 基于內(nèi)容的推薦
  2. 基于內(nèi)容的協(xié)同過(guò)濾推薦
  3. 基于用戶的協(xié)同過(guò)濾推薦
  4. 基于標(biāo)簽的推薦
  5. 基于社交網(wǎng)絡(luò)的推薦

基于內(nèi)容的推薦

基于內(nèi)容的推薦是給用戶推薦和他感興趣的內(nèi)容同樣類型的內(nèi)容洒琢。
例如:小明看了周星馳的電影《喜劇之王》秧秉,系統(tǒng)可能會(huì)給小明推薦《功夫》,這是因?yàn)樗鼈冊(cè)谘輪T的維度上都屬于周星馳這個(gè)分類衰抑;系統(tǒng)也可能給小明推薦《人在囧途》象迎,這是因?yàn)樵谟捌愋蜕希鼈兌紝儆谙矂∑@個(gè)類型呛踊。
基于內(nèi)容的推薦需要在各維度上對(duì)內(nèi)容進(jìn)行精準(zhǔn)有效的分類砾淌,如果分類沒(méi)有做好,有效的推薦也就無(wú)從談起了谭网。

基于內(nèi)容的協(xié)同過(guò)濾推薦

基于內(nèi)容的協(xié)同過(guò)濾推薦是指根據(jù)用戶的歷史行為數(shù)據(jù)汪厨,給用戶推薦和他感興趣的內(nèi)容相似的內(nèi)容。
和基于內(nèi)容的推薦不同的是愉择,基于內(nèi)容的推薦是基于內(nèi)容屬性給用戶推薦劫乱,而基于內(nèi)容的協(xié)同過(guò)濾推薦是基于用戶的歷史行為數(shù)據(jù)計(jì)算內(nèi)容之間的相似度织中,給用戶推薦和他之前感興趣的內(nèi)容相似的內(nèi)容。
所以基于內(nèi)容的協(xié)同過(guò)濾推薦分為兩步:

  1. 計(jì)算內(nèi)容之間的相似度衷戈;
  2. 根據(jù)內(nèi)容相似度和用戶的歷史行為給用戶生成推薦列表抠璃。
    例如:


    內(nèi)容相似度.png

用戶A對(duì)《人人都是產(chǎn)品經(jīng)理》的感興趣程度是0.9,對(duì)《社會(huì)心理學(xué)》的感興趣程度為1.2脱惰,《人人都是產(chǎn)品經(jīng)理》和《用戶體驗(yàn)要素》的相似度為0.8搏嗡,《社會(huì)心理學(xué)》和《用戶體驗(yàn)要素》的相似度為0.5,所以用戶A對(duì)《用戶體驗(yàn)要素》的感興趣程度為
0.90.8+1.20.5=1.32拉一。
這里存在兩個(gè)問(wèn)題:

  1. 如何獲得用戶對(duì)某個(gè)初始內(nèi)容的感興趣程度采盒?
    用戶對(duì)某個(gè)初始內(nèi)容的感興趣程度可以通過(guò)用戶對(duì)這個(gè)內(nèi)容的歷史行為數(shù)據(jù)獲得。
  2. 如何計(jì)算內(nèi)容之間的相似度蔚润?
    計(jì)算內(nèi)容之間的相似度可以用余弦公式磅氨,一般來(lái)說(shuō)喜歡內(nèi)容A的用戶如果大多也喜歡內(nèi)容B,那么就認(rèn)為內(nèi)容A和內(nèi)容B有很高的相似度嫡纠。

基于用戶的協(xié)同過(guò)濾推薦

基于用戶的協(xié)同過(guò)濾推薦是指根據(jù)用戶的歷史行為數(shù)據(jù)烦租,給用戶推薦和他興趣相似的用戶喜歡的其他內(nèi)容。
所以基于用戶的協(xié)同過(guò)濾推薦分為兩步:

  1. 計(jì)算用戶之間的相似度除盏;
  2. 給用戶推薦和他相似的用戶喜歡的叉橱,而他又沒(méi)有接觸過(guò)的內(nèi)容。
    例如:


    用戶相似度.png

用戶A和用戶B的興趣相似度是1.2者蠕,用戶B對(duì)《社會(huì)心理學(xué)》的感興趣程度為0.7窃祝,所以用戶A對(duì)《社會(huì)心理學(xué)》的感興趣程度為0.84。
計(jì)算用戶相似度和內(nèi)容相似度類似踱侣,都可以采用余弦公式粪小,一般來(lái)說(shuō)如果用戶A喜歡的內(nèi)容,用戶B大多都喜歡抡句,那么就認(rèn)為用戶A和用戶B具有較高的相似度探膊。

基于標(biāo)簽的推薦

基于標(biāo)簽的推薦是指,給用戶推薦那些他們的常用標(biāo)簽出現(xiàn)次數(shù)最多的內(nèi)容待榔。
所以基于標(biāo)簽的推薦可以分為以下幾個(gè)步驟:

  1. 統(tǒng)計(jì)每個(gè)用戶最常用的標(biāo)簽逞壁;
  2. 對(duì)于每個(gè)標(biāo)簽,統(tǒng)計(jì)被打過(guò)這個(gè)標(biāo)簽次數(shù)最多的內(nèi)容究抓;
  3. 把用戶的常用標(biāo)簽出現(xiàn)次數(shù)最多的內(nèi)容推薦給這個(gè)用戶猾担。
    例如:用戶A對(duì)經(jīng)濟(jì)學(xué)方面的圖書感興趣袭灯,最常用的標(biāo)簽有經(jīng)濟(jì)學(xué)刺下,同時(shí)在經(jīng)濟(jì)學(xué)這個(gè)標(biāo)簽中出現(xiàn)次數(shù)最多的內(nèi)容是《經(jīng)濟(jì)學(xué)原理》,那么就給用戶A推薦《經(jīng)濟(jì)學(xué)原理》這本書稽荧。

基于社交網(wǎng)絡(luò)的推薦

基于社交網(wǎng)絡(luò)的推薦是指根據(jù)用戶的好友信息給用戶推薦他的好友喜歡的內(nèi)容橘茉。
基于社交網(wǎng)絡(luò)的推薦非常容易理解工腋,但這里存在幾個(gè)問(wèn)題:

  1. 如何獲取用戶好友信息?
    1. 社交產(chǎn)品(微信畅卓、微博等)登錄信息
    2. 用戶通訊錄好友
    3. 用戶注冊(cè)信息
  2. 根據(jù)社交網(wǎng)絡(luò)推薦有什么好處擅腰?
    1. 可以增加用戶對(duì)推薦系統(tǒng)推薦結(jié)果的信任
    2. 一定程度上可以解決推薦系統(tǒng)的冷啟動(dòng)問(wèn)題
  3. 如果一個(gè)用戶的好友非常多,且每個(gè)好友感興趣的內(nèi)容都很多翁潘,那么該給這個(gè)用戶推薦哪些好友感興趣的內(nèi)容趁冈?推薦結(jié)果的內(nèi)容根據(jù)什么排序?
    1. 根據(jù)用戶與好友的熟悉程度推薦拜马,熟悉程度可以用用戶與好友的共同好友比例表示渗勘;
    2. 根據(jù)用戶與好友的興趣相似度推薦,興趣相似度可以用余弦公式計(jì)算俩莽。

存在的問(wèn)題及解決方案

上述推薦系統(tǒng)的推薦策略存在一些常見(jiàn)的問(wèn)題旺坠,這里給出筆者的關(guān)于其中幾個(gè)關(guān)鍵問(wèn)題的思考。

冷啟動(dòng)問(wèn)題

除了基于社交網(wǎng)絡(luò)的推薦外扮超,其他推薦策略都面臨冷啟動(dòng)的問(wèn)題取刃,即用戶第一次訪問(wèn)在平臺(tái)上還沒(méi)有數(shù)據(jù)的時(shí)候怎么給用戶推薦他感興趣的內(nèi)容?

  1. 給他推薦熱門內(nèi)容出刷,因?yàn)榻^大多數(shù)人都對(duì)熱門內(nèi)容感興趣璧疗;
  2. 用戶通過(guò)社交網(wǎng)絡(luò)登錄時(shí),給用戶推薦他的好友感興趣的內(nèi)容馁龟;
  3. 根據(jù)用戶的注冊(cè)信息和授權(quán)給用戶推薦個(gè)性化內(nèi)容病毡。
  4. 用戶第一次登錄時(shí)讓用戶自己選擇感興趣的分類。

熱門內(nèi)容問(wèn)題

上面的推薦策略中都面臨推薦結(jié)果中出現(xiàn)的大多數(shù)都是熱門內(nèi)容的問(wèn)題屁柏,例如基于用戶的協(xié)同過(guò)濾推薦需要推薦和這個(gè)用戶相似的其他用戶感興趣的內(nèi)容啦膜,而大多數(shù)用戶都對(duì)熱門內(nèi)容感興趣,所以推薦結(jié)果很容易出現(xiàn)大多數(shù)都是熱門內(nèi)容的情況淌喻。而熱門內(nèi)容完全可以通過(guò)其他途徑(排行榜僧家、朋友分享等)獲取,不需要推薦系統(tǒng)也能夠知道這些信息裸删,而推薦結(jié)果中如果都是熱門內(nèi)容也會(huì)使用戶覺(jué)得乏味八拱,降低用戶滿意度。
所以需要對(duì)熱門內(nèi)容進(jìn)行降權(quán)處理涯塔,或?qū)溟T內(nèi)容進(jìn)行加權(quán)處理肌稻。

時(shí)間對(duì)用戶興趣的影響

時(shí)間對(duì)用戶興趣的變化主要體現(xiàn)在兩點(diǎn):

  1. 用戶興趣本身會(huì)變化。
    用戶上高中時(shí)和上大學(xué)時(shí)的興趣就不一樣匕荸,事實(shí)上可能幾個(gè)月之后用戶的興趣就會(huì)發(fā)生比較大的變化爹谭,所以要對(duì)用戶的近期行為加權(quán),或?qū)σ欢螘r(shí)間之前的用戶行為降權(quán)榛搔。
  2. 時(shí)間本身對(duì)用戶興趣有影響诺凡。
    夏季和冬季用戶興趣就不一樣东揣,春節(jié)時(shí)和平常用戶興趣就不一樣。例如腹泌,用戶在夏天時(shí)買了件短袖嘶卧,在冬天時(shí)給用戶推薦短袖就可能會(huì)使用戶感到反感以及對(duì)推薦結(jié)果的不信任。
    所以在記錄用戶的歷史行為數(shù)據(jù)時(shí)應(yīng)該加上用戶產(chǎn)生這個(gè)行為的時(shí)間凉袱,并在對(duì)季節(jié)性內(nèi)容做推薦時(shí)過(guò)濾掉不符合相應(yīng)時(shí)間的用戶行為芥吟。

總結(jié)

這篇文章向大家介紹了推薦系統(tǒng)和常用的推薦策略以及會(huì)面臨的一些問(wèn)題,需要說(shuō)明的是這些推薦策略都有其適用場(chǎng)景专甩,需要根據(jù)不同場(chǎng)景采用不同的推薦策略运沦,例如新聞資訊和歌曲就不同,新聞資訊更注重時(shí)效性配深,昨天的新聞到了今天就不再是新聞携添,而歌曲的時(shí)效性就很弱,經(jīng)典歌曲過(guò)了幾年依然是經(jīng)典篓叶;沒(méi)有人會(huì)重復(fù)看同一篇新聞很多遍烈掠,而很多用戶都會(huì)針對(duì)自己喜歡的音樂(lè)單曲循環(huán)一下午。所以針對(duì)內(nèi)容的深刻理解是設(shè)計(jì)精準(zhǔn)的推薦系統(tǒng)的基礎(chǔ)缸托。
由于筆者還是一個(gè)產(chǎn)品新手左敌,對(duì)推薦系統(tǒng)的了解也還尚淺,寫的不好的地方還望大家多提建議哈~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末俐镐,一起剝皮案震驚了整個(gè)濱河市矫限,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌佩抹,老刑警劉巖叼风,帶你破解...
    沈念sama閱讀 218,204評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異棍苹,居然都是意外死亡无宿,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門枢里,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)孽鸡,“玉大人,你說(shuō)我怎么就攤上這事栏豺”蚣睿” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 164,548評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵奥洼,是天一觀的道長(zhǎng)巷疼。 經(jīng)常有香客問(wèn)我,道長(zhǎng)溉卓,這世上最難降的妖魔是什么皮迟? 我笑而不...
    開(kāi)封第一講書人閱讀 58,657評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮桑寨,結(jié)果婚禮上伏尼,老公的妹妹穿的比我還像新娘。我一直安慰自己尉尾,他們只是感情好爆阶,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,689評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著沙咏,像睡著了一般辨图。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上肢藐,一...
    開(kāi)封第一講書人閱讀 51,554評(píng)論 1 305
  • 那天故河,我揣著相機(jī)與錄音,去河邊找鬼吆豹。 笑死鱼的,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的痘煤。 我是一名探鬼主播凑阶,決...
    沈念sama閱讀 40,302評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼衷快!你這毒婦竟也來(lái)了宙橱?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 39,216評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤蘸拔,失蹤者是張志新(化名)和其女友劉穎师郑,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體调窍,經(jīng)...
    沈念sama閱讀 45,661評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡呕乎,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,851評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了陨晶。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片猬仁。...
    茶點(diǎn)故事閱讀 39,977評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖先誉,靈堂內(nèi)的尸體忽然破棺而出湿刽,到底是詐尸還是另有隱情,我是刑警寧澤褐耳,帶...
    沈念sama閱讀 35,697評(píng)論 5 347
  • 正文 年R本政府宣布诈闺,位于F島的核電站,受9級(jí)特大地震影響铃芦,放射性物質(zhì)發(fā)生泄漏雅镊。R本人自食惡果不足惜襟雷,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,306評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望仁烹。 院中可真熱鬧耸弄,春花似錦、人聲如沸卓缰。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,898評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)征唬。三九已至捌显,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間总寒,已是汗流浹背扶歪。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,019評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留摄闸,地道東北人击罪。 一個(gè)月前我還...
    沈念sama閱讀 48,138評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像贪薪,于是被迫代替她去往敵國(guó)和親媳禁。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,927評(píng)論 2 355