利用用戶標(biāo)簽數(shù)據(jù)——《推薦系統(tǒng)實(shí)踐》讀書(shū)筆記(四)

一溶推、書(shū)籍介紹

《推薦系統(tǒng)實(shí)踐》項(xiàng)亮編著,陳義奸攻、王益審校蒜危,人民郵電出版社。

本篇讀書(shū)筆記主要針對(duì)該書(shū)的第四章內(nèi)容睹耐。

二辐赞、結(jié)構(gòu)概覽

三、主要內(nèi)容

推薦系統(tǒng)主要是為了聯(lián)系用戶的興趣和物品疏橄。對(duì)此,我們一般有三種方式:

第一:物品-利用用戶喜歡過(guò)的物品略就,給用戶推薦與他喜歡過(guò)的物品相似的物品(基于物品的算法)

第二:用戶-利用和用戶興趣相似的用戶捎迫,給用戶推薦那些和他們興趣愛(ài)好相似的其他用戶喜歡的物品(基于用戶的算法)

第三:通過(guò)一些特征聯(lián)系用戶和物品,如物品的屬性集合表牢、隱語(yǔ)義向量窄绒、標(biāo)簽等。

我們本本部主要討論標(biāo)簽崔兴。

標(biāo)簽從來(lái)源上一般分為兩種:一種是讓作者或?qū)<医o物品打標(biāo)簽彰导;一種讓普通用戶給物品打標(biāo)簽。即UGC標(biāo)簽敲茄,也是本部分的重點(diǎn)內(nèi)容位谋。

1.UGC標(biāo)簽系統(tǒng)的代表應(yīng)用。

(1)Delicious

用戶給互聯(lián)網(wǎng)上的每個(gè)網(wǎng)頁(yè)打標(biāo)簽堰燎,從而通過(guò)標(biāo)簽重新組織互聯(lián)網(wǎng)掏父。

(2)CiteUlike

論文書(shū)簽網(wǎng)站-研究人員可以提交或收藏自己感興趣的論文并且給論文打標(biāo)簽

(3)Last.fm

音樂(lè)網(wǎng)站,引入U(xiǎn)GC標(biāo)簽系統(tǒng)秆剪。

(4)豆瓣

(5)HuLu

視頻網(wǎng)站

—標(biāo)簽的作用:

*表達(dá):標(biāo)簽系統(tǒng)有助于我們表達(dá)對(duì)物品的看法

*組織:標(biāo)簽系統(tǒng)有助于我歸類組織我喜歡的物品

*學(xué)習(xí):標(biāo)簽系統(tǒng)有助于我增加對(duì)物品的了解

*發(fā)現(xiàn):標(biāo)簽系統(tǒng)使我更容易發(fā)現(xiàn)喜歡的物品

*決策:標(biāo)簽系統(tǒng)有助于我判斷這個(gè)物品是否要使用

2. 標(biāo)簽系統(tǒng)中的推薦問(wèn)題

(1)用戶為什么進(jìn)行標(biāo)注

要找到UGC打標(biāo)簽的動(dòng)力:內(nèi)容上傳者對(duì)內(nèi)容的管理赊淑?便于幫助其他用戶找到信息,從而使自己的內(nèi)容可以得到更多的喜歡仅讽?幫助其他用戶陶缺?傳達(dá)某種信息?方便將來(lái)的查找洁灵?……

(2)用戶如何打標(biāo)簽

用戶打標(biāo)簽背后的規(guī)律:標(biāo)簽流行度呈非常典型的長(zhǎng)尾分布饱岸。我們對(duì)標(biāo)簽的使用和設(shè)計(jì)都需要考慮到這一點(diǎn)。

(3)用戶打什么樣的標(biāo)簽

a)表明物品是什么

b)表明物品的種類

c)表明誰(shuí)擁有物品

d)表達(dá)用戶的觀點(diǎn)(有趣、喜歡等)

e)用戶相關(guān)的標(biāo)簽(我喜歡)

f)用戶的任務(wù)(即將閱讀等)

在給用戶提供標(biāo)簽選擇的時(shí)候可以考慮以上幾種類型伶贰。

3.基于標(biāo)簽的推薦系統(tǒng)

用戶標(biāo)簽的行為數(shù)據(jù)集一般由一個(gè)三元組(用戶蛛砰、物品、標(biāo)簽)表示黍衙。

(1)實(shí)驗(yàn)設(shè)置

對(duì)于用戶u泥畅,R(u)為用戶u的長(zhǎng)度為N的推薦列表,里面包含我們認(rèn)為用戶會(huì)打比奧前的物品琅翻。T(u)是測(cè)試集中用戶u實(shí)際上打過(guò)標(biāo)簽的物品集合位仁。


準(zhǔn)確率(Precision)召回率(Recall)評(píng)測(cè)公式
覆蓋率
多樣性
平均熱門度

(2)算法

算法描述:統(tǒng)計(jì)每個(gè)用戶最常用的標(biāo)簽,對(duì)于每個(gè)標(biāo)簽方椎,統(tǒng)計(jì)被打過(guò)這個(gè)標(biāo)簽次數(shù)最多的物品聂抢;對(duì)于一個(gè)用戶,首先找到他常用的標(biāo)簽棠众,然后找到具有這些標(biāo)簽的最熱門物品推薦給這個(gè)用戶琳疏。

用戶u對(duì)物品i的興趣公式如下:

B(u)是用戶u打過(guò)的標(biāo)簽,B(i)是物品i打過(guò)的標(biāo)簽集合闸拿,nu,b是用戶u打過(guò)標(biāo)簽b的次數(shù)空盼,nb,i是物品i打過(guò)標(biāo)簽b的次數(shù)

(3)算法改進(jìn)

a)TF-IDF

*熱門標(biāo)簽權(quán)重過(guò)大,公式改進(jìn):

nb(u)是標(biāo)簽b被多少不同的用戶使用過(guò)

*熱門物品懲罰

b)數(shù)據(jù)稀疏性

對(duì)于新用戶或新物品新荤,B(u)和B(i)交集的標(biāo)簽數(shù)量很少揽趾,因此需要對(duì)標(biāo)簽集合做拓展,將相似標(biāo)簽也加入到用戶標(biāo)簽集合中苛骨。因此最為關(guān)鍵的是對(duì)每個(gè)標(biāo)簽找到和它相似的標(biāo)簽篱瞎。

找到相似的標(biāo)簽,第一種方法痒芝,同義詞俐筋,根據(jù)同義詞詞典進(jìn)行拓展。第二種方法严衬,當(dāng)兩個(gè)標(biāo)簽同時(shí)出現(xiàn)在很多物品的標(biāo)簽集合中校哎,我們可以認(rèn)為這兩個(gè)標(biāo)簽具有較大的相似度,公式如下:

b和b‘的相似度

注意—進(jìn)行標(biāo)簽拓展能夠提高基于標(biāo)簽的物品推薦的準(zhǔn)確率和召回率瞳步,但可能會(huì)稍微降低推薦結(jié)果的覆蓋率和新穎度闷哆。

c)標(biāo)簽清理

用戶打標(biāo)簽過(guò)程中有一些無(wú)用的、重復(fù)的標(biāo)簽单起。

*去除詞頻很高的停止詞抱怔;

*去除同義詞(比如因詞根不同或因分隔符導(dǎo)致的同義詞);

(4)基于圖的推薦算法

首先嘀倒,將用戶打標(biāo)簽行為表示到一張圖上屈留。其次局冰,構(gòu)建SimpleTagGragh,計(jì)算用戶對(duì)物品的興趣公式灌危。

(5)基于標(biāo)簽的推薦解釋

四種類型標(biāo)簽解釋的展示方式:

a)RelSort 對(duì)推薦物品做解釋時(shí)使用的是用戶以前使用過(guò)且物品上有的標(biāo)簽康二,給出了用戶對(duì)標(biāo)簽的興趣和標(biāo)簽與物品的相關(guān)度,但標(biāo)簽按照和物品的相關(guān)度排序勇蝙。

b)PrefSort?對(duì)推薦物品做解釋時(shí)使用的是用戶以前使用過(guò)且物品上有的標(biāo)簽沫勿,給出了用戶對(duì)標(biāo)簽的興趣和標(biāo)簽與物品的相關(guān)度,但標(biāo)簽按照用戶的興趣程度排序味混。

c)RelOnly 對(duì)推薦物品做解釋時(shí)使用的是用戶以前使用過(guò)且物品上有的標(biāo)簽产雹,給出了標(biāo)簽與物品的相關(guān)度,且標(biāo)簽按照和物品的相關(guān)度排序翁锡。

d)PrefOnly 對(duì)推薦物品做解釋時(shí)使用的是用戶以前使用過(guò)且物品有的標(biāo)簽蔓挖,給出了用戶對(duì)標(biāo)簽的興趣程度,且標(biāo)簽按照用戶的興趣程度排序馆衔。

從一個(gè)調(diào)查中可以看出:

*物品為什么推薦給我-RelSort>PrefOnly>=PreSort>RelOlny

*判定是否喜歡推薦的物品-RelSort>PreSort>PrefOnly>RelOlny

*判定物品是否符合我的興趣-RelSort>PreSort>RelOlny>PrefOnly

*整體滿意度:PrefOnly>RelSort>PreSort>RelOlny

從整體來(lái)看瘟判,

用戶對(duì)標(biāo)簽的興趣更有助于用戶理解為什么推薦物品;用戶對(duì)標(biāo)簽的興趣和物品標(biāo)簽的相關(guān)度更有助于用戶判定是否喜歡被推薦的物品角溃;物品標(biāo)簽相關(guān)度更有助于用戶判定物品是否符合當(dāng)前的興趣拷获;客觀類標(biāo)簽相比主觀類標(biāo)簽對(duì)用戶更有用。

4.給用戶推薦標(biāo)簽

(1)為什么要給用戶推薦標(biāo)簽

方便用戶輸入標(biāo)簽开镣;提高標(biāo)簽質(zhì)量

(2)如何給用戶推薦標(biāo)簽

a)推薦最熱門的標(biāo)簽(popularTags)

b)給用戶u推薦物品i上最熱門的標(biāo)簽(ItemPopularTags)

c)給用戶u推薦他自己經(jīng)常使用的標(biāo)簽(UserPopularTags)

d)綜合b)+c)兩種方法(HybridPopularTags)

在a)b)c)三種方法中刀诬,ItemPopularTags具有最好的準(zhǔn)確率和召回率咽扇。HybridPopularTags在融合系數(shù)=0.8邪财,取得率最好的準(zhǔn)確度,優(yōu)于ItemPopularTags质欲。

但是無(wú)論a)b)c)d)任何一種方法都有一個(gè)缺陷树埠,即無(wú)法對(duì)新用戶或者不熱門的物品很難有推薦結(jié)果∷晃埃可以考慮從物品內(nèi)容數(shù)據(jù)中抽取關(guān)鍵詞作為標(biāo)簽或者進(jìn)行標(biāo)簽拓展怎憋。

(3)基于圖的標(biāo)簽推薦算法

圖模型也可用于標(biāo)簽推薦。

延伸閱讀:

推薦系統(tǒng)冷啟動(dòng)問(wèn)題——《推薦系統(tǒng)實(shí)踐》讀書(shū)筆記(三)

利用用戶數(shù)據(jù)——《推薦系統(tǒng)實(shí)踐》(二)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末九昧,一起剝皮案震驚了整個(gè)濱河市绊袋,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌铸鹰,老刑警劉巖癌别,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異蹋笼,居然都是意外死亡展姐,警方通過(guò)查閱死者的電腦和手機(jī)躁垛,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)圾笨,“玉大人教馆,你說(shuō)我怎么就攤上這事±薮铮” “怎么了土铺?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)谍婉。 經(jīng)常有香客問(wèn)我舒憾,道長(zhǎng),這世上最難降的妖魔是什么穗熬? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任镀迂,我火速辦了婚禮,結(jié)果婚禮上唤蔗,老公的妹妹穿的比我還像新娘探遵。我一直安慰自己,他們只是感情好妓柜,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布箱季。 她就那樣靜靜地躺著,像睡著了一般棍掐。 火紅的嫁衣襯著肌膚如雪藏雏。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,688評(píng)論 1 305
  • 那天作煌,我揣著相機(jī)與錄音掘殴,去河邊找鬼。 笑死粟誓,一個(gè)胖子當(dāng)著我的面吹牛奏寨,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播鹰服,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼病瞳,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了悲酷?” 一聲冷哼從身側(cè)響起套菜,我...
    開(kāi)封第一講書(shū)人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎设易,沒(méi)想到半個(gè)月后逗柴,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡亡嫌,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年嚎于,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了掘而。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡于购,死狀恐怖袍睡,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情肋僧,我是刑警寧澤斑胜,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站嫌吠,受9級(jí)特大地震影響止潘,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜辫诅,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一凭戴、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧炕矮,春花似錦么夫、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至邢滑,卻和暖如春腐螟,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背困后。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來(lái)泰國(guó)打工乐纸, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人操灿。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓锯仪,卻偏偏與公主長(zhǎng)得像泵督,于是被迫代替她去往敵國(guó)和親趾盐。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容