1. 好的推薦系統(tǒng)
什么是推薦系統(tǒng)?
在這個時代,無論是信息消費者還是信息生產(chǎn)者都遇到了很大的挑戰(zhàn):對于信息消費者粘勒,從大量信息中找到自己感興趣的信息是一件非常困難的事情揭糕;對于信息生產(chǎn)者萝快,讓自己生產(chǎn)的信息脫穎而出,收到廣大用戶的關(guān)注著角,也是一件非常困難的事揪漩。
推薦系統(tǒng)就是解決這一矛盾的重要工具。推薦系統(tǒng)的任務(wù)就是聯(lián)系用戶和信息吏口,一方面幫助用戶發(fā)現(xiàn)對自己有價值的信息奄容,另一方面讓信息能夠展現(xiàn)在對它感興趣的用戶面前,從而實現(xiàn)信息消費者和信息生產(chǎn)者的雙贏锨侯。
即解決信息過載問題嫩海。同“分類目錄”和“搜索引擎”。搜索引擎是用戶明確知道自己的需求囚痴,從而主動去找對自己有價值的信息叁怪,而很多情況下用戶是沒有目標(biāo)的,或者說目標(biāo)不明確的深滚。那么奕谭,就需要推薦系統(tǒng)來幫助用戶快速發(fā)現(xiàn)有用信息了,它不需要用戶有明確的興趣需求痴荐,而是通過挖掘用戶行為血柳,給其興趣建模,從而主動給用戶推薦能夠滿足他們興趣需求的信息生兆。
以生活中看電影的例子來說难捌。我們想看電影時,決定看什么電影,基本有以下幾種推薦種類:
- 向朋友根吁、向其他人咨詢推薦(社會化推薦)
- 我喜歡看“周星馳”的電影员淫,那就推薦周星馳早年拍過的,我還沒看過的電影給我(基于內(nèi)容的推薦击敌,推薦在內(nèi)容上和我之前看的相似的電影給我)
- 找到和我興趣比較相似的一群用戶介返,推薦他們看的電影給我(基于協(xié)同過濾)
推薦系統(tǒng)的應(yīng)用
在互聯(lián)網(wǎng)各類網(wǎng)站中都可以看到個性化推薦的應(yīng)用,通過分析大量用戶行為日志沃斤,給不同的用戶提供不同的個性化頁面展示圣蝎,來提高網(wǎng)站的點擊率和轉(zhuǎn)化率。比如網(wǎng)上商城衡瓶、電影和視頻徘公、音樂、社交鞍陨、閱讀步淹、基于位置的服務(wù)、廣告等各個領(lǐng)域诚撵。
推薦結(jié)果展示頁面一般包含以下信息:
- 推薦物品本身的信息缭裆;
- 推薦理由(曾今喜歡/購買過相似的,好友喜歡/好友購買等)
- 用戶反饋交互(喜歡/購買寿烟,or不感興趣)
推薦系統(tǒng)評測——什么才是好的推薦系統(tǒng)澈驼?
什么才是好的推薦系統(tǒng)?
推薦系統(tǒng)的參與者:用戶筛武、物品提供者缝其、提供推薦的網(wǎng)站。
給圖書推薦為例:
首先徘六,推薦系統(tǒng)需要滿足用戶的需求内边,給用戶推薦那些令他們感興趣的圖書;
其次待锈,推薦系統(tǒng)要讓各出版社的書都能被推薦給對其感興趣的用戶漠其,而不是只推薦幾個大型出版社的書;
最后竿音,好的推薦系統(tǒng)設(shè)計和屎,能夠讓推按系統(tǒng)本身收集到高質(zhì)量的用戶反饋,不斷完善推薦的質(zhì)量春瞬,增加用戶和網(wǎng)站的交互柴信,提高網(wǎng)站的收入。
準(zhǔn)確的預(yù)測并不代表是好的推薦
比如說宽气,一個圖書推薦系統(tǒng)預(yù)測一個用戶將來會購買《Thinking in Java》這本書随常,而用戶后來確實購買了潜沦,那這就是一次準(zhǔn)確的預(yù)測。預(yù)測準(zhǔn)確度確實是推薦系統(tǒng)領(lǐng)域的重要指標(biāo)线罕,但是準(zhǔn)確的預(yù)測不代表就是好的推薦止潮。比如說窃判,該用戶早就想買《Thinking in Java》這本書了钞楼,無論你是否推薦,他都準(zhǔn)備買袄琳。那么這個推薦結(jié)果顯然是不太好的询件,因為它并未使用戶購買更多的書,而僅僅是方便用戶購買了一本他原本就準(zhǔn)備買的書唆樊。
好的推薦系統(tǒng)不僅僅要能夠準(zhǔn)確預(yù)測用戶的行為宛琅,而且能夠拓展用戶的視野,幫助用戶發(fā)現(xiàn)那些他們可能會感興趣逗旁,但卻不那么容易發(fā)現(xiàn)的東西嘿辟。同時,推薦系統(tǒng)還要能夠幫助商家將那些埋沒在長尾中的好商品介紹給可能會對它們感興趣的用戶片效。
評測推薦效果的3種實驗方法:
- 離線實驗:
a. 通過日志獲得用戶行為數(shù)據(jù)红伦,并按照一定格式生成一個標(biāo)準(zhǔn)的數(shù)據(jù)集;
b. 然后將數(shù)據(jù)集按照一定的規(guī)則分為訓(xùn)練集和測試集;
c. 在訓(xùn)練集上訓(xùn)練用戶興趣模型,在測試集上進行預(yù)測淀衣;
d. 通過事先定義的指標(biāo)評測在測試集上的預(yù)測結(jié)果昙读。
優(yōu)點:不需要對實際系統(tǒng)的控制權(quán);不需要用戶參與實驗膨桥;速度快蛮浑,可以測試大量算法;
缺點:無法計算商業(yè)上關(guān)心的指標(biāo)只嚣;離線實驗的指標(biāo)和商業(yè)指標(biāo)存在差距沮稚。
- 用戶調(diào)查:
a. 找一些真實的用戶,讓他們在系統(tǒng)上完成一些任務(wù)册舞。
b. 觀察并記錄他們的行為蕴掏,并讓他們回答一些問題。
c. 最后环础,我們需要分析他們的行為和答案來了解測試系統(tǒng)的性能囚似。
優(yōu)點:獲得很多體現(xiàn)用戶主觀感受的指標(biāo),相對風(fēng)險低线得。
缺點:招募測試用戶代價較大饶唤;很難組織大規(guī)模的測試用戶,因此會使測試結(jié)果的統(tǒng)計意義不足贯钩;設(shè)計雙盲實驗非常困難募狂;用戶在測試環(huán)境下和真實環(huán)境下的行為可能有所不同等办素。
- 線上AB測試:
a. 將用戶隨機分成幾組,并對不同組的用戶采用不同的算法;
b. 然后統(tǒng)計不同組用戶的各種不同的評測指標(biāo)來比較算法祸穷。
優(yōu)點:可以公平獲得不同算法線上實際的指標(biāo)性穿,包括商業(yè)上關(guān)注的指標(biāo)。
缺點:周期較長雷滚,長期的實驗才能得到可靠的結(jié)果需曾;其次,大型網(wǎng)站AB測試的設(shè)計也比較復(fù)雜祈远,一個網(wǎng)站多層多模塊協(xié)作呆万,相互影響,一個指標(biāo)的變動车份,很有可能是其他處的變動導(dǎo)致的谋减。
評測推薦效果的評測指標(biāo)
用戶滿意度
通過用戶調(diào)查和在線實驗獲得。用戶調(diào)查就比如問卷調(diào)查扫沼,在線實驗就是指統(tǒng)計到的行為,比如購買行為严就,或者頁面上設(shè)計的推薦反饋按鈕(喜歡抖誉,不感興趣等)
預(yù)測準(zhǔn)確度
覆蓋率
覆蓋率描述一個推薦系統(tǒng)對物品長尾的發(fā)掘能力樊零。覆蓋率為100%的推薦系統(tǒng),會將系統(tǒng)內(nèi)所有物品至少都推薦給一位用戶郁副。
覆蓋率低的推薦系統(tǒng)既荚,容易造成“馬太效應(yīng)”,即所謂強者會更強,弱者會更弱遍略。熱門排行榜就有馬太效應(yīng)蕾久,那些熱門的、曝光率高的物品會越來越熱門,而比較冷門的物品則會越來越冷門。
新穎性
新穎的推薦是指給用戶推薦那些他們以前沒有聽說過的物品。實現(xiàn)新穎性就簡單的辦法是礁鲁,在推薦列表中將該用戶有過行為的物品過濾掉冗美。以視頻網(wǎng)站舉例,過濾掉該用戶那些他之前觀看瀏覽過的的等視頻析二。但是這僅僅是過濾掉了本站的視頻數(shù)據(jù)粉洼,用戶還可能在其他平臺其他媒介上也觀看視頻,僅僅過濾本站數(shù)據(jù)叶摄,過濾得不徹底属韧,新穎性還是不夠。
稍微好點的方案就是蛤吓,利用推薦結(jié)果的平均流行度宵喂,因為越不熱門的物品越可能讓用戶覺得新穎。因此会傲,如果推薦結(jié)果中物品的平均熱門程度較低锅棕,那么推薦結(jié)果就可能有比較高的新穎性。
驚喜性
推薦結(jié)果和用戶的歷史興趣不相似淌山,但卻讓用戶覺得滿意裸燎,那么就可以說推薦結(jié)果的驚喜度很高。而推薦的新穎性僅僅取決于用戶是否聽說過這個推薦結(jié)果泼疑。(發(fā)現(xiàn)寶藏up主德绿,發(fā)現(xiàn)新大陸)
如果獲得了一個用戶觀看電影的歷史,得到這些電影的演員和導(dǎo)演集合A退渗,然后給用戶推薦一個不屬于集合A的導(dǎo)演和演員創(chuàng)作的電影移稳,而用戶表示非常滿意,這樣就實現(xiàn)了一個驚喜度很高的推薦氓辣。
信任度
假如你有兩個朋友秒裕,一個人你很信任,一個人經(jīng)常滿嘴跑火車钞啸。那么前者給你的推薦你很可能會接受几蜻,而后者的推薦你則可能不接受。這兩個人即便他們推薦的內(nèi)容一致体斩,但你卻可能會產(chǎn)生不同的反應(yīng)梭稚。
推薦系統(tǒng)也存在同樣的信任問題,如果用戶信任推薦系統(tǒng)絮吵,那就會增加用戶和推薦系統(tǒng)的交互弧烤。比如在電子商務(wù)、廣告中蹬敲,讓用戶信任的推薦暇昂,就更能讓戶產(chǎn)生購買欲莺戒。
提高推薦系統(tǒng)的信任度可以:
- 增加推薦系統(tǒng)的透明度,即提供解釋急波,讓用戶了解推薦機制从铲。
- 利用用戶的社交網(wǎng)絡(luò)信息,利用用戶的好友給用戶做推薦和推薦解釋(相對平臺而言澄暮,用戶對好友一般比較信任)
實效性
大多數(shù)領(lǐng)域網(wǎng)站的推薦非常在意時效性名段。如新聞資訊網(wǎng)站推薦當(dāng)日或近幾日的新聞,如電子商城推薦剛下單購買相關(guān)的配件泣懊,推薦當(dāng)季的衣物等伸辟。
健壯性
推薦算法也會被攻擊作弊的,其中最著名的就是行為注入攻擊馍刮。比如豆瓣的評分是推薦算法的一個重要參數(shù)信夫,攻擊者可以注冊很多賬號給該物品刷高分,從而影響推薦結(jié)果渠退∶ηǎ或者有些商城的推薦邏輯是“購買商品A的用戶也經(jīng)常購買的其他商品”,它是統(tǒng)計購買商品A的用戶購買其他商品的次數(shù)碎乃,從而形成一個推薦列表。攻擊者可以注冊很多賬號惠奸,用這些賬號同事購買A和自己的商品梅誓,從而提高自己商品在該推薦列表中的排序。
提高系統(tǒng)的健壯性可以這么做:
- 設(shè)計推薦系統(tǒng)時盡量使用代價比較高的用戶行為(購買支付優(yōu)于觀看瀏覽)
- 進行攻擊檢測佛南,清理數(shù)據(jù)梗掰。
商業(yè)目標(biāo)
不同的網(wǎng)站具有不同的商業(yè)目標(biāo),銷售額嗅回、廣告展示總數(shù)及穗、廣告點擊總數(shù)等。
2. 利用用戶行為數(shù)據(jù)
實現(xiàn)個性化推薦的最理想情況是用戶能在注冊的時候主動告訴我們他喜歡什么绵载,但這種方法有3個缺點:
- 現(xiàn)在的自然語言理解技術(shù)很難理解用戶用來描述興趣的自然語言埂陆;
- 用戶的興趣是不斷變化的,到哪用戶不會不停地更新興趣描述娃豹;
- 很多時候用戶并不知道自己喜歡什么焚虱,或者很難用語言描述自己喜歡什么。
協(xié)同過濾算法
基于用戶行為分析的推薦算法是個性化推薦系統(tǒng)的重要算法懂版,學(xué)術(shù)界一般將這種類型的算法稱為協(xié)同過濾算法鹃栽。即用戶可以齊心協(xié)力,通過不斷地和網(wǎng)站互動躯畴,使自己的推薦列表能夠不斷過濾掉自己不感興趣的物品民鼓,從而越來越滿足自己的需求薇芝。
顯性反饋行為和隱形反饋行為
顯性反饋行為包括用戶明確表示對物品喜好的行為(喜歡/不感興趣/點贊/打分;
隱性反饋行為指那些不能明確反映用戶喜好的行為(頁面瀏覽量)
用戶活躍度和物品流行度的關(guān)系
不同活躍度的用戶喜歡的物品的流行度有所差別丰嘉。新用戶傾向于瀏覽熱門的物品夯到,因為他們對網(wǎng)站還不熟悉,只能點擊網(wǎng)頁的熱門物品供嚎,而老用戶會逐漸開始瀏覽冷門的物品黄娘。用戶越活躍,越傾向于瀏覽冷門的物品克滴。
協(xié)同過濾算法
[圖片上傳失敗...(image-506b3a-1574151319079)]
基于用戶的協(xié)同過濾算法:給用戶推薦和他興趣相似的其他用戶喜歡的物品逼争;
基于物品的協(xié)同過濾算法:給用戶推薦和他自己之前喜歡的物品相似的物品。
基于用戶的協(xié)同過濾算法
基于用戶的協(xié)同過濾算法主要包括兩個步驟:
- 找到和推薦目標(biāo)用戶興趣相似的用戶集合劝赔;
- 找到這個集合中的用戶喜歡的誓焦,且目標(biāo)用戶沒有聽說過的物品推薦給他。
兩個冷門物品采取過同樣的行為更能說明他們興趣的相似度着帽≡游埃可因此優(yōu)化改進步驟1尋找相似用戶的集合。(比如兩個用戶都買過《新華字典》仍翰,這絲毫不能說明他們興趣相似赫粥,因為絕大多數(shù)中國人小時候都買過《新華字典》。但若兩個用戶都買過《數(shù)據(jù)挖掘?qū)д摗酚杞瑁强梢哉J為他們的興趣比較相似越平,因為只有研究數(shù)據(jù)挖掘的人才會買這本書)
基于物品的協(xié)同過濾算法
也即它會因為買過《數(shù)據(jù)挖掘?qū)д摗范o你推薦《機器學(xué)習(xí)》。
但是他并不利用物品的內(nèi)容屬性計算物品之間的相似度灵迫,它主要通過分析用戶的行為記錄計算物品之間的相似度秦叛。
基于物品的協(xié)同過濾孫發(fā)主要包括兩個步驟:
- 計算物品之間的相似度;
- 根據(jù)物品的相似度和用戶的歷史行為給用戶生成推薦列表瀑粥。
隱語義模型
基于圖的隨機游走算法
3. 推薦系統(tǒng)冷啟動問題
冷啟動問題分3類:
用戶冷啟動挣跋,給新用戶做個性化推薦的問題。當(dāng)新用戶到來時狞换,我們沒有他的行為數(shù)據(jù)避咆,無法根據(jù)他的歷史行為預(yù)測其興趣,從而無法借此給他做個性化推薦哀澈。
物品冷啟動牌借,物品冷啟動主要解決如何將新的物品推薦給可能對她感興趣的用戶這一問題。
系統(tǒng)冷啟動系統(tǒng)冷啟動主要解決如何在一個新開發(fā)的網(wǎng)站上(還沒有用戶割按,也沒有用戶行為膨报,只有一些物品的信息)設(shè)計個性化推薦系統(tǒng),從而在網(wǎng)站剛發(fā)布時就讓用戶體驗到個性化推薦服務(wù)這一個問題。
可有如下解決方案:
- 提供非個性化的推薦现柠,即熱門排行榜院领;
- 利用用戶注冊時提供的性別、年齡等數(shù)據(jù)做粗粒度的個性化推薦够吩;
- 利用用戶的社交網(wǎng)絡(luò)賬號登錄(需要用戶授權(quán))比然,導(dǎo)入用戶在社交網(wǎng)站上的好友信息,然后給用戶推薦其好友喜歡的物品周循;
- 要求用戶在第一次啟動時强法,對一些分類或物品進行反饋亥鬓,收集用戶對這些物品的興趣信息讽挟,然后給用戶推薦那些和這些物品相似的物品;
- 對于新加入的物品榛泛,可以利用內(nèi)容信息嚎研,將它們推薦給喜歡個偶和他們相似的物品的用戶蓖墅;
- 在系統(tǒng)冷啟動時,可以引入專家知識临扮,通過一定的高效方式迅速建立起物品的相關(guān)度表论矾。
利用用戶注冊信息
- 獲取用戶的注冊信息;
- 根據(jù)用戶的注冊信息對用戶分類杆勇;
- 給用戶推薦他所屬分類中用戶喜歡的物品贪壳。
例如:根據(jù)注冊信息只得知該用戶是27歲的女性,那系統(tǒng)就可以推薦二十幾歲女性都喜歡的熱門商品蚜退。雖然推薦的粒度很粗寥袭,但是相比不區(qū)分男女的方式,精度已經(jīng)大大提高了关霸。
首次啟動直接讓用戶反饋
例如:第一次進入一個電影平臺網(wǎng)站時,網(wǎng)頁會彈出很多電影類別讓用戶選擇感興趣或者喜歡的杰扫。系統(tǒng)據(jù)此來收集用戶興趣队寇。從而實現(xiàn)推薦的冷啟動。
利用物品的內(nèi)容信息
如果物品的內(nèi)容是一些諸如導(dǎo)演章姓、演員等實體的話佳遣,可以直接將這些實體作為關(guān)鍵詞。但如果內(nèi)容是文本的形式凡伊,則需要引入一些理解自然語言的技術(shù)抽取關(guān)鍵詞零渐。最后對關(guān)鍵詞進行排名,計算每個關(guān)鍵詞的權(quán)重系忙。
發(fā)揮專家的作用
例如诵盼,音樂播放平臺,請專家對幾萬首歌曲從多維度打特征標(biāo)簽,解決冷啟動問題风宁。
4. 利用用戶標(biāo)簽數(shù)據(jù)
標(biāo)簽是一種無層次化結(jié)構(gòu)的洁墙、用來描述信息的關(guān)鍵詞。
UGC的標(biāo)簽系統(tǒng)是一種表示用戶興趣和物品語義的重要方式戒财。當(dāng)一個用戶對一個物品打上一個標(biāo)簽热监,這個標(biāo)簽一方面描述了用戶的興趣,另一方面則表示了物品的語義饮寞,從而將用戶和物品聯(lián)系了起來孝扛。
用戶為什么打標(biāo)簽?
便于內(nèi)容上傳者組織自己的信息幽崩;方便廣大用戶查找苦始;傳達信息(照片拍攝時間、地點等)
我們希望用戶打的標(biāo)簽?zāi)軌驕?zhǔn)確描述物品內(nèi)容屬性歉铝,但用戶往往不是按照我們的想法操作盈简,而是可能會給物品打上各種各樣奇奇怪怪的標(biāo)簽。
基于標(biāo)簽的推薦系統(tǒng)
通過標(biāo)簽特征太示,聯(lián)系用戶和物品柠贤,給用戶推薦那些具有用戶喜歡的特征的物品。步驟如下:
- 統(tǒng)計一個用戶最常用的標(biāo)簽类缤;
- 找到具有這些標(biāo)簽的最熱門物品推薦給這個用戶臼勉。
上面第2步中推薦最熱門標(biāo)簽是有嚴(yán)重缺陷的,推薦的是熱門物品餐弱,新穎性比較低宴霸。
清理標(biāo)簽
原因:
- 不是所有標(biāo)簽?zāi)芊磻?yīng)興趣;(用戶打的類似“不好笑”膏蚓、“無聊”的標(biāo)簽瓢谢,不能反應(yīng)出用戶喜歡不好笑和無聊的東西)
- 標(biāo)簽系統(tǒng)里經(jīng)常出現(xiàn)詞形不同、詞義相同的標(biāo)簽驮瞧;
- 標(biāo)簽有時還承擔(dān)推薦解釋的作用氓扛,是要呈現(xiàn)給用戶看的,將其作為給用戶推薦某一物品的解釋论笔,因此對標(biāo)簽的要求較高采郎,需要清理掉低質(zhì)量的標(biāo)簽。
5. 利用上下文信息
上下文信息包括用戶訪問推薦系統(tǒng)的時間狂魔、地點蒜埋、心情等。利用上下文信息最楷,對于提高推薦系統(tǒng)的推薦效果是非常重要的整份。
- 賣衣服的推薦系統(tǒng)在冬天和夏天應(yīng)該給用戶推薦不同的服裝待错;
- 推薦餐廳的推薦系統(tǒng)應(yīng)該基于用戶當(dāng)前所在地理位置做出不同的推薦;
時間上下文信息
時間是一種重要的上下文信息皂林,對用戶興趣有著深入而廣泛的影響朗鸠。
時間信息對用戶興趣的影響表現(xiàn)在:
- 用戶興趣是變化的。 用戶的興趣是會自發(fā)變化的础倍。比如小時候喜歡看動畫片烛占,長大后喜歡看文藝片。一位程序員隨著工作時間的增加沟启,逐漸從閱讀入門書籍過渡到閱讀專業(yè)書籍忆家。
若我們想準(zhǔn)確預(yù)測用戶現(xiàn)在的興趣,就應(yīng)該關(guān)注用戶最近的行為德迹,因為用戶最近的行為最能體現(xiàn)他現(xiàn)在的興趣芽卿。
物品也是有生命周期的。 很少有電影能夠經(jīng)久不衰胳搞, 大多都是上映后不久就會被人們淡忘卸例。所以給用戶推薦電影時,要考慮推薦的電影是否已經(jīng)過時了肌毅。
且不同物品有不同的生命周期筷转,相對新聞的生命周期,電影的生命周期其實已經(jīng)挺久了悬而。季節(jié)效應(yīng)呜舒。 夏天吃冰激凌,冬天吃火鍋 笨奠,夏天穿T恤袭蝗,冬天穿棉衣。
地點上下文信息
6. 利用社交網(wǎng)絡(luò)數(shù)據(jù)
電子郵件
- 聯(lián)系人列表般婆;
- 研究兩個用戶之間的郵件往來頻繁程度度量兩個用戶的熟悉程度到腥;
- 根據(jù)郵件后綴名判斷是否是同一家公司的,同一家公司的則可能相互認識蔚袍,隱性的社交關(guān)系左电;
用戶注冊信息
- 用戶注冊時填寫的學(xué)校、公司等信息页响;
用戶的位置數(shù)據(jù)
- IP地址;
- 對于移動設(shè)備來說段誊,可根據(jù)GPS定位到城市級別闰蚕。有時也可以定位到某棟宿舍樓或者某家公司。對于住在某棟宿舍樓或者同一家公司的用戶可能有好友關(guān)系连舍。
討論和討論組
例如豆瓣上有很多小組没陡,每個小組都包含一些志同道合的人。如果兩個用戶同時加入了很多不同的小組,我們就可以認為這兩個用戶很可能相互了解或者具有相似的興趣盼玄。如果兩個用戶在討論組中增進就某一個帖子共同進行過討論贴彼,那就更加說明他們之間的熟悉程度或興趣相似度很高。
及時聊天工具
- MSN埃儿、QQ和微信等的好友列表器仗,好友分組;
- 統(tǒng)計用戶之間聊天的頻繁程度童番,可以度量出用戶之間的熟悉程度精钮。
社交網(wǎng)站
在Facebook和Twitter誕生之前,社會化應(yīng)用(電子郵件和及時聊天應(yīng)用)都過于封閉剃斧。用戶只能和自己的好友進行交流轨香,而無法了解到好友圈以外的世界,而且用戶之間交流的內(nèi)容都是非常私密的幼东,大部分用戶不會允許將它們公開來用作其他用途臂容。
社會圖譜和興趣圖譜
Facebook和Twitter作為社交網(wǎng)站中的兩個代表,它們其實代表了不同的社交網(wǎng)絡(luò)結(jié)構(gòu)根蟹。在Facebook(微信)里脓杉,人們的好友一般都是自己的在社會中認識的人,比如親戚娜亿、同學(xué)丽已、同事等,而且Facebook中的好友關(guān)系是需要雙方確認的买决;
但在Twitter(微博)中沛婴,人們的好友往往都是現(xiàn)實中自己不認識的,而只是處于對對方言論的興趣而建立好友關(guān)系督赤,好友關(guān)系也是單向的關(guān)注關(guān)系嘁灯。
以Facebook(微信)為代表的社交網(wǎng)絡(luò)稱為社會圖譜,而以Twitter(微博)為代表的社交網(wǎng)絡(luò)稱為興趣網(wǎng)絡(luò)躲舌。
關(guān)于這兩種社交網(wǎng)絡(luò)的分類其實早在19世紀(jì)就被社會學(xué)家研究過了丑婿。19世紀(jì),德國社會學(xué)家斐迪南·滕尼斯認為社會群體分為兩種没卸,一種是通過人們之間的共同興趣和新年形成的羹奉,他將這種社會群體稱為“社區(qū)”。另一種社會群體則是猶豫人們之間的親屬關(guān)系约计,工作關(guān)系而形成的的诀拭,他稱之為“社會”。
社交網(wǎng)絡(luò)數(shù)據(jù)
雙向確認的社交網(wǎng)絡(luò)數(shù)據(jù): 用戶A和用戶B形成好友關(guān)系需要通過雙方的確認煤蚌。(微信耕挨,人人網(wǎng)细卧,F(xiàn)acebook)
單向關(guān)注的社交網(wǎng)絡(luò)數(shù)據(jù): 用戶A可以關(guān)注用戶B而不需要得到用戶B的允許,因此這種社交網(wǎng)絡(luò)中的用戶關(guān)系是單向的筒占。(微博贪庙,Twitter)
基于社區(qū)的社交網(wǎng)絡(luò)數(shù)據(jù): 還有一種社交網(wǎng)絡(luò)數(shù)據(jù),用戶之間沒有明確的關(guān)系翰苫,但是這種數(shù)據(jù)包含了用戶屬于不同社區(qū)的數(shù)據(jù)止邮。(豆瓣小組,屬于同一個小組可能代表了用戶興趣的相似性革骨;同一個學(xué)校的人农尖;同一家公司的人;在同一個課題下發(fā)表論文的不同作者等)
社交網(wǎng)絡(luò)數(shù)據(jù)也遵循長尾分布良哲。即:
- 在一個社交網(wǎng)絡(luò)中影響力大的用戶總是占少數(shù)盛卡;
- 關(guān)注很多人的用戶占少數(shù),絕大多數(shù)用戶只關(guān)注很少的人筑凫。
基于社交網(wǎng)路的推薦
好友推薦可以增加推薦的信任度 用戶對好友的信任勝過平臺滑沧;
社交網(wǎng)絡(luò)可以解決冷啟動問題 在我們還沒有用戶行為數(shù)據(jù)時就可根據(jù)用戶逇社交好友數(shù)據(jù)給用戶推薦物品。
社會化推薦的缺點
有時可能推薦的精準(zhǔn)度不高巍实,尤其是在社會圖譜中滓技,因為用戶的好友關(guān)系不是基于統(tǒng)統(tǒng)興趣產(chǎn)生的,所以用戶好友的興趣往往和好友的興趣并不一致棚潦。
給用戶推薦好友
好友推薦系統(tǒng)的目的是根據(jù)用戶現(xiàn)有的好友令漂、用戶的行為記錄給用戶推薦新的好友,從而增加整個社交網(wǎng)絡(luò)的稠密程度和社交網(wǎng)站用戶的活躍度丸边。
好友推薦算法在社交網(wǎng)絡(luò)上被稱為“鏈接預(yù)測”叠必。
基于用戶屬性的預(yù)測: 畢業(yè)院校、就職公司妹窖、職業(yè)纬朝、同一區(qū)域、同一住址等骄呼;
基于共同興趣的好友推薦: 計算用戶之間的相似度共苛。有些用戶共同一些物品,則說明他們就有相似的興趣蜓萄。(在新浪微博中隅茎,若兩個用戶曾今評論過或轉(zhuǎn)發(fā)過相同的微博,說明他們具有相似的興趣嫉沽。)
基于社交網(wǎng)絡(luò)圖的好友推薦: 給用戶推薦好友的好友患膛。