推薦系統(tǒng)搭建

? ? ? ?社會(huì)發(fā)展離不開效能這一概念茫打,從各個(gè)方面來(lái)說(shuō),效能就是在控制時(shí)間成本拜秧,有效的時(shí)間內(nèi)產(chǎn)生更高的價(jià)值痹屹,這將決定個(gè)體或社會(huì)的進(jìn)步速度。
? ? ? ?毫無(wú)疑問枉氮,互聯(lián)網(wǎng)打通了信息阻隔志衍,讓信息查詢提供了方便,但就是這樣一個(gè)龐然數(shù)據(jù)集群中如何獲取有效的信息成為了人們考慮的核心需求聊替。這時(shí)候楼肪,匹配效率衍生出推薦系統(tǒng)。在此惹悄,我將簡(jiǎn)單的闡述如何搭建一個(gè)推薦系統(tǒng)春叫。

? ? ? ?舉一個(gè)例子:視頻的推薦為例:
? ? ? ?用戶的行為包含:瀏覽跌前,播放放可,點(diǎn)贊,評(píng)論正塌,收藏当纱,分享呛每,不喜歡等行為
? ? ? ?視頻屬性包含:視頻標(biāo)簽(視頻提供者提供),視頻標(biāo)題坡氯,視頻描述晨横,分類(體育,娛樂箫柳,時(shí)事手形,科技等…)
? ? ? ?接下來(lái)將描述的方式會(huì)以理論加例子的方式嵌入到搭建推薦系統(tǒng)流程中

? ? ? ?上圖為推薦系統(tǒng)需要著重注意的流程,而舉例將用混合協(xié)同過濾的方式進(jìn)行推薦悯恍,將在下面進(jìn)行描述库糠,包含的算法將一概而過。

? ? ? ? 首先坪稽,評(píng)分表示曼玩,如上鳞骤,矩陣值表示用戶于各個(gè)項(xiàng)目的評(píng)價(jià)窒百,豎列是用戶黍判,橫向是項(xiàng)目,借此篙梢,我們可以嵌入到視頻推薦里顷帖,那么將如下圖所示,如果用戶有橫列行為將表示1渤滞,如果無(wú)將為0贬墩。我們可以定性的了解到對(duì)于用戶的相似性可以通過行為相似性進(jìn)行比照,當(dāng)然對(duì)于自然屬性(性別妄呕,年齡等)的應(yīng)用還可以更加精確陶舞。

? ? ? ? 那“臨近選擇”中,假定user i 與user j 的相似性绪励,這種度量相似性叫做jaccard系數(shù)肿孵,但是這種方式有其拓展的局限性(并不是所有特征都是0或1的關(guān)系);引入一種常用的方式叫做皮爾遜相關(guān)的方式疏魏,具體度量?jī)蓚€(gè)變量間線性相關(guān)程度停做,它介于1與-1之間,所以對(duì)于視頻場(chǎng)景下會(huì)有更好的效果大莫。因此蛉腌,評(píng)分表示將如下:

-1<=Rnm<=1, 而如何定義Rnm將較為關(guān)鍵,即用戶對(duì)某一個(gè)視頻的評(píng)價(jià)值(其影響因素包含只厘,用戶對(duì)其產(chǎn)生的行為烙丛,瀏覽,播放羔味,點(diǎn)贊等)蜀变,其每一種行為特征都將授予不同的權(quán)值,而這個(gè)權(quán)值可通過線性回歸的方式進(jìn)行計(jì)算(其原理是某用戶發(fā)生一次特定行為最優(yōu)可能概率介评,讓其無(wú)線接近于真實(shí)發(fā)生的情況)库北,接著基于皮爾遜相關(guān)求出sim-R(i,j)们陆,以此類推求得用戶之間的相鄰用戶寒瓦。

? ? ? ? 基于此,實(shí)際上已經(jīng)可以進(jìn)行下一步坪仇,但提升相似性度量的準(zhǔn)確性是精準(zhǔn)推薦的前提杂腰,因此在這里我們可以進(jìn)一步提升相似性度量,增加用戶對(duì)興趣標(biāo)簽的偏好(定性可知椅文,興趣越高喂很,用戶對(duì)其興趣的視頻評(píng)價(jià)越高)惜颇,增加視頻-標(biāo)簽的矩陣,基礎(chǔ)之上少辣,還可以在細(xì)分下具體的標(biāo)簽凌摄,伴隨其越多,將更好的提升相似性度量值漓帅,在介于之前用戶與視頻的矩陣锨亏,可算出用戶對(duì)標(biāo)簽的興趣偏好(伴隨文本標(biāo)準(zhǔn)技術(shù)的提升,可以直接提取視頻內(nèi)容(視頻描述忙干,視頻標(biāo)題器予,視頻本身)的標(biāo)簽),得sim-I(i捐迫,j)乾翔,在加之視頻與用戶的關(guān)系矩陣,對(duì)于視頻與標(biāo)簽我們可以得出施戴。那么對(duì)于最終的相似度sim-總(i反浓,j)=S總(sim-R(i,j)暇韧,sim-G(i勾习,j))的相關(guān)函數(shù),在這一環(huán)節(jié)最后一步設(shè)定一個(gè)參數(shù)去選擇臨近用戶集懈玻,因此參數(shù)的選擇將影響推薦內(nèi)容質(zhì)量巧婶。

? ? ? ?對(duì)于相似度的度量,用戶行為除了行為本身涂乌,在就是對(duì)行為基礎(chǔ)上增加時(shí)序的概念艺栈,可以有效的提升其相似度的準(zhǔn)確性。

? ? ? ?當(dāng)我們完成臨近用戶的選擇后湾盒,并基于之上的例子湿右,為用戶i推薦視頻,那么我們知道i的臨近用戶集i ?{user x1罚勾,user x2…..}-à 推薦視頻子集?{video x1-1毅人,video x1-2…….},那么開始進(jìn)入“產(chǎn)生推薦”環(huán)節(jié),對(duì)視頻進(jìn)行預(yù)測(cè)評(píng)分尖殃,基于用戶i,“user x1”之間的相似度丈莺,用戶i和user x1對(duì)共集視頻的平均評(píng)分及用戶user x1對(duì)要推薦的視頻video x1-1的評(píng)分,可求出預(yù)測(cè)用戶i可能會(huì)對(duì)video x1-1的評(píng)價(jià)送丰,在基于此基礎(chǔ)之上缔俄,可以求出整個(gè)視頻集合下的預(yù)測(cè)提評(píng)價(jià)。這里面,會(huì)有多個(gè)用戶對(duì)視頻有共同交集的情況俐载,例如:user x1和user x2 都看了 videox1-1蟹略,那么視頻video x1-1將獲得更高的權(quán)值去左右最終的排序,那么我們得到最終影響排名的P=P(P預(yù)測(cè)評(píng)分遏佣,x交集影響)(P預(yù)測(cè)評(píng)分挖炬,R為實(shí)際評(píng)分,x共交集加權(quán)影響系數(shù))贼急,最終得到P茅茂,并通過P得到推薦視頻的TopN捏萍。

? ? ? ?這邊需要提到的是對(duì)視頻去重問題的處理太抓,在沒有對(duì)視頻進(jìn)行文本標(biāo)注的時(shí)候,需要把視頻標(biāo)簽相似度設(shè)定置信區(qū)間低于一定的數(shù)值是不同令杈,相似度超過某一值是表達(dá)視頻內(nèi)容一致的走敌。當(dāng)然,除此之外對(duì)于評(píng)論內(nèi)容的抓取逗噩,也是增加視頻標(biāo)注的維度掉丽。相似度較高的視頻們進(jìn)行評(píng)分比對(duì),在進(jìn)行推薦异雁。

? ? ? ? 在這里捶障,得到了基于數(shù)據(jù)反饋的推薦內(nèi)容,而對(duì)于新視頻的推薦纲刀,將通過冷啟動(dòng)的方式進(jìn)行推薦项炼,根據(jù)視頻本身蘊(yùn)含標(biāo)簽與用戶的基于標(biāo)簽的興趣的匹配權(quán)值進(jìn)行推薦,其大致的流程是:

? ? ? ?視頻上傳顧名思義是視頻提供者把視頻上傳示绊,并附加視頻標(biāo)題锭部,視頻內(nèi)容及視頻標(biāo)簽,通過內(nèi)容提供者提供的視頻信息面褐,做出視頻本身的特征及特征所占視頻的權(quán)重拌禾,后者基本方法是基于詞頻。(如果可以提取視頻的特征(技術(shù)成熟)將減少內(nèi)容提供者對(duì)視頻本身描述帶來(lái)的偏差)展哭。

? ? ? ?通過新視頻的標(biāo)簽向量(視頻多個(gè)標(biāo)簽且對(duì)應(yīng)標(biāo)簽占視頻權(quán)重值)比對(duì)相似性的視頻集湃窍,通過視頻集反饋出評(píng)價(jià)此類視頻較高的用戶,進(jìn)行定量推送匪傍,由于新視頻的質(zhì)量無(wú)法把控您市,因此,分層(即評(píng)分用戶析恢,評(píng)分用戶從高到低排列墨坚,并在每一層提取部分測(cè)試用戶)和用戶已接受新內(nèi)容次數(shù)都需考慮在內(nèi),并通過之前的預(yù)測(cè)評(píng)分的方式(其方法一致,不過是通過視頻本身相似度泽篮,再通過用戶已知視頻評(píng)分區(qū)預(yù)測(cè)要推薦視頻)盗尸,求出新內(nèi)容可能的預(yù)測(cè)值(不過預(yù)測(cè)值是隨著視頻描述標(biāo)簽的增多變得精準(zhǔn),當(dāng)然如果可以視頻文本標(biāo)注將最好)帽撑,但整個(gè)環(huán)節(jié)中可能會(huì)出現(xiàn)內(nèi)容提供者作弊泼各,即強(qiáng)行對(duì)視頻加高權(quán)重標(biāo)簽來(lái)影響自身的預(yù)評(píng)價(jià)分,最終使其排名靠前亏拉。因此扣蜻,需要加強(qiáng)對(duì)視頻提供者的監(jiān)管制度(例如:對(duì)評(píng)價(jià)的文本提取,預(yù)測(cè)評(píng)分和實(shí)際評(píng)分差距較大進(jìn)行提取及塘,并對(duì)其用戶進(jìn)行懲罰莽使,降低之后發(fā)視頻的排名等)。

? ? ? ?另外笙僚,對(duì)于推薦內(nèi)容的收斂問題(隨著用戶看視頻越多芳肌,視頻內(nèi)容類型就越單一),也可以通過這種階梯型冷啟動(dòng)進(jìn)行優(yōu)化肋层。

? ? ? ?當(dāng)預(yù)測(cè)評(píng)分完成后亿笤,也就意味著視頻推薦的排序完成,接著栋猖,需要對(duì)推薦系統(tǒng)進(jìn)行測(cè)評(píng)净薛,可以通過以下幾個(gè)指標(biāo)進(jìn)行考量(本版本文章將簡(jiǎn)單說(shuō)評(píng)測(cè)指標(biāo) ):

1. 預(yù)測(cè)精準(zhǔn)度:需要校準(zhǔn)視頻預(yù)測(cè)評(píng)價(jià)與真實(shí)評(píng)價(jià)的差距,進(jìn)而優(yōu)化預(yù)測(cè)精度(平均絕對(duì)誤差)

2. 準(zhǔn)確率:在所有推薦的視頻中有多少個(gè)用戶點(diǎn)擊瀏覽的(其中需要把播放指標(biāo)算出)

3. 召回率:在所有看過的視頻中有多少是推薦系統(tǒng)推薦的視頻(其中需要把播放指標(biāo)算出)

4. 覆蓋率:需要考量是否所有的視頻都有機(jī)會(huì)被推薦

5. 多樣性:防止推薦的內(nèi)容過度收斂蒲拉,可以通過計(jì)算推薦列表中視頻相似度進(jìn)行計(jì)算肃拜。

6. 信任度:可以通過推薦視頻的分享量進(jìn)行考核

7. 反作弊能力:例如:某些視頻提供者批量注冊(cè)用戶,去刷關(guān)鍵行為以增加預(yù)測(cè)評(píng)分全陨,但視頻質(zhì)量又偏低等爆班。

?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市辱姨,隨后出現(xiàn)的幾起案子柿菩,更是在濱河造成了極大的恐慌,老刑警劉巖雨涛,帶你破解...
    沈念sama閱讀 206,968評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件枢舶,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡替久,警方通過查閱死者的電腦和手機(jī)凉泄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)蚯根,“玉大人后众,你說(shuō)我怎么就攤上這事。” “怎么了蒂誉?”我有些...
    開封第一講書人閱讀 153,220評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵教藻,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我右锨,道長(zhǎng)括堤,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,416評(píng)論 1 279
  • 正文 為了忘掉前任绍移,我火速辦了婚禮悄窃,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘蹂窖。我一直安慰自己轧抗,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評(píng)論 5 374
  • 文/花漫 我一把揭開白布恼策。 她就那樣靜靜地躺著鸦致,像睡著了一般潮剪。 火紅的嫁衣襯著肌膚如雪涣楷。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,144評(píng)論 1 285
  • 那天抗碰,我揣著相機(jī)與錄音狮斗,去河邊找鬼。 笑死弧蝇,一個(gè)胖子當(dāng)著我的面吹牛碳褒,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播看疗,決...
    沈念sama閱讀 38,432評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼沙峻,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了两芳?” 一聲冷哼從身側(cè)響起摔寨,我...
    開封第一講書人閱讀 37,088評(píng)論 0 261
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎怖辆,沒想到半個(gè)月后是复,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,586評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡竖螃,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評(píng)論 2 325
  • 正文 我和宋清朗相戀三年淑廊,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片特咆。...
    茶點(diǎn)故事閱讀 38,137評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡季惩,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情画拾,我是刑警寧澤关摇,帶...
    沈念sama閱讀 33,783評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站碾阁,受9級(jí)特大地震影響输虱,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜脂凶,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評(píng)論 3 307
  • 文/蒙蒙 一宪睹、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蚕钦,春花似錦亭病、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至邮屁,卻和暖如春整袁,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背佑吝。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工坐昙, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人芋忿。 一個(gè)月前我還...
    沈念sama閱讀 45,595評(píng)論 2 355
  • 正文 我出身青樓炸客,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親戈钢。 傳聞我的和親對(duì)象是個(gè)殘疾皇子痹仙,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容