? ? ? ?社會(huì)發(fā)展離不開效能這一概念茫打,從各個(gè)方面來(lái)說(shuō),效能就是在控制時(shí)間成本拜秧,有效的時(shí)間內(nèi)產(chǎn)生更高的價(jià)值痹屹,這將決定個(gè)體或社會(huì)的進(jìn)步速度。
? ? ? ?毫無(wú)疑問枉氮,互聯(lián)網(wǎng)打通了信息阻隔志衍,讓信息查詢提供了方便,但就是這樣一個(gè)龐然數(shù)據(jù)集群中如何獲取有效的信息成為了人們考慮的核心需求聊替。這時(shí)候楼肪,匹配效率衍生出推薦系統(tǒng)。在此惹悄,我將簡(jiǎn)單的闡述如何搭建一個(gè)推薦系統(tǒng)春叫。
? ? ? ?舉一個(gè)例子:視頻的推薦為例:
? ? ? ?用戶的行為包含:瀏覽跌前,播放放可,點(diǎn)贊,評(píng)論正塌,收藏当纱,分享呛每,不喜歡等行為
? ? ? ?視頻屬性包含:視頻標(biāo)簽(視頻提供者提供),視頻標(biāo)題坡氯,視頻描述晨横,分類(體育,娛樂箫柳,時(shí)事手形,科技等…)
? ? ? ?接下來(lái)將描述的方式會(huì)以理論加例子的方式嵌入到搭建推薦系統(tǒng)流程中
? ? ? ?上圖為推薦系統(tǒng)需要著重注意的流程,而舉例將用混合協(xié)同過濾的方式進(jìn)行推薦悯恍,將在下面進(jìn)行描述库糠,包含的算法將一概而過。
? ? ? ? 首先坪稽,評(píng)分表示曼玩,如上鳞骤,矩陣值表示用戶于各個(gè)項(xiàng)目的評(píng)價(jià)窒百,豎列是用戶黍判,橫向是項(xiàng)目,借此篙梢,我們可以嵌入到視頻推薦里顷帖,那么將如下圖所示,如果用戶有橫列行為將表示1渤滞,如果無(wú)將為0贬墩。我們可以定性的了解到對(duì)于用戶的相似性可以通過行為相似性進(jìn)行比照,當(dāng)然對(duì)于自然屬性(性別妄呕,年齡等)的應(yīng)用還可以更加精確陶舞。
? ? ? ? 那“臨近選擇”中,假定user i 與user j 的相似性绪励,這種度量相似性叫做jaccard系數(shù)肿孵,但是這種方式有其拓展的局限性(并不是所有特征都是0或1的關(guān)系);引入一種常用的方式叫做皮爾遜相關(guān)的方式疏魏,具體度量?jī)蓚€(gè)變量間線性相關(guān)程度停做,它介于1與-1之間,所以對(duì)于視頻場(chǎng)景下會(huì)有更好的效果大莫。因此蛉腌,評(píng)分表示將如下:
-1<=Rnm<=1, 而如何定義Rnm將較為關(guān)鍵,即用戶對(duì)某一個(gè)視頻的評(píng)價(jià)值(其影響因素包含只厘,用戶對(duì)其產(chǎn)生的行為烙丛,瀏覽,播放羔味,點(diǎn)贊等)蜀变,其每一種行為特征都將授予不同的權(quán)值,而這個(gè)權(quán)值可通過線性回歸的方式進(jìn)行計(jì)算(其原理是某用戶發(fā)生一次特定行為最優(yōu)可能概率介评,讓其無(wú)線接近于真實(shí)發(fā)生的情況)库北,接著基于皮爾遜相關(guān)求出sim-R(i,j)们陆,以此類推求得用戶之間的相鄰用戶寒瓦。
? ? ? ? 基于此,實(shí)際上已經(jīng)可以進(jìn)行下一步坪仇,但提升相似性度量的準(zhǔn)確性是精準(zhǔn)推薦的前提杂腰,因此在這里我們可以進(jìn)一步提升相似性度量,增加用戶對(duì)興趣標(biāo)簽的偏好(定性可知椅文,興趣越高喂很,用戶對(duì)其興趣的視頻評(píng)價(jià)越高)惜颇,增加視頻-標(biāo)簽的矩陣,基礎(chǔ)之上少辣,還可以在細(xì)分下具體的標(biāo)簽凌摄,伴隨其越多,將更好的提升相似性度量值漓帅,在介于之前用戶與視頻的矩陣锨亏,可算出用戶對(duì)標(biāo)簽的興趣偏好(伴隨文本標(biāo)準(zhǔn)技術(shù)的提升,可以直接提取視頻內(nèi)容(視頻描述忙干,視頻標(biāo)題器予,視頻本身)的標(biāo)簽),得sim-I(i捐迫,j)乾翔,在加之視頻與用戶的關(guān)系矩陣,對(duì)于視頻與標(biāo)簽我們可以得出施戴。那么對(duì)于最終的相似度sim-總(i反浓,j)=S總(sim-R(i,j)暇韧,sim-G(i勾习,j))的相關(guān)函數(shù),在這一環(huán)節(jié)最后一步設(shè)定一個(gè)參數(shù)去選擇臨近用戶集懈玻,因此參數(shù)的選擇將影響推薦內(nèi)容質(zhì)量巧婶。
? ? ? ?對(duì)于相似度的度量,用戶行為除了行為本身涂乌,在就是對(duì)行為基礎(chǔ)上增加時(shí)序的概念艺栈,可以有效的提升其相似度的準(zhǔn)確性。
? ? ? ?當(dāng)我們完成臨近用戶的選擇后湾盒,并基于之上的例子湿右,為用戶i推薦視頻,那么我們知道i的臨近用戶集i ?{user x1罚勾,user x2…..}-à 推薦視頻子集?{video x1-1毅人,video x1-2…….},那么開始進(jìn)入“產(chǎn)生推薦”環(huán)節(jié),對(duì)視頻進(jìn)行預(yù)測(cè)評(píng)分尖殃,基于用戶i,“user x1”之間的相似度丈莺,用戶i和user x1對(duì)共集視頻的平均評(píng)分及用戶user x1對(duì)要推薦的視頻video x1-1的評(píng)分,可求出預(yù)測(cè)用戶i可能會(huì)對(duì)video x1-1的評(píng)價(jià)送丰,在基于此基礎(chǔ)之上缔俄,可以求出整個(gè)視頻集合下的預(yù)測(cè)提評(píng)價(jià)。這里面,會(huì)有多個(gè)用戶對(duì)視頻有共同交集的情況俐载,例如:user x1和user x2 都看了 videox1-1蟹略,那么視頻video x1-1將獲得更高的權(quán)值去左右最終的排序,那么我們得到最終影響排名的P=P(P預(yù)測(cè)評(píng)分遏佣,x交集影響)(P預(yù)測(cè)評(píng)分挖炬,R為實(shí)際評(píng)分,x共交集加權(quán)影響系數(shù))贼急,最終得到P茅茂,并通過P得到推薦視頻的TopN捏萍。
? ? ? ?這邊需要提到的是對(duì)視頻去重問題的處理太抓,在沒有對(duì)視頻進(jìn)行文本標(biāo)注的時(shí)候,需要把視頻標(biāo)簽相似度設(shè)定置信區(qū)間低于一定的數(shù)值是不同令杈,相似度超過某一值是表達(dá)視頻內(nèi)容一致的走敌。當(dāng)然,除此之外對(duì)于評(píng)論內(nèi)容的抓取逗噩,也是增加視頻標(biāo)注的維度掉丽。相似度較高的視頻們進(jìn)行評(píng)分比對(duì),在進(jìn)行推薦异雁。
? ? ? ? 在這里捶障,得到了基于數(shù)據(jù)反饋的推薦內(nèi)容,而對(duì)于新視頻的推薦纲刀,將通過冷啟動(dòng)的方式進(jìn)行推薦项炼,根據(jù)視頻本身蘊(yùn)含標(biāo)簽與用戶的基于標(biāo)簽的興趣的匹配權(quán)值進(jìn)行推薦,其大致的流程是:
? ? ? ?視頻上傳顧名思義是視頻提供者把視頻上傳示绊,并附加視頻標(biāo)題锭部,視頻內(nèi)容及視頻標(biāo)簽,通過內(nèi)容提供者提供的視頻信息面褐,做出視頻本身的特征及特征所占視頻的權(quán)重拌禾,后者基本方法是基于詞頻。(如果可以提取視頻的特征(技術(shù)成熟)將減少內(nèi)容提供者對(duì)視頻本身描述帶來(lái)的偏差)展哭。
? ? ? ?通過新視頻的標(biāo)簽向量(視頻多個(gè)標(biāo)簽且對(duì)應(yīng)標(biāo)簽占視頻權(quán)重值)比對(duì)相似性的視頻集湃窍,通過視頻集反饋出評(píng)價(jià)此類視頻較高的用戶,進(jìn)行定量推送匪傍,由于新視頻的質(zhì)量無(wú)法把控您市,因此,分層(即評(píng)分用戶析恢,評(píng)分用戶從高到低排列墨坚,并在每一層提取部分測(cè)試用戶)和用戶已接受新內(nèi)容次數(shù)都需考慮在內(nèi),并通過之前的預(yù)測(cè)評(píng)分的方式(其方法一致,不過是通過視頻本身相似度泽篮,再通過用戶已知視頻評(píng)分區(qū)預(yù)測(cè)要推薦視頻)盗尸,求出新內(nèi)容可能的預(yù)測(cè)值(不過預(yù)測(cè)值是隨著視頻描述標(biāo)簽的增多變得精準(zhǔn),當(dāng)然如果可以視頻文本標(biāo)注將最好)帽撑,但整個(gè)環(huán)節(jié)中可能會(huì)出現(xiàn)內(nèi)容提供者作弊泼各,即強(qiáng)行對(duì)視頻加高權(quán)重標(biāo)簽來(lái)影響自身的預(yù)評(píng)價(jià)分,最終使其排名靠前亏拉。因此扣蜻,需要加強(qiáng)對(duì)視頻提供者的監(jiān)管制度(例如:對(duì)評(píng)價(jià)的文本提取,預(yù)測(cè)評(píng)分和實(shí)際評(píng)分差距較大進(jìn)行提取及塘,并對(duì)其用戶進(jìn)行懲罰莽使,降低之后發(fā)視頻的排名等)。
? ? ? ?另外笙僚,對(duì)于推薦內(nèi)容的收斂問題(隨著用戶看視頻越多芳肌,視頻內(nèi)容類型就越單一),也可以通過這種階梯型冷啟動(dòng)進(jìn)行優(yōu)化肋层。
? ? ? ?當(dāng)預(yù)測(cè)評(píng)分完成后亿笤,也就意味著視頻推薦的排序完成,接著栋猖,需要對(duì)推薦系統(tǒng)進(jìn)行測(cè)評(píng)净薛,可以通過以下幾個(gè)指標(biāo)進(jìn)行考量(本版本文章將簡(jiǎn)單說(shuō)評(píng)測(cè)指標(biāo) ):
1. 預(yù)測(cè)精準(zhǔn)度:需要校準(zhǔn)視頻預(yù)測(cè)評(píng)價(jià)與真實(shí)評(píng)價(jià)的差距,進(jìn)而優(yōu)化預(yù)測(cè)精度(平均絕對(duì)誤差)
2. 準(zhǔn)確率:在所有推薦的視頻中有多少個(gè)用戶點(diǎn)擊瀏覽的(其中需要把播放指標(biāo)算出)
3. 召回率:在所有看過的視頻中有多少是推薦系統(tǒng)推薦的視頻(其中需要把播放指標(biāo)算出)
4. 覆蓋率:需要考量是否所有的視頻都有機(jī)會(huì)被推薦
5. 多樣性:防止推薦的內(nèi)容過度收斂蒲拉,可以通過計(jì)算推薦列表中視頻相似度進(jìn)行計(jì)算肃拜。
6. 信任度:可以通過推薦視頻的分享量進(jìn)行考核
7. 反作弊能力:例如:某些視頻提供者批量注冊(cè)用戶,去刷關(guān)鍵行為以增加預(yù)測(cè)評(píng)分全陨,但視頻質(zhì)量又偏低等爆班。
?