隨著網(wǎng)絡(luò)購(gòu)物所能涵蓋的物品類型越來越廣泛璧尸,人們逐漸發(fā)現(xiàn)推薦系統(tǒng)中的CF推薦算法和CB推薦算法并不能很好的適應(yīng)某些特殊物品的推薦需求。例如熬拒,更新?lián)Q代非骋猓快而人們又通常不會(huì)頻繁購(gòu)買的電子產(chǎn)品等。對(duì)于這些產(chǎn)品來說澎粟,其各方面的性能參數(shù)在幾年之間就會(huì)有很大變化蛀序,代表著歷史偏好的用戶畫像并不能很好的反映用戶當(dāng)前的購(gòu)買需求,于是就需要推薦系統(tǒng)將用戶的當(dāng)前需求作為重要的信息參考源活烙。人們發(fā)現(xiàn)可以利用物品的參數(shù)特征等屬性形成約束知識(shí)哼拔,再將用戶對(duì)物品的特定需求刻畫為約束條件,然后經(jīng)過對(duì)物品集合的約束滿足問題的求解瓣颅,就可以得到用戶所期望的物品了。
在視頻推薦領(lǐng)域中譬正,基于約束的推薦可以被應(yīng)用在針對(duì)某一特定類型影片的深度垂直搜索中宫补,通常這類影片具有區(qū)別于其他類型影片的專業(yè)特色屬性,而相對(duì)應(yīng)的用戶對(duì)此類型的影片也有著一定程度的專業(yè)性了解曾我。例如粉怕,音樂愛好者在搜索古典音樂紀(jì)錄片時(shí),他們可能會(huì)傾向于將影片中所涉及的某些音樂元素作為約束條件抒巢。
通過一個(gè)約束知識(shí)示例贫贝,對(duì)約束滿足問題和關(guān)聯(lián)推薦算法的運(yùn)作流程進(jìn)行介紹。
1.約束知識(shí)示例
對(duì)于音樂愛好者來說蛉谜,他們對(duì)古典音樂紀(jì)錄片所看重的屬性可能是影片話題(如鋼琴家稚晚、小提琴家、指揮家等)型诚、影片所涉及的音樂家或者音樂團(tuán)體客燕、影片時(shí)長(zhǎng)及發(fā)行年代等。倘若對(duì)這些獨(dú)具特色的屬性來對(duì)古典音樂紀(jì)錄片進(jìn)行表示時(shí)狰贯,就可以得到一個(gè)集合示例也搓。然后有了這個(gè)集合后,就可以將基于約束知識(shí)的推薦過程視為約束滿足問題的解決過程涵紊。約束滿足問題可以通過以下定義得到明確描述傍妒。
1.創(chuàng)建推薦任務(wù)
推薦任務(wù)是以元組(R,I)的形式表示出來的,其中用集合R表示目標(biāo)用戶對(duì)物品的特定需求摸柄,即對(duì)物品的約束條件颤练,用集合I表示一個(gè)物品集合。上例中推薦任務(wù)的完成目標(biāo)是從集合I中確定出能夠滿足集合R要求的物品塘幅。
當(dāng)推薦系統(tǒng)找不到能夠滿足目標(biāo)用戶所給出的約束條件的物品時(shí)昔案,為了仍要生成推薦物品列表尿贫,系統(tǒng)就需要對(duì)約束條件做一定程度的修改,從而主動(dòng)提出某些備選方案踏揣。
關(guān)聯(lián)知識(shí)與關(guān)聯(lián)推薦算法
關(guān)聯(lián)知識(shí)以關(guān)聯(lián)規(guī)則為表現(xiàn)形式庆亡,用以描述數(shù)據(jù)庫(kù)中數(shù)據(jù)之間關(guān)聯(lián)性的知識(shí)。在推薦系統(tǒng)領(lǐng)域中捞稿,可以通過對(duì)用戶畫像中關(guān)聯(lián)規(guī)則的挖掘來分析用戶習(xí)慣又谋,發(fā)現(xiàn)物品之間的關(guān)聯(lián)性,并利用這種關(guān)聯(lián)性指導(dǎo)系統(tǒng)做出推薦娱局。典型的關(guān)聯(lián)規(guī)則挖掘問題是美國(guó)沃爾瑪超市分析發(fā)現(xiàn)的“尿布與啤酒”現(xiàn)象就是一個(gè)尤為經(jīng)典的案例彰亥。在視頻推薦領(lǐng)域中我們也常能發(fā)現(xiàn)關(guān)聯(lián)推薦算法的身影,以豆瓣電影的推薦為例衰齐,在世界著名古典音樂指揮家卡拉揚(yáng)的記錄片“卡拉揚(yáng)——至臻完美”的影片信息頁(yè)面中任斋,我們可以看到豆瓣的推薦系統(tǒng)在其推薦領(lǐng)區(qū)域會(huì)顯示出對(duì)“鋼琴的藝術(shù)”、“小提琴家的藝術(shù)”等音樂紀(jì)錄片的推薦耻涛,而不僅僅是“指揮的藝術(shù)”废酷。實(shí)際上,喜歡古典音樂的觀影者確實(shí)會(huì)觀看上述影片抹缕,她們更希望系統(tǒng)不局限于某個(gè)類別中基于影片相似度的推薦如(繼續(xù)推薦一些介紹其他指揮家的影片或介紹卡拉揚(yáng)的其他影片澈蟆,而是出現(xiàn)一些基于影片關(guān)聯(lián)性的推薦(如推薦出一些介紹其他古典音樂大師的記錄片)。
1.關(guān)聯(lián)推薦算法流程
算法輸入:n個(gè)用戶畫像卓研。
算法輸出:針對(duì)目標(biāo)用戶U的Top-N的推薦列表趴俘。
1.從系統(tǒng)中的n個(gè)用戶畫像中挖掘出所有強(qiáng)關(guān)聯(lián)規(guī)則,建立集合Pu以表示目標(biāo)用戶U尚未觀看但極可能感興趣的視頻奏赘。
2.再次使用置信度對(duì)集合Pu中的視頻進(jìn)行高低排序寥闪。
3.取出排序列表中的前N個(gè)視頻構(gòu)成Top-N推薦列表。
由于對(duì)系統(tǒng)中全體用戶的畫像進(jìn)行關(guān)聯(lián)規(guī)則挖掘意義不明顯且計(jì)算量大志珍,所以基于關(guān)聯(lián)規(guī)則的推薦算法常與CF推薦算法混合使用橙垢。在這類混個(gè)方案中,使用了CF推薦算法中的最近鄰算法將上表中的用戶畫像數(shù)目n限定在目標(biāo)用戶的最鄰近范圍內(nèi)伦糯,使得關(guān)聯(lián)規(guī)則挖掘算法所處理的數(shù)據(jù)規(guī)模被有針對(duì)性的限制咋一定范圍內(nèi)柜某。同時(shí),為了避免由于這種數(shù)據(jù)規(guī)模的限制而導(dǎo)致關(guān)聯(lián)規(guī)則的挖掘結(jié)果受限敛纲,這類混合方案也會(huì)將CF推薦算法的結(jié)果作為對(duì)基于關(guān)聯(lián)規(guī)則推薦算法結(jié)果的有效補(bǔ)充喂击,納入到最終的推薦列表中。
并行式混合
并行式混合方法包括加權(quán)式淤翔、切換式和混雜式翰绊,其共同點(diǎn)是運(yùn)用特定的混合機(jī)制將系統(tǒng)內(nèi)的多種推薦算法的輸出結(jié)果加以整合形成最終的輸出。
加權(quán)式混合方法式眾多混合方法中最易設(shè)計(jì)出混合推薦系統(tǒng)的一種方法,它是將系統(tǒng)中不同的推薦算法所生成的物品評(píng)分监嗜、物品排序等推薦結(jié)果進(jìn)行線性的加權(quán)組合谐檀,生成最終的推薦結(jié)果。加權(quán)式混合方法的過程分為訓(xùn)練階段裁奇、生成候選物品階段和生成評(píng)分階段桐猬。在訓(xùn)練階段,各推薦算法使用相同的訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練刽肠,直到能為測(cè)試用戶提供候選物品的程度為止溃肪,之后進(jìn)入到生成候選物品階段。在生成候選物品階段音五,各推薦算法對(duì)同一用戶畫像進(jìn)行候選物品的生成惫撰。需要注意的是,各推薦算法所能覆蓋的物品范圍是有差異的躺涝,例如厨钻,CF推薦算法只能覆蓋到已評(píng)分的物品,而CB類推薦算法可以覆蓋到任何物品坚嗜,在確定候選物品的范圍時(shí)就要考慮到這一情況莉撇。在本階段的最后,各推薦算法生成的候選物品一般要通過并集或交集的形式來結(jié)合惶傻。在生成評(píng)分階段,各推薦算法對(duì)上一階段生成的候選物品集中每一個(gè)候選物品進(jìn)行評(píng)分其障,系統(tǒng)再按照一定的加權(quán)方式(權(quán)重分配)將同一物品的各方評(píng)分綜合為一個(gè)最終的分?jǐn)?shù)银室,并按此分?jǐn)?shù)對(duì)候選物品排序作為輸出。
使用加權(quán)式混合方法的好處在于可以將系統(tǒng)的全部性能以最直接的方式應(yīng)用在推薦過程中励翼,而且在后期可以很容易對(duì)系統(tǒng)中的各推薦算法的權(quán)重分配進(jìn)行調(diào)整蜈敢。但需要注意的是,使用加權(quán)混合方法的一個(gè)隱含 假設(shè)是系統(tǒng)中各推薦算法在用戶和物品范圍上的性能應(yīng)該在一定程度上是統(tǒng)一的汽抚。很顯然CF類推薦算法在較新物品上的覆蓋能力很弱抓狭,將之與CB類推薦算法進(jìn)行混合時(shí)就需要對(duì)它們的候選物品空間做調(diào)整,這其實(shí)是犧牲了一部分CB類推薦算法的優(yōu)勢(shì)造烁。
2.切換式混合方法是指系統(tǒng)會(huì)根據(jù)推薦時(shí)的具體情況在以上各種推薦算法中做切換否过,選擇一種最適合的推薦算法,這種方法考慮到了不同的推薦算法對(duì)用戶和物品范圍的覆蓋能力惭蟋,對(duì)于不同的用戶畫像苗桂,系統(tǒng)會(huì)選擇出不同的推薦算法來匹配。
切換式混合方法的過程分為訓(xùn)練階段告组、算法選擇階段煤伟、生成候選物品階段和生成評(píng)分階段。
在訓(xùn)練階段,各推薦算法使用相同的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練便锨,以達(dá)到能為測(cè)試用戶提供候選物品的程度围辙,之后進(jìn)入算法選擇階段。在算法選擇階段放案,算法切換標(biāo)準(zhǔn)的定義是非常重要的環(huán)節(jié)姚建,此后系統(tǒng)會(huì)依據(jù)算法切換的標(biāo)準(zhǔn),選擇出最適合當(dāng)前推薦情景的算法卿叽,一旦某一種算法被選中桥胞,則該算法將單獨(dú)進(jìn)入之后的生成候選物品階段和生成評(píng)分階段中。
切換式混合方法由于要考慮算法切換所依據(jù)的標(biāo)準(zhǔn)考婴,所以增加了推薦過程的復(fù)雜度贩虾。另一方面,切換式混合方法考慮各推薦算法所能作用的用戶范圍沥阱,使用切換式混合方法的系統(tǒng)能對(duì)其中各推薦算法的優(yōu)勢(shì)與劣勢(shì)保持很好的敏感性缎罢,這是切換式混合方法的顯著優(yōu)點(diǎn)。
混雜式
由于用戶對(duì)物品的著眼點(diǎn)不同考杉,而推薦算法所生成的推薦結(jié)果往往是代表各自的觀察角度的策精,所以單一的推薦結(jié)果并不能滿足各類人群的需求。為了保證最終的推薦結(jié)果能具有多樣性崇棠,就可以使用混雜式方法將多種推薦算法的推薦結(jié)果按照一定的配比加以組合咽袜,同時(shí)呈現(xiàn)給用戶。整個(gè)混合過程分為訓(xùn)練階段枕稀、生成候選物品階段和生成評(píng)分階段询刹。
在訓(xùn)練階段,各推薦算法使用相同的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練萎坷,以達(dá)到能為測(cè)試用戶提供候選物品的程度凹联,之后進(jìn)入生成候選物品階段,在生成候選物品階段和生成評(píng)分階段哆档,各推薦算法根據(jù)同一用戶畫像分別生成候選物品集蔽挠,并對(duì)這些候選物品集種的候選物品進(jìn)行排序,最后系統(tǒng)將各推薦算法的排序結(jié)果綜合呈現(xiàn)出來瓜浸。
整體式混合
整體式混合方法包括特征組合澳淑、特征補(bǔ)充,他們的共同點(diǎn)是通過對(duì)主推薦算法的輸入數(shù)據(jù)進(jìn)行預(yù)先處理插佛,擴(kuò)展了主推薦算法可以利用的信息源數(shù)目偶惠,將多種推薦算法的特性整合到一起,實(shí)現(xiàn)推薦系統(tǒng)性能的提升朗涩。
1.特征組合? 單一類型的推薦系統(tǒng)所能利用的信息源是有限的忽孽,如單純的CF類推薦算法無法利用到物品畫像這一CB類推薦算法所能利用的信息源。從信息源的擴(kuò)展利用這一角度出發(fā),在推薦系統(tǒng)內(nèi)部加入?yún)^(qū)別于主推薦算法的輔推薦算法兄一,特征組合式混合方法先借助輔推薦算法啊從附加信息源種提取出附加特征厘线,再將這些附加特征屬入基于其他信息源的主推薦算法中,使得主推薦算法能夠使用到附加信息源的數(shù)據(jù)出革,增強(qiáng)了算法的推薦性能造壮。(輔推薦算法中的不足,在主推薦算法中完全避開了)骂束。
2.特征補(bǔ)充
特征補(bǔ)充式混合方法是先通過輔推薦算法對(duì)物品進(jìn)行評(píng)分或分類耳璧,再將這些信息輸入下一階段的主推薦算法中,使得主推薦算法所能利用的數(shù)據(jù)被補(bǔ)充的更為豐富展箱。他的優(yōu)點(diǎn)是旨枯,無須對(duì)主推薦算法做修改,而是通過優(yōu)化輸入數(shù)據(jù)來加強(qiáng)主推薦算法的性能的混驰,且設(shè)計(jì)基于特征補(bǔ)充式混合方法的推薦系統(tǒng)更加容易實(shí)現(xiàn)攀隔,另外,在特征組合式混合方法中栖榨,主推薦算法需要處理由輔推薦算法提供的大量高維數(shù)據(jù)昆汹,其本質(zhì)是對(duì)雙方提取的特征進(jìn)行組合,而在特征補(bǔ)充式混合方法中婴栽,只有小規(guī)模的特征會(huì)被添加到主推薦算法的輸入中满粗,,其本質(zhì)是對(duì)主推薦算法提取的特征進(jìn)行補(bǔ)充愚争。
流水線式混合
共同點(diǎn)是將各推薦算法按照一定次序依次運(yùn)行败潦,達(dá)到對(duì)推薦結(jié)果逐步優(yōu)化的目的。
1.層疊式
當(dāng)系統(tǒng)中的主推薦算法產(chǎn)生了一些難以區(qū)分排名先后的推薦結(jié)果時(shí)准脂,就可以在其后加入次級(jí)推薦算法來針對(duì)上一階段的粗糙排序做出更為精細(xì)的排序,這就是層疊式混合方法檬洞。
2.級(jí)聯(lián)式
級(jí)聯(lián)式混合方法與特征補(bǔ)充式混合方法有類似的架構(gòu)狸膏,但這兩種方法中由輔推薦算法輸入主推薦算法中的數(shù)據(jù)類型非常不同,特征補(bǔ)充式混合方法是把輔推薦算法的整個(gè)學(xué)習(xí)模型作為主推薦算法的輸入數(shù)據(jù)而級(jí)聯(lián)式混合方法是把輔推薦算法的整個(gè)學(xué)習(xí)模型作為主推薦算法的輸入數(shù)據(jù)添怔,它是系統(tǒng)首先使用CB類推薦算法學(xué)習(xí)出可以表示用戶畫像的模型湾戳,然后CF類推薦算法利用這些信息稠密的模型達(dá)到最佳的推薦性能,其效果要比直接利用粗糙的評(píng)分?jǐn)?shù)據(jù)好很多广料。
視頻推薦評(píng)測(cè)
每年針對(duì)視頻推薦都有大量論文發(fā)表砾脑。
面對(duì)眾多的視頻推薦算法,如何評(píng)價(jià)這些推薦算法的優(yōu)劣目前并沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)艾杏。
接下來說的不但有助于大家客觀評(píng)價(jià)一個(gè)視頻推薦算法的好壞韧衣,更有益的作用是,可以根據(jù)這些評(píng)測(cè)方法來指導(dǎo)視頻推薦算法的改進(jìn),從而得到更好的推薦結(jié)果畅铭。
一般來說氏淑,推薦系統(tǒng)評(píng)測(cè)主要考慮試驗(yàn)方法和評(píng)測(cè)指標(biāo)兩個(gè)方面。試驗(yàn)方法是指哪些數(shù)據(jù)去對(duì)一個(gè)待評(píng)測(cè)的推薦算法進(jìn)行評(píng)價(jià)硕噩;測(cè)量指標(biāo)是指用待評(píng)測(cè)算法的哪些指標(biāo)進(jìn)行比較假残,從而衡量哪個(gè)算法的性能更優(yōu)異。
推薦系統(tǒng)評(píng)測(cè)的試驗(yàn)方法可分為用戶調(diào)查炉擅、在線評(píng)測(cè)和離線評(píng)測(cè)三種方式
用戶問卷只調(diào)查用戶對(duì)于推薦結(jié)果的滿意度辉懒。
在線評(píng)測(cè)就是設(shè)計(jì)在線用戶試驗(yàn),根據(jù)用戶在線反饋來衡量推薦系統(tǒng)的表現(xiàn)谍失,這種在線測(cè)試方法雖然可以直觀的得到用戶對(duì)系統(tǒng)的滿意度等指標(biāo)眶俩,但是從設(shè)計(jì)試驗(yàn)到施行試驗(yàn)整個(gè)過程所需的高額成本卻是一般的科研工作者都無法負(fù)擔(dān)的,所以這種測(cè)評(píng)方法一般用于商用視頻推薦算法產(chǎn)品的測(cè)試袱贮,并不常見于科研工作中仿便。
離線評(píng)測(cè)根據(jù)待評(píng)價(jià)的推薦系統(tǒng)在試驗(yàn)數(shù)據(jù)集上的表現(xiàn)來衡量推薦系統(tǒng)的質(zhì)量,相對(duì)于在線評(píng)測(cè)攒巍,離線評(píng)測(cè)方法更方便經(jīng)濟(jì)嗽仪,一旦數(shù)據(jù)集選定,只需要將待評(píng)測(cè)的推薦系統(tǒng)在此數(shù)據(jù)集上運(yùn)行即可柒莉,在目前的研究工作中離線評(píng)價(jià)方式仍是科研工作人員的首選闻坚。
推薦系統(tǒng)常用的評(píng)測(cè)指標(biāo)是準(zhǔn)確度指標(biāo),它用于衡量該算法能夠多準(zhǔn)確的預(yù)測(cè)用戶對(duì)視頻的喜歡程度兢孝。準(zhǔn)確度指標(biāo)又有多種衡量方式窿凤,有的比較視頻預(yù)測(cè)評(píng)分和真實(shí)評(píng)分的絕對(duì)差值,有的衡量視頻預(yù)測(cè)評(píng)分和真實(shí)評(píng)分的相關(guān)性跨蟹,有的不考慮具體評(píng)分雳殊,只考慮排名是否正確,除了這些準(zhǔn)確度指標(biāo)外窗轩,還需要從其他指標(biāo)方面衡量一個(gè)視頻推薦系統(tǒng)的好壞夯秃,比如準(zhǔn)確度指標(biāo)達(dá)到要求以后,所推薦的視頻是否最大范圍的覆蓋了系統(tǒng)中盡可能多種類的視頻痢艺?是否能夠滿足不同用戶的個(gè)性化需求仓洼?
視頻推薦試驗(yàn)方法:
在推薦測(cè)評(píng)系統(tǒng)中,從運(yùn)營(yíng)層面來說堤舒,一個(gè)用于商用的推薦算法從算法優(yōu)化到最終上線的不同階段色建,用到的試驗(yàn)方法也不盡相同,比如算法優(yōu)化階段舌缤,更多的是用離線測(cè)評(píng)的方法箕戳,使用大量的歷史數(shù)據(jù)評(píng)價(jià)推薦算法的預(yù)測(cè)準(zhǔn)確度等指標(biāo)某残;上線前期,有些公司可能會(huì)將線上系統(tǒng)部署兩套漂羊,其中一套運(yùn)行的是原有推薦算法驾锰,另一套運(yùn)行的是優(yōu)化后的推薦算法,根據(jù)一段時(shí)間內(nèi)這兩套系統(tǒng)的單擊率等指標(biāo)評(píng)價(jià)推薦算法優(yōu)劣走越;為了準(zhǔn)確獲得用戶滿意度椭豫,有些公司還會(huì)在算法上線之后的一段時(shí)間內(nèi),通過問卷調(diào)查的形式采集用戶滿意度數(shù)據(jù)旨指,從而對(duì)推薦算法有個(gè)全面的評(píng)價(jià)赏酥。
在線測(cè)評(píng)
就是通過預(yù)定規(guī)則把真實(shí)線上用戶分成幾組,對(duì)不同組的用戶采用不同的方案谆构,通過用戶的反饋或行為表現(xiàn)比較方案的優(yōu)劣裸扶。目前最常見的在線評(píng)測(cè)試驗(yàn)方法是A/B測(cè)試,即針對(duì)同一個(gè)推薦目標(biāo)搬素,給出兩套算法方案A和B呵晨,讓一部分用戶使用方案A,另一部分使用方案B,再通過用戶的行為日志分析比較兩套推薦算法的優(yōu)劣熬尺。A/B測(cè)試的宗旨是:1.同時(shí)運(yùn)行兩個(gè)或兩個(gè)以上方案摸屠;
2.兩個(gè)方案只有一個(gè)變量不同,其他條件均相同粱哼。
3.有明確的評(píng)價(jià)指標(biāo)用于評(píng)價(jià)兩套方案的優(yōu)劣季二;
4.試驗(yàn)過程中,同一個(gè)用戶從始至終都應(yīng)該只接觸一個(gè)方案揭措。
說明胯舷,雖然實(shí)驗(yàn)名字是A/B試驗(yàn),但是它并不局限于比較兩種方案绊含,也可以并行比較多種方案桑嘶,只要這些方案滿足上述宗旨條件即可。A/B測(cè)試最常用的場(chǎng)景是網(wǎng)頁(yè)優(yōu)化躬充,此時(shí)的評(píng)價(jià)指標(biāo)是網(wǎng)頁(yè)應(yīng)用的單擊率逃顶、轉(zhuǎn)化率等網(wǎng)頁(yè)指標(biāo)。
Youtube也曾經(jīng)用A/B測(cè)試的方法驗(yàn)證其視頻推薦算法的推薦準(zhǔn)確度麻裳,其評(píng)價(jià)指標(biāo)包括單擊率、長(zhǎng)單擊率(即只有最終引領(lǐng)用戶進(jìn)入視頻觀看單擊才算做有效單擊)器钟、會(huì)話時(shí)間長(zhǎng)短津坑、觀影前時(shí)段(即從進(jìn)入網(wǎng)站到進(jìn)入穩(wěn)定觀看狀態(tài)之間所用的時(shí)間)、覆蓋率等傲霸。