最近參加了一場直播。主要講了個性化推薦算法及應(yīng)用場景√蠲保現(xiàn)自己總結(jié)一下主講內(nèi)容蛛淋,以備自己思考。有些地方個人也不是太理解篡腌,同時也想與大家交流溝通下褐荷。
一、影響推薦系統(tǒng)效果的主要因素
優(yōu)化目標嘹悼,怎么說呢目標結(jié)果是什么叛甫,是為了用戶還是為了商業(yè)目的。這兩者本身是存在矛盾的绘迁,為了不同目標怎優(yōu)化結(jié)果不一樣合溺。就好比用戶喜歡吃瓜果蔬菜營養(yǎng)健康的綠色食品這樣有利于健康,但我們發(fā)現(xiàn)讓他吃大魚大肉最賺錢缀台。
基于用戶場景的推薦棠赛,比如說是晚上睡覺前看的,還是白天閑暇時看的膛腐,有一個時間段睛约。再比如說上次觀看的終端是什么,是移動端或者是pc端哲身,有一個上次觀看銜接的問題辩涝。還有一個就是地域問題。
用戶體驗勘天,主要是用戶對于系統(tǒng)的信任怔揩,用戶嘗新的成本,是否接受的問題脯丝,怎么嘗試一些好的手段讓用戶很貼心商膊,很暖心,有驚喜的感覺宠进。哎晕拆,發(fā)現(xiàn)推薦的都是我喜歡的,這個系統(tǒng)好了解我喲材蹬。具體做法舉例在下文“說服用戶接受這件事兒”闡述实幕。
直播場景的推薦(冷啟動問題)
二吝镣、推薦系統(tǒng)的優(yōu)化目標有兩類
用戶—–相關(guān)性,多樣性昆庇。例如根據(jù)用戶瀏覽過的文章的主題詞末贾,標簽,熱度凰锡,轉(zhuǎn)載未舟,時效,相似度等等掂为。用戶的特征性別裕膀,職業(yè),年齡勇哗,興趣昼扛,定期點擊行為。
平臺—–商業(yè)化變現(xiàn)欲诺。比如說開通原創(chuàng)的預(yù)先推薦抄谐,或者說有內(nèi)容合作的供應(yīng)商優(yōu)先等等因素。
三扰法、推薦系統(tǒng)的服務(wù)對象
用戶蛹含;用戶是為了能夠更方便找到他想看的東西
平臺本身;平臺希望鏈接服務(wù)提供商塞颁,內(nèi)容提供商和用戶浦箱,他希望賺錢
內(nèi)容提供商;內(nèi)容提供商更多露出祠锣,他在這個渠道上獲得的無論是點擊量還是品牌效應(yīng)酷窥,那么他可以通過一些方法變現(xiàn)。無論是廣告還是離線渠道的收買伴网。
所以一個推薦算法要同事服務(wù)三個利益不同的相關(guān)方蓬推,這本身導(dǎo)致了一個矛盾性。所以會有一些糾結(jié)的地方澡腾,實際上由于他們的目的不沸伏。
四、推薦算法模型:
協(xié)同濾波:就是相似的人給相似的內(nèi)容动分。怎么定義相似的人呢那就是之前的行為相同毅糟。
矩陣分解法:基本原理是把用戶作為一個維度,然后建一個二維矩陣刺啦,把這個二維矩陣找到一個低緯的表示,這可能只有50或者100維纠脾,這個個數(shù)還是跟內(nèi)容一樣玛瘸,所以每個內(nèi)容有一個100維的小表示蜕青,每個用戶也有一個100維的小表示。這兩個作為一個點擊糊渊,可以恢復(fù)出原來的東西右核。
神經(jīng)網(wǎng)絡(luò)矩陣分解:基本原理把這個nade看成一個黑箱,級別讓你的想法就是用nade來訓(xùn)練一個用戶的表示和一個內(nèi)容表示渺绒,但是這個表示可以不像矩陣分解那么死贺喝,因為它結(jié)合的時候不再是一代數(shù)的點程,而是基于一個神經(jīng)網(wǎng)絡(luò)宗兼,實際上帶來了更多的自由度躏鱼。唯一的差別就是表達能力增強了。
五殷绍、基于用戶場景的推薦染苛,不同場景下算法選擇問題
貨架場景—協(xié)調(diào)濾波,矩陣分解主到,CF-NADE
自動播放場景—用戶行為軌跡
這個用戶場景比如說我在手機上看茶行,和我在客廳里看,實際上對視頻的長短還有很多內(nèi)容會有不同登钥,因為手機上有可能是在公共場合畔师、辦公室,但是在家里可能就會稍微私密一些牧牢。還有時間看锉,假如說我手機是早上看,家里面我是晚上看结执,也會不一樣度陆。所以這些都叫所謂的上下文吧,就是場景信息献幔。
實際上就對用戶做了一個切分懂傀,當用戶在這個組合場景底下的時候,所借鑒的歷史行為也是原來發(fā)生在這個組合底下的蜡感,這樣就不會出現(xiàn)晚上看了什么成人動漫蹬蚁,早上被推一個成人動漫的情況,因為實際上把用戶切成兩個了郑兴。但是這樣切分也是有風險的犀斋,因為有可能這個人成天都喜歡看成人動漫。所以這個會把我們本來就比較稀疏的數(shù)據(jù)變得更稀疏情连。
但是發(fā)現(xiàn)對整個觀看時長的提升以及對廣告點擊率的提升還是比較顯著的叽粹,大概在4%左右,就是用AB測試得到的結(jié)果。
剛才主要在講watch虫几,其實用戶在網(wǎng)站上還有其他行為锤灿,像Search、Browse辆脸、瀏覽但校,還有Rating,Rating比較少一點啡氢。
所以這幾類行為實際上用戶做的時候状囱,如果把用戶整個生命周期,從他sign up開始到他退訂為止看成一個軌跡的話倘是,那他做了一系列的事亭枷。
我們現(xiàn)在是說對每個用戶的軌跡做建模。剛才你如果想象是CF-NADE辨绊,就是說把用戶所有的行為當成一些個體扔到一個大袋子里面去奶栖,然后篩一篩,說統(tǒng)計上是怎么樣的门坷。實際上它的時間順序已經(jīng)丟失了宣鄙,里面用戶具體的動態(tài)也沒有考慮,如果根據(jù)用戶行為做這種模型time series model其實可以達到最好的效果默蚌。
六冻晤、說服用戶接受這件事兒
說服用戶這件事,因為剛才講得所有模型绸吸,其實最后就是一個展示鼻弧,無論是用貨架的方法來展示,還是用自動播放的方法來展示锦茁。但是這個展示的有效性很大程度上是取決于你有沒有打動用戶攘轩,要打動用戶試圖給出一些推薦的理由,比如我們給這個用戶推了這個劇码俩,我們會說是因為你看過他的前傳度帮,這樣的話用戶會覺得,你確實是有道理的稿存。還有一個增強用戶對系統(tǒng)的信任笨篷,如果你的系統(tǒng)是黑盒,扔出來一堆劇說看吧瓣履,那估計很難說服用戶率翅。大家可以回想一下,在錄像店的體驗袖迎,如果是那種小店的話冕臭,你跟那個店主特別熟腺晾,他給你推一個張媛又拍了一個新片你可以看。你會知道辜贵,他真的知道你了解你丘喻,給你推這個東西,我們想達到的就是讓計算機能夠被用戶所信任念颈。
還有一個展示的問題,要降低用戶嘗新的成本连霉。因為用戶點進去榴芳,如果看了20分鐘發(fā)現(xiàn)這個片很爛的話,那這個體驗就比較差跺撼,浪費了20分鐘窟感。我們怎么樣讓用戶快速的知道這個片到底適不適合他?我們做了一個自動壓縮的方法歉井。
大家看到它有這樣一個下拉菜單柿祈,我們對于生成短視頻有三種不同的模式:
模式一:動作模式,我們會找短視頻里最激烈的片段哩至。
模式二:indicative模式躏嚎,我們會找對話比較多的片段。
模式三:對話比較多模式
寫在最后菩貌,用戶推薦系統(tǒng)是一個不斷調(diào)試卢佣,不斷優(yōu)化的過程。在此過程中尋找適合本公司商業(yè)模式和用戶喜好的個性推薦系統(tǒng)箭阶。本文寫的不是很細致虚茶,歡迎大家留言交流。