按:做社區(qū)產(chǎn)品,內(nèi)容推薦是一個(gè)繞不開的話題。傳統(tǒng)論壇按版塊分發(fā)內(nèi)容的模式具有被動(dòng)屿良、低效等局限性,已不再適合如今快節(jié)奏的閱讀模式惫周,用戶不再有大量的時(shí)間「沙里淘金」尘惧,因此基于內(nèi)容的推薦模式被越來越多地應(yīng)用到內(nèi)容社區(qū)產(chǎn)品中。本文依據(jù)前人對(duì)內(nèi)容推薦的研究递递,綜合自身實(shí)踐褥伴,簡(jiǎn)要討論內(nèi)容推薦的一些落地方式。
什么是內(nèi)容推薦
內(nèi)容推薦是「基于內(nèi)容本身的推薦」漾狼,即將內(nèi)容進(jìn)行分析后建立特征重慢,然后依據(jù)這些特征給用戶進(jìn)行推薦,這種特征往往用「標(biāo)簽」來定義逊躁。標(biāo)簽在整個(gè)內(nèi)容推薦體系中具有很重要的作用似踱。那么如何進(jìn)行標(biāo)簽的制定,即所謂「打標(biāo)簽」呢稽煤?
內(nèi)容標(biāo)簽
1. 用戶自行打標(biāo)簽
用戶自行打標(biāo)簽有兩種方式:一是用戶在平臺(tái)預(yù)設(shè)標(biāo)簽下生產(chǎn)的內(nèi)容會(huì)自動(dòng)打上對(duì)應(yīng)標(biāo)簽核芽,二是平臺(tái)允許用戶自行添加一些標(biāo)簽。后一種方式可能由于用戶對(duì)內(nèi)容把握不足酵熙,或惡意操作轧简,導(dǎo)致大量冗余標(biāo)簽或噪音標(biāo)簽產(chǎn)生,不利于后期維護(hù)匾二。
2. 機(jī)器自動(dòng)打標(biāo)簽
使用機(jī)器進(jìn)行打標(biāo)簽哮独,有一定的開發(fā)成本。一般可以結(jié)合分詞技術(shù)和 TF-IDF 來提取關(guān)鍵詞作為標(biāo)簽察藐。這里需要注意的一點(diǎn)是皮璧,這種打標(biāo)簽的方式對(duì)文本的依賴度較高,如果社區(qū)內(nèi)容為音頻分飞、視頻等多媒體內(nèi)容悴务,這種方式僅能作用于內(nèi)容的標(biāo)題,因此可能會(huì)受一些「標(biāo)題黨」的干擾譬猫,但總體打標(biāo)簽效率比較高讯檐。
3. 運(yùn)營(yíng)人工打標(biāo)簽
運(yùn)營(yíng)人工打標(biāo)簽是一種最笨羡疗,但也是最有效的方法。通過運(yùn)營(yíng)人工干預(yù)别洪,可以對(duì)內(nèi)容標(biāo)簽進(jìn)行復(fù)核叨恨,使標(biāo)簽和內(nèi)容匹配度更高;同時(shí)通過運(yùn)營(yíng)介入蕉拢,可以人工設(shè)置關(guān)聯(lián)標(biāo)簽特碳,將關(guān)聯(lián)標(biāo)簽進(jìn)行聚類處理。
因此晕换,一般的做法是午乓,用戶在某一預(yù)設(shè)標(biāo)簽下生產(chǎn)內(nèi)容,由機(jī)器進(jìn)行自動(dòng)打標(biāo)簽后闸准,運(yùn)營(yíng)進(jìn)行人工標(biāo)簽復(fù)審益愈。
用戶標(biāo)簽
除了內(nèi)容標(biāo)簽外,如果想做到更精細(xì)化的推薦夷家,還需要給用戶進(jìn)行「特征化分析」蒸其,也就是給用戶也打上標(biāo)簽。用戶和內(nèi)容的交互库快,如點(diǎn)擊摸袁、瀏覽、點(diǎn)贊义屏、收藏等靠汁,都可以作為給用戶打標(biāo)簽的基礎(chǔ)。
用戶打標(biāo)簽的過程需要注意兩點(diǎn)闽铐,一是由于熱門內(nèi)容會(huì)干預(yù)用戶的標(biāo)簽蝶怔,因此對(duì)于熱門內(nèi)容的標(biāo)簽,需要做降權(quán)處理兄墅;二是用戶的興趣會(huì)隨著時(shí)間衰減或發(fā)生變化踢星,這時(shí)需要對(duì)用戶的標(biāo)簽進(jìn)行清洗,可以給內(nèi)容增加「不感興趣」的選項(xiàng)隙咸,用戶觸發(fā)后則對(duì)此標(biāo)簽做降權(quán)處理沐悦。
冷啟動(dòng)
每個(gè)內(nèi)容平臺(tái)在初期都會(huì)遇到這樣一個(gè)問題:巧婦難為無米之炊。新平臺(tái)總會(huì)遇到扎瓶,要么用戶行為或偏好數(shù)據(jù)過少所踊,要么內(nèi)容數(shù)量不足的情況。這時(shí)候應(yīng)該如何進(jìn)行內(nèi)容的推薦呢概荷?
- 用戶首次使用時(shí),可以引導(dǎo)用戶進(jìn)行所感興趣的標(biāo)簽選擇碌燕,然后將該標(biāo)簽下的熱門內(nèi)容推薦給用戶误证;若用戶不選擇標(biāo)簽继薛,則可以采取全站熱門推薦或人工篩選推薦,將平臺(tái)中絕大部分用戶關(guān)心的內(nèi)容進(jìn)行推薦
- 如果平臺(tái)中新內(nèi)容較多時(shí)愈捅,可以在推薦時(shí)選取部分新內(nèi)容進(jìn)行推薦遏考,每通過推薦增加一次閱讀,傳播度 +1蓝谨,若起傳播度高于某一預(yù)設(shè)的閾值時(shí)灌具,可以認(rèn)為該新內(nèi)容值得推薦,更多進(jìn)行曝光譬巫。這種方式可以解決新內(nèi)容的冷啟動(dòng)咖楣,也可以增加新內(nèi)容的曝光量。
推薦方式
首先預(yù)設(shè)一個(gè)推薦的目標(biāo):將較新的芦昔、優(yōu)質(zhì)的诱贿、用戶可能感興趣的內(nèi)容推薦給用戶,會(huì)涉及到以下三個(gè)維度:
- 新(timescore) —— 反映內(nèi)容的實(shí)時(shí)性(用戶無關(guān))
- 優(yōu)(qualityscore) —— 反映內(nèi)容的質(zhì)量(用戶無關(guān))
- 興趣(interestscore) —— 用戶的個(gè)性化需求(用戶相關(guān))
關(guān)鍵節(jié)點(diǎn)
- 計(jì)算時(shí)間衰減得分:時(shí)間越新咕缎,得分越高珠十。參考函數(shù):1/log(a*x+10, 10),其中 x 為發(fā)表日期與當(dāng)前日期的時(shí)間差凭豪,a 為常量焙蹭。
- 計(jì)算內(nèi)容質(zhì)量得分:綜合內(nèi)容的閱讀、點(diǎn)贊嫂伞、收藏等維度計(jì)算得出孔厉。參考函數(shù):sum(c/(1+exp(-(x-a)/b))),其中 x 為影響因素的數(shù)值末早,a 為該因素的均值烟馅,c 為影響因素的權(quán)重,b 為常量然磷。
- 計(jì)算影響用戶興趣的因素
- 去重:已推薦給用戶的內(nèi)容應(yīng)從推薦列表中移除郑趁。
- 控制數(shù)量:一次推薦給用戶的數(shù)量不宜過多,可從某一數(shù)量開始逐漸遞增或遞減姿搜。
-
控制邊界:在極端情況下寡润,會(huì)出現(xiàn)完全無內(nèi)容推薦或推薦內(nèi)容被消費(fèi)完全,這種情況下應(yīng)允許不進(jìn)行推薦舅柜,而按照時(shí)間維度展示所有用戶關(guān)注標(biāo)簽的內(nèi)容梭纹。
其他注意點(diǎn)
1. 時(shí)效性內(nèi)容
對(duì)于與時(shí)間強(qiáng)相關(guān)的內(nèi)容,例如新聞或突發(fā)事件等致份,需要與普通的推薦內(nèi)容區(qū)分開变抽,做單獨(dú)的推薦通道。
2. 內(nèi)容排序
受順序效應(yīng)影響,在推薦時(shí)應(yīng)注意推薦內(nèi)容的排序绍载,和用戶最相關(guān)诡宗、質(zhì)量最高的內(nèi)容應(yīng)排在頂部。通常在有用戶信息的情況下击儡,可以將推薦出的內(nèi)容按和用戶相關(guān)度進(jìn)行排序塔沃;若沒有用戶信息時(shí),則可單獨(dú)依據(jù)內(nèi)容本身的質(zhì)量進(jìn)行排序阳谍。
3. 長(zhǎng)尾內(nèi)容
平臺(tái)里一般都會(huì)存在一些長(zhǎng)尾內(nèi)容蛀柴,這部分如果不進(jìn)行推薦,則很難觸達(dá)用戶矫夯。針對(duì)長(zhǎng)尾內(nèi)容鸽疾,可以在一定維度進(jìn)行統(tǒng)一提取后,當(dāng)做新內(nèi)容重新進(jìn)行推薦茧痒,但需注意時(shí)效性內(nèi)容不適合使用此方法肮韧。