推薦系統(tǒng)的 fairness bias debias
1 population imbalance
用戶不應(yīng)因?yàn)樽陨淼男詣e 年齡 種族而接受到不同的推薦結(jié)果 僅僅是出于政治正確和平臺(tái)長期利益的考慮
2 multiside fairness
推薦系統(tǒng)不應(yīng)只服務(wù)于用戶 也要考慮到物品和平臺(tái)自身的利益
3 position bias
位置靠前的物品比位置靠后的物品更容易受到用戶的注意 從而使模型對用戶偏好的感知出現(xiàn)偏差
4 exposure bias
用戶看到的只是曝光出來的物品 未曝光或次數(shù)少的物品由于缺乏用戶行為數(shù)據(jù) 更加得不到曝光機(jī)會(huì) 惡性循環(huán)
5 selection bias
用戶看到的是推薦系統(tǒng)挑選出來的物品 而這個(gè)選擇物品的過程并不是隨機(jī)采樣的 因而用戶看到的物品的分布
和潛在的用戶可能感興趣的物品分布不一致赖歌。
6 algorithmic confounding bias
推薦算法訓(xùn)練數(shù)據(jù)的本身是受推薦算法自身的影響的 如果不考慮這一因素 推薦算法可能越推越窄
7 popularity bias
被推薦物品的全局熱度會(huì)影響其排序 導(dǎo)致推薦系統(tǒng)可能向用戶推薦熱門而非相關(guān)的物品
參考自 https://zhuanlan.zhihu.com/p/163163906
里面也有各偏差下的解決方案般渡。
內(nèi)容分發(fā):
1 為了讓內(nèi)容更加高效傳達(dá)給用戶
2 為了讓用戶獲取到更多元的信息
3 內(nèi)容分發(fā)為內(nèi)容生態(tài)提供了更多的用戶行為數(shù)據(jù),有助于內(nèi)容供應(yīng)商和內(nèi)容需求方更加高效的對接。
內(nèi)容的形式:
文字、 圖片、 音頻、 視頻
常規(guī)分發(fā)渠道:
精準(zhǔn)分發(fā)炭懊、 聚合分發(fā)、 關(guān)聯(lián)分發(fā)拂檩、 熱點(diǎn)分發(fā)侮腹、 個(gè)性化分發(fā)
內(nèi)容分發(fā)的三個(gè)核心節(jié)點(diǎn):
內(nèi)容、 渠道广恢、 用戶
推薦系統(tǒng)的數(shù)據(jù)大致分為以下4類:
用戶行為凯旋、 物品信息、 用戶畫像钉迷、 外部數(shù)據(jù)
做召回時(shí),用深度學(xué)習(xí)模型的話钠署,一般是基于 用戶行為 的深度學(xué)習(xí)召回模型 可將其視為一個(gè) 包含數(shù)百萬類的多分類模型
模型輸入: 某一時(shí)刻用戶的瀏覽序列
模型輸出: 下一刻用戶可能會(huì)瀏覽的內(nèi)容
對比協(xié)同過濾糠聪,深度學(xué)習(xí)有以下的優(yōu)勢:
1 更全面的行為表達(dá)
2 可添加畫像特征
3 考慮用戶的行為順序
4 組合復(fù)雜特征
以下 摘自知乎文章: https://zhuanlan.zhihu.com/p/100019681
推薦流程
召回-粗排-精排-重排
召回
有時(shí)候因?yàn)槊總€(gè)用戶召回環(huán)節(jié)返回的物品數(shù)量還是太多,怕排序環(huán)節(jié)速度跟不上谐鼎,所以可以在召回和精排之間加入一個(gè)粗排環(huán)節(jié)舰蟆,通過少量用戶和物品特征,簡單模型狸棍,來對召回的結(jié)果進(jìn)行粗略的排序身害,在保證一定精準(zhǔn)的前提下,進(jìn)一步減少往后傳送的物品數(shù)量草戈,粗排往往是可選的塌鸯,可用可不同,跟場景有關(guān)唐片。
目前丙猬,召回環(huán)節(jié)的有監(jiān)督模型化以及一切Embedding化,這是兩個(gè)相輔相成的總體發(fā)展趨勢费韭。
在embedding基礎(chǔ)上的模型化召回 是個(gè)符合技術(shù)發(fā)展潮流的方向
傳統(tǒng)的標(biāo)準(zhǔn)召回一般都是多路召回
可以這樣理解茧球,每一個(gè)用了單特征的單路召回 是用了 一個(gè)特征的 排序結(jié)果。
協(xié)同召回 這種可以看作 是只包含UID和ItemID的兩個(gè)特征的排序結(jié)果
我們可以根據(jù)召回路 有無 用戶個(gè)性化因素 來劃分
一類是無個(gè)性化因素的召回路(比如熱門文章) 另一類有有個(gè)性化因素的召回路(比如用戶興趣標(biāo)簽召回)
模型召回(可以理解為 多特征融合的召回模型星持,即對多個(gè)單方面的特征都進(jìn)行了考慮 也就類似于多路召回了) 其實(shí) 可以理解為 跟多路召回是一個(gè)差不多的關(guān)系
此外 召回的方向 還有 用戶行為序列召回 抢埋, 用戶多興趣拆分 , 知識(shí)圖譜融合拆分 , 圖神經(jīng)網(wǎng)絡(luò)模型召回
排序
是推薦系統(tǒng) 最關(guān)鍵 最有技術(shù)含量的 環(huán)節(jié)
可從三個(gè)角度看其發(fā)展:
1 模型優(yōu)化目標(biāo):
List Wise
多目標(biāo)優(yōu)化
2 模型表達(dá)能力:
顯示特征組合
特征抽取器優(yōu)化
AutoML
增強(qiáng)學(xué)習(xí)
3 特征擴(kuò)充及信息融合:
長短期興趣分離
用戶行為序列
圖神經(jīng)網(wǎng)絡(luò)
多模態(tài)融合
重排
重排這個(gè)環(huán)節(jié)集中了 各種的 業(yè)務(wù) 和 技術(shù)策略 (比如 去除重復(fù) 結(jié)果打散 強(qiáng)插某種類型的推薦結(jié)果)
但是 從技術(shù)發(fā)展方向看 重排階段上模型 來代替各種花樣的業(yè)務(wù)策略 是個(gè)總體的大趨勢
多目標(biāo)排序
有多個(gè)目標(biāo)函數(shù) 找到一種排序方法使得多個(gè)目標(biāo)都達(dá)到整體最優(yōu)揪垄。
為什么需要多目標(biāo)排序:
推薦系統(tǒng)大多基于隱式反饋來推薦 這其中包括偏差穷吮。
目標(biāo)偏差 : 例如購買比點(diǎn)擊的表達(dá)更有效
物品偏差 : 例如標(biāo)題黨文章點(diǎn)擊率高
用戶偏差 : 例如有的人喜歡點(diǎn)贊,有的人喜歡收藏
多目標(biāo)方排序問題的解決方案大概有四種:
1 改變樣本權(quán)重
2 多模型分?jǐn)?shù)融合
3 排序?qū)W習(xí)
4 多任務(wù)學(xué)習(xí)(multi-task learning 簡稱 MTL)
feed流 和 瀑布流 有什么區(qū)別福侈?
首先酒来,feed流和瀑布流本質(zhì)上都是信息分發(fā)的方式。
區(qū)別點(diǎn)在于:
1 feed流“千人千面”肪凛,會(huì)針對用戶的喜好堰汉,推送給用戶喜歡的內(nèi)容。例如抖音伟墙、淘寶翘鸭、知乎。
2 瀑布流“一視同仁”戳葵,推送給所有用戶的內(nèi)容都是一致的就乓。例如36氪公眾號(hào)、得到拱烁。
內(nèi)容生命周期:
試投
加速
衰退
離場
試投:在這個(gè)階段生蚁,會(huì)給物料一定的推薦量,通過實(shí)時(shí)計(jì)算戏自,會(huì)得到這篇物料在第一批投放的人群中的數(shù)據(jù)指標(biāo)邦投,如果指標(biāo)達(dá)到一定的值,就會(huì)進(jìn)入下一個(gè)階段--加速擅笔;如果指標(biāo)不能滿足志衣,這篇物料基本上就不會(huì)有太多的推薦量了。
加速:在這個(gè)階段由于物料有了基本數(shù)據(jù)的反饋確認(rèn)猛们,會(huì)進(jìn)一步給該物料更多的推薦量念脯,如果做過頭條號(hào)的同學(xué)一定是能夠感受到這樣的推薦過程的。這個(gè)加速階段有的是一波流弯淘,上來量放得太猛绿店,導(dǎo)致推薦量猛增,試投階段的數(shù)據(jù)指標(biāo)一下就猛跌耳胎,這是我們曾經(jīng)在運(yùn)營過程遇到過的惯吕,后來在算法策略上逐漸優(yōu)化,在數(shù)據(jù)指標(biāo)和推薦量上達(dá)到一個(gè)較好的臨界區(qū)間怕午。
衰退:加速過后废登,物料都會(huì)迎來衰退期,但是對于不同的物料衰退的速度不一樣郁惜,高時(shí)效性的物料來的快堡距,去得也快甲锡,衰退期就會(huì)很短;但對于某些時(shí)效弱的物料羽戒,衰退的速度就會(huì)緩慢一些缤沦。比如一條全國油價(jià)上調(diào)的資訊,會(huì)很快的推給大部分用戶易稠,然后很快的就離場缸废;而一篇教你怎么改裝車的文章,則可能會(huì)持續(xù)一個(gè)月驶社,甚至更長的時(shí)間企量,這種物料呢一開始在加速階段推薦量可能沒有那么多,但隨著時(shí)間的積累亡电,總的推薦量也很可觀届巩。所以這種對時(shí)間不敏感、優(yōu)質(zhì)的文章也是用戶所喜歡的份乒,這樣的文章在點(diǎn)贊恕汇、評(píng)論、收藏這些互動(dòng)數(shù)據(jù)指標(biāo)上也有較好的表現(xiàn)或辖。
離場:離場是什么意思呢瘾英,就是這篇物料不在進(jìn)入推薦的候選集中,這樣的物料后續(xù)再次被曝光的可能性很小颂暇,除非是搜索出來
push:消息推送(或者內(nèi)容推送方咆,視頻推送)
1 如何評(píng)價(jià)機(jī)器學(xué)習(xí)做的好不好
本質(zhì)是怎么量化 用戶體驗(yàn)。一個(gè)好的評(píng)價(jià)標(biāo)準(zhǔn)蟀架,對于行業(yè)的發(fā)展至關(guān)重要,比如imageNet在圖像上的效果榆骚。但很多工業(yè)界的應(yīng)用片拍,并不能像學(xué)術(shù)界一樣,有單一明確的指標(biāo)來量化妓肢。
現(xiàn)在大部分的推薦系統(tǒng)捌省,核心指標(biāo)都是點(diǎn)擊率(視頻類型的大概率是視頻播放完成率)。點(diǎn)擊率當(dāng)然很重要碉钠,但直接等價(jià)與用戶體驗(yàn)纲缓,誰都知道不合理。
嘗試方案:
現(xiàn)階段喊废,比較落地的方案祝高,是數(shù)據(jù)驅(qū)動(dòng),基于一套多粒度的數(shù)據(jù)指標(biāo)污筷,評(píng)價(jià)用戶體驗(yàn)工闺,也即是陳然提的:深入了解海量用戶體驗(yàn)需要大量精細(xì)化的數(shù)據(jù)支撐。
2 如何可控的讓機(jī)器學(xué)習(xí)做的更好。
技術(shù)的發(fā)展陆蟆,總是會(huì)帶來方法論的變化
如何可控的讓機(jī)器學(xué)習(xí)做的更好雷厂。以我淺薄的見識(shí)來看,我們必須放棄不切實(shí)際的掌控感叠殷,調(diào)高自己的風(fēng)險(xiǎn)偏好改鲫,接受大部分工作是失敗的,可以有效的緩解焦慮林束。
從方案來看像棘,大概有兩個(gè)方向。
第一是基于case分析法诊县,一套推薦系統(tǒng)讲弄,比如會(huì)存在大量的badcase,大部分的badcase是由于模型本身帶來的依痊,短期很難解決避除。但也有不少可以幫助我們理解模型,發(fā)現(xiàn)優(yōu)化點(diǎn)胸嘁。所以瓶摆,算法組同學(xué)必須重視看case和分析case。
第二是性宏,是基于團(tuán)隊(duì)合作的假設(shè)驗(yàn)證法群井。機(jī)器學(xué)習(xí)應(yīng)用的時(shí)候存在大量的不確定性,但不是說大家在亂試毫胜。剛起步的團(tuán)隊(duì)书斜,follow業(yè)界主流線,再結(jié)合自身業(yè)務(wù)特點(diǎn)去解決問題酵使。
短帶長: 用戶在看完 短視頻 片段后會(huì)去尋找完整的長視頻內(nèi)容觀看 我們稱之為 短帶長荐吉。
其實(shí)短帶長 更多的是 短視頻平臺(tái) 經(jīng)常考慮到的一個(gè)問題
長視頻 與 短視頻
長視頻口渔,其實(shí)做的是內(nèi)容的生意
短視頻样屠,其實(shí)做的是流量的生意
長視頻平臺(tái)企圖以長帶短,以劇缺脉、綜藝等長視頻內(nèi)容作為短視頻的內(nèi)容素材來源痪欲,
這樣導(dǎo)致的結(jié)果,是短視頻內(nèi)容只能是劇情攻礼、花絮业踢、明星、OST這幾類圍繞長視頻主題的內(nèi)容秘蛔。
UGC: 用戶生產(chǎn)內(nèi)容(用戶自由上傳內(nèi)容 參與度高 內(nèi)容豐富)
PGC: 專業(yè)生產(chǎn)內(nèi)容(專業(yè)分類化 內(nèi)容精品化 大多傳統(tǒng)媒體)
OGC: 品牌生產(chǎn)內(nèi)容
三者其實(shí)是可以轉(zhuǎn)化的
PGC其實(shí)可以理解為隨著 專業(yè)化程度的加強(qiáng)陨亡,UGC變?yōu)镻GC傍衡。
一般來說,UGC用戶的參與度和粘性都要更高负蠕。
PGC算是在特定領(lǐng)域內(nèi)的單方面信息輸出蛙埂。
PUGC: 集合了UGC, PGC的雙重優(yōu)勢,有了UGC的廣度遮糖,通過PGC產(chǎn)生的專業(yè)化的內(nèi)容能夠更好的吸引绣的,沉淀用戶。
就比如 在 喜馬拉雅FM中欲账,有韓寒屡江,郭德綱的音頻頁,為平臺(tái)創(chuàng)造內(nèi)容赛不。
看到一篇文章惩嘉,論BiliBili 市值超過 愛奇藝 其實(shí)就是 UGC 和 PGC 的差別
鏈接見: https://www.zhihu.com/question/397623238/answer/1472852006
馬太效應(yīng) 也就是長尾效應(yīng)
推薦的商品會(huì)集中在少部分商品中,而大部分的長尾商品是沉寂的踢故,長此以往 會(huì)造成推薦疲勞文黎。
挖掘長尾-更多的個(gè)性化-可通過適當(dāng)?shù)臒岫冉禉?quán)(前提是保證點(diǎn)擊率的情況下)
或是 時(shí)間衰減,隨著時(shí)間的遷移殿较,其整體熱度會(huì)不斷的下降耸峭。