五分鐘了解信息流產(chǎn)品和內(nèi)容推薦算法
作者:也而
如何評估推薦質(zhì)量
一個信息流產(chǎn)品年枕,不會僅僅使用一種算法模型播歼,通常會進行分流牌芋。占大比重的是經(jīng)過驗證的穩(wěn)定模型蚓炬,同時,會有多個占小比重的實驗?zāi)P汀?br> 要評估這些實驗算法模型的效果姜贡,采用的評測指標(biāo)主要為以下三項:
- 準(zhǔn)確率:推薦列表里试吁,多少比例的文章,是用戶讀過的
- 召回率:推薦列表中楼咳,用戶讀過的文章熄捍,占用戶閱讀記錄的比例
- 覆蓋率:推薦列表里的文章,占文章庫總數(shù)的比例
舉例來說母怜,文章總量為 100余耽,用戶實際看了 10 篇文章。最終實驗?zāi)P屯扑]了20篇文章苹熏,用戶看過的有 8 篇碟贾。準(zhǔn)確率為 40%币喧,召回率為 80%,覆蓋率為 20%袱耽。
除此以外杀餐,還需關(guān)注的核心業(yè)務(wù)指標(biāo):- UV 轉(zhuǎn)化率:閱讀 UV / 曝光 UV,反映多少比例的曝光用戶轉(zhuǎn)化為閱讀用戶
- PV 轉(zhuǎn)化率:閱讀 PV / 曝光 PV朱巨,反映文章的平均轉(zhuǎn)化情況
- 人均篇數(shù):閱讀 PV / 閱讀 UV史翘,反映內(nèi)容消費深度
- 人均閱讀時長:閱讀總時長 / 閱讀 UV,反映內(nèi)容消費深度
為什么要看多個指標(biāo)冀续,不能只關(guān)注點擊率呢琼讽?是因為一味追求點擊率,會鼓勵「標(biāo)題黨」洪唐,導(dǎo)致用戶文章閱讀完成度降低钻蹬,最終影響產(chǎn)品調(diào)性,造成深度用戶流失凭需。
深度丨從零搭建推薦體系
作者:JinkeyAI
千人一面
在產(chǎn)品上線初期问欠,無論使用人數(shù),還是內(nèi)容粒蜈,都相對較少溅潜,還未有足夠數(shù)據(jù)支撐用戶相關(guān)行為以及趨勢,所以在此階段薪伏,以收集用戶行為滚澜、屬性為最高目的,先達成最粗略的推薦行為嫁怀,也就是判斷哪些用戶是疑似某一細(xì)化方向的目標(biāo)用戶设捐,僅此即可。應(yīng)該分為兩個方向來考慮這個問題塘淑,新用戶和老用戶萝招,對于新用戶只能從環(huán)境熟悉和可能的物理屬性進行判斷,老用戶可以全方位多維度判斷存捺,詳見第二章槐沼,這里不多做敘述。
所以在當(dāng)前階段捌治,主要目標(biāo)就是收集用戶行為岗钩,一切行為均不能遺漏,這也就是前文所說的肖油,先圍繞每個人建立一套粗略喜好標(biāo)簽?zāi)P图嫦牛穗A段希望的是實時調(diào)整,根據(jù)用戶使用頻次和動作來決定森枪,一定要快视搏,因為剛剛上線审孽,用戶隨時有可能離開。在用戶隨手點擊內(nèi)容以后回到首頁的時候發(fā)現(xiàn)已經(jīng)有較為感興趣的內(nèi)容了浑娜,那種好感度是不一樣的佑力。
千人十面
在這個階段,已然有之前的用戶行為的基礎(chǔ)數(shù)據(jù)作為支持了筋遭,所以我們首先要做的就是將用戶分組搓萧,將有相似喜好的用戶找到,方法就是用最經(jīng)典的向量算法里的夾角余弦宛畦,每個用戶直接都要分別計算,不過好再現(xiàn)階段用戶量級不多揍移,可以大量計算次和。計算依據(jù)也就是根據(jù)之前用戶的相關(guān)操作行為,給用戶打上的相關(guān)標(biāo)簽那伐,按照標(biāo)簽相似度來給用戶進行聚類踏施。
所以在聚類完成后,一定會獲得離別內(nèi)某種同樣的特征值罕邀,所以這也就完成了第二階段的工作畅形,每個類別內(nèi)的用戶進行相同的內(nèi)容展示。
而且我們已經(jīng)知道了喜愛不同項目之間的用戶特征屬性诉探,這時候再進來的用戶日熬,我們也就可以相應(yīng)的放在疑似庫里了,等到收集到相應(yīng)的新用戶行為肾胯,也就能確定這個新用戶的相關(guān)喜好方向了竖席,成本會減小很多。所以在這個階段敬肚,要盡量收集全毕荐,時間可以控制在2周左右,為下一步更加精準(zhǔn)的推薦做準(zhǔn)備艳馒。
淺談推薦系統(tǒng)基礎(chǔ)
推薦系統(tǒng)評測指標(biāo)
- 用戶滿意度
- 預(yù)測準(zhǔn)確度
- 覆蓋率
- 多樣性
- 新穎性
- 驚喜度
- 信任度
- 實時性
- 健壯性
- 商業(yè)目標(biāo)
UGC社區(qū)推薦系統(tǒng)的幾點思考
作者:Holy俊杰
每個人每天大腦能消耗的能量是有限的憎亚,我們可以稱之為心智能量。所有需要大腦參與的活動都需要消耗心智能量弄慰。用戶看一個視頻消耗的心智能量是很小的第美,幾乎不需要大腦參與。刷到美麗小姐姐跳舞陆爽,我會睜大眼睛斋日;刷到主播撩撥笑點,我會咧嘴一笑墓陈;我需要做的就只是動動尊貴的手指恶守,上翻第献、下翻、雙擊兔港。全程幾乎只需要下丘腦參與庸毫。
可是,閱讀就不一樣了衫樊。我要找個安靜舒服的地方飒赃,全神貫注地理解文字背后作者想表達的意思,需要調(diào)動大量的腦神經(jīng)元科侈。如果是140字的短微博载佳,或者知乎上抖機靈的回答,閱讀起來還能一樂臀栈。如果是有復(fù)雜的辯證論述蔫慧,或抽象概念的文章,讀完一篇权薯,明顯感覺有些累姑躲。要消耗這么大的心智能量,我一天的閱讀極限是五篇這樣的文章盟蚣,還是全網(wǎng)份額黍析。那簡書平臺人均每天閱讀量是多少呢?
那么屎开,推薦系統(tǒng)的極限就是幫助平臺無限逼近平臺的極限阐枣。
持續(xù)更新,收集學(xué)習(xí)簡書上科普推薦系統(tǒng)的文章奄抽。
關(guān)于簡書首頁算法推薦的反饋也歡迎和我或 @Holy俊杰 交流侮繁。