1.推薦原理解析
推薦系統(tǒng)的本質(zhì):是從一個巨大的內(nèi)容池里(涵蓋上百萬文章套耕、圖片、小視頻惶凝、問答等體裁)吼虎,依據(jù)內(nèi)容、用戶以及用戶對內(nèi)容感興趣的程度三個要素苍鲜,給當前用戶匹配出最感興趣的幾篇文章思灰。
1.1系統(tǒng)如何理解創(chuàng)作內(nèi)容?平臺依托于關鍵詞識別技術做內(nèi)容刻畫混滔。先提取出文章中的關鍵詞(高頻詞規(guī)則洒疚、獨特性規(guī)則),然后根據(jù)關鍵詞坯屿,將內(nèi)容進行粗分類油湖,然后根據(jù)細分領域的關鍵詞,對分類進行細化领跛。(注:在標題中最好露出具有代表性的名詞乏德、代詞等實體詞的全程,虛詞吠昭、轉(zhuǎn)折詞喊括、非常規(guī)詞、縮寫或外號不會被統(tǒng)計矢棚。)
1.2系統(tǒng)如何理解用戶需求?平臺刻畫用戶三大類特征/標簽:①用戶的基本信息郑什,比如年齡、性別蒲肋、地域等蘑拯;②用戶的行為分析,比如他訂閱的賬號兜粘、歷史瀏覽的文章以及他關注的話題等强胰;③最后系統(tǒng)會根據(jù)用戶的信息和行為進行分析計算,計算用戶喜好的分類妹沙、話題、人物等其他信息熟吏。
1.3系統(tǒng)如何精準地將內(nèi)容推薦給興趣用戶距糖?依據(jù)推薦算法玄窝,即利用文章的特征、用戶喜好特征以及環(huán)境因素悍引,擬合一個用戶對內(nèi)容滿意度的函數(shù)恩脂。它會估算用戶對每一篇文章的點擊概率,然后從巨大的內(nèi)容池里趣斤,將所有的文章按照興趣由高到低的排序俩块。前十名的文章會在此時脫穎而出,被推薦到用戶的手機上進行展現(xiàn)浓领。
[if !supportLists]2.?[endif]一篇文章在推薦系統(tǒng)里的生命周期內(nèi)推薦歷程
2.1初審:文章撰寫完成后玉凯,先進入內(nèi)容審核流程(初審)。機器模型會優(yōu)先判斷它的風險級別联贩,判斷有無違反國家相關法律的風險漫仆,然后根據(jù)風險級別將內(nèi)容分發(fā)給不同的審核人員進行處理,在機器和人工的共同配合下泪幌,內(nèi)容會以非趁ぱ幔快的速度通過初審,從而立即展現(xiàn)在讀者的面前祸泪。
2.2“冷啟動”:這是相較于已經(jīng)火起來文章的推薦性概念吗浩,就是新的文章在發(fā)表之后,去如何獲取最初始幾千個展現(xiàn)没隘。初審結(jié)束后懂扼,平臺會進行一些加權推薦,將這些篇文章首先暴漏給幾千個用戶升略∥⑼酰基于這幾千次的用戶點擊、分享品嚣、點贊炕倘,平臺就可以判斷,哪些人群會喜歡這篇文章翰撑,哪些人群絕對不會喜歡罩旋。當文章在幾千次展現(xiàn)之后平臺就會認為已經(jīng)給足了冷啟動的機會,就會撤銷對這一篇文章的加權眶诈,這個文章后續(xù)能不能再被推出來涨醋,就靠這篇文章本身的創(chuàng)作實力了。
2.3正常推薦:通過了“冷啟動”的文章逝撬,平臺會搜集到最基礎的推薦效果浴骂。如果一篇文章推薦效果很好,系統(tǒng)就會認為這篇文章是有潛質(zhì)的宪潮,會進一步擴量推薦給更多的用戶溯警,可能是一萬個三萬個五萬個趣苏,甚至更多。如果一篇文章的用戶閱讀興趣不是特別大梯轻,系統(tǒng)就會收緊推薦食磕,繼續(xù)觀察文章的表現(xiàn)。
2.4復審:在正常推薦過程喳挑,基于各種各樣的用戶行為彬伦,系統(tǒng)會監(jiān)測到很多數(shù)據(jù)上的異常,比如一些文章的點擊率特別高伊诵,但與此同時負面評論與舉報又特別多的現(xiàn)象单绑,這時這篇文章會再次進入審核流程,平臺稱之為“復審”日戈。復審會直接影響推薦文章的后續(xù)推薦询张。
2.5繼續(xù)/停止推薦:在復審中,如果平臺發(fā)現(xiàn)存在標題黨浙炼、封面黨份氧、低俗、虛假等問題弯屈,系統(tǒng)就會停止這一篇文章的推薦蜗帜。如無,在繼續(xù)推薦资厉。
[if !supportLists]3.?[endif]推薦過程中常見問題
·為什么推薦流程“不穩(wěn)定”厅缺?可能是因為你不知道以下這幾個原因:
一是系統(tǒng)對文章的消重策略。為了保護站內(nèi)的原創(chuàng)內(nèi)容宴偿,提升用戶的閱讀體驗湘捎,多篇相似文章中,平臺會優(yōu)先推送其中的原創(chuàng)文章窄刘。第二是同類文章的擠壓窥妇。針對同一個熱點內(nèi)容,頭條的推薦系統(tǒng)會從中選取一篇最適合的推送給用戶娩践。如果你也寫了一個相似的內(nèi)容活翩,但是其他的文章表現(xiàn)的特別好,你的文章就有可能不會得到很好的推薦翻伺。也就是說材泄,每一篇文章的推薦量既取決于當時具體的環(huán)境,也取決于當時整個內(nèi)容池里面其他文章的表現(xiàn)吨岭,那么一篇文章的推薦效果拉宗,和這篇文章本身質(zhì)量,也會有很大的相關性。
·究竟怎么做才可以避免消重呢旦事?
答:首先第一個是堅持優(yōu)質(zhì)的原創(chuàng)空入,不做低質(zhì)內(nèi)容的無用功。頭條整體對于低質(zhì)內(nèi)容的識別手段和打壓手段正在不斷進化族檬,低質(zhì)內(nèi)容的生存空間必將越來越窄。第二大家面對熱點內(nèi)容的時候化戳,謹慎地去追逐单料。第三,大家撰寫的文章可以帶有鮮明的個人特色点楼。
·為什我的推薦效果不好扫尖?
答:如果一篇文章推薦不好,很有可能是以下幾個原因?qū)е碌模菏紫嚷永赡苁亲髡叩膭?chuàng)作內(nèi)容質(zhì)量不穩(wěn)定换怖,系統(tǒng)會對作者的創(chuàng)作能力進行評估。如果文章的質(zhì)量不穩(wěn)定蟀瞧,就會導致無法很好的評估作者的創(chuàng)作能力沉颂,進而影響這篇文章的最終推薦效果。第二就是創(chuàng)作的內(nèi)容不夠垂直悦污,平臺會判斷一個作者的專業(yè)度铸屉,并優(yōu)先推送專業(yè)度高的作者的文章。如果作者經(jīng)常換創(chuàng)作領域的話切端,就會導致他的專業(yè)度較難被評估彻坛,進而影響推薦。第三就是創(chuàng)作的內(nèi)容受眾較少踏枣,如果你的文章是某個小眾領域昌屉,目標人群是有限的,例如動漫類的文章茵瀑,頭條喜歡動漫的人只有這么多间驮,推薦系統(tǒng)把這些人群推薦完了,后面就沒有辦法推薦給其他人了瘾婿。最后就是內(nèi)容時效短蜻牢,比如報道體育類賽事的進展,可能1小時后比分就會有較大的變化偏陪,那這種情況下就不會繼續(xù)再推送這個內(nèi)容了抢呆。
·我這個文章推薦了一半,展現(xiàn)量都很好笛谦,為什么忽然就不推薦了呢抱虐?
答:很有可能是因為文章出現(xiàn)了一些指標上的問題。比如它的點擊率高得嚇人饥脑,但負面評論也多得嚇人恳邀,在這種情況下懦冰,文章或視頻就會進入復審流程,在復審中谣沸,平臺就會對文章的質(zhì)量進行嚴格的審核刷钢,主要的問題大概會有四類:第一是標題黨,如果標題過度夸張乳附,故意營造懸念内地、無中生有、歪曲事實赋除、題文不符阱缓、低俗引導等,都會被認為是標題黨举农,而無法通過審核荆针。第二是封面黨或者低俗,如果封面不清晰涉及低俗引導的行為颁糟,都會被復審攔截航背。那三種就是文章會涉及虛假,如果一個文章違背科學常理滚停,描述未被證實沃粗,或與已發(fā)生事實相背,就會被認為是一篇虛假的內(nèi)容键畴。比如最盅,《<戰(zhàn)狼3>演員名單流出,天王華仔愿意零片酬參演起惕,陣容激動人心》涡贱,華仔并沒有出演,這篇文章與事實明顯相悖惹想,就一定無法通過復審问词。第四種包含推廣信息,為了保證用戶的體驗和權益嘀粱,避免用戶受到錯誤引導遭受損失激挪,平臺會對文章的推廣信息有非常嚴格的控制,如果文章中包含二維碼锋叨、手機號垄分、微信號等各種聯(lián)系方式,或者包含一些惡意推廣的內(nèi)容娃磺,比如違規(guī)醫(yī)療薄湿、違規(guī)財經(jīng)等信息,都有可能被平臺審核攔截。當然了其它的因素豺瘤,也會影響平臺的推薦效果吆倦,比如冷啟動的推薦效果差,在冷啟動階段坐求,文章的點擊率比較低蚕泽,系統(tǒng)就會認為文章不適合推薦給其他的用戶,就會減少接下來的推薦量桥嗤。此外在冷啟動階段赛糟,文章會被優(yōu)先推薦給粉絲,那么粉絲的數(shù)量質(zhì)量以及對文章的喜好度都會影響文章的推薦效果砸逊,此外文章還會受到外部的影響。如果當前的熱點已經(jīng)過時掌逛,那么對應的受眾就會減少师逸,文章推薦自然會受到影響,以上呢就是在推薦中常見的一些問題豆混。
說明:本文來源于今日頭條的公開課第一課《機器如何讀懂你的內(nèi)容篓像?今日頭條推薦機制大揭秘》,純粹是簡要版課程筆記皿伺。