今日頭條推薦機制大揭秘之課程1筆記

1.推薦原理解析

推薦系統(tǒng)的本質(zhì):是從一個巨大的內(nèi)容池里(涵蓋上百萬文章套耕、圖片、小視頻惶凝、問答等體裁)吼虎,依據(jù)內(nèi)容、用戶以及用戶對內(nèi)容感興趣的程度三個要素苍鲜,給當前用戶匹配出最感興趣的幾篇文章思灰。

1.1系統(tǒng)如何理解創(chuàng)作內(nèi)容?平臺依托于關鍵詞識別技術做內(nèi)容刻畫混滔。先提取出文章中的關鍵詞(高頻詞規(guī)則洒疚、獨特性規(guī)則),然后根據(jù)關鍵詞坯屿,將內(nèi)容進行粗分類油湖,然后根據(jù)細分領域的關鍵詞,對分類進行細化领跛。(注:在標題中最好露出具有代表性的名詞乏德、代詞等實體詞的全程,虛詞吠昭、轉(zhuǎn)折詞喊括、非常規(guī)詞、縮寫或外號不會被統(tǒng)計矢棚。)

1.2系統(tǒng)如何理解用戶需求?平臺刻畫用戶三大類特征/標簽:①用戶的基本信息郑什,比如年齡、性別蒲肋、地域等蘑拯;②用戶的行為分析,比如他訂閱的賬號兜粘、歷史瀏覽的文章以及他關注的話題等强胰;③最后系統(tǒng)會根據(jù)用戶的信息和行為進行分析計算,計算用戶喜好的分類妹沙、話題、人物等其他信息熟吏。

1.3系統(tǒng)如何精準地將內(nèi)容推薦給興趣用戶距糖?依據(jù)推薦算法玄窝,即利用文章的特征、用戶喜好特征以及環(huán)境因素悍引,擬合一個用戶對內(nèi)容滿意度的函數(shù)恩脂。它會估算用戶對每一篇文章的點擊概率,然后從巨大的內(nèi)容池里趣斤,將所有的文章按照興趣由高到低的排序俩块。前十名的文章會在此時脫穎而出,被推薦到用戶的手機上進行展現(xiàn)浓领。

[if !supportLists]2.?[endif]一篇文章在推薦系統(tǒng)里的生命周期內(nèi)推薦歷程

2.1初審:文章撰寫完成后玉凯,先進入內(nèi)容審核流程(初審)。機器模型會優(yōu)先判斷它的風險級別联贩,判斷有無違反國家相關法律的風險漫仆,然后根據(jù)風險級別將內(nèi)容分發(fā)給不同的審核人員進行處理,在機器和人工的共同配合下泪幌,內(nèi)容會以非趁ぱ幔快的速度通過初審,從而立即展現(xiàn)在讀者的面前祸泪。

2.2“冷啟動”:這是相較于已經(jīng)火起來文章的推薦性概念吗浩,就是新的文章在發(fā)表之后,去如何獲取最初始幾千個展現(xiàn)没隘。初審結(jié)束后懂扼,平臺會進行一些加權推薦,將這些篇文章首先暴漏給幾千個用戶升略∥⑼酰基于這幾千次的用戶點擊、分享品嚣、點贊炕倘,平臺就可以判斷,哪些人群會喜歡這篇文章翰撑,哪些人群絕對不會喜歡罩旋。當文章在幾千次展現(xiàn)之后平臺就會認為已經(jīng)給足了冷啟動的機會,就會撤銷對這一篇文章的加權眶诈,這個文章后續(xù)能不能再被推出來涨醋,就靠這篇文章本身的創(chuàng)作實力了。

2.3正常推薦:通過了“冷啟動”的文章逝撬,平臺會搜集到最基礎的推薦效果浴骂。如果一篇文章推薦效果很好,系統(tǒng)就會認為這篇文章是有潛質(zhì)的宪潮,會進一步擴量推薦給更多的用戶溯警,可能是一萬個三萬個五萬個趣苏,甚至更多。如果一篇文章的用戶閱讀興趣不是特別大梯轻,系統(tǒng)就會收緊推薦食磕,繼續(xù)觀察文章的表現(xiàn)。

2.4復審:在正常推薦過程喳挑,基于各種各樣的用戶行為彬伦,系統(tǒng)會監(jiān)測到很多數(shù)據(jù)上的異常,比如一些文章的點擊率特別高伊诵,但與此同時負面評論與舉報又特別多的現(xiàn)象单绑,這時這篇文章會再次進入審核流程,平臺稱之為“復審”日戈。復審會直接影響推薦文章的后續(xù)推薦询张。

2.5繼續(xù)/停止推薦:在復審中,如果平臺發(fā)現(xiàn)存在標題黨浙炼、封面黨份氧、低俗、虛假等問題弯屈,系統(tǒng)就會停止這一篇文章的推薦蜗帜。如無,在繼續(xù)推薦资厉。

[if !supportLists]3.?[endif]推薦過程中常見問題

·為什么推薦流程“不穩(wěn)定”厅缺?可能是因為你不知道以下這幾個原因:

一是系統(tǒng)對文章的消重策略。為了保護站內(nèi)的原創(chuàng)內(nèi)容宴偿,提升用戶的閱讀體驗湘捎,多篇相似文章中,平臺會優(yōu)先推送其中的原創(chuàng)文章窄刘。第二是同類文章的擠壓窥妇。針對同一個熱點內(nèi)容,頭條的推薦系統(tǒng)會從中選取一篇最適合的推送給用戶娩践。如果你也寫了一個相似的內(nèi)容活翩,但是其他的文章表現(xiàn)的特別好,你的文章就有可能不會得到很好的推薦翻伺。也就是說材泄,每一篇文章的推薦量既取決于當時具體的環(huán)境,也取決于當時整個內(nèi)容池里面其他文章的表現(xiàn)吨岭,那么一篇文章的推薦效果拉宗,和這篇文章本身質(zhì)量,也會有很大的相關性。

·究竟怎么做才可以避免消重呢旦事?

答:首先第一個是堅持優(yōu)質(zhì)的原創(chuàng)空入,不做低質(zhì)內(nèi)容的無用功。頭條整體對于低質(zhì)內(nèi)容的識別手段和打壓手段正在不斷進化族檬,低質(zhì)內(nèi)容的生存空間必將越來越窄。第二大家面對熱點內(nèi)容的時候化戳,謹慎地去追逐单料。第三,大家撰寫的文章可以帶有鮮明的個人特色点楼。


·為什我的推薦效果不好扫尖?

答:如果一篇文章推薦不好,很有可能是以下幾個原因?qū)е碌模菏紫嚷永赡苁亲髡叩膭?chuàng)作內(nèi)容質(zhì)量不穩(wěn)定换怖,系統(tǒng)會對作者的創(chuàng)作能力進行評估。如果文章的質(zhì)量不穩(wěn)定蟀瞧,就會導致無法很好的評估作者的創(chuàng)作能力沉颂,進而影響這篇文章的最終推薦效果。第二就是創(chuàng)作的內(nèi)容不夠垂直悦污,平臺會判斷一個作者的專業(yè)度铸屉,并優(yōu)先推送專業(yè)度高的作者的文章。如果作者經(jīng)常換創(chuàng)作領域的話切端,就會導致他的專業(yè)度較難被評估彻坛,進而影響推薦。第三就是創(chuàng)作的內(nèi)容受眾較少踏枣,如果你的文章是某個小眾領域昌屉,目標人群是有限的,例如動漫類的文章茵瀑,頭條喜歡動漫的人只有這么多间驮,推薦系統(tǒng)把這些人群推薦完了,后面就沒有辦法推薦給其他人了瘾婿。最后就是內(nèi)容時效短蜻牢,比如報道體育類賽事的進展,可能1小時后比分就會有較大的變化偏陪,那這種情況下就不會繼續(xù)再推送這個內(nèi)容了抢呆。

·我這個文章推薦了一半,展現(xiàn)量都很好笛谦,為什么忽然就不推薦了呢抱虐?

答:很有可能是因為文章出現(xiàn)了一些指標上的問題。比如它的點擊率高得嚇人饥脑,但負面評論也多得嚇人恳邀,在這種情況下懦冰,文章或視頻就會進入復審流程,在復審中谣沸,平臺就會對文章的質(zhì)量進行嚴格的審核刷钢,主要的問題大概會有四類:第一是標題黨,如果標題過度夸張乳附,故意營造懸念内地、無中生有、歪曲事實赋除、題文不符阱缓、低俗引導等,都會被認為是標題黨举农,而無法通過審核荆针。第二是封面黨或者低俗,如果封面不清晰涉及低俗引導的行為颁糟,都會被復審攔截航背。那三種就是文章會涉及虛假,如果一個文章違背科學常理滚停,描述未被證實沃粗,或與已發(fā)生事實相背,就會被認為是一篇虛假的內(nèi)容键畴。比如最盅,《<戰(zhàn)狼3>演員名單流出,天王華仔愿意零片酬參演起惕,陣容激動人心》涡贱,華仔并沒有出演,這篇文章與事實明顯相悖惹想,就一定無法通過復審问词。第四種包含推廣信息,為了保證用戶的體驗和權益嘀粱,避免用戶受到錯誤引導遭受損失激挪,平臺會對文章的推廣信息有非常嚴格的控制,如果文章中包含二維碼锋叨、手機號垄分、微信號等各種聯(lián)系方式,或者包含一些惡意推廣的內(nèi)容娃磺,比如違規(guī)醫(yī)療薄湿、違規(guī)財經(jīng)等信息,都有可能被平臺審核攔截。當然了其它的因素豺瘤,也會影響平臺的推薦效果吆倦,比如冷啟動的推薦效果差,在冷啟動階段坐求,文章的點擊率比較低蚕泽,系統(tǒng)就會認為文章不適合推薦給其他的用戶,就會減少接下來的推薦量桥嗤。此外在冷啟動階段赛糟,文章會被優(yōu)先推薦給粉絲,那么粉絲的數(shù)量質(zhì)量以及對文章的喜好度都會影響文章的推薦效果砸逊,此外文章還會受到外部的影響。如果當前的熱點已經(jīng)過時掌逛,那么對應的受眾就會減少师逸,文章推薦自然會受到影響,以上呢就是在推薦中常見的一些問題豆混。

說明:本文來源于今日頭條的公開課第一課《機器如何讀懂你的內(nèi)容篓像?今日頭條推薦機制大揭秘》,純粹是簡要版課程筆記皿伺。


?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末员辩,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子鸵鸥,更是在濱河造成了極大的恐慌奠滑,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件妒穴,死亡現(xiàn)場離奇詭異宋税,居然都是意外死亡,警方通過查閱死者的電腦和手機讼油,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進店門杰赛,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人矮台,你說我怎么就攤上這事乏屯。” “怎么了瘦赫?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵辰晕,是天一觀的道長。 經(jīng)常有香客問我耸彪,道長伞芹,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮唱较,結(jié)果婚禮上扎唾,老公的妹妹穿的比我還像新娘。我一直安慰自己南缓,他們只是感情好胸遇,可當我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著汉形,像睡著了一般纸镊。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上概疆,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天逗威,我揣著相機與錄音,去河邊找鬼岔冀。 笑死凯旭,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的使套。 我是一名探鬼主播罐呼,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼侦高!你這毒婦竟也來了嫉柴?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤奉呛,失蹤者是張志新(化名)和其女友劉穎计螺,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體瞧壮,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡危尿,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了馁痴。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片谊娇。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖罗晕,靈堂內(nèi)的尸體忽然破棺而出济欢,到底是詐尸還是另有隱情,我是刑警寧澤小渊,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布法褥,位于F島的核電站,受9級特大地震影響酬屉,放射性物質(zhì)發(fā)生泄漏半等。R本人自食惡果不足惜揍愁,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望杀饵。 院中可真熱鬧莽囤,春花似錦、人聲如沸切距。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽谜悟。三九已至话肖,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間葡幸,已是汗流浹背最筒。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留蔚叨,地道東北人是钥。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像缅叠,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子虏冻,可洞房花燭夜當晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容

  • #頭條公開課# 今日頭條推薦機制大揭秘 為什么你的內(nèi)容推薦不好肤粱?為什么你的流量總是不確定?為什么你的文章推薦到一半...
    A文思語閱讀 8,001評論 0 8
  • 今天,算法分發(fā)已經(jīng)是信息平臺厨相、搜索引擎领曼、瀏覽器、社交軟件等幾乎所有軟件的標配蛮穿,但同時庶骄,算法也開始面臨質(zhì)疑、挑戰(zhàn)和誤...
    流浪java閱讀 3,525評論 0 17
  • 叮鈴鈴……上課了践磅,遠方踢足球的少年匆匆忙忙地跑回教室单刁,似乎是害怕他們的老班又嘮叨他們整天無所事事。我快速...
    何其君閱讀 506評論 0 2
  • 前面我們介紹了函數(shù)模板府适。今天我們來看看C++的另一種泛型:類模板羔飞。C++中類模板通常是容器(如std::vecto...
    許了閱讀 4,131評論 0 3
  • 忘記吧,不要記恨檐春,微笑吧逻淌,至死方休,勇敢疟暖,勇敢卡儒,努力田柔,不管你現(xiàn)在有多不好多絕望,但是你要有勇氣去面對骨望,苦難硬爆,絕望,...
    子夜歌V閱讀 133評論 0 0