機器能聰明地將文章精準地推薦給可能感興趣的用戶旭咽,是因為它既能「讀懂」文章在講什么贞奋,又能「猜出」用戶想看到什么。
一穷绵、機器是怎樣理解你的文章的轿塔?
在門戶網(wǎng)站和傳統(tǒng)新聞客戶端上,哪些文章能上首頁是由編輯們決定的,編輯們會在閱讀完文章后勾缭,會決定是否將其推上版面洽议。因為每個用戶看到的頁面都是相同的,編輯們的工作量雖然大漫拭,但還能夠應付亚兄。
而在今日頭條客戶端上,每位用戶的信息流都是完全不同的采驻,如果5億用戶的信息流都交由編輯來推薦审胚,則是一件不可能完成的任務。
但是機器可以做到礼旅,因為其「閱讀」文章的方式膳叨,在速度上要遠遠勝過人類。
系統(tǒng)會對文章進行特征識別痘系,從而判斷文章講的是什么類型和領域的內(nèi)容菲嘴。特征識別的維度有很多,在這里我們重點解釋「關鍵詞」汰翠。
系統(tǒng)會根據(jù)文章中出現(xiàn)的頻率龄坪,提取出一些詞語作為關鍵詞,關鍵詞的判定原則有二:
? 詞頻高:如一篇體育類文章內(nèi)容關于某場足球比賽复唤,那么文章可能會出現(xiàn)的高頻詞就包括球員名字健田、足球術語或技巧等,如「C 羅」佛纫、「射門」妓局、「突破」。
? 同類文章中出現(xiàn)次數(shù)少:作者撰文時常用到的虛詞呈宇、轉(zhuǎn)折詞等出現(xiàn)頻率也很高好爬,但它們不會作為關鍵詞被提取出來,因為這些詞在文章中是普遍存在的甥啄。
系統(tǒng)判定出一篇文章的關鍵詞后存炮,會將這些關鍵詞與文章分類模型進行比對,命中哪些分類詞庫關鍵詞的比例大型豁,文章即被打上該分類的標簽僵蛛。如,一篇文章排名靠前的關鍵詞為「C 羅」迎变、「射門」充尉、「西甲」、「馬德里」衣形,那么該篇文章可能會被打上「足球」驼侠、「國際足球」姿鸿、「西班牙」等標簽。機器便是這樣倒源,完成對文章的初步認知苛预。
因為這種關鍵詞識別機制的存在,作者應盡量避免在文中過度使用非常規(guī)詞語笋熬,如活久見热某、腿玩年、城會玩等胳螟,給自己的文章增加理解障礙昔馋。行文用詞規(guī)范,機器可能更懂你的文章糖耸。
除文章正文關鍵詞識別外秘遏,機器還會對標題進行關鍵詞的識別和分類比對。因此嘉竟,在標題中露出具代表性的實體詞邦危,可幫助機器理解你的文章。例如舍扰,同樣一篇足球類文章倦蚪,標題「大胡子梅西,大胡子阿奎羅妥粟,大胡子伊瓜因审丘,阿根廷美洲杯冠軍穩(wěn)了吏够!」勾给,就比標題「三人蓄須明志,誓要實現(xiàn)多年遠大理想」含義更明確锅知,更利于系統(tǒng)識別播急,獲得更多的推薦量。
二售睹、你的文章會被推薦給哪些用戶桩警?
每個人的閱讀興趣都是大不相同的,個性化推薦機制要做的事情就是——讓每位用戶看到可能感興趣的內(nèi)容昌妹,這也是用戶每天會「沉迷」在今日頭條上的原因捶枢。
因此反過來,作者創(chuàng)作的內(nèi)容也就只會被推薦給可能對它感興趣的用戶飞崖。比如烂叔,某一篇關于C羅的足球文章寫得極出色,閱讀量超過了100萬固歪,放在朋友圈是可以刷屏的爆款文章蒜鸡,但對足球毫無興趣的用戶在今日頭條上仍然是看不到這篇文章的胯努。
這種精準推薦,是建立在機器對每位用戶都有充分認知的前提下的逢防。在機器中叶沛,每位用戶實際是由大量數(shù)據(jù)構成的,用戶的閱讀興趣就藏在這些數(shù)據(jù)中忘朝。
不同數(shù)據(jù)對用戶興趣計算所占權重不同灰署,數(shù)據(jù)包括:
? 用戶的基本信息
? 性別、年齡局嘁、所處地理位置(城市或地區(qū))氓侧;
? 使用機型、授權賬戶(如微博导狡、微信等)约巷、手機上經(jīng)常使用的其他 App 等;
? 用戶主動訂閱或喜歡的內(nèi)容
? 訂閱帳號旱捧;
? 訂閱頻道独郎;
? 關注的話題;
? 機器通過計算得出的用戶閱讀興趣
? 用戶閱讀過的文章分類和關鍵詞枚赡;
? 用戶聚類:相似類型用戶還喜歡閱讀的其他文章類型氓癌;
? 用戶在今日頭條客戶端主動標記「不感興趣」的實體詞或文章類型;
根據(jù)以上數(shù)據(jù)贫橙,系統(tǒng)對用戶的閱讀興趣就能有個基本的判斷贪婉。一般來講,用戶使用產(chǎn)品時間越長卢肃,系統(tǒng)積累的閱讀數(shù)據(jù)越多疲迂,對其興趣的判斷也就越準確。使用產(chǎn)品的用戶越多莫湘,系統(tǒng)對用戶聚類的判斷也越準確尤蒿。
通過對數(shù)據(jù)的處理,每位用戶將被機器打上各種標簽幅垮,如一個用戶閱讀的文章中關鍵詞排名靠前的是:C 羅腰池、皇家馬德里、歐洲杯忙芒、小米示弓、魅族、蘋果呵萨。那么奏属,這位用戶可能被打上「足球」、「皇馬」甘桑、「科技」拍皮、「手機」歹叮、「米粉」等標簽。不同的用戶會被打上不同的標簽铆帽。
當一篇帶有「C 羅」咆耿、「足球」標簽的文章在進行推薦時,系統(tǒng)會將其自動匹配給帶有「C 羅」或「足球」標簽的用戶爹橱,這便是推薦引擎的個性化推薦萨螺。當然,系統(tǒng)推薦的實際情況會遠比這復雜得多愧驱,但推薦的基本原理便是慰技,機器通過數(shù)據(jù)來理解文章和用戶,并對兩者進行匹配组砚。
三吻商、你的文章是如何被被推薦的?
為讓受歡迎的內(nèi)容被更多用戶看到糟红,不受歡迎的內(nèi)容不占用過多推薦資源艾帐。頭條號文章在推薦時,會分批次推薦給對其感興趣的用戶盆偿。
如何理解分批次推薦呢柒爸?文章首先會被推薦給一批對其最可能感興趣的用戶(這批用戶的閱讀標簽與文章標簽重合度最高,被系統(tǒng)認定最可能對該文章感興趣事扭。)捎稚,這批用戶產(chǎn)生的閱讀數(shù)據(jù),將對文章下一次的推薦起到?jīng)Q定性作用求橄。數(shù)據(jù)包括點擊率今野、收藏數(shù)、評論數(shù)谈撒、轉(zhuǎn)發(fā)數(shù)腥泥、讀完率,頁面停留時間等啃匿,其中,點擊率占的權重最高蛆楞。
這很好理解溯乒,能吸引眾多用戶點擊的文章自然會被認為更可能是好文章。
延伸閱讀:
擴大推薦機制(注意:以下舉例僅用于說明點擊率對文章推薦的影響豹爹,不代表實際推薦情況)
文章的首次推薦裆悄,如果點擊率低,系統(tǒng)認為文章不適合推薦給更多的用戶臂聋,會減少二次推薦的推薦量光稼;如果點擊率高或南,系統(tǒng)則認為文章受用戶喜歡,將進一步增加推薦量艾君。以此類推采够,文章新一次的推薦量都以上一次推薦的點擊率為依據(jù)。此外冰垄,文章過了時效期后蹬癌,推薦量將明顯衰減,時效期節(jié)點通常為24小時虹茶、72小時和一周逝薪。
例如,一篇文章首次推薦給了1000個用戶蝴罪,如果這批用戶的點擊率較高董济,系統(tǒng)判定用戶非常喜歡這篇文章,將其擴大推薦給10000個用戶,如果這輪推薦用戶的點擊率仍然維持在較高水平绸吸,那么系統(tǒng)會將文章再次擴大推薦給30000個用戶于微、50000個用戶、100000個用戶 ??????推薦量和閱讀量便如滾雪球一般節(jié)節(jié)攀升询微。直到文章過了24小時時效期,新一輪推薦的推薦量才會逐漸衰減狂巢。
因為這種擴大推薦的機制撑毛,作者想獲得更多的閱讀量,就必須努力把各維度閱讀數(shù)據(jù)(點擊率唧领、用戶閱讀時間藻雌、收藏數(shù)、評論數(shù)斩个、轉(zhuǎn)發(fā)數(shù)等)維持在高位水平胯杭。這就要求文章:
? 標題和封面圖具有足夠的吸引力、表意清晰(提高點擊率)
? 圖文并茂受啥,易讀性強(提高用戶閱讀時間)
? 內(nèi)容詳實做个,給讀者干貨般的充實感(提高收藏數(shù)和用戶閱讀時間)
? 觀點鮮明,引發(fā)讀者討論(增加評論數(shù)和轉(zhuǎn)發(fā)數(shù))
其中滚局,至關重要的當然是點擊率居暖,也因此,標題和封面圖的重要性便不言而喻藤肢。這也是今天注意力稀缺時代太闺,文章獲得好的傳播的關鍵要素。
有吸引力的標題能帶來更多點擊嘁圈,但這不意味作者要成為慣用夸張標題的標題黨省骂。恰恰相反蟀淮,標題黨反而會被平臺通過技術手段(標題黨模型等)識別和打壓,限制推薦量钞澳。
除了標題夸張怠惶,用戶舉報密集、負面評論過多略贮、無效異常點擊甚疟、時效期已過都是限制文章推薦量的因素。
四逃延、為什么會產(chǎn)生推薦效果不好的情況览妖?
常有作者抱怨自己的某篇文章推薦效果不好,或者對自己的文章閱讀量不穩(wěn)定感到焦慮揽祥。文章的閱讀量由系統(tǒng)推薦量直接決定讽膏,而推薦量又取決于上一輪推薦的點擊率。因此單篇文章推薦效果不好拄丰,原因無外乎三類:點擊率低府树、推薦量低、閱讀量低料按。
1.點擊率低
我們知道奄侠,低質(zhì)內(nèi)容對用戶閱讀體驗會有負面影響。為了提升用戶體驗载矿,機器會減少那些不受歡迎的內(nèi)容(即點擊率低的內(nèi)容)的展示量垄潮,如果點擊率持續(xù)走低,展示量也相應地持續(xù)減少闷盔。
一般來說弯洗,如果初次點擊率不高,就很難再有較高的展示量和閱讀量逢勾。點擊率較低可能是如下原因?qū)е拢?/p>
? 帳號內(nèi)容垂直度較低牡整,沒有及時推薦給相應的用戶
假使一帳號是體育類帳號,這一次卻發(fā)表了娛樂類內(nèi)容溺拱。對于這種不屬于帳號擅長領域的文章逃贝,機器需要重新識別分類再進行推薦,這在一定程度上會延長推薦時間盟迟,不能保證在規(guī)定時效內(nèi)秋泳,推薦給相應的用戶。因此攒菠,作者若想保證較高水平的點擊率,堅持創(chuàng)作垂直內(nèi)容是極有必要的歉闰。
? 文章內(nèi)容自身問題辖众,導致點擊率低
1. 標題平淡卓起,沒有起到吸引讀者閱讀的作用
2. 配圖無吸引力,文章配圖與內(nèi)容相關度不高凹炸,或者前三張圖片質(zhì)量較差
3. 內(nèi)容過于低質(zhì)戏阅,引起讀者反感甚至投訴
2.推薦量低
推薦量是決定閱讀量大小的重要因素,推薦量低的主要原因有:
? 點擊率過低
? 潛在的用戶群過小啤它,推薦量不高
如果帳號潛在的用戶群實在過小奕筐,機器將很難挖掘到**戶,推薦量自然高不了变骡。而**戶群過小有如下原因:
1. 話題過于冷門离赫、生僻
2. 涉及領域過于專業(yè),晦澀難懂塌碌,與主流群眾有一定距離
? 內(nèi)容供過于求
同一領域或話題相似內(nèi)容過多渊胸,出現(xiàn)了供過于求的現(xiàn)象。如台妆,關于當下熱點話題的談論翎猛,受眾雖然足夠多,但是內(nèi)容供給總量實在龐大接剩,相應地每一篇內(nèi)容得到的推薦量也就比較少切厘。
? 消重機制會影響推薦量
文章非原創(chuàng)或者沒有在頭條號首先發(fā)布,文章可能會被消重懊缺,從而影響推薦量疫稿,可詳見消重部分。
? 時效短
時效性短的文章桐汤,實際推薦時間自然也短而克,而短時間內(nèi)可能將無法獲得較多的推薦量。
? 審核中被攔截怔毛,內(nèi)容不被系統(tǒng)推薦员萍,可詳見文章審核部分。
3.閱讀量低
文章閱讀量低拣度,與點擊率和推薦量有關碎绎。
? 推薦量低
在推薦量增長到一定數(shù)量級之前,即使點擊率較高抗果,文章閱讀量也不會高筋帖,因為內(nèi)容并沒有得到大范圍的驗證。在后續(xù)的推薦中冤馏,如果推薦量持續(xù)攀升日麸,閱讀量可能會穩(wěn)步增長。
? 點擊率低
如果推薦量已經(jīng)足夠高,閱讀量仍然較低代箭,很可能是由于文章的點擊率較低墩划。這就需要從帳號和文章出發(fā),堅持發(fā)布垂直類內(nèi)容嗡综,努力提