今日頭條的個(gè)性化推薦算法

互聯(lián)網(wǎng)給用戶帶來了大量的信息,滿足了用戶在信息時(shí)代對(duì)信息的需求践磅,但也使得用戶在面

對(duì)大量信息時(shí)無法從中獲得對(duì)自己真正有用的那部分信息,對(duì)信息的使用效率反而降低了,

而通常解決這個(gè)問題最常規(guī)的辦法是推薦系統(tǒng)科贬。

推薦系統(tǒng)能有效幫助用戶快速發(fā)現(xiàn)感興趣和高質(zhì)量的信息,提升用戶體驗(yàn),增加用戶使用產(chǎn)1

品時(shí)間榜掌,并有效減少用戶瀏覽到重復(fù)或者厭惡的信息帶來的不利影響优妙,通常推薦系統(tǒng)越精

準(zhǔn),用戶體驗(yàn)就越好憎账,用戶停留時(shí)間也會(huì)越長套硼,也越容易留住用戶。

今日頭條在北京國家會(huì)議中心舉辦了“算數(shù)·年度數(shù)據(jù)發(fā)布會(huì)”胞皱,數(shù)據(jù)發(fā)布會(huì)的主題名

為“算數(shù)”邪意,實(shí)際上指的是“算法”與“數(shù)據(jù)”,我也參加了這場發(fā)布會(huì)反砌,有些收獲不敢私

藏與大家分享雾鬼!

眾所周知,今日頭條是個(gè)個(gè)性化的新聞推薦引擎于颖,在今日頭條CEO張一鳴看來呆贿,算法是《今

日頭條》這款興趣推薦搜索引擎應(yīng)用的核心,這也是與傳統(tǒng)媒體最本質(zhì)的區(qū)別森渐,今日頭條之

所以能夠非常懂用戶做入,精準(zhǔn)推薦出用戶所喜好的新聞,完全得益于算法同衣,而正是精準(zhǔn)推薦竟块,

使得今日頭條在短短兩年多的時(shí)間內(nèi)擁有了2.2億用戶,每天有超過2000萬用戶在今日頭條

上閱讀自己感興趣的文章耐齐。

那么今日頭條是怎么做到為每一個(gè)用戶按興趣精準(zhǔn)推薦新聞的呢浪秘?在發(fā)布會(huì)上,今日頭條的

技術(shù)副總裁楊震原給我們揭秘了今日頭條的個(gè)性化推薦核心“算法”埠况。

如下圖耸携,有3篇文章,讓3個(gè)用戶投票[注:這3個(gè)用戶是一類人辕翰,有相同屬性(喜好和偏

好)]夺衍,那第4個(gè)用戶應(yīng)該被系統(tǒng)推薦的文章是那篇呢?第4個(gè)用戶與前3個(gè)用戶都是一類人喜命,

答案顯而易見是第一篇文章沟沙。

沒錯(cuò),今日頭條的個(gè)性化推薦算法原理就是基于投票的方法壁榕,其核心理念就是投票矛紫,每個(gè)用

戶一票,喜歡哪一篇文章就把票投給這篇文章牌里,經(jīng)過統(tǒng)計(jì)颊咬,最后得到結(jié)果很可能是在這個(gè)人

群下最好的文章,并把這篇文章推薦給同人群用戶過程就是個(gè)性化推薦,實(shí)際上個(gè)性化推薦

并不是機(jī)器給用戶推薦喳篇,而是用戶之間在互相推薦缓呛,看起來似乎很簡單,但實(shí)際上這需要基

于海量的用戶行為數(shù)據(jù)挖掘與分析杭隙。

搞技術(shù)的朋友都知道哟绊,內(nèi)容推薦必須基于受眾人群,只有在確定受眾人群之后才能確定推薦

內(nèi)容痰憎,有的放矢才叫精準(zhǔn)推薦票髓。

上面那個(gè)例子只是很小的人群,但是現(xiàn)實(shí)生活中不會(huì)有這樣小的人群铣耘,而且太小的人群通過

推薦投票的方式也很難推薦出很精細(xì)的內(nèi)容洽沟,只能推薦出一些熱門內(nèi)容,那今日頭條是如何

來劃分人群蜗细?

我們假定上圖這個(gè)人群有8萬人裆操,只有兩類:一類叫喜歡科技的人群;一類喜歡娛樂的人

群炉媒,我們先分成兩類踪区,每類有4萬人,我們又找到另一個(gè)維度地域:上海和北京吊骤,喜歡科技

的人有上海和北京的缎岗,喜歡娛樂的也有北京和上海的,我們把8萬人群分成四組白粉,每組兩

萬传泊,我們?cè)僬夷挲g,30歲以上和以下鸭巴,我們分成8個(gè)人群眷细,每個(gè)人群1萬人,第1個(gè)是喜好科

技鹃祖,位置在北京溪椎,年齡30歲以上,這有1萬人惯豆,我們?cè)僖韵旅娴南矚g娛樂池磁,地點(diǎn)上海奔害,人群1

萬楷兽。

根據(jù)人群不同維度,我們可以細(xì)分到一個(gè)合理的力度华临。特別需要注意的是:在細(xì)分的領(lǐng)域里

面投票數(shù)既不要太多芯杀,但也不要太少,因?yàn)樘鄾]有個(gè)性化,僅是一個(gè)大眾關(guān)心的話題而

已揭厚,而投票數(shù)太少又沒有統(tǒng)計(jì)意義却特,支持度就低了。

人群特征可以是閱讀姓名筛圆,年齡裂明,地域,職業(yè)等等太援,同理闽晦,文章也是類似的,文章有提到哪

些名人提岔,文章發(fā)布的時(shí)間仙蛉,文章所屬的地區(qū)等等,也都有很多特性碱蒙,這些都是可以去組合起

來荠瘪。

判斷一個(gè)用戶屬于怎樣的人群相對(duì)簡單,比如地域赛惩,用戶的手機(jī)在什么區(qū)域哀墓,就可以認(rèn)為用

戶是什么地域的;比如說用戶興趣喷兼,可以根據(jù)用戶的閱讀習(xí)慣去判斷麸祷,用戶會(huì)經(jīng)常去看科技

的文章,那就可以判斷用戶屬于科技的人群褒搔;再比如說用戶的好友關(guān)系阶牍,用戶在今日頭條上

面注冊(cè)了,用戶的好友都是娛樂圈的人星瘾,則該用戶很有可能也是娛樂圈的人走孽。

所以通過用戶在今日頭條上行為,以及用戶客觀的地理位置信息琳状,就能判斷用戶到底屬于一

個(gè)什么樣的人群磕瓷。

精準(zhǔn)推薦最難的不是劃分人群,也不是判斷用戶人群歸屬念逞,更不是文章屬性判斷困食,一個(gè)人可

以屬于多個(gè)人群,也有多個(gè)文章候選翎承,選那個(gè)推薦才是最難的硕盹,而今日頭條的推薦內(nèi)容是怎

么算出來的呢?

通過上圖的計(jì)算公式:W1*候選1的投票率+W2*候選2的投票率+W3候選3的投票率+……=最高

分叨咖,最后能計(jì)算出一個(gè)得分瘩例,按得分的高低來排序啊胶,就可以得到推薦文章的一個(gè)侯選,這個(gè)

過程實(shí)際上是一個(gè)比較簡單的算法垛贤,而這在今日頭條內(nèi)部叫邏輯回歸焰坪。

總的來說,個(gè)性化推薦技術(shù)本身并不神秘聘惦,歸根到底推薦算法關(guān)鍵是還在于對(duì)海量用戶行為

的數(shù)據(jù)分析與挖掘某饰,也許各家算法略有不同,但最終目的都是殊途同歸善绎,為實(shí)現(xiàn)最精準(zhǔn)的內(nèi)

容推薦而努力中(對(duì)于排序的算法露乏,大家可查看一下馬海祥博客《九大排序算法的實(shí)現(xiàn)方法

及算法分析》的相關(guān)介紹)。

推薦算法大致可以分為三類:基于內(nèi)容的推薦算法涂邀、協(xié)同過濾推薦算法和基于知識(shí)的推薦算

法瘟仿。

基于內(nèi)容的推薦算法的原理是用戶喜歡和自己關(guān)注過的Item在內(nèi)容上類似的Item,比如你看

了哈利波特I比勉,基于內(nèi)容的推薦算法發(fā)現(xiàn)哈利波特II-VI劳较,與你以前觀看的在內(nèi)容上面(共有

很多關(guān)鍵詞)有很大關(guān)聯(lián)性,就把后者推薦給你浩聋,這種方法可以避免Item的冷啟動(dòng)問題(冷

啟動(dòng):如果一個(gè)Item從沒有被關(guān)注過观蜗,其他推薦算法則很少會(huì)去推薦,但是基于內(nèi)容的推薦

算法可以分析Item之間的關(guān)系衣洁,實(shí)現(xiàn)推薦)墓捻。

弊端在于推薦的Item可能會(huì)重復(fù),典型的就是新聞推薦坊夫,如果你看了一則關(guān)于MH370的新

聞砖第,很可能推薦的新聞和你瀏覽過的,內(nèi)容一致环凿;另外一個(gè)弊端則是對(duì)于一些多媒體的推薦

(比如音樂梧兼、電影、圖片等)由于很難提內(nèi)容特征智听,則很難進(jìn)行推薦羽杰,一種解決方式則是人

工給這些Item打標(biāo)簽。

協(xié)同過濾算法的原理是用戶喜歡那些具有相似興趣的用戶喜歡過的商品到推,比如你的朋友喜歡

電影哈利波特I考赛,那么就會(huì)推薦給你,這是最簡單的基于用戶的協(xié)同過濾算法(user-

basedcollaboratIve filtering)莉测,還有一種是基于Item的協(xié)同過濾算法(item-

basedcollaborativefiltering)颜骤,這兩種方法都是將用戶的所有數(shù)據(jù)讀入到內(nèi)存中進(jìn)行運(yùn)

算的,因此成為Memory-basedCollaborative Filtering悔雹,另一種則是Model-based

collaborativefiltering复哆,包括Aspect Model,pLSA腌零,LDA梯找,聚類,SVD益涧,

MatrixFactorization等锈锤,這種方法訓(xùn)練過程比較長,但是訓(xùn)練完成后闲询,推薦過程比較快久免。

最后一種方法是基于知識(shí)的推薦算法,也有人將這種方法歸為基于內(nèi)容的推薦扭弧,這種方法比

較典型的是構(gòu)建領(lǐng)域本體阎姥,或者是建立一定的規(guī)則,進(jìn)行推薦鸽捻。

混合推薦算法呼巴,則會(huì)融合以上方法,以加權(quán)或者串聯(lián)御蒲、并聯(lián)等方式盡心融合衣赶。

當(dāng)然,推薦系統(tǒng)還包括很多方法厚满,其實(shí)機(jī)器學(xué)習(xí)或者數(shù)據(jù)挖掘里面的方法府瞄,很多都可以應(yīng)用

在推薦系統(tǒng)中,比如說LR碘箍、GBDT遵馆、RF(這三種方法在一些電商推薦里面經(jīng)常用到),社交網(wǎng)

絡(luò)里面的圖結(jié)構(gòu)等丰榴,都可以說是推薦方法团搞。

個(gè)性化推薦的主要思想八個(gè)字概括之:物以類聚、人以群分多艇。主要的方法及變種應(yīng)該有很

多逻恐,像協(xié)同過濾、基于內(nèi)容的推薦峻黍、基于標(biāo)簽的推薦等等复隆,以后推薦系統(tǒng)一個(gè)趨勢(shì)就是基于

社交的,利用用戶反饋進(jìn)行實(shí)時(shí)推薦姆涩,多種推薦算法進(jìn)行混合挽拂,從而達(dá)到一個(gè)較好的推薦結(jié)

果。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末骨饿,一起剝皮案震驚了整個(gè)濱河市亏栈,隨后出現(xiàn)的幾起案子台腥,更是在濱河造成了極大的恐慌,老刑警劉巖绒北,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件黎侈,死亡現(xiàn)場離奇詭異,居然都是意外死亡闷游,警方通過查閱死者的電腦和手機(jī)峻汉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來脐往,“玉大人休吠,你說我怎么就攤上這事∫挡荆” “怎么了瘤礁?”我有些...
    開封第一講書人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長梅尤。 經(jīng)常有香客問我蔚携,道長,這世上最難降的妖魔是什么克饶? 我笑而不...
    開封第一講書人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任酝蜒,我火速辦了婚禮,結(jié)果婚禮上矾湃,老公的妹妹穿的比我還像新娘亡脑。我一直安慰自己,他們只是感情好邀跃,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開白布霉咨。 她就那樣靜靜地躺著,像睡著了一般拍屑。 火紅的嫁衣襯著肌膚如雪途戒。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,749評(píng)論 1 289
  • 那天僵驰,我揣著相機(jī)與錄音喷斋,去河邊找鬼。 笑死蒜茴,一個(gè)胖子當(dāng)著我的面吹牛星爪,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播粉私,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼顽腾,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼!你這毒婦竟也來了诺核?” 一聲冷哼從身側(cè)響起抄肖,我...
    開封第一講書人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤久信,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后漓摩,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體裙士,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年幌甘,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了潮售。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片痊项。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡锅风,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出鞍泉,到底是詐尸還是另有隱情皱埠,我是刑警寧澤,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布咖驮,位于F島的核電站边器,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏托修。R本人自食惡果不足惜忘巧,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望睦刃。 院中可真熱鬧砚嘴,春花似錦涩拙、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽搓彻。三九已至如绸,卻和暖如春旭贬,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背骑篙。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來泰國打工蜕提, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留靶端,地道東北人凛膏。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像猖毫,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子须喂,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容