互聯(lián)網(wǎng)給用戶帶來了大量的信息,滿足了用戶在信息時(shí)代對(duì)信息的需求践磅,但也使得用戶在面
對(duì)大量信息時(shí)無法從中獲得對(duì)自己真正有用的那部分信息,對(duì)信息的使用效率反而降低了,
而通常解決這個(gè)問題最常規(guī)的辦法是推薦系統(tǒng)科贬。
推薦系統(tǒng)能有效幫助用戶快速發(fā)現(xiàn)感興趣和高質(zhì)量的信息,提升用戶體驗(yàn),增加用戶使用產(chǎn)1
品時(shí)間榜掌,并有效減少用戶瀏覽到重復(fù)或者厭惡的信息帶來的不利影響优妙,通常推薦系統(tǒng)越精
準(zhǔn),用戶體驗(yàn)就越好憎账,用戶停留時(shí)間也會(huì)越長套硼,也越容易留住用戶。
今日頭條在北京國家會(huì)議中心舉辦了“算數(shù)·年度數(shù)據(jù)發(fā)布會(huì)”胞皱,數(shù)據(jù)發(fā)布會(huì)的主題名
為“算數(shù)”邪意,實(shí)際上指的是“算法”與“數(shù)據(jù)”,我也參加了這場發(fā)布會(huì)反砌,有些收獲不敢私
藏與大家分享雾鬼!
眾所周知,今日頭條是個(gè)個(gè)性化的新聞推薦引擎于颖,在今日頭條CEO張一鳴看來呆贿,算法是《今
日頭條》這款興趣推薦搜索引擎應(yīng)用的核心,這也是與傳統(tǒng)媒體最本質(zhì)的區(qū)別森渐,今日頭條之
所以能夠非常懂用戶做入,精準(zhǔn)推薦出用戶所喜好的新聞,完全得益于算法同衣,而正是精準(zhǔn)推薦竟块,
使得今日頭條在短短兩年多的時(shí)間內(nèi)擁有了2.2億用戶,每天有超過2000萬用戶在今日頭條
上閱讀自己感興趣的文章耐齐。
那么今日頭條是怎么做到為每一個(gè)用戶按興趣精準(zhǔn)推薦新聞的呢浪秘?在發(fā)布會(huì)上,今日頭條的
技術(shù)副總裁楊震原給我們揭秘了今日頭條的個(gè)性化推薦核心“算法”埠况。
如下圖耸携,有3篇文章,讓3個(gè)用戶投票[注:這3個(gè)用戶是一類人辕翰,有相同屬性(喜好和偏
好)]夺衍,那第4個(gè)用戶應(yīng)該被系統(tǒng)推薦的文章是那篇呢?第4個(gè)用戶與前3個(gè)用戶都是一類人喜命,
答案顯而易見是第一篇文章沟沙。
沒錯(cuò),今日頭條的個(gè)性化推薦算法原理就是基于投票的方法壁榕,其核心理念就是投票矛紫,每個(gè)用
戶一票,喜歡哪一篇文章就把票投給這篇文章牌里,經(jīng)過統(tǒng)計(jì)颊咬,最后得到結(jié)果很可能是在這個(gè)人
群下最好的文章,并把這篇文章推薦給同人群用戶過程就是個(gè)性化推薦,實(shí)際上個(gè)性化推薦
并不是機(jī)器給用戶推薦喳篇,而是用戶之間在互相推薦缓呛,看起來似乎很簡單,但實(shí)際上這需要基
于海量的用戶行為數(shù)據(jù)挖掘與分析杭隙。
搞技術(shù)的朋友都知道哟绊,內(nèi)容推薦必須基于受眾人群,只有在確定受眾人群之后才能確定推薦
內(nèi)容痰憎,有的放矢才叫精準(zhǔn)推薦票髓。
上面那個(gè)例子只是很小的人群,但是現(xiàn)實(shí)生活中不會(huì)有這樣小的人群铣耘,而且太小的人群通過
推薦投票的方式也很難推薦出很精細(xì)的內(nèi)容洽沟,只能推薦出一些熱門內(nèi)容,那今日頭條是如何
來劃分人群蜗细?
我們假定上圖這個(gè)人群有8萬人裆操,只有兩類:一類叫喜歡科技的人群;一類喜歡娛樂的人
群炉媒,我們先分成兩類踪区,每類有4萬人,我們又找到另一個(gè)維度地域:上海和北京吊骤,喜歡科技
的人有上海和北京的缎岗,喜歡娛樂的也有北京和上海的,我們把8萬人群分成四組白粉,每組兩
萬传泊,我們?cè)僬夷挲g,30歲以上和以下鸭巴,我們分成8個(gè)人群眷细,每個(gè)人群1萬人,第1個(gè)是喜好科
技鹃祖,位置在北京溪椎,年齡30歲以上,這有1萬人惯豆,我們?cè)僖韵旅娴南矚g娛樂池磁,地點(diǎn)上海奔害,人群1
萬楷兽。
根據(jù)人群不同維度,我們可以細(xì)分到一個(gè)合理的力度华临。特別需要注意的是:在細(xì)分的領(lǐng)域里
面投票數(shù)既不要太多芯杀,但也不要太少,因?yàn)樘鄾]有個(gè)性化,僅是一個(gè)大眾關(guān)心的話題而
已揭厚,而投票數(shù)太少又沒有統(tǒng)計(jì)意義却特,支持度就低了。
人群特征可以是閱讀姓名筛圆,年齡裂明,地域,職業(yè)等等太援,同理闽晦,文章也是類似的,文章有提到哪
些名人提岔,文章發(fā)布的時(shí)間仙蛉,文章所屬的地區(qū)等等,也都有很多特性碱蒙,這些都是可以去組合起
來荠瘪。
判斷一個(gè)用戶屬于怎樣的人群相對(duì)簡單,比如地域赛惩,用戶的手機(jī)在什么區(qū)域哀墓,就可以認(rèn)為用
戶是什么地域的;比如說用戶興趣喷兼,可以根據(jù)用戶的閱讀習(xí)慣去判斷麸祷,用戶會(huì)經(jīng)常去看科技
的文章,那就可以判斷用戶屬于科技的人群褒搔;再比如說用戶的好友關(guān)系阶牍,用戶在今日頭條上
面注冊(cè)了,用戶的好友都是娛樂圈的人星瘾,則該用戶很有可能也是娛樂圈的人走孽。
所以通過用戶在今日頭條上行為,以及用戶客觀的地理位置信息琳状,就能判斷用戶到底屬于一
個(gè)什么樣的人群磕瓷。
精準(zhǔn)推薦最難的不是劃分人群,也不是判斷用戶人群歸屬念逞,更不是文章屬性判斷困食,一個(gè)人可
以屬于多個(gè)人群,也有多個(gè)文章候選翎承,選那個(gè)推薦才是最難的硕盹,而今日頭條的推薦內(nèi)容是怎
么算出來的呢?
通過上圖的計(jì)算公式:W1*候選1的投票率+W2*候選2的投票率+W3候選3的投票率+……=最高
分叨咖,最后能計(jì)算出一個(gè)得分瘩例,按得分的高低來排序啊胶,就可以得到推薦文章的一個(gè)侯選,這個(gè)
過程實(shí)際上是一個(gè)比較簡單的算法垛贤,而這在今日頭條內(nèi)部叫邏輯回歸焰坪。
總的來說,個(gè)性化推薦技術(shù)本身并不神秘聘惦,歸根到底推薦算法關(guān)鍵是還在于對(duì)海量用戶行為
的數(shù)據(jù)分析與挖掘某饰,也許各家算法略有不同,但最終目的都是殊途同歸善绎,為實(shí)現(xiàn)最精準(zhǔn)的內(nèi)
容推薦而努力中(對(duì)于排序的算法露乏,大家可查看一下馬海祥博客《九大排序算法的實(shí)現(xiàn)方法
及算法分析》的相關(guān)介紹)。
推薦算法大致可以分為三類:基于內(nèi)容的推薦算法涂邀、協(xié)同過濾推薦算法和基于知識(shí)的推薦算
法瘟仿。
基于內(nèi)容的推薦算法的原理是用戶喜歡和自己關(guān)注過的Item在內(nèi)容上類似的Item,比如你看
了哈利波特I比勉,基于內(nèi)容的推薦算法發(fā)現(xiàn)哈利波特II-VI劳较,與你以前觀看的在內(nèi)容上面(共有
很多關(guān)鍵詞)有很大關(guān)聯(lián)性,就把后者推薦給你浩聋,這種方法可以避免Item的冷啟動(dòng)問題(冷
啟動(dòng):如果一個(gè)Item從沒有被關(guān)注過观蜗,其他推薦算法則很少會(huì)去推薦,但是基于內(nèi)容的推薦
算法可以分析Item之間的關(guān)系衣洁,實(shí)現(xiàn)推薦)墓捻。
弊端在于推薦的Item可能會(huì)重復(fù),典型的就是新聞推薦坊夫,如果你看了一則關(guān)于MH370的新
聞砖第,很可能推薦的新聞和你瀏覽過的,內(nèi)容一致环凿;另外一個(gè)弊端則是對(duì)于一些多媒體的推薦
(比如音樂梧兼、電影、圖片等)由于很難提內(nèi)容特征智听,則很難進(jìn)行推薦羽杰,一種解決方式則是人
工給這些Item打標(biāo)簽。
協(xié)同過濾算法的原理是用戶喜歡那些具有相似興趣的用戶喜歡過的商品到推,比如你的朋友喜歡
電影哈利波特I考赛,那么就會(huì)推薦給你,這是最簡單的基于用戶的協(xié)同過濾算法(user-
basedcollaboratIve filtering)莉测,還有一種是基于Item的協(xié)同過濾算法(item-
basedcollaborativefiltering)颜骤,這兩種方法都是將用戶的所有數(shù)據(jù)讀入到內(nèi)存中進(jìn)行運(yùn)
算的,因此成為Memory-basedCollaborative Filtering悔雹,另一種則是Model-based
collaborativefiltering复哆,包括Aspect Model,pLSA腌零,LDA梯找,聚類,SVD益涧,
MatrixFactorization等锈锤,這種方法訓(xùn)練過程比較長,但是訓(xùn)練完成后闲询,推薦過程比較快久免。
最后一種方法是基于知識(shí)的推薦算法,也有人將這種方法歸為基于內(nèi)容的推薦扭弧,這種方法比
較典型的是構(gòu)建領(lǐng)域本體阎姥,或者是建立一定的規(guī)則,進(jìn)行推薦鸽捻。
混合推薦算法呼巴,則會(huì)融合以上方法,以加權(quán)或者串聯(lián)御蒲、并聯(lián)等方式盡心融合衣赶。
當(dāng)然,推薦系統(tǒng)還包括很多方法厚满,其實(shí)機(jī)器學(xué)習(xí)或者數(shù)據(jù)挖掘里面的方法府瞄,很多都可以應(yīng)用
在推薦系統(tǒng)中,比如說LR碘箍、GBDT遵馆、RF(這三種方法在一些電商推薦里面經(jīng)常用到),社交網(wǎng)
絡(luò)里面的圖結(jié)構(gòu)等丰榴,都可以說是推薦方法团搞。
個(gè)性化推薦的主要思想八個(gè)字概括之:物以類聚、人以群分多艇。主要的方法及變種應(yīng)該有很
多逻恐,像協(xié)同過濾、基于內(nèi)容的推薦峻黍、基于標(biāo)簽的推薦等等复隆,以后推薦系統(tǒng)一個(gè)趨勢(shì)就是基于
社交的,利用用戶反饋進(jìn)行實(shí)時(shí)推薦姆涩,多種推薦算法進(jìn)行混合挽拂,從而達(dá)到一個(gè)較好的推薦結(jié)
果。