今日頭條發(fā)布了后臺(tái)的算法原理进陡,不過(guò)用詞比較考究愿阐、說(shuō)的比較深?yuàn)W,讓人感覺(jué)云里霧里不知何處趾疚,本篇盡量用通俗語(yǔ)言進(jìn)行解析缨历,希望對(duì)大家有所幫助。
1糙麦、【原文】今日頭條算法推薦系統(tǒng)辛孵,主要輸入三個(gè)維度的變量。一是內(nèi)容特征赡磅,圖文魄缚、視頻、UGC小視頻焚廊、問(wèn)答冶匹、微頭條等,每種內(nèi)容有很多自己的特征咆瘟,需要分別提冉腊;二是用戶特征搞疗,包括興趣標(biāo)簽嗓蘑、職業(yè)须肆、年齡匿乃、性別、機(jī)型等豌汇,以及很多模型刻畫(huà)出的用戶隱藏興趣幢炸。三是環(huán)境特征,不同的時(shí)間不同的地點(diǎn)不同的場(chǎng)景(工作/通勤/旅游等)拒贱,用戶對(duì)信息的偏好有所不同宛徊。結(jié)合這三方面緯度,今日頭條的推薦模型做預(yù)估逻澳,這個(gè)內(nèi)容在這個(gè)場(chǎng)景下對(duì)這個(gè)用戶是否合適闸天。
【解析】:(1)內(nèi)容特征,好理解斜做,既是對(duì)各類文章苞氮、視頻提取關(guān)鍵要素,比如可以通過(guò)對(duì)文本進(jìn)行語(yǔ)義識(shí)別瓤逼,識(shí)別出文章的主要關(guān)鍵字笼吟,視頻標(biāo)題關(guān)鍵字如何库物,這個(gè)工作主要目的是對(duì)文章進(jìn)行畫(huà)像,方便以后對(duì)客戶推薦贷帮。至于能否做到視頻內(nèi)容的關(guān)鍵字提取戚揭,比如雖然標(biāo)題是周杰倫相關(guān)視頻,但視頻內(nèi)容全部是方文山的帥氣身影撵枢,能否將視頻中方文山這個(gè)關(guān)鍵字提取出來(lái)民晒,則暫不可知,這個(gè)工作需要耗費(fèi)巨大服務(wù)器資源诲侮,估計(jì)頭條暫時(shí)還沒(méi)有做吧镀虐。
(2)用戶特征,同上面內(nèi)容特征一樣沟绪,提取你的有效數(shù)據(jù)刮便,比如經(jīng)常瀏覽哪種類型文字、你經(jīng)常搜索的關(guān)鍵字绽慈、你注冊(cè)時(shí)登記信息的內(nèi)容恨旱、還有原文提到的用什么手機(jī)之類,你是iphone我便顯示這個(gè)游戲只能iphone玩坝疼,你是安卓我便顯示這個(gè)游戲只能安卓玩搜贤、甚至精細(xì)的話可以將每個(gè)人的留言呀、評(píng)論呀等進(jìn)行關(guān)鍵字提取钝凶,比如你經(jīng)常評(píng)論歷史內(nèi)容文章仪芒,即使你瀏覽此類文章比較少,但是也可以作為一個(gè)關(guān)鍵指標(biāo)進(jìn)行使用耕陷,通過(guò)以上各類方式最終形成用戶畫(huà)像掂名,方便后面對(duì)你進(jìn)行文章視頻推送。舉個(gè)例子哟沫,比如在通信行業(yè)饺蔑,我們經(jīng)常會(huì)受到短信,推薦什么什么套餐嗜诀、購(gòu)買流量包之類猾警,這就是通信公司通過(guò)客戶分群、客戶畫(huà)像來(lái)實(shí)現(xiàn)的定向推送隆敢,以保證推送效果发皿、節(jié)省推送成本,通信行業(yè)對(duì)一個(gè)人的畫(huà)像會(huì)多達(dá)上千個(gè)關(guān)鍵指標(biāo)拂蝎,用戶特征的提取對(duì)推薦的準(zhǔn)確度穴墅、有效度會(huì)起到相當(dāng)大的作用;
注:畫(huà)像是指對(duì)一篇文章或一個(gè)人的關(guān)鍵點(diǎn)分析,通過(guò)這些關(guān)鍵點(diǎn)則可大體了解一篇文章或者一個(gè)人的具體形象封救。
(3)環(huán)境特征拇涤,比如獲取你當(dāng)前所在位置是否在旅游區(qū)呀,這個(gè)可以通過(guò)獲取你實(shí)時(shí)位置來(lái)實(shí)現(xiàn)誉结,然后與你之前經(jīng)常出現(xiàn)的所在地進(jìn)行對(duì)比等方式確認(rèn)當(dāng)前狀態(tài)鹅士,是在家還是在旅游。如果系統(tǒng)檢測(cè)到你在泰山游玩惩坑,則可能會(huì)相應(yīng)推送泰山的類似文章資料等等掉盅,讓你感覺(jué):哇,頭條好智能以舒!
通過(guò)上面三個(gè)方面可以作為數(shù)據(jù)基礎(chǔ)趾痘,分析當(dāng)前你處于什么環(huán)境下,結(jié)合你的用戶畫(huà)像以及文章的畫(huà)像來(lái)推薦蔓钟,盡量做到推送給你的內(nèi)容都是你感興趣的永票。
2、【原文】點(diǎn)擊率滥沫、閱讀時(shí)間侣集、點(diǎn)贊、評(píng)論兰绣、轉(zhuǎn)發(fā)世分,這些都是可以量化的。但一個(gè)大體量的推薦系統(tǒng)缀辩,服務(wù)用戶眾多臭埋,不能完全由指標(biāo)評(píng)估,引入數(shù)據(jù)以外的要素臀玄,也很重要瓢阴。有些算法可以完成,有些算法還做不到镐牺、做的不好炫掐,這就需要內(nèi)容干預(yù)魁莉。
【解析】:可以量化的指標(biāo)可以體現(xiàn)一些具體信息睬涧,但是完全靠這個(gè)并不全面,比如刷評(píng)論旗唁、轉(zhuǎn)發(fā)等情況畦浓,可能就會(huì)迷惑后臺(tái)計(jì)算機(jī)的分析,純粹靠這些數(shù)據(jù)進(jìn)行推薦是有問(wèn)題检疫,里面提到的【數(shù)據(jù)以外的要素】讶请,比如當(dāng)前社會(huì)熱點(diǎn),雖然你的文章很熱,但是熱點(diǎn)已過(guò)夺溢,也不會(huì)因?yàn)槲恼碌狞c(diǎn)擊率大而繼續(xù)給你推送论巍;還有國(guó)家政策形勢(shì)呀,國(guó)家政策如有調(diào)整风响,你的文章內(nèi)容方向已不符合則也不會(huì)再次推薦嘉汰,例如房產(chǎn)方面文章等;上述這些數(shù)據(jù)并不存在于推薦算法數(shù)據(jù)里状勤,所以算法無(wú)法自動(dòng)完成鞋怀,所以需要人工對(duì)這些數(shù)據(jù)內(nèi)容進(jìn)行維護(hù)設(shè)置,以完善推薦機(jī)制持搜。
3密似、【原文】沒(méi)有一套通用的模型架構(gòu),適用所有的推薦場(chǎng)景葫盼。我們需要一個(gè)非常靈活的算法實(shí)驗(yàn)平臺(tái)残腌,這個(gè)算法不行,馬上試另一個(gè)算法贫导,實(shí)際上是各種算法的一個(gè)復(fù)雜組合废累。西瓜視頻、火山小視頻脱盲、抖音短視頻邑滨、悟空問(wèn)答,都在用頭條這一套推薦系統(tǒng)钱反,但具體到每套系統(tǒng)掖看,架構(gòu)都不一樣,需要不斷去試面哥。
【解析】不同推薦場(chǎng)景需要不同的模型架構(gòu)哎壳,這個(gè)是比較容易理解的,比如小視頻尚卫,是短時(shí)投入归榕,客戶會(huì)很少計(jì)較時(shí)間成本,所以關(guān)鍵的推薦機(jī)制可能并不是你的用戶畫(huà)像特征吱涉,而是根據(jù)視頻的點(diǎn)擊率進(jìn)行推薦刹泄,點(diǎn)擊率越大的視頻肯定越容易吸引用戶的興趣;而文章需要投入時(shí)間成本較高怎爵,精準(zhǔn)投送要求會(huì)比較高特石,所以各類內(nèi)容推薦算法會(huì)根據(jù)不同的特點(diǎn)進(jìn)行不一樣的推薦機(jī)制,需要不斷嘗試優(yōu)化鳖链。
算法實(shí)驗(yàn)平臺(tái)姆蘸,好理解,比如第一種算法投入測(cè)試,推送10000條信息逞敷,實(shí)際點(diǎn)擊有效率是50%狂秦,相當(dāng)于一條測(cè)試數(shù)據(jù);后面再對(duì)其他多種算法測(cè)試推捐,最終選取點(diǎn)擊率最高的算法進(jìn)行應(yīng)用故痊。
4、【原文】算法推薦要達(dá)到不錯(cuò)的效果玖姑,需要解決好這四類特征:相關(guān)性特征愕秫、環(huán)境特征、熱度特征和協(xié)同特征焰络。相關(guān)性特征戴甩,解決內(nèi)容和用戶的匹配。環(huán)境特征闪彼,解決基礎(chǔ)特征和匹配甜孤。熱度特征,在冷啟動(dòng)上很有效畏腕。協(xié)同特征缴川,考慮相似用戶的興趣,在一定程度上解決所謂算法越推越窄的問(wèn)題描馅。
【解析】相關(guān)性特征把夸,即是文章畫(huà)像與你的用戶畫(huà)像一致性比較高,則進(jìn)行相應(yīng)推薦铭污。環(huán)境特征恋日,剛才也已經(jīng)說(shuō)明。熱度特征嘹狞,在冷啟動(dòng)很有效岂膳,冷啟動(dòng)的概念是說(shuō)系統(tǒng)里面并沒(méi)有你的相關(guān)畫(huà)像數(shù)據(jù),比如游客登錄了頭條磅网,會(huì)怎么推薦呢谈截,可以通過(guò)熱度特征,即根據(jù)當(dāng)前社會(huì)熱點(diǎn)呀涧偷、文章閱讀量高低排名呀等一些能代表普遍群體感受的指標(biāo)進(jìn)行推送選擇簸喂。協(xié)同特征,后面解釋了嫂丙,為了解決算法越推越窄的問(wèn)題娘赴,比如通過(guò)你的行為规哲、畫(huà)像跟啤、環(huán)境等各類指標(biāo)進(jìn)行模型分析后,適合推薦給你的文章太少,應(yīng)該怎么辦呢隅肥,這時(shí)候就可以尋找跟你特征相同的用戶竿奏,比如跟你同一個(gè)年齡段、同一個(gè)性別腥放、同一個(gè)地區(qū)等相似用戶的興趣給你進(jìn)行推薦泛啸,可以作為一個(gè)推薦的補(bǔ)充,以實(shí)現(xiàn)比較好的推薦效果秃症。
5候址、【原文】今日頭條有一個(gè)世界范圍內(nèi)比較大的在線訓(xùn)練推薦模型,包括幾百億特征和幾十億的向量特征种柑。完全依賴模型推薦成本過(guò)高岗仑,因此有了簡(jiǎn)化策略的召回模型【矍耄基于召回策略荠雕,把一個(gè)海量、無(wú)法把握的內(nèi)容庫(kù)驶赏,變成一個(gè)相對(duì)小炸卑、可以把握的內(nèi)容庫(kù),再進(jìn)入推薦模型煤傍。這樣有效平衡了計(jì)算成本和效果盖文。
【解析】:這幾百億特征,大家可能很難想象蚯姆,主要就是包括上篇所說(shuō)的文章畫(huà)像椅寺、視頻畫(huà)像、用戶畫(huà)像蒋失,所有文章包括普通文章返帕、專業(yè)文章,所有關(guān)鍵詞集中起來(lái)數(shù)量是相當(dāng)可觀的篙挽,這每一個(gè)關(guān)鍵字荆萤,在擬合算法中就是一個(gè)向量。所以如果每一次的推薦都依賴這個(gè)最大的模型铣卡,成本確實(shí)太高链韭,所以需要簡(jiǎn)化。
說(shuō)明后面內(nèi)容之前煮落,需要介紹一個(gè)關(guān)鍵詞的含義:召回敞峭,說(shuō)直接點(diǎn),就是對(duì)符合條件的結(jié)果進(jìn)行排序蝉仇,以決定給你推薦文章的順序旋讹。在業(yè)界對(duì)推薦算法是否有效進(jìn)行評(píng)價(jià)的時(shí)候殖蚕,需要用到召回率這個(gè)指標(biāo),舉例:所有可供推薦的文章庫(kù)里共有40篇文章與你的用戶畫(huà)像相關(guān)沉迹,實(shí)際通過(guò)推薦算法推薦給你了20篇睦疫,但實(shí)際上有10篇是你真正喜歡的文章,則召回率就是10/40=0.25鞭呕,精度是10/20=0.5蛤育。整句話意思就是根據(jù)推薦算法盡量縮小推薦內(nèi)容庫(kù),減少計(jì)算推薦成本葫松。
6【原文】在今日頭條工作前三年瓦糕,我收到用戶反饋?zhàn)畲蟮囊粋€(gè)問(wèn)題,就是腋么,“怎么老給我推重復(fù)的刻坊?” 其實(shí),每個(gè)人對(duì)重復(fù)的定義不一樣党晋。有人昨天看到一篇講巴薩的文章谭胚,今天又看到兩篇,可能就覺(jué)得煩了未玻。但對(duì)于一個(gè)重度球迷來(lái)講灾而,比如巴薩的球迷,可能恨不得所有的報(bào)道都看一遍扳剿。解決這個(gè)旁趟,實(shí)際上需要精確抽取文本特征,比如哪些文章說(shuō)的是一個(gè)事兒庇绽,哪些文章基本一樣等等锡搜。文本特征對(duì)于推薦的獨(dú)特價(jià)值在于,沒(méi)有文本特征瞧掺,推薦引擎無(wú)法工作耕餐,同時(shí),文本特征顆粒度越細(xì)辟狈,冷啟動(dòng)能力越強(qiáng)肠缔。
【解析】:文本特征提取本身也是一個(gè)比較復(fù)雜的問(wèn)題,舉個(gè)例子哼转,要對(duì)”人民生活水平”這句話進(jìn)行語(yǔ)義解析提取特征明未,可能會(huì)提取出如下一些關(guān)鍵字:人民-民生-生活-活水-水平,至于怎么提取才貼合本篇文章要表達(dá)的意思壹蔓,則需要很復(fù)雜的后臺(tái)邏輯了趟妥,比如可以隨便摘取人民日?qǐng)?bào)1000篇文章作為語(yǔ)料庫(kù),分析各個(gè)詞語(yǔ)出現(xiàn)的頻率佣蓉,把這個(gè)詞語(yǔ)頻率高低排序作為算法的基礎(chǔ)數(shù)據(jù)來(lái)進(jìn)行本篇文章文本特征的提取披摄,這是一種比較簡(jiǎn)單的方式亲雪。具體的要跟本篇文章如何結(jié)合,保證提取的特征是準(zhǔn)確的則需要更復(fù)雜的算法行疏。
冷啟動(dòng)的意思上篇大體說(shuō)過(guò)匆光,就是在沒(méi)有用戶信息的時(shí)候如何進(jìn)行內(nèi)容推薦套像,比如新注冊(cè)的用戶或者游客酿联,比如騰訊公司統(tǒng)一用QQ號(hào)作為一個(gè)用戶主索引,你玩過(guò)什么游戲夺巩,聽(tīng)過(guò)什么歌曲贞让,都可以作為用戶畫(huà)像特征應(yīng)用到騰訊新聞的對(duì)你推薦文章的算法里,頭條當(dāng)然也可以用sina微博賬號(hào)柳譬、微信賬號(hào)登錄時(shí)的授權(quán)喳张,分析你曾經(jīng)關(guān)注的微博賬號(hào)、微信公賬號(hào)信息等美澳,作為冷啟動(dòng)時(shí)的用戶畫(huà)像數(shù)據(jù)销部。
7【原文】語(yǔ)義標(biāo)簽的效果,是檢查一個(gè)公司NLP(自然語(yǔ)言處理)的試金石制跟。頻道舅桩、興趣表達(dá)等重要產(chǎn)品功能,需要一個(gè)有明確定義雨膨、容易理解的文本標(biāo)簽體系擂涛。所以,在隱式語(yǔ)義特征已經(jīng)可以很好地幫助推薦聊记,且做好語(yǔ)義標(biāo)簽需要投入遠(yuǎn)大于隱式語(yǔ)義特征的情況下撒妈,我們?nèi)匀恍枰龊谜Z(yǔ)義標(biāo)簽。
【解析】:何為隱式語(yǔ)義特征呢排监?簡(jiǎn)單說(shuō)明一下狰右,當(dāng)兩個(gè)詞或一組詞出現(xiàn)在同一個(gè)文檔中時(shí),這些詞之間可以被認(rèn)為是語(yǔ)義相關(guān)的舆床。機(jī)器并不知道某個(gè)詞究竟代表什么挟阻,不知道某個(gè)詞是什么意思,但是通過(guò)大量文章的學(xué)習(xí)峭弟,機(jī)器就能學(xué)習(xí)出這些詞語(yǔ)是語(yǔ)義相關(guān)附鸽,比如apple跟蘋果、電腦和計(jì)算機(jī)瞒瘸,通過(guò)這些相關(guān)性就可以對(duì)你搜索的內(nèi)容坷备、或者對(duì)你的用戶畫(huà)像進(jìn)行匹配來(lái)推薦文章,你搜電腦情臭,則文章特征包含計(jì)算機(jī)的文章也會(huì)推薦給你省撑。語(yǔ)義標(biāo)簽則是明確指定詞語(yǔ)的語(yǔ)義赌蔑、相關(guān)性作為推薦算法的基礎(chǔ)數(shù)據(jù)來(lái)使用,也就是讓機(jī)器明確明白詞語(yǔ)的相關(guān)性竟秫,當(dāng)然后面這種算法需要耗費(fèi)相當(dāng)大的人力物力娃惯,但是這個(gè)工作做好之后,就保證了數(shù)據(jù)的準(zhǔn)確性肥败,減少了依賴于機(jī)器學(xué)習(xí)的不可控制性趾浅,當(dāng)然這個(gè)功能也是一個(gè)公司自然語(yǔ)言處理最能展示實(shí)力的一環(huán)。
8【原文】除了用戶的自然標(biāo)簽馒稍,推薦還需要考慮很多復(fù)雜的情況: 1)過(guò)濾噪聲:過(guò)濾停留時(shí)間短的點(diǎn)擊皿哨,打擊標(biāo)題黨;2)懲罰熱點(diǎn):用戶在熱門文章上的動(dòng)作做降權(quán)處理纽谒;3)時(shí)間衰減:隨著用戶動(dòng)作的增加证膨,老的特征權(quán)重會(huì)隨時(shí)間衰減,新動(dòng)作貢獻(xiàn)的特征權(quán)重會(huì)更大鼓黔;4)懲罰展現(xiàn):如果一篇推薦給用戶的文章沒(méi)有被點(diǎn)擊央勒,相關(guān)特征(類別、關(guān)鍵詞澳化、來(lái)源)權(quán)重會(huì)被懲罰崔步;5)考慮全局背景:考慮給定特征的人均點(diǎn)擊比例。
【解析】:里面描述的內(nèi)容主要是考慮用戶的自然標(biāo)簽之外的一些因素肆捕,1)過(guò)濾噪聲刷晋,一般在做信號(hào)處理的時(shí)候,需要對(duì)信號(hào)進(jìn)行降噪處理慎陵,以平滑信號(hào)曲線方便進(jìn)行下一步處理眼虱。此處的過(guò)濾停留時(shí)間短的點(diǎn)擊,也是出于此考慮席纽,因?yàn)闃?biāo)題黨可能會(huì)引入比較大的點(diǎn)擊率捏悬,但是也會(huì)有非常大的概率是進(jìn)入后直接退出,則這些點(diǎn)擊率并不能代表你的文章比較好润梯,所以這部分點(diǎn)擊就要過(guò)濾掉过牙,所以這個(gè)功能如果真正在推薦算法中應(yīng)用的話,標(biāo)題黨后面將不會(huì)再是提高收益的一種有效方式纺铭。
懲罰熱點(diǎn)寇钉,每個(gè)人在熱點(diǎn)上的表現(xiàn)可能僅僅是因?yàn)殡S大流,并不能代表你真正的用戶畫(huà)像舶赔,所以這部分要降低操作的權(quán)重扫倡,很好理解。
時(shí)間衰減竟纳,也好理解撵溃,比如你一年前喜歡看的文章特征疚鲤,相對(duì)于你前幾天喜歡的文章特征,當(dāng)然是以前幾天的特征為準(zhǔn)作為推送依據(jù)啦缘挑。
懲罰展現(xiàn)集歇,這就是為什么文章說(shuō)不行一直不行,說(shuō)行就猛地飆升上去的原因了语淘。如果你寫的一篇文章推薦給100個(gè)人诲宇,沒(méi)有一個(gè)人點(diǎn)擊,則你的文章特征權(quán)重就會(huì)降低亏娜,以后的推薦數(shù)量就會(huì)降低了焕窝,假設(shè)頭條仁義的話蹬挺,可以給你重新進(jìn)行文章畫(huà)像维贺,再次進(jìn)入推薦序列,如果不仁義則可能就直接打入冷宮巴帮,永不得翻身了溯泣。
考慮全局背景,相當(dāng)于上面所說(shuō)的降噪處理榕茧,比如你這篇文章一個(gè)人又評(píng)價(jià)又贊又轉(zhuǎn)發(fā)垃沦,但是其他100個(gè)人冷眼旁觀,根本不打開(kāi)看用押,則人均點(diǎn)擊比例也是非常低的肢簿,所以考慮這個(gè)因素的話你的文章也是不會(huì)得到大批量推薦的。
9【原文】比起批量計(jì)算用戶標(biāo)簽蜻拨,采用流式計(jì)算框架池充,可以大大節(jié)省計(jì)算機(jī)資源,可以準(zhǔn)實(shí)時(shí)完成用戶興趣模型的更新缎讼。幾十臺(tái)機(jī)器就可以支撐每天數(shù)千萬(wàn)用戶的興趣模型更新绪爸,99%的用戶可以實(shí)現(xiàn)發(fā)生動(dòng)作后10分鐘模型更新薄啥。
【解析】這個(gè)地方了解批量處理跟流式框架即可,一般大數(shù)據(jù)處理工作,比如這里面說(shuō)的批量計(jì)算用戶標(biāo)簽睛廊,會(huì)選擇業(yè)務(wù)量小的時(shí)間點(diǎn)進(jìn)行批量處理,比如在凌晨减俏,這樣可以減少數(shù)據(jù)處理給業(yè)務(wù)帶來(lái)的壓力崔挖,統(tǒng)一更新用戶的標(biāo)簽,但這里存在的一個(gè)問(wèn)題便是無(wú)法及時(shí)更新用戶的標(biāo)簽舰讹。
比如你昨天看了很多足球的相關(guān)文章茅姜,足球這個(gè)標(biāo)簽的權(quán)重會(huì)相當(dāng)高,今天上午突發(fā)奇想對(duì)籃球感興趣跺涤,但如果標(biāo)簽更新延遲時(shí)間很長(zhǎng)的話匈睁,可能下午系統(tǒng)才會(huì)反應(yīng)過(guò)來(lái)給你推薦籃球的內(nèi)容监透,你一上午的時(shí)間推送的可能全部是昨天關(guān)注的足球的內(nèi)容,這肯定不是用戶希望的航唆。
所以頭條采用流式框架后胀蛮,可以基本做到實(shí)時(shí)數(shù)據(jù)處理,基本在用戶查看文章動(dòng)作十分鐘后就能對(duì)你的標(biāo)簽進(jìn)行更新糯钙,提高用戶感受粪狼。
10【原文】影響推薦效果的因素有很多,我們需要一個(gè)完備的評(píng)估體系任岸,不能只看單一指標(biāo)再榄,點(diǎn)擊率、留存享潜、收入或是互動(dòng)困鸥,我們需要看很多指標(biāo),做綜合評(píng)估:兼顧短期指標(biāo)和長(zhǎng)期指標(biāo)剑按,兼顧用戶指標(biāo)和生態(tài)指標(biāo)疾就,注意協(xié)同效應(yīng)的影響,有時(shí)候需要做徹底的統(tǒng)計(jì)隔離等艺蝴。有人問(wèn)猬腰,所有的這些指標(biāo),能合成唯一的一個(gè)公式嗎猜敢?我們苦苦探索了幾年姑荷,目前還沒(méi)有做到。
【解析】這里跟第二條類似缩擂,單純靠具體統(tǒng)計(jì)指標(biāo)來(lái)進(jìn)行推薦效果肯定是不好的鼠冕,比如單純看一篇文章的點(diǎn)擊量大,就推送給所有用戶肯定是不合適的撇叁,所以需要進(jìn)行綜合評(píng)估供鸠。
這個(gè)綜合評(píng)估,就需要對(duì)一些因素的有效期限進(jìn)行分析陨闹,比如點(diǎn)擊率有效期是比較短的楞捂,一篇文章在發(fā)布第一天點(diǎn)擊率高則系統(tǒng)會(huì)瘋狂推送,但是第二天可能點(diǎn)擊率仍然比較高趋厉,但是跟一些熱點(diǎn)性的因素相比寨闹,或者跟其他人寫的新文章這個(gè)新鮮因素相比,這個(gè)點(diǎn)擊率有效性就比較差了君账,可能就不會(huì)再次大批量推送繁堡,所以說(shuō)一個(gè)有效的兼容性廣的評(píng)估是需要進(jìn)行全面設(shè)計(jì)的,具體指標(biāo)的權(quán)重應(yīng)該怎么設(shè)置比較好則需要通過(guò)不同的實(shí)驗(yàn)來(lái)判斷。
11【原文】很多公司的算法做得不好椭蹄,不是人的問(wèn)題闻牡,是實(shí)驗(yàn)平臺(tái)的問(wèn)題。 如果A/B Test绳矩,每次數(shù)據(jù)都是錯(cuò)的罩润,不是這兒錯(cuò)就是那兒錯(cuò),總上不了線翼馆,這個(gè)事就廢了割以。而一個(gè)強(qiáng)大的實(shí)驗(yàn)平臺(tái),可以實(shí)現(xiàn)每天數(shù)百個(gè)實(shí)驗(yàn)同時(shí)在線应媚,高效管理和分配實(shí)驗(yàn)流量严沥,降低實(shí)驗(yàn)分析成本,提高算法迭代效率中姜。
【解析】算法是需要測(cè)試出來(lái)的消玄,數(shù)學(xué)模型里有各種各樣的算法,其實(shí)每一種算法無(wú)所謂好壞扎筒,只是說(shuō)在哪種場(chǎng)景下這個(gè)算法表現(xiàn)是比較好那個(gè)算法表現(xiàn)一般而已莱找。如果一種算法機(jī)制能在概要設(shè)計(jì)階段就能完全確定這樣就是最好的話酬姆,就不存在實(shí)驗(yàn)的說(shuō)法了嗜桌,正是因?yàn)橛泻芏嗖淮_定性,一種算法的優(yōu)劣也是不確定的辞色,所以能夠降低試驗(yàn)成本骨宠、提高算法更新頻率就成了提取有效算法的最主要的工作內(nèi)容。
12【原文】頭條現(xiàn)在擁有健全的內(nèi)容安全機(jī)制相满。除了人工審核團(tuán)隊(duì)层亿,我們還有技術(shù)識(shí)別。包括風(fēng)險(xiǎn)內(nèi)容識(shí)別技術(shù)立美,構(gòu)建千萬(wàn)張圖片樣本集的鑒黃模型匿又,超過(guò)百萬(wàn)樣本庫(kù)的低俗模型和謾罵模型等,以及泛低質(zhì)內(nèi)容識(shí)別技術(shù)建蹄。
【解析】這個(gè)比較容易理解了碌更,隨著頭條作者數(shù)量增加,純粹靠人工審核洞慎,那人力成本就太大了痛单,所以機(jī)器智能識(shí)別的重要性就凸顯出來(lái),隨著服務(wù)器性能的增加劲腿,一些重復(fù)性的工作就可以通過(guò)機(jī)器來(lái)實(shí)現(xiàn)旭绒,比如里面說(shuō)的鑒黃模型,就是通過(guò)圖片的相似性判斷來(lái)讓機(jī)器自動(dòng)識(shí)別,也就是通過(guò)機(jī)器進(jìn)行圖像處理挥吵;
低俗模型和謾罵模型重父,主要是需要先建立一些文字模板公式,比如一句話里面含有哪些字符忽匈,或者哪些字符組合就定義為低俗模型坪郭,然后機(jī)器自動(dòng)對(duì)文本進(jìn)行匹配識(shí)別,當(dāng)匹配上之后就監(jiān)測(cè)出來(lái)進(jìn)行過(guò)濾脉幢,這里面用到的主要是文本解析技術(shù)和語(yǔ)義識(shí)別技術(shù)歪沃,現(xiàn)在業(yè)界也都已經(jīng)基本成熟,只是根據(jù)需要的不同進(jìn)行不同的調(diào)整即可嫌松。
作者:purewater2014
鏈接:http://www.reibang.com/p/b564c19567b7
來(lái)源:簡(jiǎn)書(shū)
簡(jiǎn)書(shū)著作權(quán)歸作者所有沪曙,任何形式的轉(zhuǎn)載都請(qǐng)聯(lián)系作者獲得授權(quán)并注明出處。