今日頭條發(fā)布了后臺的算法原理默蚌,不過用詞比較考究、說的比較深?yuàn)W苇羡,讓人感覺云里霧里不知何處绸吸,本篇盡量用通俗語言進(jìn)行解析,希望對大家有所幫助设江。
1锦茁、【原文】今日頭條算法推薦系統(tǒng),主要輸入三個(gè)維度的變量叉存。一是內(nèi)容特征码俩,圖文、視頻歼捏、UGC小視頻稿存、問答、微頭條等瞳秽,每種內(nèi)容有很多自己的特征瓣履,需要分別提取寂诱;二是用戶特征拂苹,包括興趣標(biāo)簽、職業(yè)、年齡瓢棒、性別浴韭、機(jī)型等,以及很多模型刻畫出的用戶隱藏興趣脯宿。三是環(huán)境特征念颈,不同的時(shí)間不同的地點(diǎn)不同的場景(工作/通勤/旅游等),用戶對信息的偏好有所不同连霉。結(jié)合這三方面緯度榴芳,今日頭條的推薦模型做預(yù)估,這個(gè)內(nèi)容在這個(gè)場景下對這個(gè)用戶是否合適跺撼。
【解析】:(1)內(nèi)容特征窟感,好理解,既是對各類文章歉井、視頻提取關(guān)鍵要素柿祈,比如可以通過對文本進(jìn)行語義識別,識別出文章的主要關(guān)鍵字哩至,視頻標(biāo)題關(guān)鍵字如何躏嚎,這個(gè)工作主要目的是對文章進(jìn)行畫像,方便以后對客戶推薦菩貌。至于能否做到視頻內(nèi)容的關(guān)鍵字提取卢佣,比如雖然標(biāo)題是周杰倫相關(guān)視頻,但視頻內(nèi)容全部是方文山的帥氣身影箭阶,能否將視頻中方文山這個(gè)關(guān)鍵字提取出來虚茶,則暫不可知,這個(gè)工作需要耗費(fèi)巨大服務(wù)器資源尾膊,估計(jì)頭條暫時(shí)還沒有做吧媳危。
(2)用戶特征,同上面內(nèi)容特征一樣冈敛,提取你的有效數(shù)據(jù),比如經(jīng)常瀏覽哪種類型文字鸣皂、你經(jīng)常搜索的關(guān)鍵字抓谴、你注冊時(shí)登記信息的內(nèi)容、還有原文提到的用什么手機(jī)之類寞缝,你是iphone我便顯示這個(gè)游戲只能iphone玩癌压,你是安卓我便顯示這個(gè)游戲只能安卓玩、甚至精細(xì)的話可以將每個(gè)人的留言呀荆陆、評論呀等進(jìn)行關(guān)鍵字提取滩届,比如你經(jīng)常評論歷史內(nèi)容文章,即使你瀏覽此類文章比較少被啼,但是也可以作為一個(gè)關(guān)鍵指標(biāo)進(jìn)行使用帜消,通過以上各類方式最終形成用戶畫像棠枉,方便后面對你進(jìn)行文章視頻推送。舉個(gè)例子泡挺,比如在通信行業(yè)辈讶,我們經(jīng)常會受到短信,推薦什么什么套餐娄猫、購買流量包之類贱除,這就是通信公司通過客戶分群、客戶畫像來實(shí)現(xiàn)的定向推送媳溺,以保證推送效果月幌、節(jié)省推送成本,通信行業(yè)對一個(gè)人的畫像會多達(dá)上千個(gè)關(guān)鍵指標(biāo)悬蔽,用戶特征的提取對推薦的準(zhǔn)確度扯躺、有效度會起到相當(dāng)大的作用;
注:畫像是指對一篇文章或一個(gè)人的關(guān)鍵點(diǎn)分析屯阀,通過這些關(guān)鍵點(diǎn)則可大體了解一篇文章或者一個(gè)人的具體形象缅帘。
(3)環(huán)境特征,比如獲取你當(dāng)前所在位置是否在旅游區(qū)呀难衰,這個(gè)可以通過獲取你實(shí)時(shí)位置來實(shí)現(xiàn)钦无,然后與你之前經(jīng)常出現(xiàn)的所在地進(jìn)行對比等方式確認(rèn)當(dāng)前狀態(tài),是在家還是在旅游盖袭。如果系統(tǒng)檢測到你在泰山游玩失暂,則可能會相應(yīng)推送泰山的類似文章資料等等,讓你感覺:哇鳄虱,頭條好智能弟塞!
通過上面三個(gè)方面可以作為數(shù)據(jù)基礎(chǔ),分析當(dāng)前你處于什么環(huán)境下拙已,結(jié)合你的用戶畫像以及文章的畫像來推薦决记,盡量做到推送給你的內(nèi)容都是你感興趣的。
2倍踪、【原文】點(diǎn)擊率系宫、閱讀時(shí)間、點(diǎn)贊建车、評論扩借、轉(zhuǎn)發(fā),這些都是可以量化的缤至。但一個(gè)大體量的推薦系統(tǒng)潮罪,服務(wù)用戶眾多,不能完全由指標(biāo)評估,引入數(shù)據(jù)以外的要素嫉到,也很重要沃暗。有些算法可以完成,有些算法還做不到屯碴、做的不好描睦,這就需要內(nèi)容干預(yù)。
【解析】:可以量化的指標(biāo)可以體現(xiàn)一些具體信息导而,但是完全靠這個(gè)并不全面忱叭,比如刷評論、轉(zhuǎn)發(fā)等情況今艺,可能就會迷惑后臺計(jì)算機(jī)的分析韵丑,純粹靠這些數(shù)據(jù)進(jìn)行推薦是有問題,里面提到的【數(shù)據(jù)以外的要素】虚缎,比如當(dāng)前社會熱點(diǎn)撵彻,雖然你的文章很熱,但是熱點(diǎn)已過实牡,也不會因?yàn)槲恼碌狞c(diǎn)擊率大而繼續(xù)給你推送陌僵;還有國家政策形勢呀,國家政策如有調(diào)整创坞,你的文章內(nèi)容方向已不符合則也不會再次推薦碗短,例如房產(chǎn)方面文章等;上述這些數(shù)據(jù)并不存在于推薦算法數(shù)據(jù)里题涨,所以算法無法自動(dòng)完成偎谁,所以需要人工對這些數(shù)據(jù)內(nèi)容進(jìn)行維護(hù)設(shè)置,以完善推薦機(jī)制纲堵。
3巡雨、【原文】沒有一套通用的模型架構(gòu),適用所有的推薦場景席函。我們需要一個(gè)非常靈活的算法實(shí)驗(yàn)平臺铐望,這個(gè)算法不行,馬上試另一個(gè)算法茂附,實(shí)際上是各種算法的一個(gè)復(fù)雜組合蝌以。西瓜視頻、火山小視頻何之、抖音短視頻、悟空問答咽筋,都在用頭條這一套推薦系統(tǒng)溶推,但具體到每套系統(tǒng),架構(gòu)都不一樣,需要不斷去試蒜危。
【解析】不同推薦場景需要不同的模型架構(gòu)虱痕,這個(gè)是比較容易理解的,比如小視頻辐赞,是短時(shí)投入部翘,客戶會很少計(jì)較時(shí)間成本,所以關(guān)鍵的推薦機(jī)制可能并不是你的用戶畫像特征响委,而是根據(jù)視頻的點(diǎn)擊率進(jìn)行推薦新思,點(diǎn)擊率越大的視頻肯定越容易吸引用戶的興趣;而文章需要投入時(shí)間成本較高赘风,精準(zhǔn)投送要求會比較高夹囚,所以各類內(nèi)容推薦算法會根據(jù)不同的特點(diǎn)進(jìn)行不一樣的推薦機(jī)制,需要不斷嘗試優(yōu)化邀窃。
算法實(shí)驗(yàn)平臺荸哟,好理解,比如第一種算法投入測試瞬捕,推送10000條信息鞍历,實(shí)際點(diǎn)擊有效率是50%,相當(dāng)于一條測試數(shù)據(jù)肪虎;后面再對其他多種算法測試劣砍,最終選取點(diǎn)擊率最高的算法進(jìn)行應(yīng)用。
4笋轨、【原文】算法推薦要達(dá)到不錯(cuò)的效果秆剪,需要解決好這四類特征:相關(guān)性特征、環(huán)境特征爵政、熱度特征和協(xié)同特征仅讽。相關(guān)性特征,解決內(nèi)容和用戶的匹配钾挟。環(huán)境特征洁灵,解決基礎(chǔ)特征和匹配。熱度特征掺出,在冷啟動(dòng)上很有效徽千。協(xié)同特征,考慮相似用戶的興趣汤锨,在一定程度上解決所謂算法越推越窄的問題双抽。
【解析】相關(guān)性特征,即是文章畫像與你的用戶畫像一致性比較高闲礼,則進(jìn)行相應(yīng)推薦牍汹。環(huán)境特征铐维,剛才也已經(jīng)說明。熱度特征慎菲,在冷啟動(dòng)很有效嫁蛇,冷啟動(dòng)的概念是說系統(tǒng)里面并沒有你的相關(guān)畫像數(shù)據(jù),比如游客登錄了頭條露该,會怎么推薦呢睬棚,可以通過熱度特征,即根據(jù)當(dāng)前社會熱點(diǎn)呀解幼、文章閱讀量高低排名呀等一些能代表普遍群體感受的指標(biāo)進(jìn)行推送選擇抑党。協(xié)同特征,后面解釋了书幕,為了解決算法越推越窄的問題新荤,比如通過你的行為、畫像台汇、環(huán)境等各類指標(biāo)進(jìn)行模型分析后苛骨,適合推薦給你的文章太少,應(yīng)該怎么辦呢苟呐,這時(shí)候就可以尋找跟你特征相同的用戶痒芝,比如跟你同一個(gè)年齡段、同一個(gè)性別牵素、同一個(gè)地區(qū)等相似用戶的興趣給你進(jìn)行推薦严衬,可以作為一個(gè)推薦的補(bǔ)充,以實(shí)現(xiàn)比較好的推薦效果笆呆。
5请琳、【原文】今日頭條有一個(gè)世界范圍內(nèi)比較大的在線訓(xùn)練推薦模型,包括幾百億特征和幾十億的向量特征赠幕。完全依賴模型推薦成本過高俄精,因此有了簡化策略的召回模型¢叛撸基于召回策略竖慧,把一個(gè)海量、無法把握的內(nèi)容庫逆屡,變成一個(gè)相對小圾旨、可以把握的內(nèi)容庫,再進(jìn)入推薦模型魏蔗。這樣有效平衡了計(jì)算成本和效果砍的。
【解析】:這幾百億特征,大家可能很難想象莺治,主要就是包括上篇所說的文章畫像挨约、視頻畫像味混、用戶畫像,所有文章包括普通文章诫惭、專業(yè)文章,所有關(guān)鍵詞集中起來數(shù)量是相當(dāng)可觀的蔓挖,這每一個(gè)關(guān)鍵字夕土,在擬合算法中就是一個(gè)向量。所以如果每一次的推薦都依賴這個(gè)最大的模型瘟判,成本確實(shí)太高怨绣,所以需要簡化。
說明后面內(nèi)容之前拷获,需要介紹一個(gè)關(guān)鍵詞的含義:召回篮撑,說直接點(diǎn),就是對符合條件的結(jié)果進(jìn)行排序匆瓜,以決定給你推薦文章的順序赢笨。在業(yè)界對推薦算法是否有效進(jìn)行評價(jià)的時(shí)候,需要用到召回率這個(gè)指標(biāo)驮吱,舉例:所有可供推薦的文章庫里共有40篇文章與你的用戶畫像相關(guān)茧妒,實(shí)際通過推薦算法推薦給你了20篇,但實(shí)際上有10篇是你真正喜歡的文章左冬,則召回率就是10/40=0.25桐筏,精度是10/20=0.5。整句話意思就是根據(jù)推薦算法盡量縮小推薦內(nèi)容庫拇砰,減少計(jì)算推薦成本梅忌。
6【原文】在今日頭條工作前三年,我收到用戶反饋?zhàn)畲蟮囊粋€(gè)問題除破,就是牧氮,“怎么老給我推重復(fù)的?” 其實(shí)皂岔,每個(gè)人對重復(fù)的定義不一樣蹋笼。有人昨天看到一篇講巴薩的文章,今天又看到兩篇躁垛,可能就覺得煩了剖毯。但對于一個(gè)重度球迷來講,比如巴薩的球迷教馆,可能恨不得所有的報(bào)道都看一遍逊谋。解決這個(gè),實(shí)際上需要精確抽取文本特征土铺,比如哪些文章說的是一個(gè)事兒胶滋,哪些文章基本一樣等等板鬓。文本特征對于推薦的獨(dú)特價(jià)值在于,沒有文本特征究恤,推薦引擎無法工作俭令,同時(shí),文本特征顆粒度越細(xì)部宿,冷啟動(dòng)能力越強(qiáng)抄腔。
【解析】:文本特征提取本身也是一個(gè)比較復(fù)雜的問題,舉個(gè)例子理张,要對”人民生活水平”這句話進(jìn)行語義解析提取特征赫蛇,可能會提取出如下一些關(guān)鍵字:人民-民生-生活-活水-水平,至于怎么提取才貼合本篇文章要表達(dá)的意思雾叭,則需要很復(fù)雜的后臺邏輯了悟耘,比如可以隨便摘取人民日報(bào)1000篇文章作為語料庫,分析各個(gè)詞語出現(xiàn)的頻率织狐,把這個(gè)詞語頻率高低排序作為算法的基礎(chǔ)數(shù)據(jù)來進(jìn)行本篇文章文本特征的提取暂幼,這是一種比較簡單的方式。具體的要跟本篇文章如何結(jié)合赚瘦,保證提取的特征是準(zhǔn)確的則需要更復(fù)雜的算法粟誓。
冷啟動(dòng)的意思上篇大體說過,就是在沒有用戶信息的時(shí)候如何進(jìn)行內(nèi)容推薦起意,比如新注冊的用戶或者游客鹰服,比如騰訊公司統(tǒng)一用QQ號作為一個(gè)用戶主索引,你玩過什么游戲揽咕,聽過什么歌曲悲酷,都可以作為用戶畫像特征應(yīng)用到騰訊新聞的對你推薦文章的算法里,頭條當(dāng)然也可以用sina微博賬號亲善、微信賬號登錄時(shí)的授權(quán)设易,分析你曾經(jīng)關(guān)注的微博賬號、微信公賬號信息等蛹头,作為冷啟動(dòng)時(shí)的用戶畫像數(shù)據(jù)顿肺。
7【原文】語義標(biāo)簽的效果,是檢查一個(gè)公司NLP(自然語言處理)的試金石渣蜗。頻道屠尊、興趣表達(dá)等重要產(chǎn)品功能,需要一個(gè)有明確定義耕拷、容易理解的文本標(biāo)簽體系讼昆。所以,在隱式語義特征已經(jīng)可以很好地幫助推薦骚烧,且做好語義標(biāo)簽需要投入遠(yuǎn)大于隱式語義特征的情況下浸赫,我們?nèi)匀恍枰龊谜Z義標(biāo)簽闰围。
【解析】:何為隱式語義特征呢?簡單說明一下既峡,當(dāng)兩個(gè)詞或一組詞出現(xiàn)在同一個(gè)文檔中時(shí)羡榴,這些詞之間可以被認(rèn)為是語義相關(guān)的涨享。機(jī)器并不知道某個(gè)詞究竟代表什么,不知道某個(gè)詞是什么意思新翎,但是通過大量文章的學(xué)習(xí)溪王,機(jī)器就能學(xué)習(xí)出這些詞語是語義相關(guān),比如apple跟蘋果淮蜈、電腦和計(jì)算機(jī),通過這些相關(guān)性就可以對你搜索的內(nèi)容、或者對你的用戶畫像進(jìn)行匹配來推薦文章涉枫,你搜電腦,則文章特征包含計(jì)算機(jī)的文章也會推薦給你腐螟。語義標(biāo)簽則是明確指定詞語的語義愿汰、相關(guān)性作為推薦算法的基礎(chǔ)數(shù)據(jù)來使用,也就是讓機(jī)器明確明白詞語的相關(guān)性乐纸,當(dāng)然后面這種算法需要耗費(fèi)相當(dāng)大的人力物力衬廷,但是這個(gè)工作做好之后,就保證了數(shù)據(jù)的準(zhǔn)確性汽绢,減少了依賴于機(jī)器學(xué)習(xí)的不可控制性吗跋,當(dāng)然這個(gè)功能也是一個(gè)公司自然語言處理最能展示實(shí)力的一環(huán)。
8【原文】除了用戶的自然標(biāo)簽宁昭,推薦還需要考慮很多復(fù)雜的情況: 1)過濾噪聲:過濾停留時(shí)間短的點(diǎn)擊跌宛,打擊標(biāo)題黨;2)懲罰熱點(diǎn):用戶在熱門文章上的動(dòng)作做降權(quán)處理积仗;3)時(shí)間衰減:隨著用戶動(dòng)作的增加疆拘,老的特征權(quán)重會隨時(shí)間衰減,新動(dòng)作貢獻(xiàn)的特征權(quán)重會更大寂曹;4)懲罰展現(xiàn):如果一篇推薦給用戶的文章沒有被點(diǎn)擊哎迄,相關(guān)特征(類別、關(guān)鍵詞隆圆、來源)權(quán)重會被懲罰漱挚;5)考慮全局背景:考慮給定特征的人均點(diǎn)擊比例。
【解析】:里面描述的內(nèi)容主要是考慮用戶的自然標(biāo)簽之外的一些因素匾灶,1)過濾噪聲棱烂,一般在做信號處理的時(shí)候,需要對信號進(jìn)行降噪處理阶女,以平滑信號曲線方便進(jìn)行下一步處理颊糜。此處的過濾停留時(shí)間短的點(diǎn)擊哩治,也是出于此考慮,因?yàn)闃?biāo)題黨可能會引入比較大的點(diǎn)擊率衬鱼,但是也會有非常大的概率是進(jìn)入后直接退出业筏,則這些點(diǎn)擊率并不能代表你的文章比較好,所以這部分點(diǎn)擊就要過濾掉鸟赫,所以這個(gè)功能如果真正在推薦算法中應(yīng)用的話蒜胖,標(biāo)題黨后面將不會再是提高收益的一種有效方式。
懲罰熱點(diǎn)抛蚤,每個(gè)人在熱點(diǎn)上的表現(xiàn)可能僅僅是因?yàn)殡S大流台谢,并不能代表你真正的用戶畫像,所以這部分要降低操作的權(quán)重岁经,很好理解朋沮。
時(shí)間衰減,也好理解缀壤,比如你一年前喜歡看的文章特征樊拓,相對于你前幾天喜歡的文章特征,當(dāng)然是以前幾天的特征為準(zhǔn)作為推送依據(jù)啦塘慕。
懲罰展現(xiàn)筋夏,這就是為什么文章說不行一直不行,說行就猛地飆升上去的原因了图呢。如果你寫的一篇文章推薦給100個(gè)人条篷,沒有一個(gè)人點(diǎn)擊,則你的文章特征權(quán)重就會降低岳瞭,以后的推薦數(shù)量就會降低了拥娄,假設(shè)頭條仁義的話,可以給你重新進(jìn)行文章畫像瞳筏,再次進(jìn)入推薦序列稚瘾,如果不仁義則可能就直接打入冷宮,永不得翻身了姚炕。
考慮全局背景摊欠,相當(dāng)于上面所說的降噪處理,比如你這篇文章一個(gè)人又評價(jià)又贊又轉(zhuǎn)發(fā)柱宦,但是其他100個(gè)人冷眼旁觀些椒,根本不打開看,則人均點(diǎn)擊比例也是非常低的掸刊,所以考慮這個(gè)因素的話你的文章也是不會得到大批量推薦的免糕。
9【原文】比起批量計(jì)算用戶標(biāo)簽,采用流式計(jì)算框架,可以大大節(jié)省計(jì)算機(jī)資源石窑,可以準(zhǔn)實(shí)時(shí)完成用戶興趣模型的更新牌芋。幾十臺機(jī)器就可以支撐每天數(shù)千萬用戶的興趣模型更新,99%的用戶可以實(shí)現(xiàn)發(fā)生動(dòng)作后10分鐘模型更新松逊。
【解析】這個(gè)地方了解批量處理跟流式框架即可躺屁,一般大數(shù)據(jù)處理工作,比如這里面說的批量計(jì)算用戶標(biāo)簽经宏,會選擇業(yè)務(wù)量小的時(shí)間點(diǎn)進(jìn)行批量處理犀暑,比如在凌晨,這樣可以減少數(shù)據(jù)處理給業(yè)務(wù)帶來的壓力烁兰,統(tǒng)一更新用戶的標(biāo)簽耐亏,但這里存在的一個(gè)問題便是無法及時(shí)更新用戶的標(biāo)簽。
比如你昨天看了很多足球的相關(guān)文章沪斟,足球這個(gè)標(biāo)簽的權(quán)重會相當(dāng)高苹熏,今天上午突發(fā)奇想對籃球感興趣,但如果標(biāo)簽更新延遲時(shí)間很長的話币喧,可能下午系統(tǒng)才會反應(yīng)過來給你推薦籃球的內(nèi)容,你一上午的時(shí)間推送的可能全部是昨天關(guān)注的足球的內(nèi)容袱耽,這肯定不是用戶希望的杀餐。
所以頭條采用流式框架后,可以基本做到實(shí)時(shí)數(shù)據(jù)處理朱巨,基本在用戶查看文章動(dòng)作十分鐘后就能對你的標(biāo)簽進(jìn)行更新史翘,提高用戶感受。
10【原文】影響推薦效果的因素有很多冀续,我們需要一個(gè)完備的評估體系琼讽,不能只看單一指標(biāo),點(diǎn)擊率洪唐、留存钻蹬、收入或是互動(dòng),我們需要看很多指標(biāo)凭需,做綜合評估:兼顧短期指標(biāo)和長期指標(biāo)问欠,兼顧用戶指標(biāo)和生態(tài)指標(biāo),注意協(xié)同效應(yīng)的影響粒蜈,有時(shí)候需要做徹底的統(tǒng)計(jì)隔離等顺献。有人問,所有的這些指標(biāo)枯怖,能合成唯一的一個(gè)公式嗎注整?我們苦苦探索了幾年,目前還沒有做到。
【解析】這里跟第二條類似肿轨,單純靠具體統(tǒng)計(jì)指標(biāo)來進(jìn)行推薦效果肯定是不好的寿冕,比如單純看一篇文章的點(diǎn)擊量大,就推送給所有用戶肯定是不合適的萝招,所以需要進(jìn)行綜合評估蚂斤。
這個(gè)綜合評估,就需要對一些因素的有效期限進(jìn)行分析槐沼,比如點(diǎn)擊率有效期是比較短的曙蒸,一篇文章在發(fā)布第一天點(diǎn)擊率高則系統(tǒng)會瘋狂推送,但是第二天可能點(diǎn)擊率仍然比較高岗钩,但是跟一些熱點(diǎn)性的因素相比纽窟,或者跟其他人寫的新文章這個(gè)新鮮因素相比,這個(gè)點(diǎn)擊率有效性就比較差了兼吓,可能就不會再次大批量推送臂港,所以說一個(gè)有效的兼容性廣的評估是需要進(jìn)行全面設(shè)計(jì)的,具體指標(biāo)的權(quán)重應(yīng)該怎么設(shè)置比較好則需要通過不同的實(shí)驗(yàn)來判斷视搏。
11【原文】很多公司的算法做得不好审孽,不是人的問題,是實(shí)驗(yàn)平臺的問題浑娜。 如果A/B Test佑力,每次數(shù)據(jù)都是錯(cuò)的,不是這兒錯(cuò)就是那兒錯(cuò)筋遭,總上不了線打颤,這個(gè)事就廢了。而一個(gè)強(qiáng)大的實(shí)驗(yàn)平臺漓滔,可以實(shí)現(xiàn)每天數(shù)百個(gè)實(shí)驗(yàn)同時(shí)在線编饺,高效管理和分配實(shí)驗(yàn)流量,降低實(shí)驗(yàn)分析成本响驴,提高算法迭代效率透且。
【解析】算法是需要測試出來的,數(shù)學(xué)模型里有各種各樣的算法踏施,其實(shí)每一種算法無所謂好壞石蔗,只是說在哪種場景下這個(gè)算法表現(xiàn)是比較好那個(gè)算法表現(xiàn)一般而已。如果一種算法機(jī)制能在概要設(shè)計(jì)階段就能完全確定這樣就是最好的話畅形,就不存在實(shí)驗(yàn)的說法了养距,正是因?yàn)橛泻芏嗖淮_定性,一種算法的優(yōu)劣也是不確定的日熬,所以能夠降低試驗(yàn)成本棍厌、提高算法更新頻率就成了提取有效算法的最主要的工作內(nèi)容。
12【原文】頭條現(xiàn)在擁有健全的內(nèi)容安全機(jī)制。除了人工審核團(tuán)隊(duì)耘纱,我們還有技術(shù)識別敬肚。包括風(fēng)險(xiǎn)內(nèi)容識別技術(shù),構(gòu)建千萬張圖片樣本集的鑒黃模型束析,超過百萬樣本庫的低俗模型和謾罵模型等艳馒,以及泛低質(zhì)內(nèi)容識別技術(shù)。
【解析】這個(gè)比較容易理解了员寇,隨著頭條作者數(shù)量增加弄慰,純粹靠人工審核,那人力成本就太大了蝶锋,所以機(jī)器智能識別的重要性就凸顯出來陆爽,隨著服務(wù)器性能的增加,一些重復(fù)性的工作就可以通過機(jī)器來實(shí)現(xiàn)扳缕,比如里面說的鑒黃模型慌闭,就是通過圖片的相似性判斷來讓機(jī)器自動(dòng)識別,也就是通過機(jī)器進(jìn)行圖像處理躯舔;
低俗模型和謾罵模型驴剔,主要是需要先建立一些文字模板公式,比如一句話里面含有哪些字符粥庄,或者哪些字符組合就定義為低俗模型仔拟,然后機(jī)器自動(dòng)對文本進(jìn)行匹配識別,當(dāng)匹配上之后就監(jiān)測出來進(jìn)行過濾飒赃,這里面用到的主要是文本解析技術(shù)和語義識別技術(shù),現(xiàn)在業(yè)界也都已經(jīng)基本成熟科侈,只是根據(jù)需要的不同進(jìn)行不同的調(diào)整即可载佳。