今日頭條的推薦算法豪嚎,相信是做自媒體朋友最為關(guān)心的吧舷礼,就在前不幾的頭條大會(huì)上瑰煎,今日頭條資深架構(gòu)師曹歡歡首次公開揭秘铺然。
1月11日,今日頭條在總部舉辦了一場(chǎng)推薦算法交流會(huì)酒甸,因?yàn)閳?bào)名人數(shù)遠(yuǎn)遠(yuǎn)超過了預(yù)期魄健,交流會(huì)還臨時(shí)換了場(chǎng)地。
冷啟動(dòng)(新用戶首次使用)是否可以通過第三方數(shù)據(jù)來避免推薦不準(zhǔn)?算法應(yīng)該如何平衡廣告內(nèi)容和資訊內(nèi)容?推薦的“準(zhǔn)”和信息繭房的矛盾插勤,應(yīng)該如何協(xié)調(diào)?
今日頭條公開算法的基本原理沽瘦,并接受建言革骨,體現(xiàn)出了一家平臺(tái)對(duì)技術(shù)發(fā)展的責(zé)任感與誠(chéng)意,這將對(duì)算法應(yīng)用乃至整個(gè)互聯(lián)網(wǎng)行業(yè)析恋,起到巨大的積極推動(dòng)作用良哲。
今日頭條副總編輯徐一龍
會(huì)議由今日頭條副總編輯徐一龍主持。徐一龍?jiān)谡劦浇袢疹^條對(duì)行業(yè)公開助隧、透明自己算法原理的初衷時(shí)說筑凫,算法也是一種“法”,都是通過一定的規(guī)則和方法并村,達(dá)成預(yù)期的一種效果巍实。算法和法律法規(guī)一樣,如果施行的好哩牍,都很高效棚潦,也都要求透明。
曹歡歡博士在現(xiàn)場(chǎng)分享了今日頭條推薦算法的基本原理膝昆,并詳細(xì)介紹了算法模型設(shè)計(jì)維度與策略丸边。包括如何在線訓(xùn)練大規(guī)模推薦模型,典型召回策略的設(shè)計(jì)方法荚孵,多目標(biāo)如何融合等核心問題妹窖。此外,他還重點(diǎn)講解了今日頭條的內(nèi)容安全機(jī)制及相關(guān)舉措收叶,公開了風(fēng)險(xiǎn)內(nèi)容識(shí)別技術(shù)以及泛低質(zhì)內(nèi)容識(shí)別技術(shù)嘱吗。
他表示:“算法分發(fā)并非是把所有決策都交給機(jī)器,我們會(huì)不斷糾偏滔驾,設(shè)計(jì)谒麦、監(jiān)督并管理算法模型。希望這次分享能讓更多的人理解算法哆致,并共同參與到算法模型的制定中來绕德,以改善算法,更好的為用戶服務(wù)摊阀,讓算法為社會(huì)創(chuàng)造更大的價(jià)值耻蛇。”
現(xiàn)場(chǎng)觀眾
此次今日頭條將算法透明化胞此,并接受建言臣咖,屬于行業(yè)首例。算法原則歷來屬于公司行業(yè)機(jī)密漱牵,極少有公司會(huì)對(duì)外公布夺蛇。今日頭條方面表示,人工智能發(fā)展帶來的挑戰(zhàn)酣胀,是人類此前沒有遭遇過的刁赦。當(dāng)企業(yè)發(fā)展壯大時(shí)娶聘,有責(zé)任也有義務(wù),與行業(yè)一道積極思考與研究新技術(shù)可能帶來的機(jī)遇和風(fēng)險(xiǎn)甚脉。
據(jù)介紹丸升,阿里、騰訊牺氨、百度狡耻、美團(tuán)、新浪猴凹、網(wǎng)易等科技公司的算法工程師和產(chǎn)品經(jīng)理都去了酝豪。看來大家對(duì)今日頭條到底用了什么推薦算法精堕,那是相當(dāng)?shù)暮闷妗?/p>
在當(dāng)天的交流會(huì)上,今日頭條資深算法架構(gòu)師蒲障、中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)博士曹歡歡帶來了題為《讓算法公開透明》的分享歹篓,首次面向行業(yè)公開算法原理。
今日頭條資深算法架構(gòu)師曹歡歡講解今日頭條算法原理
他表示:“算法分發(fā)并非是把所有決策都交給機(jī)器揉阎,我們會(huì)不斷糾偏庄撮,設(shè)計(jì)、監(jiān)督并管理算法模型毙籽。希望這次分享能讓更多的人理解算法洞斯,并共同參與到算法模型的制定中來,以改善算法坑赡,更好的為用戶服務(wù)烙如,讓算法為社會(huì)創(chuàng)造更大的價(jià)值∫惴瘢”
據(jù)曹歡歡介紹亚铁,今日頭條旗下幾款產(chǎn)品都在沿用同一套大的算法推薦系統(tǒng),但根據(jù)業(yè)務(wù)不同螟加,每套系統(tǒng)的架構(gòu)會(huì)有所調(diào)整徘溢。 曹歡歡在現(xiàn)場(chǎng)的PPT里公布了頭條使用的五種推薦算法,包括傳統(tǒng)的協(xié)同過濾模型捆探,監(jiān)督學(xué)習(xí)算法Logistic Regression模型然爆,基于深度學(xué)習(xí)的Factorization Machine,以及DNN和GBDT黍图。 曹歡歡介紹說曾雕,現(xiàn)在很難有一套通用的架構(gòu)模型適用于所有的推薦場(chǎng)景,所以很多公司會(huì)做多個(gè)算法的組合助被,比如現(xiàn)在很流行將LR和DNN結(jié)合翻默,甚至前幾年Facebook也是將LR和GBDT算法做結(jié)合缸沃。今日頭條也基本是一套大算法,根據(jù)業(yè)務(wù)不同再具體調(diào)整結(jié)構(gòu)修械。 在解釋了算法之后趾牧,曹歡歡進(jìn)一步解密了頭條的推薦如何工作。曹歡歡表示肯污,主要有四類最重要的用戶特征翘单,將會(huì)輸入給算法,影響到推薦算法的工作蹦渣。
第一類是相關(guān)性特征哄芜,就是評(píng)估內(nèi)容的屬性和維度與用戶是否匹配。顯性的匹配包括關(guān)鍵詞匹配柬唯、分類匹配认臊、來源匹配、主題匹配等锄奢。像FM模型中也有一些隱性匹配失晴,從用戶向量與內(nèi)容向量的核心距離可以得出。 第二類是環(huán)境特征拘央,包括地理位置涂屁、時(shí)間。這些既是bias(基礎(chǔ))特征灰伟,也能以此構(gòu)建一些匹配特征拆又。 第三類是熱度特征。包括全局熱度栏账、分類熱度帖族,主題熱度,以及關(guān)鍵詞熱度等挡爵。熱度信息在大的推薦系統(tǒng)特別在冷啟動(dòng)的時(shí)候非常有效盟萨。 第四類是協(xié)同特征,它可以在部分程度上幫助解決所謂算法越推越窄的問題了讨。協(xié)同特征并非考慮用戶已有歷史捻激。而是通過用戶行為分析不同用戶間相似性,比如點(diǎn)擊相似前计、興趣分類相似胞谭、主題相似、興趣詞相似男杈,甚至向量相似丈屹,從而擴(kuò)展模型的探索能力。
分享過后,曹歡歡在還解答了各位對(duì)算法的疑問旺垒,包括今日頭條如何實(shí)現(xiàn)冷啟動(dòng)彩库,廣告和內(nèi)容該怎樣平衡,怎樣準(zhǔn)確地拓展用戶興趣圖譜等切實(shí)的工程性問題先蒋。同時(shí)骇钦,也聽取了大家對(duì)今日頭條算法的意見和建議。
SEO優(yōu)化https://www.leosem.com/