推薦系統(tǒng)的冷啟動問題是指對于新用戶系統(tǒng)缺乏足夠的數(shù)據(jù)來捕捉用戶的興趣并有效的推薦內(nèi)容仆葡。這個問題是推薦系統(tǒng)再實際產(chǎn)品應(yīng)用中的一個主要挑戰(zhàn)。再眾多針對此問題的解決方案中沿盅,又一類廣泛使用的方法是鼓勵用戶用社交網(wǎng)絡(luò)賬號登陸推薦系統(tǒng)。推薦系統(tǒng)可以利用用戶社交網(wǎng)絡(luò)的信息(比如關(guān)注關(guān)系腰涧、好友關(guān)系、興趣標簽疗锐、發(fā)布內(nèi)容等)初始化用戶的興趣模型坊谁,從而進行有效的推薦口芍。
- 通過挖掘用戶發(fā)布內(nèi)容的關(guān)鍵字作為用戶興趣關(guān)鍵字。
- 利用用戶的社交關(guān)系吧用戶好友或者關(guān)注對象的興趣標簽匯聚到用戶身上鬓椭。
但在實際應(yīng)用中关划,很多用戶都比較敏感自己的隱私問題或者怕麻煩不會選擇社交網(wǎng)絡(luò)賬號登錄推薦產(chǎn)品。據(jù)統(tǒng)計祭玉,再一些熱門的新聞推薦類的產(chǎn)品中春畔,所有用戶中用微博、QQ律姨、微信等主流賬戶登錄的不超過50%。這就是使得現(xiàn)有的方法很難徹底解決推薦系統(tǒng)新用戶的冷啟動問題择份。
下面我們就來講講抖音是如何解決這類用戶的冷啟動問題的:
- 獲取用戶移動設(shè)備信息,通過該用戶的移動設(shè)備的操作系統(tǒng)獲取用戶的移動設(shè)備型號及安裝再該移動設(shè)備上的所有APP信息荣赶。
- 基于協(xié)同過濾產(chǎn)生第一推薦列表,將數(shù)據(jù)庫中與該用戶的移動設(shè)備型號或安裝的APP類似的其他用戶喜歡的內(nèi)容作為推薦內(nèi)容生成第一推薦列表
- 基于興趣標簽映射產(chǎn)生第二推薦列表利诺,把APP顯式地映射到一個或多個興趣標簽,然后根據(jù)每個興趣標簽篩選對應(yīng)的內(nèi)容作為推薦內(nèi)容生成第二推薦列表慢逾。
- 將上述的第一推薦列或第二推薦列表中的內(nèi)容推薦給該用戶灭红。
下面我們來看看具體是如何算的:
- 篩選常用有區(qū)分性的APP。
- 選取常見的只能手機機型变擒。
- 把APP和機型映射到特定維度。
- 對于給定用戶策添,從該給定用戶的移動設(shè)備信息中抽取移動設(shè)備特征向量澈段。
- 基于WeakAND算法找到向量距離和該給定用戶最近的K個用戶败富。
- 統(tǒng)計這K個用戶中點擊率最高的內(nèi)容作為推薦內(nèi)容。
如何抽取移動設(shè)備的特征向量:
- 將每個APP映射到一個[0兽叮, N-1]之間的維度猾愿。
- 將每個機型映射到一個[0,M-1]之間的維度蒂秘,與用戶機型對應(yīng)維度的值為1,其他維度的值均為0.
- 用戶安裝的APP對應(yīng)維度的值為該用戶最近特定天數(shù)的使用次數(shù)姻僧,其他維度的值均為0
- 定期分別統(tǒng)計每個APP和常用機型的用戶群體點擊率Top K的高點擊內(nèi)容列表。
- 給定用戶移動設(shè)備赌莺,通過用戶移動設(shè)備安裝的APP和機型分別獲取對應(yīng)的所述高點擊內(nèi)容列表
- 按照對應(yīng)的APP和機型的權(quán)重合并獲取的所述高點擊內(nèi)容列表并將其中的Top N作為推薦內(nèi)容。
如果維護興趣標簽:
- 建立推薦系統(tǒng)自身的標簽數(shù)據(jù)庫艘狭。
- 用網(wǎng)頁抓取技術(shù)抓取APP應(yīng)用市場中每個APP的標簽翠订。
- 把抓取過來的APP的標簽映射到標簽數(shù)據(jù)庫中。