前言
借著ACL2020上MASR的MIND數(shù)據(jù)集論文介紹一些新聞推薦中常用的數(shù)據(jù)集/
- 論文:MIND: A Large-scale Dataset for News Recommendation
- The adressa dataset for news recommendation.
- 本文為自己的論文閱讀筆記堤框,如有錯(cuò)誤/問題歡迎評(píng)論區(qū)指正
- 本篇文章為本人原創(chuàng)內(nèi)容,如需轉(zhuǎn)載引用,請(qǐng)務(wù)必提前聯(lián)系本人并在文中附上原鏈接及相應(yīng)說明,包括作者信息(阿瑟)
數(shù)據(jù)集
用于新聞推薦的數(shù)據(jù)集相對(duì)較少,主要數(shù)據(jù)集對(duì)比如下:Plista
(2013年)通過收集13個(gè)德國(guó)新聞門戶網(wǎng)站上發(fā)表的新聞文章和用戶的點(diǎn)擊日志,構(gòu)建了 Plista4數(shù)據(jù)集。它包含70,353篇新聞文章和1,095,323次點(diǎn)擊.該數(shù)據(jù)集中的新聞文章為德語资柔,用戶主要來自德語國(guó)家。
Adressa
Adressa 數(shù)據(jù)是根據(jù) adreseavisen 網(wǎng)站的日志在10周內(nèi)構(gòu)建的,它有48,486篇新聞文章撵割,3,083,438個(gè)用戶和27,223,576個(gè)點(diǎn)擊事件贿堰。每個(gè)點(diǎn)擊事件包含幾個(gè)屬性,如會(huì)話時(shí)間啡彬、新聞標(biāo)題羹与、新聞?lì)悇e和用戶 ID。每篇新聞文章都與作者外遇、實(shí)體和主體等詳細(xì)信息相關(guān)聯(lián)注簿。本數(shù)據(jù)集中的新聞文章是用挪威語寫的。整個(gè)數(shù)據(jù)集分為規(guī)模不同的兩個(gè)版本跳仿。
整體來講诡渴,Adressa是內(nèi)容最為全面的,可以做常規(guī)的新聞推薦菲语,也可也基于session做妄辩,也可以探究基于知識(shí)圖譜的推薦
Globo
2018年)從巴西一個(gè)流行的新聞門戶網(wǎng)站 globo 建立了一個(gè)新聞推薦數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包含大約314,000個(gè)用戶山上,46,000篇新聞文章和300萬次點(diǎn)擊記錄眼耀。每個(gè)單擊記錄都包含用戶 ID、新聞 ID 和會(huì)話時(shí)間等字段佩憾。最早開放在Kaggle平臺(tái)上哮伟,提供訓(xùn)練好的新聞embedding干花,沒有原始的新聞文章信息。
Yahoo!
它包含14180篇新聞文章和34022次點(diǎn)擊事件楞黄。每篇新聞文章都由單詞 id 表示池凄,不提供原始新聞文本。此數(shù)據(jù)集中的用戶數(shù)量未知鬼廓,因?yàn)闆]有用戶 ID肿仑。
相關(guān)推薦算法
論文中對(duì)比了主流研究的新聞推薦算法的效果,如下碎税,相關(guān)論文感興趣的可以自行搜索:END
如果覺得有用尤慰,歡迎點(diǎn)贊關(guān)注贊賞,若對(duì)推薦感興趣歡迎評(píng)論區(qū)/私信交流~~~