新聞推薦(5): 主流數(shù)據(jù)集介紹

前言

借著ACL2020上MASR的MIND數(shù)據(jù)集論文介紹一些新聞推薦中常用的數(shù)據(jù)集/

  • 論文:MIND: A Large-scale Dataset for News Recommendation
  • The adressa dataset for news recommendation.
  • 本文為自己的論文閱讀筆記堤框,如有錯(cuò)誤/問題歡迎評(píng)論區(qū)指正
  • 本篇文章為本人原創(chuàng)內(nèi)容,如需轉(zhuǎn)載引用,請(qǐng)務(wù)必提前聯(lián)系本人并在文中附上原鏈接及相應(yīng)說明,包括作者信息(阿瑟)

數(shù)據(jù)集

用于新聞推薦的數(shù)據(jù)集相對(duì)較少,主要數(shù)據(jù)集對(duì)比如下:

Plista

(2013年)通過收集13個(gè)德國(guó)新聞門戶網(wǎng)站上發(fā)表的新聞文章和用戶的點(diǎn)擊日志,構(gòu)建了 Plista4數(shù)據(jù)集。它包含70,353篇新聞文章和1,095,323次點(diǎn)擊.該數(shù)據(jù)集中的新聞文章為德語资柔,用戶主要來自德語國(guó)家。

Adressa

Adressa 數(shù)據(jù)是根據(jù) adreseavisen 網(wǎng)站的日志在10周內(nèi)構(gòu)建的,它有48,486篇新聞文章撵割,3,083,438個(gè)用戶和27,223,576個(gè)點(diǎn)擊事件贿堰。每個(gè)點(diǎn)擊事件包含幾個(gè)屬性,如會(huì)話時(shí)間啡彬、新聞標(biāo)題羹与、新聞?lì)悇e和用戶 ID。每篇新聞文章都與作者外遇、實(shí)體和主體等詳細(xì)信息相關(guān)聯(lián)注簿。本數(shù)據(jù)集中的新聞文章是用挪威語寫的。整個(gè)數(shù)據(jù)集分為規(guī)模不同的兩個(gè)版本跳仿。

整體來講诡渴,Adressa是內(nèi)容最為全面的,可以做常規(guī)的新聞推薦菲语,也可也基于session做妄辩,也可以探究基于知識(shí)圖譜的推薦

Globo

2018年)從巴西一個(gè)流行的新聞門戶網(wǎng)站 globo 建立了一個(gè)新聞推薦數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包含大約314,000個(gè)用戶山上,46,000篇新聞文章和300萬次點(diǎn)擊記錄眼耀。每個(gè)單擊記錄都包含用戶 ID、新聞 ID 和會(huì)話時(shí)間等字段佩憾。最早開放在Kaggle平臺(tái)上哮伟,提供訓(xùn)練好的新聞embedding干花,沒有原始的新聞文章信息。

Yahoo!

它包含14180篇新聞文章和34022次點(diǎn)擊事件楞黄。每篇新聞文章都由單詞 id 表示池凄,不提供原始新聞文本。此數(shù)據(jù)集中的用戶數(shù)量未知鬼廓,因?yàn)闆]有用戶 ID肿仑。

相關(guān)推薦算法

論文中對(duì)比了主流研究的新聞推薦算法的效果,如下碎税,相關(guān)論文感興趣的可以自行搜索:

END

如果覺得有用尤慰,歡迎點(diǎn)贊關(guān)注贊賞,若對(duì)推薦感興趣歡迎評(píng)論區(qū)/私信交流~~~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末雷蹂,一起剝皮案震驚了整個(gè)濱河市伟端,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌匪煌,老刑警劉巖荔泳,帶你破解...
    沈念sama閱讀 219,270評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異虐杯,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)昧港,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門擎椰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人创肥,你說我怎么就攤上這事达舒。” “怎么了叹侄?”我有些...
    開封第一講書人閱讀 165,630評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵巩搏,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我趾代,道長(zhǎng)贯底,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,906評(píng)論 1 295
  • 正文 為了忘掉前任撒强,我火速辦了婚禮禽捆,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘飘哨。我一直安慰自己胚想,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,928評(píng)論 6 392
  • 文/花漫 我一把揭開白布芽隆。 她就那樣靜靜地躺著浊服,像睡著了一般统屈。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上牙躺,一...
    開封第一講書人閱讀 51,718評(píng)論 1 305
  • 那天愁憔,我揣著相機(jī)與錄音,去河邊找鬼述呐。 笑死惩淳,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的乓搬。 我是一名探鬼主播思犁,決...
    沈念sama閱讀 40,442評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼进肯!你這毒婦竟也來了激蹲?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,345評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤江掩,失蹤者是張志新(化名)和其女友劉穎学辱,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體环形,經(jīng)...
    沈念sama閱讀 45,802評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡策泣,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,984評(píng)論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了抬吟。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片萨咕。...
    茶點(diǎn)故事閱讀 40,117評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖火本,靈堂內(nèi)的尸體忽然破棺而出危队,到底是詐尸還是另有隱情,我是刑警寧澤钙畔,帶...
    沈念sama閱讀 35,810評(píng)論 5 346
  • 正文 年R本政府宣布茫陆,位于F島的核電站,受9級(jí)特大地震影響擎析,放射性物質(zhì)發(fā)生泄漏簿盅。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,462評(píng)論 3 331
  • 文/蒙蒙 一叔锐、第九天 我趴在偏房一處隱蔽的房頂上張望挪鹏。 院中可真熱鬧,春花似錦愉烙、人聲如沸讨盒。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,011評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)返顺。三九已至禀苦,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間遂鹊,已是汗流浹背振乏。 一陣腳步聲響...
    開封第一講書人閱讀 33,139評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留秉扑,地道東北人慧邮。 一個(gè)月前我還...
    沈念sama閱讀 48,377評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像舟陆,于是被迫代替她去往敵國(guó)和親误澳。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,060評(píng)論 2 355