AI 開(kāi)源數(shù)據(jù)集 Top 39:NLP绊袋、語(yǔ)音等 6 大類

【經(jīng)典】這些是在 AI 領(lǐng)域中非常著名、眾所周知的數(shù)據(jù)集铸鹰。很少有研究者或工程師沒(méi)有聽(tīng)說(shuō)過(guò)它們癌别。
【有用】這些是更加接近現(xiàn)實(shí)世界的、精心設(shè)計(jì)的數(shù)據(jù)集蹋笼。而且展姐,這些數(shù)據(jù)集通常在產(chǎn)品和研發(fā)兩方面都有用。
【學(xué)術(shù)】這些是在機(jī)器學(xué)習(xí)和 AI 的學(xué)術(shù)研究中通常作為基準(zhǔn)或基線使用的數(shù)據(jù)集姓建。無(wú)論好壞诞仓,研究人員都使用這些數(shù)據(jù)集來(lái)驗(yàn)證算法。
【陳舊】這些數(shù)據(jù)集速兔,無(wú)論是否實(shí)用墅拭,已經(jīng)有相當(dāng)長(zhǎng)歷史了。
計(jì)算機(jī)視覺(jué)
【學(xué)術(shù)涣狗、經(jīng)典谍婉、陳舊】MNIST:最常用的完整性檢查數(shù)據(jù)集,圖像大小為25×25的B&W手寫數(shù)字镀钓,但在 MNIST 上性能良好穗熬,并不意味著模型本身很好。
地址:http://pjreddie.com/projects/mnist-in-csv/
【經(jīng)典丁溅、陳舊】CIFAR 10 & CIFAR 100:32×32的彩色圖像數(shù)據(jù)集唤蔗,雖然已經(jīng)不常用,但也可以用作完整性檢查。
地址:https://www.cs.toronto.edu/~kriz/cifar.html
【有用妓柜、學(xué)術(shù)箱季、經(jīng)典】ImageNet:新算法實(shí)際上使用的圖像數(shù)據(jù)集,很多圖像 API 公司從其 REST 接口獲取標(biāo)簽棍掐,這些標(biāo)簽被懷疑與 ImageNet 的下一級(jí) WordNet 的 1000 個(gè)類很相似藏雏。
地址:http://image-net.org/
LSUN:用于場(chǎng)景理解和多任務(wù)輔助(房間布局估計(jì),顯著性預(yù)測(cè)等)作煌。
地址:http://lsun.cs.princeton.edu/2016/
【學(xué)術(shù)】PASCAL VOC:一個(gè)通用的圖像分割/分類數(shù)據(jù)集掘殴,對(duì)構(gòu)建真實(shí)圖像的注釋用處不是特別大,但對(duì)于基線很有用粟誓。
地址:http://host.robots.ox.ac.uk/pascal/VOC/
【學(xué)術(shù)】SVHN:數(shù)據(jù)來(lái)源于 Google 街景視圖中的房屋數(shù)量奏寨,可以用作野外的周期性 MNIST。
地址:http://ufldl.stanford.edu/housenumbers/
MS COCO:一個(gè)通用的圖像理解/字幕數(shù)據(jù)集努酸。
地址:http://mscoco.org/
【有用】Visual Genome:非常詳細(xì)的視覺(jué)知識(shí)數(shù)據(jù)集服爷,包含約100K圖像的深字母。
地址:http://visualgenome.org/
【有用获诈、學(xué)術(shù)仍源、經(jīng)典、陳舊】Labeled Faces in the Wild:使用名稱標(biāo)識(shí)符標(biāo)記的面部區(qū)域數(shù)據(jù)集舔涎,常用于訓(xùn)練面部識(shí)別系統(tǒng)笼踩。
地址:http://vis-www.cs.umass.edu/lfw/
自然語(yǔ)言處理
【有用、學(xué)術(shù)】Text Classification Datasets:一個(gè)文本分類數(shù)據(jù)集亡嫌,包含8個(gè)可用于文本分類的子數(shù)據(jù)集嚎于,樣本大小從120K到3.6M,問(wèn)題范圍從2級(jí)到14級(jí)挟冠,數(shù)據(jù)來(lái)源于 DBPedia于购、Amazon、Yelp知染、Yahoo!肋僧、Sogou 和 AG。
地址:http://t.cn/RJDVxr4
【有用控淡、學(xué)術(shù)】WikiText:由 Salesforce MetaMind 設(shè)計(jì)的大型語(yǔ)言建模語(yǔ)料庫(kù)嫌吠,來(lái)源于維基百科文章。
地址:http://t.cn/RJDVSRy/
【有用】Question Pairs:第一個(gè)來(lái)源于 Quora 的包含重復(fù)/語(yǔ)義相似性標(biāo)簽的數(shù)據(jù)集掺炭。
地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs
【有用辫诅、學(xué)術(shù)】SQuAD:斯坦福大學(xué)的問(wèn)答數(shù)據(jù)集,廣泛用于問(wèn)題回答和閱讀理解涧狮,其中每個(gè)問(wèn)題和答案都是文本片段的形式炕矮。
地址:https://rajpurkar.github.io/SQuAD-explorer/
CMU Q/A Dataset:人工生成的問(wèn)題/答案對(duì)么夫,難度評(píng)級(jí)來(lái)自維基百科文章。
地址:http://www.cs.cmu.edu/~ark/QA-data/
【有用】Maluuba Datasets:用于狀態(tài)性的自然語(yǔ)言理解研究的人工制作的精細(xì)數(shù)據(jù)集肤视。
地址:https://datasets.maluuba.com/
【有用魏割、學(xué)術(shù)】Billion Words:一個(gè)大型、通用的語(yǔ)言建模數(shù)據(jù)集钢颂,常用于如 word2vec 或 Glove 的分布式詞語(yǔ)表征。
地址:http://www.statmt.org/lm-benchmark/
【有用拜银、學(xué)術(shù)】Common Crawl:Petabyte 級(jí)規(guī)模的網(wǎng)絡(luò)爬行數(shù)據(jù)集殊鞭,常用于學(xué)習(xí)詞嵌入。
地址:http://commoncrawl.org/the-data/
【學(xué)術(shù)尼桶、經(jīng)典】bAbi:來(lái)自 FAIR 的閱讀理解和問(wèn)答應(yīng)答數(shù)據(jù)集操灿。
地址:https://research.fb.com/projects/babi/
【學(xué)術(shù)】The Children’s Book Test:從古登堡計(jì)劃的童書中提取的(問(wèn)題+上下文,答案)的基線泵督,該數(shù)據(jù)集對(duì)問(wèn)題回答趾盐、閱讀理解和模擬陳述有用。
地址:https://research.fb.com/projects/babi/
【學(xué)術(shù)小腊、經(jīng)典救鲤、陳舊】Stanford Sentiment Treebank:一個(gè)標(biāo)準(zhǔn)情感數(shù)據(jù)集,數(shù)據(jù)集中每個(gè)句子解析樹(shù)的每個(gè)節(jié)點(diǎn)都有精細(xì)的情感注釋秩冈。
地址:http://nlp.stanford.edu/sentiment/code.html
【經(jīng)典本缠、陳舊】20 Newsgroups:一個(gè)文本分類的經(jīng)典數(shù)據(jù)集,通常用于純分類或作為任何 IR/索引算法的基準(zhǔn)入问。
地址:http://qwone.com/~jason/20Newsgroups/
【經(jīng)典丹锹、陳舊】Reuters:一個(gè)較舊,完全基于分類的新聞文本數(shù)據(jù)集芬失,常用于教程楣黍。
地址:http://t.cn/RJDfi7T
【經(jīng)典、陳舊】IMDB:一個(gè)比較舊棱烂,規(guī)模也相對(duì)較小的二院情感分類數(shù)據(jù)集租漂。
地址:http://ai.stanford.edu/~amaas/data/sentiment/
【經(jīng)典、陳舊】UCI’s Spambase:這是一個(gè)年代較久遠(yuǎn)的垢啼、經(jīng)典的垃圾電子郵件數(shù)據(jù)集窜锯,來(lái)源是著名的 UCI 機(jī)器學(xué)習(xí)庫(kù)。由于該數(shù)據(jù)集在設(shè)計(jì)細(xì)節(jié)上的獨(dú)特之處芭析,可以用作學(xué)習(xí)個(gè)性化垃圾郵件過(guò)濾的一個(gè)有趣的基線锚扎。
地址:https://archive.ics.uci.edu/ml/datasets/Spambase
語(yǔ)音


大多數(shù)語(yǔ)音識(shí)別數(shù)據(jù)集是專有的,因?yàn)檫@些數(shù)據(jù)對(duì)于創(chuàng)建該數(shù)據(jù)集的公司來(lái)說(shuō)具有很大價(jià)值馁启。因此驾孔,這部分的可用公開(kāi)數(shù)據(jù)集多數(shù)比較陳舊芍秆。
【學(xué)術(shù)、陳舊】2000 HUB5 English:僅包含英語(yǔ)的語(yǔ)音數(shù)據(jù)集翠勉,百度最近的論文《深度語(yǔ)音:擴(kuò)展端對(duì)端語(yǔ)音識(shí)別》使用的是這個(gè)數(shù)據(jù)集妖啥。
地址:https://catalog.ldc.upenn.edu/LDC2002T43
【學(xué)術(shù)】LibriSpeech:包含文本和語(yǔ)音的有聲讀物數(shù)據(jù)集,由近500小時(shí)的多人朗讀的清晰音頻組成对碌,且包含書籍的章節(jié)結(jié)構(gòu)荆虱。
地址:http://www.openslr.org/12/
【有用、學(xué)術(shù)】VoxForge:帶口音的語(yǔ)音清潔數(shù)據(jù)集朽们,對(duì)測(cè)試模型在不同重音或語(yǔ)調(diào)下的魯棒性非常有用怀读。
地址:http://www.voxforge.org/
【學(xué)術(shù)、經(jīng)典骑脱、陳舊】TIMIT:英文語(yǔ)音識(shí)別數(shù)據(jù)集菜枷。
地址:https://catalog.ldc.upenn.edu/LDC93S1
【有用】CHIME:包含環(huán)境噪音的語(yǔ)音識(shí)別挑戰(zhàn)賽數(shù)據(jù)集。該數(shù)據(jù)集包含真實(shí)叁丧、模擬和清潔的語(yǔ)音錄音啤誊,具體來(lái)說(shuō),包括4個(gè)揚(yáng)聲器在4個(gè)有噪音環(huán)境下進(jìn)行的將近9000次錄音拥娄,模擬數(shù)據(jù)是將多個(gè)環(huán)境組合及在無(wú)噪音環(huán)境下記錄的數(shù)據(jù)蚊锹。
地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html
TED-LIUM:TED Talk 的音頻數(shù)據(jù)集,包含1495個(gè)TED演講的錄音及全文的文字稿条舔。
地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus
推薦和排序系統(tǒng)
【經(jīng)典枫耳、陳舊】Netflix Challenge:第一個(gè)主要的 Kaggle 挑戰(zhàn)賽數(shù)據(jù)集,但由于隱私問(wèn)題孟抗,只有非正式的數(shù)據(jù)集提供迁杨。
地址:http://www.netflixprize.com/
【有用、學(xué)術(shù)凄硼、經(jīng)典】MovieLens:多種大小的電影評(píng)論數(shù)據(jù)铅协,通常用于基線協(xié)同過(guò)濾。
地址:https://grouplens.org/datasets/movielens/
Million Song Dataset:Kaggle 上的大型摊沉、元數(shù)據(jù)豐富的開(kāi)源數(shù)據(jù)集狐史,對(duì)混合推薦系統(tǒng)有用。
地址:https://www.kaggle.com/c/msdchallenge
【有用】Last.fm:可訪問(wèn)底層社交網(wǎng)絡(luò)及其他元數(shù)據(jù)的音樂(lè)推薦數(shù)據(jù)集说墨,這些元數(shù)據(jù)對(duì)混合系統(tǒng)很有用骏全。
地址:http://grouplens.org/datasets/hetrec-2011/
網(wǎng)絡(luò)和圖表

【學(xué)術(shù)】Amazon Co-Purchasing and Amazon Reviews:亞馬遜網(wǎng)站的“買了該產(chǎn)品的用戶也買了……”板塊的數(shù)據(jù),以及相關(guān)產(chǎn)品的亞馬遜評(píng)論數(shù)據(jù)尼斧。適合用于推薦系統(tǒng)姜贡。
地址:http://snap.stanford.edu/data/amazon-meta.html
Friendster Social Network Dataset:包含103,750,348個(gè) Friendster 用戶的好友列表的匿名數(shù)據(jù)集。
地址:https://archive.org/details/friendster-dataset-201107
地理空間數(shù)據(jù)
【有用棺棵、經(jīng)典】OpenStreetMap:免費(fèi)許可的全球矢量數(shù)據(jù)集楼咳,包含美國(guó)人口普查局的 TIGER數(shù)據(jù)熄捍。
地址:http://wiki.openstreetmap.org/wiki/Planet.osm
【有用】Landsat8:衛(wèi)星拍攝的地球表面照片數(shù)據(jù),每隔幾周更新一次母怜。
地址:https://landsat.usgs.gov/landsat-8
【有用】NEXRAD:多普勒雷達(dá)掃描的美國(guó)大氣環(huán)境數(shù)據(jù)余耽。
地址:https://www.ncdc.noaa.gov/data-access/radar-data/nexrad
結(jié)語(yǔ):
人們常常以為在一個(gè)數(shù)據(jù)集上解決了問(wèn)題就等同于得到好的產(chǎn)品了。但在使用這些數(shù)據(jù)集作為驗(yàn)證或概念證明時(shí)苹熏,不要忘記用更新碟贾、更接近現(xiàn)實(shí)的數(shù)據(jù)來(lái)測(cè)試產(chǎn)品的功能,從而能夠作出改進(jìn)轨域。一個(gè)成功的以數(shù)據(jù)作為驅(qū)動(dòng)力的企業(yè)通常能夠從他們收集新的缕陕、專有的數(shù)據(jù)的能力中獲益,進(jìn)而提升競(jìng)爭(zhēng)力疙挺。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市怜浅,隨后出現(xiàn)的幾起案子铐然,更是在濱河造成了極大的恐慌,老刑警劉巖恶座,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件搀暑,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡跨琳,警方通過(guò)查閱死者的電腦和手機(jī)自点,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)脉让,“玉大人桂敛,你說(shuō)我怎么就攤上這事〗η保” “怎么了术唬?”我有些...
    開(kāi)封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)滚澜。 經(jīng)常有香客問(wèn)我粗仓,道長(zhǎng),這世上最難降的妖魔是什么设捐? 我笑而不...
    開(kāi)封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任借浊,我火速辦了婚禮,結(jié)果婚禮上萝招,老公的妹妹穿的比我還像新娘蚂斤。我一直安慰自己,他們只是感情好即寒,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布橡淆。 她就那樣靜靜地躺著召噩,像睡著了一般。 火紅的嫁衣襯著肌膚如雪逸爵。 梳的紋絲不亂的頭發(fā)上具滴,一...
    開(kāi)封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音师倔,去河邊找鬼构韵。 笑死,一個(gè)胖子當(dāng)著我的面吹牛趋艘,可吹牛的內(nèi)容都是我干的疲恢。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼瓷胧,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼显拳!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起搓萧,我...
    開(kāi)封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤杂数,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后瘸洛,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體揍移,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年反肋,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了那伐。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡石蔗,死狀恐怖罕邀,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情养距,我是刑警寧澤燃少,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站铃在,受9級(jí)特大地震影響阵具,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜定铜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一阳液、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧揣炕,春花似錦帘皿、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)虽填。三九已至,卻和暖如春曹动,著一層夾襖步出監(jiān)牢的瞬間斋日,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工墓陈, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留恶守,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓贡必,卻偏偏與公主長(zhǎng)得像句喜,于是被迫代替她去往敵國(guó)和親罢艾。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開(kāi)發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見(jiàn)模式的工具(例如配置管理刷袍,服務(wù)發(fā)現(xiàn)冻记,斷路器冒嫡,智...
    卡卡羅2017閱讀 134,599評(píng)論 18 139
  • # Python 資源大全中文版 我想很多程序員應(yīng)該記得 GitHub 上有一個(gè) Awesome - XXX 系列...
    aimaile閱讀 26,441評(píng)論 6 428
  • 現(xiàn)如今構(gòu)建人工智能或機(jī)器學(xué)習(xí)系統(tǒng)比以往的時(shí)候更加容易。普遍存在的尖端開(kāi)源工具如 TensorFlow晋被、Torch ...
    方弟閱讀 2,766評(píng)論 1 8
  • 風(fēng)裹挾著塑料袋 這明亮的世界 垃圾如海 拾荒者在這些珍寶中一次次徘徊 面包在角落等待 希望有人察覺(jué) ...
    _趙四閱讀 361評(píng)論 2 2
  • 企業(yè)收集大量數(shù)據(jù),包括他們的消費(fèi)者和他們的市場(chǎng)項(xiàng)目刚盈。這些信息已經(jīng)從一個(gè)流行詞過(guò)渡到每個(gè)營(yíng)銷人員的工具庫(kù)中不可或缺的...
    盛行西風(fēng)5閱讀 136評(píng)論 0 1