【經(jīng)典】這些是在 AI 領(lǐng)域中非常著名、眾所周知的數(shù)據(jù)集铸鹰。很少有研究者或工程師沒(méi)有聽(tīng)說(shuō)過(guò)它們癌别。
【有用】這些是更加接近現(xiàn)實(shí)世界的、精心設(shè)計(jì)的數(shù)據(jù)集蹋笼。而且展姐,這些數(shù)據(jù)集通常在產(chǎn)品和研發(fā)兩方面都有用。
【學(xué)術(shù)】這些是在機(jī)器學(xué)習(xí)和 AI 的學(xué)術(shù)研究中通常作為基準(zhǔn)或基線使用的數(shù)據(jù)集姓建。無(wú)論好壞诞仓,研究人員都使用這些數(shù)據(jù)集來(lái)驗(yàn)證算法。
【陳舊】這些數(shù)據(jù)集速兔,無(wú)論是否實(shí)用墅拭,已經(jīng)有相當(dāng)長(zhǎng)歷史了。
計(jì)算機(jī)視覺(jué)
【學(xué)術(shù)涣狗、經(jīng)典谍婉、陳舊】MNIST:最常用的完整性檢查數(shù)據(jù)集,圖像大小為25×25的B&W手寫數(shù)字镀钓,但在 MNIST 上性能良好穗熬,并不意味著模型本身很好。
地址:http://pjreddie.com/projects/mnist-in-csv/
【經(jīng)典丁溅、陳舊】CIFAR 10 & CIFAR 100:32×32的彩色圖像數(shù)據(jù)集唤蔗,雖然已經(jīng)不常用,但也可以用作完整性檢查。
地址:https://www.cs.toronto.edu/~kriz/cifar.html
【有用妓柜、學(xué)術(shù)箱季、經(jīng)典】ImageNet:新算法實(shí)際上使用的圖像數(shù)據(jù)集,很多圖像 API 公司從其 REST 接口獲取標(biāo)簽棍掐,這些標(biāo)簽被懷疑與 ImageNet 的下一級(jí) WordNet 的 1000 個(gè)類很相似藏雏。
地址:http://image-net.org/
LSUN:用于場(chǎng)景理解和多任務(wù)輔助(房間布局估計(jì),顯著性預(yù)測(cè)等)作煌。
地址:http://lsun.cs.princeton.edu/2016/
【學(xué)術(shù)】PASCAL VOC:一個(gè)通用的圖像分割/分類數(shù)據(jù)集掘殴,對(duì)構(gòu)建真實(shí)圖像的注釋用處不是特別大,但對(duì)于基線很有用粟誓。
地址:http://host.robots.ox.ac.uk/pascal/VOC/
【學(xué)術(shù)】SVHN:數(shù)據(jù)來(lái)源于 Google 街景視圖中的房屋數(shù)量奏寨,可以用作野外的周期性 MNIST。
地址:http://ufldl.stanford.edu/housenumbers/
MS COCO:一個(gè)通用的圖像理解/字幕數(shù)據(jù)集努酸。
地址:http://mscoco.org/
【有用】Visual Genome:非常詳細(xì)的視覺(jué)知識(shí)數(shù)據(jù)集服爷,包含約100K圖像的深字母。
地址:http://visualgenome.org/
【有用获诈、學(xué)術(shù)仍源、經(jīng)典、陳舊】Labeled Faces in the Wild:使用名稱標(biāo)識(shí)符標(biāo)記的面部區(qū)域數(shù)據(jù)集舔涎,常用于訓(xùn)練面部識(shí)別系統(tǒng)笼踩。
地址:http://vis-www.cs.umass.edu/lfw/
自然語(yǔ)言處理
【有用、學(xué)術(shù)】Text Classification Datasets:一個(gè)文本分類數(shù)據(jù)集亡嫌,包含8個(gè)可用于文本分類的子數(shù)據(jù)集嚎于,樣本大小從120K到3.6M,問(wèn)題范圍從2級(jí)到14級(jí)挟冠,數(shù)據(jù)來(lái)源于 DBPedia于购、Amazon、Yelp知染、Yahoo!肋僧、Sogou 和 AG。
地址:http://t.cn/RJDVxr4
【有用控淡、學(xué)術(shù)】WikiText:由 Salesforce MetaMind 設(shè)計(jì)的大型語(yǔ)言建模語(yǔ)料庫(kù)嫌吠,來(lái)源于維基百科文章。
地址:http://t.cn/RJDVSRy/
【有用】Question Pairs:第一個(gè)來(lái)源于 Quora 的包含重復(fù)/語(yǔ)義相似性標(biāo)簽的數(shù)據(jù)集掺炭。
地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs
【有用辫诅、學(xué)術(shù)】SQuAD:斯坦福大學(xué)的問(wèn)答數(shù)據(jù)集,廣泛用于問(wèn)題回答和閱讀理解涧狮,其中每個(gè)問(wèn)題和答案都是文本片段的形式炕矮。
地址:https://rajpurkar.github.io/SQuAD-explorer/
CMU Q/A Dataset:人工生成的問(wèn)題/答案對(duì)么夫,難度評(píng)級(jí)來(lái)自維基百科文章。
地址:http://www.cs.cmu.edu/~ark/QA-data/
【有用】Maluuba Datasets:用于狀態(tài)性的自然語(yǔ)言理解研究的人工制作的精細(xì)數(shù)據(jù)集肤视。
地址:https://datasets.maluuba.com/
【有用魏割、學(xué)術(shù)】Billion Words:一個(gè)大型、通用的語(yǔ)言建模數(shù)據(jù)集钢颂,常用于如 word2vec 或 Glove 的分布式詞語(yǔ)表征。
地址:http://www.statmt.org/lm-benchmark/
【有用拜银、學(xué)術(shù)】Common Crawl:Petabyte 級(jí)規(guī)模的網(wǎng)絡(luò)爬行數(shù)據(jù)集殊鞭,常用于學(xué)習(xí)詞嵌入。
地址:http://commoncrawl.org/the-data/
【學(xué)術(shù)尼桶、經(jīng)典】bAbi:來(lái)自 FAIR 的閱讀理解和問(wèn)答應(yīng)答數(shù)據(jù)集操灿。
地址:https://research.fb.com/projects/babi/
【學(xué)術(shù)】The Children’s Book Test:從古登堡計(jì)劃的童書中提取的(問(wèn)題+上下文,答案)的基線泵督,該數(shù)據(jù)集對(duì)問(wèn)題回答趾盐、閱讀理解和模擬陳述有用。
地址:https://research.fb.com/projects/babi/
【學(xué)術(shù)小腊、經(jīng)典救鲤、陳舊】Stanford Sentiment Treebank:一個(gè)標(biāo)準(zhǔn)情感數(shù)據(jù)集,數(shù)據(jù)集中每個(gè)句子解析樹(shù)的每個(gè)節(jié)點(diǎn)都有精細(xì)的情感注釋秩冈。
地址:http://nlp.stanford.edu/sentiment/code.html
【經(jīng)典本缠、陳舊】20 Newsgroups:一個(gè)文本分類的經(jīng)典數(shù)據(jù)集,通常用于純分類或作為任何 IR/索引算法的基準(zhǔn)入问。
地址:http://qwone.com/~jason/20Newsgroups/
【經(jīng)典丹锹、陳舊】Reuters:一個(gè)較舊,完全基于分類的新聞文本數(shù)據(jù)集芬失,常用于教程楣黍。
地址:http://t.cn/RJDfi7T
【經(jīng)典、陳舊】IMDB:一個(gè)比較舊棱烂,規(guī)模也相對(duì)較小的二院情感分類數(shù)據(jù)集租漂。
地址:http://ai.stanford.edu/~amaas/data/sentiment/
【經(jīng)典、陳舊】UCI’s Spambase:這是一個(gè)年代較久遠(yuǎn)的垢啼、經(jīng)典的垃圾電子郵件數(shù)據(jù)集窜锯,來(lái)源是著名的 UCI 機(jī)器學(xué)習(xí)庫(kù)。由于該數(shù)據(jù)集在設(shè)計(jì)細(xì)節(jié)上的獨(dú)特之處芭析,可以用作學(xué)習(xí)個(gè)性化垃圾郵件過(guò)濾的一個(gè)有趣的基線锚扎。
地址:https://archive.ics.uci.edu/ml/datasets/Spambase
語(yǔ)音
大多數(shù)語(yǔ)音識(shí)別數(shù)據(jù)集是專有的,因?yàn)檫@些數(shù)據(jù)對(duì)于創(chuàng)建該數(shù)據(jù)集的公司來(lái)說(shuō)具有很大價(jià)值馁启。因此驾孔,這部分的可用公開(kāi)數(shù)據(jù)集多數(shù)比較陳舊芍秆。
【學(xué)術(shù)、陳舊】2000 HUB5 English:僅包含英語(yǔ)的語(yǔ)音數(shù)據(jù)集翠勉,百度最近的論文《深度語(yǔ)音:擴(kuò)展端對(duì)端語(yǔ)音識(shí)別》使用的是這個(gè)數(shù)據(jù)集妖啥。
地址:https://catalog.ldc.upenn.edu/LDC2002T43
【學(xué)術(shù)】LibriSpeech:包含文本和語(yǔ)音的有聲讀物數(shù)據(jù)集,由近500小時(shí)的多人朗讀的清晰音頻組成对碌,且包含書籍的章節(jié)結(jié)構(gòu)荆虱。
地址:http://www.openslr.org/12/
【有用、學(xué)術(shù)】VoxForge:帶口音的語(yǔ)音清潔數(shù)據(jù)集朽们,對(duì)測(cè)試模型在不同重音或語(yǔ)調(diào)下的魯棒性非常有用怀读。
地址:http://www.voxforge.org/
【學(xué)術(shù)、經(jīng)典骑脱、陳舊】TIMIT:英文語(yǔ)音識(shí)別數(shù)據(jù)集菜枷。
地址:https://catalog.ldc.upenn.edu/LDC93S1
【有用】CHIME:包含環(huán)境噪音的語(yǔ)音識(shí)別挑戰(zhàn)賽數(shù)據(jù)集。該數(shù)據(jù)集包含真實(shí)叁丧、模擬和清潔的語(yǔ)音錄音啤誊,具體來(lái)說(shuō),包括4個(gè)揚(yáng)聲器在4個(gè)有噪音環(huán)境下進(jìn)行的將近9000次錄音拥娄,模擬數(shù)據(jù)是將多個(gè)環(huán)境組合及在無(wú)噪音環(huán)境下記錄的數(shù)據(jù)蚊锹。
地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html
TED-LIUM:TED Talk 的音頻數(shù)據(jù)集,包含1495個(gè)TED演講的錄音及全文的文字稿条舔。
地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus
推薦和排序系統(tǒng)
【經(jīng)典枫耳、陳舊】Netflix Challenge:第一個(gè)主要的 Kaggle 挑戰(zhàn)賽數(shù)據(jù)集,但由于隱私問(wèn)題孟抗,只有非正式的數(shù)據(jù)集提供迁杨。
地址:http://www.netflixprize.com/
【有用、學(xué)術(shù)凄硼、經(jīng)典】MovieLens:多種大小的電影評(píng)論數(shù)據(jù)铅协,通常用于基線協(xié)同過(guò)濾。
地址:https://grouplens.org/datasets/movielens/
Million Song Dataset:Kaggle 上的大型摊沉、元數(shù)據(jù)豐富的開(kāi)源數(shù)據(jù)集狐史,對(duì)混合推薦系統(tǒng)有用。
地址:https://www.kaggle.com/c/msdchallenge
【有用】Last.fm:可訪問(wèn)底層社交網(wǎng)絡(luò)及其他元數(shù)據(jù)的音樂(lè)推薦數(shù)據(jù)集说墨,這些元數(shù)據(jù)對(duì)混合系統(tǒng)很有用骏全。
地址:http://grouplens.org/datasets/hetrec-2011/
網(wǎng)絡(luò)和圖表
【學(xué)術(shù)】Amazon Co-Purchasing and Amazon Reviews:亞馬遜網(wǎng)站的“買了該產(chǎn)品的用戶也買了……”板塊的數(shù)據(jù),以及相關(guān)產(chǎn)品的亞馬遜評(píng)論數(shù)據(jù)尼斧。適合用于推薦系統(tǒng)姜贡。
地址:http://snap.stanford.edu/data/amazon-meta.html
Friendster Social Network Dataset:包含103,750,348個(gè) Friendster 用戶的好友列表的匿名數(shù)據(jù)集。
地址:https://archive.org/details/friendster-dataset-201107
地理空間數(shù)據(jù)
【有用棺棵、經(jīng)典】OpenStreetMap:免費(fèi)許可的全球矢量數(shù)據(jù)集楼咳,包含美國(guó)人口普查局的 TIGER數(shù)據(jù)熄捍。
地址:http://wiki.openstreetmap.org/wiki/Planet.osm
【有用】Landsat8:衛(wèi)星拍攝的地球表面照片數(shù)據(jù),每隔幾周更新一次母怜。
地址:https://landsat.usgs.gov/landsat-8
【有用】NEXRAD:多普勒雷達(dá)掃描的美國(guó)大氣環(huán)境數(shù)據(jù)余耽。
地址:https://www.ncdc.noaa.gov/data-access/radar-data/nexrad
結(jié)語(yǔ):
人們常常以為在一個(gè)數(shù)據(jù)集上解決了問(wèn)題就等同于得到好的產(chǎn)品了。但在使用這些數(shù)據(jù)集作為驗(yàn)證或概念證明時(shí)苹熏,不要忘記用更新碟贾、更接近現(xiàn)實(shí)的數(shù)據(jù)來(lái)測(cè)試產(chǎn)品的功能,從而能夠作出改進(jìn)轨域。一個(gè)成功的以數(shù)據(jù)作為驅(qū)動(dòng)力的企業(yè)通常能夠從他們收集新的缕陕、專有的數(shù)據(jù)的能力中獲益,進(jìn)而提升競(jìng)爭(zhēng)力疙挺。