【資源帖】深度學(xué)習(xí)視覺領(lǐng)域常用數(shù)據(jù)集匯總

[導(dǎo)讀] “大數(shù)據(jù)時代”,數(shù)據(jù)為王碳抄!無論是數(shù)據(jù)挖掘還是目前大熱的深度學(xué)習(xí)領(lǐng)域都離不開“大數(shù)據(jù)”。大公司們一般會有自己的數(shù)據(jù)场绿,但對于創(chuàng)業(yè)公司或是高校老師剖效、學(xué)生來說,“Where can I get large datasets open to the public?”是不得不面對的一個問題焰盗。

本文結(jié)合筆者在研究生學(xué)習(xí)璧尸、科研期間使用過以及閱讀文獻(xiàn)了解到的深度學(xué)習(xí)視覺領(lǐng)域常用的開源數(shù)據(jù)集,進(jìn)行介紹和匯總熬拒。

MNIST

深度學(xué)習(xí)領(lǐng)域的“Hello World!”爷光,入門必備!MNIST是一個手寫數(shù)字?jǐn)?shù)據(jù)庫澎粟,它有60000個訓(xùn)練樣本集和10000個測試樣本集蛀序,每個樣本圖像的寬高為28*28。此數(shù)據(jù)集是以二進(jìn)制存儲的活烙,不能直接以圖像格式查看徐裸,不過很容易找到將其轉(zhuǎn)換成圖像格式的工具。

最早的深度卷積網(wǎng)絡(luò)LeNet便是針對此數(shù)據(jù)集的啸盏,當(dāng)前主流深度學(xué)習(xí)框架幾乎無一例外將MNIST數(shù)據(jù)集的處理作為介紹及入門第一教程重贺,其中Tensorflow關(guān)于MNIST的教程非常詳細(xì)。

數(shù)據(jù)集大谢嘏场:~12MB
下載地址:
http://yann.lecun.com/exdb/mnist/index.html

Imagenet

MNIST將初學(xué)者領(lǐng)進(jìn)了深度學(xué)習(xí)領(lǐng)域檬姥,而Imagenet數(shù)據(jù)集對深度學(xué)習(xí)的浪潮起了巨大的推動作用。深度學(xué)習(xí)領(lǐng)域大牛Hinton在2012年發(fā)表的論文《ImageNet Classification with Deep Convolutional Neural Networks》在計算機視覺領(lǐng)域帶來了一場“革命”粉怕,此論文的工作正是基于Imagenet數(shù)據(jù)集。

Imagenet數(shù)據(jù)集有1400多萬幅圖片抒巢,涵蓋2萬多個類別贫贝;其中有超過百萬的圖片有明確的類別標(biāo)注和圖像中物體位置的標(biāo)注,具體信息如下:
1)Total number of non-empty synsets: 21841
2)Total number of images: 14,197,122
3)Number of images with bounding box annotations: 1,034,908
4)Number of synsets with SIFT features: 1000
5)Number of images with SIFT features: 1.2 million

Imagenet數(shù)據(jù)集是目前深度學(xué)習(xí)圖像領(lǐng)域應(yīng)用得非常多的一個領(lǐng)域蛉谜,關(guān)于圖像分類稚晚、定位、檢測等研究工作大多基于此數(shù)據(jù)集展開型诚。Imagenet數(shù)據(jù)集文檔詳細(xì)客燕,有專門的團(tuán)隊維護(hù),使用非常方便狰贯,在計算機視覺領(lǐng)域研究論文中應(yīng)用非常廣也搓,幾乎成為了目前深度學(xué)習(xí)圖像領(lǐng)域算法性能檢驗的“標(biāo)準(zhǔn)”數(shù)據(jù)集赏廓。

與Imagenet數(shù)據(jù)集對應(yīng)的有一個享譽全球的“ImageNet國際計算機視覺挑戰(zhàn)賽(ILSVRC)”,以往一般是google傍妒、MSRA等大公司奪得冠軍幔摸,今年(2016)ILSVRC2016中國團(tuán)隊包攬全部項目的冠軍。

Imagenet數(shù)據(jù)集是一個非常優(yōu)秀的數(shù)據(jù)集颤练,但是標(biāo)注難免會有錯誤既忆,幾乎每年都會對錯誤的數(shù)據(jù)進(jìn)行修正或是刪除,建議下載最新數(shù)據(jù)集并關(guān)注數(shù)據(jù)集更新嗦玖。

數(shù)據(jù)集大谢脊汀:~1TB(ILSVRC2016比賽全部數(shù)據(jù))
下載地址:
http://www.image-net.org/about-stats

COCO

COCO(Common Objects in Context)是一個新的圖像識別、分割和圖像語義數(shù)據(jù)集宇挫,它有如下特點:
1)Object segmentation
2)Recognition in Context
3)Multiple objects per image
4)More than 300,000 images
5)More than 2 Million instances
6)80 object categories
7)5 captions per image
8)Keypoints on 100,000 people

COCO數(shù)據(jù)集由微軟贊助苛吱,其對于圖像的標(biāo)注信息不僅有類別、位置信息捞稿,還有對圖像的語義文本描述又谋,COCO數(shù)據(jù)集的開源使得近兩三年來圖像分割語義理解取得了巨大的進(jìn)展,也幾乎成為了圖像語義理解算法性能評價的“標(biāo)準(zhǔn)”數(shù)據(jù)集娱局。

Google開源的開源了圖說生成模型show and tell就是在此數(shù)據(jù)集上測試的彰亥,想玩的可以下下來試試哈。

數(shù)據(jù)集大兴テ搿:~40GB
下載地址:http://mscoco.org/

PASCAL VOC

PASCAL VOC挑戰(zhàn)賽是視覺對象的分類識別和檢測的一個基準(zhǔn)測試任斋,提供了檢測算法和學(xué)習(xí)性能的標(biāo)準(zhǔn)圖像注釋數(shù)據(jù)集和標(biāo)準(zhǔn)的評估系統(tǒng)。PASCAL VOC圖片集包括20個目錄:人類耻涛;動物(鳥废酷、貓、牛抹缕、狗澈蟆、馬、羊)卓研;交通工具(飛機趴俘、自行車、船奏赘、公共汽車寥闪、小轎車、摩托車磨淌、火車)疲憋;室內(nèi)(瓶子、椅子梁只、餐桌缚柳、盆栽植物埃脏、沙發(fā)、電視)喂击。PASCAL VOC挑戰(zhàn)賽在2012年后便不再舉辦剂癌,但其數(shù)據(jù)集圖像質(zhì)量好,標(biāo)注完備翰绊,非常適合用來測試算法性能佩谷。

數(shù)據(jù)集大小:~2GB
下載地址:
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

CIFAR

CIFAR-10包含10個類別监嗜,50,000個訓(xùn)練圖像谐檀,彩色圖像大小:32x32裁奇,10,000個測試圖像桐猬。CIFAR-100與CIFAR-10類似,包含100個類刽肠,每類有600張圖片溃肪,其中500張用于訓(xùn)練,100張用于測試音五;這100個類分組成20個超類惫撰。圖像類別均有明確標(biāo)注。CIFAR對于圖像分類算法測試來說是一個非常不錯的中小規(guī)模數(shù)據(jù)集躺涝。

數(shù)據(jù)集大谐辍:~170MB
下載地址:
http://www.cs.toronto.edu/~kriz/cifar.html

Open Image

過去幾年機器學(xué)習(xí)的發(fā)展使得計算機視覺有了快速的進(jìn)步,系統(tǒng)能夠自動描述圖片坚嗜,對共享的圖片創(chuàng)造自然語言回應(yīng)夯膀。其中大部分的進(jìn)展都可歸因于 ImageNet 、COCO這樣的數(shù)據(jù)集的公開使用苍蔬。谷歌作為一家偉大的公司诱建,自然也要做出些表示,于是乎就有了Open Image碟绑。

Open Image是一個包含~900萬張圖像URL的數(shù)據(jù)集涂佃,里面的圖片通過標(biāo)簽注釋被分為6000多類。該數(shù)據(jù)集中的標(biāo)簽要比ImageNet(1000類)包含更真實生活的實體存在蜈敢,它足夠讓我們從頭開始訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。

谷歌出品汽抚,必屬精品抓狭!唯一不足的可能就是它只是提供圖片URL,使用起來可能不如直接提供圖片方便造烁。

此數(shù)據(jù)集否过,筆者也未使用過午笛,不過google出的東西質(zhì)量應(yīng)該還是有保障的苗桂。

數(shù)據(jù)集大幸┗恰:~1.5GB(不包括圖片)
下載地址:
https://github.com/openimages/dataset

Youtube-8M

Youtube-8M為谷歌開源的視頻數(shù)據(jù)集,視頻來自youtube煤伟,共計8百萬個視頻癌佩,總時長50萬小時,4800類便锨。為了保證標(biāo)簽視頻數(shù)據(jù)庫的穩(wěn)定性和質(zhì)量围辙,谷歌只采用瀏覽量超過1000的公共視頻資源。為了讓受計算機資源所限的研究者和學(xué)生也可以用上這一數(shù)據(jù)庫放案,谷歌對視頻進(jìn)行了預(yù)處理姚建,并提取了幀級別的特征,提取的特征被壓縮到可以放到一個硬盤中(小于1.5T)吱殉。

此數(shù)據(jù)集的下載提供下載腳本掸冤,由于國內(nèi)網(wǎng)絡(luò)的特殊原因,下載此數(shù)據(jù)經(jīng)常斷掉友雳,不過還好下載腳本有續(xù)傳功能稿湿,過一會兒重新連接就能再連上×ぺ澹可以寫一個腳本檢測到下載中斷后就sleep一段時間然后再重新請求下載缎罢,這樣就不用一直守著了。(截至發(fā)文考杉,斷斷續(xù)續(xù)的下載策精,筆者表示還沒下完呢……)

數(shù)據(jù)集大小:~1.5TB
下載地址:https://research.google.com/youtube8m/

以上是筆者根據(jù)學(xué)習(xí)科研和文獻(xiàn)閱讀經(jīng)歷總結(jié)的目前深度學(xué)習(xí)視覺領(lǐng)域研究人員常用數(shù)據(jù)集崇棠。由于個人學(xué)識有限咽袜,難免有疏漏和不當(dāng)?shù)牡胤剑x者朋友們不吝賜教枕稀。

如果以上數(shù)據(jù)集還不能滿足你的需求的話询刹,不妨從下面找找吧。

1.深度學(xué)習(xí)數(shù)據(jù)集收集網(wǎng)站

http://deeplearning.net/datasets/**
收集大量的各深度學(xué)習(xí)相關(guān)的數(shù)據(jù)集萎坷,但并不是所有開源的數(shù)據(jù)集都能在上面找到相關(guān)信息凹联。

2、Tiny Images Dataset
http://horatio.cs.nyu.edu/mit/tiny/data/index.html
包含8000萬的32x32圖像哆档,CIFAR-10和CIFAR-100便是從中挑選的丐谋。

3锯玛、CoPhIR
http://cophir.isti.cnr.it/whatis.html
雅虎發(fā)布的超大Flickr數(shù)據(jù)集默终,包含1億多張圖片。

4比原、MirFlickr1M
http://press.liacs.nl/mirflickr/Flickr數(shù)據(jù)集中挑選出的100萬圖像集。

5杠巡、SBU captioned photo dataset
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/Flickr的一個子集量窘,包含100萬的圖像集。

6氢拥、NUS-WIDE
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htmFlickr中的27萬的圖像集蚌铜。

7、Large-Scale Image Annotation using Visual Synset(ICCV 2011)
http://cpl.cc.gatech.edu/projects/VisualSynset/機器標(biāo)注的一個超大規(guī)模數(shù)據(jù)集兄一,包含2億圖像厘线。

8、SUN dataset
http://people.csail.mit.edu/jxiao/SUN/包含13萬的圖像的數(shù)據(jù)集出革。

9造壮、MSRA-MM
http://research.microsoft.com/en-us/projects/msrammdata/ 包含100萬的圖像,23000視頻骂束;微軟亞洲研究院出品耳璧,質(zhì)量應(yīng)該有保障。

中國是一個“數(shù)據(jù)大國”展箱,中國的數(shù)據(jù)開放在政府部門以北京旨枯、上海等地為首,陸續(xù)開放了交通混驰、天氣等數(shù)據(jù)集攀隔;在企業(yè)中以新浪微博等為首,開放了真實栖榨、有效的數(shù)據(jù)給研究人員提供了極大的便利昆汹;但就計算機視覺領(lǐng)域來說,國內(nèi)數(shù)據(jù)集的開放水平和國外相比仍有一定差距婴栽。希望國內(nèi)相關(guān)企業(yè)和組織能夠開放更多優(yōu)秀的數(shù)據(jù)集满粗,促進(jìn)相關(guān)行業(yè)研究進(jìn)展,提升中國在相關(guān)研究領(lǐng)域的影響力愚争,為推動全人類科學(xué)技術(shù)的進(jìn)步貢獻(xiàn)自己的一份力量映皆。

參考文獻(xiàn):
[1] http://yann.lecun.com/exdb/mnist/index.html
[2] http://www.image-net.org/about-stats
[3] http://mscoco.org/
[4] http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html
[5] http://www.cs.toronto.edu/~kriz/cifar.html
[6] https://github.com/openimages/dataset
[7] https://research.google.com/youtube8m/
[8] http://blog.csdn.net/qq_26898461/article/details/50593328

作者介紹:
劉念宏:清華大學(xué)微電子系在讀碩士研究生,清華大學(xué)“大數(shù)據(jù)碩士”轰枝,現(xiàn)任清華大學(xué)學(xué)生大數(shù)據(jù)協(xié)會會長捅彻。
主要研究方向:深度學(xué)習(xí)圖像檢測。
聯(lián)系方式:
lnh15@mails.tsinghua.edu.cn鞍陨。

付睿:清華大學(xué)自動化系在讀碩士研究生步淹,清華大學(xué)“大數(shù)據(jù)碩士”,前任清華大學(xué)學(xué)生大數(shù)據(jù)協(xié)會會長。
主要研究方向:智能交通贤旷。
聯(lián)系方式:freefor_ever@163.com

作者:劉念宏砾脑、付睿
校對:洪舒越
編輯:劉文清幼驶、張夢

轉(zhuǎn)載須知
如需轉(zhuǎn)載,請在開篇顯著位置注明作者和出處(轉(zhuǎn)自:數(shù)據(jù)派ID:datapi)韧衣,并在文章結(jié)尾放置數(shù)據(jù)派醒目二維碼盅藻。有原創(chuàng)標(biāo)識文章,請發(fā)送【文章名稱-待授權(quán)公眾號名稱及ID】至聯(lián)系郵箱畅铭,申請白名單授權(quán)并按要求編輯氏淑。
發(fā)布后請將鏈接反饋至聯(lián)系郵箱(見下方)。未經(jīng)許可的轉(zhuǎn)載以及改編者硕噩,我們將依法追究其法律責(zé)任假残。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市炉擅,隨后出現(xiàn)的幾起案子辉懒,更是在濱河造成了極大的恐慌,老刑警劉巖谍失,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件眶俩,死亡現(xiàn)場離奇詭異,居然都是意外死亡快鱼,警方通過查閱死者的電腦和手機颠印,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來抹竹,“玉大人线罕,你說我怎么就攤上這事∑饫颍” “怎么了闻坚?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長兢孝。 經(jīng)常有香客問我窿凤,道長,這世上最難降的妖魔是什么跨蟹? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任雳殊,我火速辦了婚禮,結(jié)果婚禮上窗轩,老公的妹妹穿的比我還像新娘夯秃。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布仓洼。 她就那樣靜靜地躺著介陶,像睡著了一般。 火紅的嫁衣襯著肌膚如雪色建。 梳的紋絲不亂的頭發(fā)上哺呜,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天,我揣著相機與錄音箕戳,去河邊找鬼某残。 笑死,一個胖子當(dāng)著我的面吹牛陵吸,可吹牛的內(nèi)容都是我干的玻墅。 我是一名探鬼主播,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼壮虫,長吁一口氣:“原來是場噩夢啊……” “哼澳厢!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起旨指,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤赏酥,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后谆构,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體裸扶,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年搬素,在試婚紗的時候發(fā)現(xiàn)自己被綠了呵晨。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡熬尺,死狀恐怖摸屠,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情粱哼,我是刑警寧澤季二,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站揭措,受9級特大地震影響胯舷,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜绊含,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一桑嘶、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧躬充,春花似錦逃顶、人聲如沸讨便。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽霸褒。三九已至,卻和暖如春盈蛮,著一層夾襖步出監(jiān)牢的瞬間傲霸,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工眉反, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人穆役。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓寸五,卻偏偏與公主長得像,于是被迫代替她去往敵國和親耿币。 傳聞我的和親對象是個殘疾皇子梳杏,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容