如果你遇到以下問題，很適合閱讀本篇文章

數(shù)據(jù)集太小太零散拒名，找不到合適數(shù)據(jù)吩愧？
數(shù)據(jù)集不知道從哪里獲得，很容易得到的都是外國的
數(shù)據(jù)集不均勻訓(xùn)練的模型不準(zhǔn)確增显、不收斂雁佳、很偏見
在猶豫優(yōu)化模型還是繼續(xù)找數(shù)據(jù)集
是否花錢購買數(shù)據(jù)
還在發(fā)愁找不到數(shù)據(jù)集訓(xùn)練你的模型？

如果用一個句子總結(jié)學(xué)習(xí)數(shù)據(jù)科學(xué)的本質(zhì)同云，那就是：學(xué)習(xí)數(shù)據(jù)科學(xué)的最佳方法就是應(yīng)用數(shù)據(jù)科學(xué)糖权。如果你是一個初學(xué)者，你每完成一個新項目后自身能力都會有極大的提高炸站，如果你是一個有經(jīng)驗的數(shù)據(jù)科學(xué)專家星澳，你已經(jīng)知道這里所蘊含的價值。

首先旱易，在選擇數(shù)據(jù)集時要記住幾個重要標(biāo)準(zhǔn)：

數(shù)據(jù)集不能過于混亂禁偎，過于混亂的數(shù)據(jù)會導(dǎo)致模型難以收斂腿堤，加大了訓(xùn)練難度。
與訓(xùn)練目標(biāo)相一致的數(shù)據(jù)集才能更高效的完成識別任務(wù)
數(shù)據(jù)集量級是否符合模型規(guī)模如暖，復(fù)雜的深度網(wǎng)絡(luò)需要更多的數(shù)據(jù)才能發(fā)揮能力笆檀。

數(shù)據(jù)至關(guān)重要

數(shù)據(jù)質(zhì)量決定著模型的準(zhǔn)確率，技巧模型比重很小盒至。好的數(shù)據(jù)是成功的90%酗洒，數(shù)據(jù)采集，數(shù)據(jù)標(biāo)注枷遂，數(shù)據(jù)清洗樱衷，數(shù)據(jù)預(yù)處理，有著至關(guān)重要的作用登淘。如果你是學(xué)生箫老，下面文章提供幾個下載數(shù)據(jù)集的網(wǎng)站及標(biāo)注工具，方便快速跑起來你的代碼黔州。把精力都用在模型學(xué)習(xí)和優(yōu)化上而非枯燥的數(shù)據(jù)處理耍鬓。如果你是從業(yè)者，更多的數(shù)據(jù)才是制勝的法寶流妻，可以采用下面列出的工具例如Aidiscovery快速收集盡可能多的數(shù)據(jù)牲蜀。利用Labelme圖像分割標(biāo)注

數(shù)據(jù)集劃分

訓(xùn)練集、驗證集绅这、測試集涣达，這三個集合不能有交集，常見的比例是8:1:1证薇。

數(shù)據(jù)準(zhǔn)備之?dāng)?shù)據(jù)采集標(biāo)注軟件

【Labelme】圖像分割標(biāo)注推薦

Labelme

簡單介紹：LabelMe的目標(biāo)是提供一個在線注釋工具度苔，以建立用于計算機視覺研究的圖像數(shù)據(jù)庫。如果未完全標(biāo)記圖像浑度，則用戶可以使用鼠標(biāo)在圖像中繪制一個包含對象的多邊形寇窑。LabelMe項目提供了一組工具，用于使用Matlab中的LabelMe數(shù)據(jù)集箩张。

功能：

對圖像進行多邊形甩骏，矩形，圓形先慷，多段線饮笛，線段，點形式的標(biāo)注（可用于目標(biāo)檢測论熙，圖像分割福青，等任務(wù)）。

對圖像進行進行 flag 形式的標(biāo)注（可用于圖像分類和清理任務(wù)）。

視頻標(biāo)注

生成 VOC 格式的數(shù)據(jù)集（for semantic / instance segmentation）

生成 COCO 格式的數(shù)據(jù)集（for instance segmentation）

地址：http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

點擊下載

【Aidiscovery】數(shù)據(jù)采集自動分類推薦

Aidiscovery

http://aidiscovery.wntime.com/

簡單介紹：無需登陸注冊无午，即可免費下載二蓝。人臉數(shù)據(jù)自動收集，界面友好指厌、操作簡單、其中包含的數(shù)據(jù)采集是其他軟件不具備的踊跟，包括數(shù)據(jù)增強自動分類踩验，解決標(biāo)注頭疼問題。除此之外商玫，對數(shù)據(jù)集的采集來源箕憾、數(shù)據(jù)采集量、數(shù)據(jù)分布等進行統(tǒng)計分析拳昌，以可視化圖表的形式展現(xiàn)袭异，輔助評判數(shù)據(jù)集可用性。

功能：

數(shù)據(jù)采集炬藤，從視頻和屏幕采集數(shù)據(jù)御铃，實時標(biāo)注

數(shù)據(jù)增強，提供數(shù)據(jù)增強詳細的參數(shù)選擇及預(yù)覽沈矿，有單一數(shù)據(jù)增強和組合數(shù)據(jù)增強

數(shù)據(jù)處理上真，對于采集結(jié)果進行自動處理，再對不正確的手動處理

統(tǒng)計分析羹膳，對于采集資源的優(yōu)劣進行統(tǒng)計

地址：http://aidiscovery.wntime.com/

點擊下載

常用數(shù)據(jù)集下載網(wǎng)站

一睡互、【Kaggle】地址：https://www.kaggle.com/datasets

kaggle網(wǎng)站

介紹：一個競賽網(wǎng)站，上面有很多有價值的數(shù)據(jù)集和題目陵像。每個比賽都是獨立的就珠。無需確定自己的項目范圍并收集數(shù)據(jù)，可以騰出時間專注于其他技能醒颖。實踐就是實踐妻怎。

二、【ImageNet】地址：http://image-net.org/

網(wǎng)站

介紹：ImageNet項目是一個用于視覺對象識別軟件研究的大型可視化數(shù)據(jù)庫图贸。超過1400萬的圖像URL被ImageNet手動注釋蹂季，以指示圖片中的對象;在至少一百萬個圖像中，還提供了邊界框疏日。ImageNet包含2萬多個類別

四偿洁、【MS COCO】地址：https://cocodataset.org/#download

介紹：COCO是大規(guī)模的對象檢測，分割和字幕數(shù)據(jù)集沟优。COCO具有以下功能：對象分割涕滋、上下文識別、超像素東西分割挠阁、330K圖像（已標(biāo)記> 200K）宾肺、150萬個對象實例溯饵、80個對象類別、91個東西類別锨用、每個圖像5個字幕丰刊、有關(guān)鍵點的250,000人

五、【COIL100】地址：http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

介紹：100 個不同的物體在 360°旋轉(zhuǎn)中以每個角度成像

六增拥、【Visual Genome】地址：http://visualgenome.org/

介紹：非常詳細的視覺知識庫啄巧，配有約 100K 個圖像的注釋。

七掌栅、【Labelled Faces in the Wild】地址：http://vis-www.cs.umass.edu/lfw/

介紹：13000 張貼有標(biāo)簽的人臉圖像秩仆，用于作為人臉識別測試集。

八猾封、【Stanford Dogs Dataset】地址：http://vision.stanford.edu/aditya86/ImageNetDogs/

介紹：包含 20580 個圖像和 120 個不同品種的狗類別澄耍。注釋:類別標(biāo)簽，邊界框

九晌缘、【Indoor Scene Recognition】地址：http://web.mit.edu/torralba/www/indoor.html

介紹：該數(shù)據(jù)庫包含67個室內(nèi)類別齐莲，共15620張圖像。圖像的數(shù)量因類別而異枚钓，但每個類別至少有100張圖像铅搓。所有圖像均為jpg格式。此處提供的圖像僅用于研究目的搀捷。

十星掰、【vggface】地址：http://www.shujujishi.com/dataset/f66a2818-dd92-4c6e-bb83-a32f59f86170.html

介紹：VGG-Face中的身份分布數(shù)據(jù)集可能無法代表全球人口。在訓(xùn)練或部署根據(jù)此數(shù)據(jù)訓(xùn)練的模型時嫩舟，根據(jù)場景使用氢烘，避免學(xué)習(xí)結(jié)果有偏見

| VGGFace2數(shù)據(jù)集 | 具有9131個身份的新的大規(guī)模面部數(shù)據(jù)集。 |
| VoxCeleb | 1251個VGG Face身份的YouTube視頻的URL和時間戳家厌。 |

十一播玖、【MS-Celeb-1M】地址：http://academictorrents.com/details/9e67eb7cc23c9417f39778a8e06cca5e26196a97

介紹：用于識別人臉圖像的相關(guān)數(shù)據(jù)集，一百萬名人饭于。知識庫提供的豐富信息有助于進行消歧和提高識別精度蜀踏，并有助于各種現(xiàn)實應(yīng)用，如圖像字幕和新聞視頻分析掰吕。是世界上最大的公開數(shù)據(jù)集果覆，在版本1中包含1000萬幅圖像。

十二殖熟、【PubFig: Public Figures Face Database】地址：https://www.cs.columbia.edu/CAVE/databases/pubfig/

介紹：PubFig數(shù)據(jù)庫是一個大型的真實人臉數(shù)據(jù)集局待，58797張圖像200人。與大多數(shù)其他現(xiàn)有的人臉數(shù)據(jù)集不同，這些圖像是在完全不受控制的情況下拍攝的钳榨，對象不合作舰罚。因此，在姿勢薛耻、照明营罢、表情、場景饼齿、相機愤钾、成像條件和參數(shù)等方面有很大的變化。

十三候醒、【megaface】地址：http://megaface.cs.washington.edu/dataset/download_training.html

介紹：megaface訓(xùn)練數(shù)據(jù)集是最大的(在身份數(shù)量上)可公開獲得的面部識別數(shù)據(jù)集，具有470萬張臉杂瘸、672個身份和它們各自的邊界框倒淫。

十四、【Yale Face Database 】http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html

介紹：耶魯人臉數(shù)據(jù)庫包含28個人在9種姿勢和64種光照條件下的16128幅圖像

其他

Datahub – a community-managed home for open data sets
Data.gov – the U.S. Government's open data
data.world
GCMD – the Global Change Master Directory containing over 20,000 descriptions of Earth science and environmental science data sets and services
Humanitarian Data Exchange(HDX) – The Humanitarian Data Exchange (HDX) is an open humanitarian data sharing platform managed by the United Nations Office for the Coordination of Humanitarian Affairs.
NYC Open Data – free public data published by New York City agencies and other partners.
Relational data set repository
Research Pipeline – a wiki/website with links to data sets on many different topics
StatLib–JASA Data Archive
UCI – a machine learning repository
UK Government Public Data
World Bank Open Data – Free and open access to global development data by World Bank

數(shù)據(jù)集篙议、圖像識別、人臉識別最全總結(jié)

數(shù)據(jù)集籍铁、圖像識別涡上、人臉識別最全總結(jié)

如果你遇到以下問題，很適合閱讀本篇文章

首先旱易，在選擇數(shù)據(jù)集時要記住幾個重要標(biāo)準(zhǔn)：

數(shù)據(jù)至關(guān)重要

數(shù)據(jù)集劃分

數(shù)據(jù)準(zhǔn)備之?dāng)?shù)據(jù)采集標(biāo)注軟件

【Labelme】圖像分割標(biāo)注推薦

【Aidiscovery】數(shù)據(jù)采集自動分類推薦

常用數(shù)據(jù)集下載網(wǎng)站

一睡互、【Kaggle】地址：https://www.kaggle.com/datasets

二、【ImageNet】地址：http://image-net.org/

四偿洁、【MS COCO】地址：https://cocodataset.org/#download

五、【COIL100】地址：http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

六增拥、【Visual Genome】地址：http://visualgenome.org/

七掌栅、【Labelled Faces in the Wild】地址：http://vis-www.cs.umass.edu/lfw/

八猾封、【Stanford Dogs Dataset】地址：http://vision.stanford.edu/aditya86/ImageNetDogs/

九晌缘、【Indoor Scene Recognition】地址：http://web.mit.edu/torralba/www/indoor.html

十星掰、【vggface】地址：http://www.shujujishi.com/dataset/f66a2818-dd92-4c6e-bb83-a32f59f86170.html

十一播玖、【MS-Celeb-1M】地址：http://academictorrents.com/details/9e67eb7cc23c9417f39778a8e06cca5e26196a97

十二殖熟、【PubFig: Public Figures Face Database】地址：https://www.cs.columbia.edu/CAVE/databases/pubfig/

十三候醒、【megaface】地址：http://megaface.cs.washington.edu/dataset/download_training.html

十四、【Yale Face Database 】http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html

其他

數(shù)據(jù)集籍铁、圖像識別涡上、人臉識別最全總結(jié)

如果你遇到以下問題，很適合閱讀本篇文章

首先旱易，在選擇數(shù)據(jù)集時要記住幾個重要標(biāo)準(zhǔn)：

數(shù)據(jù)至關(guān)重要

數(shù)據(jù)集劃分

數(shù)據(jù)準(zhǔn)備之?dāng)?shù)據(jù)采集標(biāo)注軟件

【Labelme】 圖像分割標(biāo)注推薦

【Aidiscovery】數(shù)據(jù)采集自動分類推薦

常用數(shù)據(jù)集下載網(wǎng)站

一睡互、【Kaggle】 地址：https://www.kaggle.com/datasets

二、【ImageNet】 地址：http://image-net.org/

四偿洁、【MS COCO】 地址 ：https://cocodataset.org/#download

五、【COIL100】 地址：http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

六增拥、【Visual Genome】地址：http://visualgenome.org/

七掌栅、【Labelled Faces in the Wild】地址：http://vis-www.cs.umass.edu/lfw/

八猾封、【Stanford Dogs Dataset】地址：http://vision.stanford.edu/aditya86/ImageNetDogs/

九晌缘、【Indoor Scene Recognition】地址：http://web.mit.edu/torralba/www/indoor.html

十星掰、【vggface】地址：http://www.shujujishi.com/dataset/f66a2818-dd92-4c6e-bb83-a32f59f86170.html

十一播玖、【MS-Celeb-1M】地址：http://academictorrents.com/details/9e67eb7cc23c9417f39778a8e06cca5e26196a97

十二殖熟、【PubFig: Public Figures Face Database】地址：https://www.cs.columbia.edu/CAVE/databases/pubfig/

十三候醒、【megaface】地址：http://megaface.cs.washington.edu/dataset/download_training.html

十四、【Yale Face Database 】http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html

其他

【Labelme】圖像分割標(biāo)注推薦

一睡互、【Kaggle】地址：https://www.kaggle.com/datasets

二、【ImageNet】地址：http://image-net.org/

四偿洁、【MS COCO】地址：https://cocodataset.org/#download

五、【COIL100】地址：http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php