如果你遇到以下問題,很適合閱讀本篇文章
- 數(shù)據(jù)集太小太零散拒名,找不到合適數(shù)據(jù)吩愧?
- 數(shù)據(jù)集不知道從哪里獲得,很容易得到的都是外國的
- 數(shù)據(jù)集不均勻訓(xùn)練的模型不準(zhǔn)確增显、不收斂雁佳、很偏見
- 在猶豫優(yōu)化模型還是繼續(xù)找數(shù)據(jù)集
- 是否花錢購買數(shù)據(jù)
- 還在發(fā)愁找不到數(shù)據(jù)集訓(xùn)練你的模型?
如果用一個句子總結(jié)學(xué)習(xí)數(shù)據(jù)科學(xué)的本質(zhì)同云,那就是: 學(xué)習(xí)數(shù)據(jù)科學(xué)的最佳方法就是應(yīng)用數(shù)據(jù)科學(xué)糖权。 如果你是一個初學(xué)者,你每完成一個新項目后自身能力都會有極大的提高炸站,如果你是一個有經(jīng)驗的數(shù)據(jù)科學(xué)專家星澳,你已經(jīng)知道這里所蘊含的價值。
首先旱易,在選擇數(shù)據(jù)集時要記住幾個重要標(biāo)準(zhǔn):
- 數(shù)據(jù)集不能過于混亂禁偎,過于混亂的數(shù)據(jù)會導(dǎo)致模型難以收斂腿堤,加大了訓(xùn)練難度。
- 與訓(xùn)練目標(biāo)相一致的數(shù)據(jù)集才能更高效的完成識別任務(wù)
- 數(shù)據(jù)集量級是否符合模型規(guī)模如暖,復(fù)雜的深度網(wǎng)絡(luò)需要更多的數(shù)據(jù)才能發(fā)揮能力笆檀。
數(shù)據(jù)至關(guān)重要
數(shù)據(jù)質(zhì)量決定著模型的準(zhǔn)確率,技巧模型比重很小盒至。好的數(shù)據(jù)是成功的90%酗洒,數(shù)據(jù)采集,數(shù)據(jù)標(biāo)注枷遂,數(shù)據(jù)清洗樱衷,數(shù)據(jù)預(yù)處理,有著至關(guān)重要的作用登淘。如果你是學(xué)生箫老,下面文章提供幾個下載數(shù)據(jù)集的網(wǎng)站及標(biāo)注工具,方便快速跑起來你的代碼黔州。把精力都用在模型學(xué)習(xí)和優(yōu)化上而非枯燥的數(shù)據(jù)處理耍鬓。如果你是從業(yè)者,更多的數(shù)據(jù)才是制勝的法寶流妻,可以采用下面列出的工具例如Aidiscovery快速收集盡可能多的數(shù)據(jù)牲蜀。利用Labelme圖像分割標(biāo)注
數(shù)據(jù)集劃分
訓(xùn)練集、驗證集绅这、測試集涣达,這三個集合不能有交集,常見的比例是8:1:1证薇。
數(shù)據(jù)準(zhǔn)備之?dāng)?shù)據(jù)采集標(biāo)注軟件
【Labelme】 圖像分割標(biāo)注推薦
?
?
簡單介紹:LabelMe的目標(biāo)是提供一個在線注釋工具度苔,以建立用于計算機視覺研究的圖像數(shù)據(jù)庫。如果未完全標(biāo)記圖像浑度,則用戶可以使用鼠標(biāo)在圖像中繪制一個包含對象的多邊形寇窑。LabelMe項目提供了一組工具,用于使用Matlab中的LabelMe數(shù)據(jù)集箩张。
功能:
- 對圖像進行多邊形甩骏,矩形,圓形先慷,多段線饮笛,線段,點形式的標(biāo)注(可用于目標(biāo)檢測论熙,圖像分割福青,等任務(wù))。
- 對圖像進行進行 flag 形式的標(biāo)注(可用于圖像分類 和 清理 任務(wù))。
- 視頻標(biāo)注
- 生成 VOC 格式的數(shù)據(jù)集(for semantic / instance segmentation)
- 生成 COCO 格式的數(shù)據(jù)集(for instance segmentation)
地址:http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php
點擊下載
【Aidiscovery】數(shù)據(jù)采集自動分類推薦
簡單介紹:無需登陸注冊无午,即可免費下載二蓝。人臉數(shù)據(jù)自動收集,界面友好指厌、操作簡單、其中包含的數(shù)據(jù)采集是其他軟件不具備的踊跟,包括數(shù)據(jù)增強自動分類踩验,解決標(biāo)注頭疼問題。除此之外商玫,對數(shù)據(jù)集的采集來源箕憾、數(shù)據(jù)采集量、數(shù)據(jù)分布等進行統(tǒng)計分析拳昌,以可視化圖表的形式展現(xiàn)袭异,輔助評判數(shù)據(jù)集可用性。
功能:
- 數(shù)據(jù)采集炬藤,從視頻和屏幕采集數(shù)據(jù)御铃,實時標(biāo)注
- 數(shù)據(jù)增強,提供數(shù)據(jù)增強詳細的參數(shù)選擇及預(yù)覽沈矿,有單一數(shù)據(jù)增強和組合數(shù)據(jù)增強
- 數(shù)據(jù)處理上真,對于采集結(jié)果進行自動處理,再對不正確的手動處理
- 統(tǒng)計分析羹膳,對于采集資源的優(yōu)劣進行統(tǒng)計
常用數(shù)據(jù)集下載網(wǎng)站
一睡互、【Kaggle】 地址:https://www.kaggle.com/datasets
?
介紹:一個競賽網(wǎng)站,上面有很多有價值的數(shù)據(jù)集和題目陵像。每個比賽都是獨立的就珠。無需確定自己的項目范圍并收集數(shù)據(jù),可以騰出時間專注于其他技能醒颖。實踐就是實踐妻怎。
二、【ImageNet】 地址:http://image-net.org/
?
介紹:ImageNet項目是一個用于視覺對象識別軟件研究的大型可視化數(shù)據(jù)庫图贸。超過1400萬的圖像URL被ImageNet手動注釋蹂季,以指示圖片中的對象;在至少一百萬個圖像中,還提供了邊界框疏日。ImageNet包含2萬多個類別
四偿洁、【MS COCO】 地址 :https://cocodataset.org/#download
?
介紹 :COCO是大規(guī)模的對象檢測,分割和字幕數(shù)據(jù)集沟优。COCO具有以下功能:對象分割涕滋、上下文識別、超像素東西分割挠阁、330K圖像(已標(biāo)記> 200K)宾肺、150萬個對象實例溯饵、80個對象類別、91個東西類別锨用、每個圖像5個字幕丰刊、有關(guān)鍵點的250,000人
五、【COIL100】 地址:http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php
?
介紹:100 個不同的物體在 360°旋轉(zhuǎn)中以每個角度成像
六增拥、【Visual Genome】地址:http://visualgenome.org/
介紹:非常詳細的視覺知識庫啄巧,配有約 100K 個圖像的注釋。
七掌栅、【Labelled Faces in the Wild】地址:http://vis-www.cs.umass.edu/lfw/
介紹:13000 張貼有標(biāo)簽的人臉圖像秩仆,用于作為人臉識別測試集。
八猾封、【Stanford Dogs Dataset】地址:http://vision.stanford.edu/aditya86/ImageNetDogs/
?
介紹:包含 20580 個圖像和 120 個不同品種的狗類別澄耍。注釋:類別標(biāo)簽,邊界框
九晌缘、【Indoor Scene Recognition】地址:http://web.mit.edu/torralba/www/indoor.html
?
介紹:該數(shù)據(jù)庫包含67個室內(nèi)類別齐莲,共15620張圖像。圖像的數(shù)量因類別而異枚钓,但每個類別至少有100張圖像铅搓。所有圖像均為jpg格式。此處提供的圖像僅用于研究目的搀捷。
十星掰、【vggface】地址:http://www.shujujishi.com/dataset/f66a2818-dd92-4c6e-bb83-a32f59f86170.html
?
介紹:VGG-Face中的身份分布數(shù)據(jù)集可能無法代表全球人口。在訓(xùn)練或部署根據(jù)此數(shù)據(jù)訓(xùn)練的模型時嫩舟,根據(jù)場景使用氢烘,避免學(xué)習(xí)結(jié)果有偏見
| VGGFace2數(shù)據(jù)集 | 具有9131個身份的新的大規(guī)模面部數(shù)據(jù)集。 |
| VoxCeleb | 1251個VGG Face身份的YouTube視頻的URL和時間戳家厌。 |
十一播玖、【MS-Celeb-1M】地址:http://academictorrents.com/details/9e67eb7cc23c9417f39778a8e06cca5e26196a97
?
介紹:用于識別人臉圖像的相關(guān)數(shù)據(jù)集,一百萬名人饭于。知識庫提供的豐富信息有助于進行消歧和提高識別精度蜀踏,并有助于各種現(xiàn)實應(yīng)用,如圖像字幕和新聞視頻分析掰吕。是世界上最大的公開數(shù)據(jù)集果覆,在版本1中包含1000萬幅圖像。
十二殖熟、【PubFig: Public Figures Face Database】地址:https://www.cs.columbia.edu/CAVE/databases/pubfig/
?
介紹:PubFig數(shù)據(jù)庫是一個大型的真實人臉數(shù)據(jù)集局待,58797張圖像200人。與大多數(shù)其他現(xiàn)有的人臉數(shù)據(jù)集不同,這些圖像是在完全不受控制的情況下拍攝的钳榨,對象不合作舰罚。因此,在姿勢薛耻、照明营罢、表情、場景饼齿、相機愤钾、成像條件和參數(shù)等方面有很大的變化。
十三候醒、【megaface】地址:http://megaface.cs.washington.edu/dataset/download_training.html
?
介紹:megaface訓(xùn)練數(shù)據(jù)集是最大的(在身份數(shù)量上)可公開獲得的面部識別數(shù)據(jù)集,具有470萬張臉杂瘸、672個身份和它們各自的邊界框倒淫。
十四、【Yale Face Database 】http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html
?
介紹:耶魯人臉數(shù)據(jù)庫包含28個人在9種姿勢和64種光照條件下的16128幅圖像
其他
- Datahub – a community-managed home for open data sets
- Data.gov – the U.S. Government's open data
- data.world
- GCMD – the Global Change Master Directory containing over 20,000 descriptions of Earth science and environmental science data sets and services
- Humanitarian Data Exchange(HDX) – The Humanitarian Data Exchange (HDX) is an open humanitarian data sharing platform managed by the United Nations Office for the Coordination of Humanitarian Affairs.
- NYC Open Data – free public data published by New York City agencies and other partners.
- Relational data set repository
- Research Pipeline – a wiki/website with links to data sets on many different topics
- StatLib–JASA Data Archive
- UCI – a machine learning repository
- UK Government Public Data
- World Bank Open Data – Free and open access to global development data by World Bank