數(shù)據(jù)集籍铁、圖像識別涡上、人臉識別最全總結(jié)

如果你遇到以下問題,很適合閱讀本篇文章

  1. 數(shù)據(jù)集太小太零散拒名,找不到合適數(shù)據(jù)吩愧?
  2. 數(shù)據(jù)集不知道從哪里獲得,很容易得到的都是外國的
  3. 數(shù)據(jù)集不均勻訓(xùn)練的模型不準(zhǔn)確增显、不收斂雁佳、很偏見
  4. 在猶豫優(yōu)化模型還是繼續(xù)找數(shù)據(jù)集
  5. 是否花錢購買數(shù)據(jù)
  6. 還在發(fā)愁找不到數(shù)據(jù)集訓(xùn)練你的模型?

如果用一個句子總結(jié)學(xué)習(xí)數(shù)據(jù)科學(xué)的本質(zhì)同云,那就是: 學(xué)習(xí)數(shù)據(jù)科學(xué)的最佳方法就是應(yīng)用數(shù)據(jù)科學(xué)糖权。 如果你是一個初學(xué)者,你每完成一個新項目后自身能力都會有極大的提高炸站,如果你是一個有經(jīng)驗的數(shù)據(jù)科學(xué)專家星澳,你已經(jīng)知道這里所蘊含的價值。

首先旱易,在選擇數(shù)據(jù)集時要記住幾個重要標(biāo)準(zhǔn):

  • 數(shù)據(jù)集不能過于混亂禁偎,過于混亂的數(shù)據(jù)會導(dǎo)致模型難以收斂腿堤,加大了訓(xùn)練難度。
  • 與訓(xùn)練目標(biāo)相一致的數(shù)據(jù)集才能更高效的完成識別任務(wù)
  • 數(shù)據(jù)集量級是否符合模型規(guī)模如暖,復(fù)雜的深度網(wǎng)絡(luò)需要更多的數(shù)據(jù)才能發(fā)揮能力笆檀。

數(shù)據(jù)至關(guān)重要

數(shù)據(jù)質(zhì)量決定著模型的準(zhǔn)確率,技巧模型比重很小盒至。好的數(shù)據(jù)是成功的90%酗洒,數(shù)據(jù)采集,數(shù)據(jù)標(biāo)注枷遂,數(shù)據(jù)清洗樱衷,數(shù)據(jù)預(yù)處理,有著至關(guān)重要的作用登淘。如果你是學(xué)生箫老,下面文章提供幾個下載數(shù)據(jù)集的網(wǎng)站及標(biāo)注工具,方便快速跑起來你的代碼黔州。把精力都用在模型學(xué)習(xí)和優(yōu)化上而非枯燥的數(shù)據(jù)處理耍鬓。如果你是從業(yè)者,更多的數(shù)據(jù)才是制勝的法寶流妻,可以采用下面列出的工具例如Aidiscovery快速收集盡可能多的數(shù)據(jù)牲蜀。利用Labelme圖像分割標(biāo)注

數(shù)據(jù)集劃分

訓(xùn)練集、驗證集绅这、測試集涣达,這三個集合不能有交集,常見的比例是8:1:1证薇。

數(shù)據(jù)準(zhǔn)備之?dāng)?shù)據(jù)采集標(biāo)注軟件

【Labelme】 圖像分割標(biāo)注推薦

Labelme

?

Labelme

?

簡單介紹:LabelMe的目標(biāo)是提供一個在線注釋工具度苔,以建立用于計算機視覺研究的圖像數(shù)據(jù)庫。如果未完全標(biāo)記圖像浑度,則用戶可以使用鼠標(biāo)在圖像中繪制一個包含對象的多邊形寇窑。LabelMe項目提供了一組工具,用于使用Matlab中的LabelMe數(shù)據(jù)集箩张。

功能:

  • 對圖像進行多邊形甩骏,矩形,圓形先慷,多段線饮笛,線段,點形式的標(biāo)注(可用于目標(biāo)檢測论熙,圖像分割福青,等任務(wù))。
  • 對圖像進行進行 flag 形式的標(biāo)注(可用于圖像分類 和 清理 任務(wù))。
  • 視頻標(biāo)注
  • 生成 VOC 格式的數(shù)據(jù)集(for semantic / instance segmentation)
  • 生成 COCO 格式的數(shù)據(jù)集(for instance segmentation)

地址:http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

點擊下載

【Aidiscovery】數(shù)據(jù)采集自動分類推薦

Aidiscovery
http://aidiscovery.wntime.com/

簡單介紹:無需登陸注冊无午,即可免費下載二蓝。人臉數(shù)據(jù)自動收集,界面友好指厌、操作簡單、其中包含的數(shù)據(jù)采集是其他軟件不具備的踊跟,包括數(shù)據(jù)增強自動分類踩验,解決標(biāo)注頭疼問題。除此之外商玫,對數(shù)據(jù)集的采集來源箕憾、數(shù)據(jù)采集量、數(shù)據(jù)分布等進行統(tǒng)計分析拳昌,以可視化圖表的形式展現(xiàn)袭异,輔助評判數(shù)據(jù)集可用性。

功能:

  • 數(shù)據(jù)采集炬藤,從視頻和屏幕采集數(shù)據(jù)御铃,實時標(biāo)注
  • 數(shù)據(jù)增強,提供數(shù)據(jù)增強詳細的參數(shù)選擇及預(yù)覽沈矿,有單一數(shù)據(jù)增強和組合數(shù)據(jù)增強
  • 數(shù)據(jù)處理上真,對于采集結(jié)果進行自動處理,再對不正確的手動處理
  • 統(tǒng)計分析羹膳,對于采集資源的優(yōu)劣進行統(tǒng)計

地址:http://aidiscovery.wntime.com/

點擊下載

常用數(shù)據(jù)集下載網(wǎng)站

一睡互、【Kaggle】 地址:https://www.kaggle.com/datasets

kaggle網(wǎng)站

?

介紹:一個競賽網(wǎng)站,上面有很多有價值的數(shù)據(jù)集和題目陵像。每個比賽都是獨立的就珠。無需確定自己的項目范圍并收集數(shù)據(jù),可以騰出時間專注于其他技能醒颖。實踐就是實踐妻怎。

二、【ImageNet】 地址:http://image-net.org/

網(wǎng)站

?

介紹:ImageNet項目是一個用于視覺對象識別軟件研究的大型可視化數(shù)據(jù)庫图贸。超過1400萬的圖像URL被ImageNet手動注釋蹂季,以指示圖片中的對象;在至少一百萬個圖像中,還提供了邊界框疏日。ImageNet包含2萬多個類別

四偿洁、【MS COCO】 地址 :https://cocodataset.org/#download

?

介紹 :COCO是大規(guī)模的對象檢測,分割和字幕數(shù)據(jù)集沟优。COCO具有以下功能:對象分割涕滋、上下文識別、超像素東西分割挠阁、330K圖像(已標(biāo)記> 200K)宾肺、150萬個對象實例溯饵、80個對象類別、91個東西類別锨用、每個圖像5個字幕丰刊、有關(guān)鍵點的250,000人

五、【COIL100】 地址:http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

?

介紹:100 個不同的物體在 360°旋轉(zhuǎn)中以每個角度成像

六增拥、【Visual Genome】地址:http://visualgenome.org/

介紹:非常詳細的視覺知識庫啄巧,配有約 100K 個圖像的注釋。

七掌栅、【Labelled Faces in the Wild】地址:http://vis-www.cs.umass.edu/lfw/

介紹:13000 張貼有標(biāo)簽的人臉圖像秩仆,用于作為人臉識別測試集。

八猾封、【Stanford Dogs Dataset】地址:http://vision.stanford.edu/aditya86/ImageNetDogs/

?

介紹:包含 20580 個圖像和 120 個不同品種的狗類別澄耍。注釋:類別標(biāo)簽,邊界框

九晌缘、【Indoor Scene Recognition】地址:http://web.mit.edu/torralba/www/indoor.html

?

介紹:該數(shù)據(jù)庫包含67個室內(nèi)類別齐莲,共15620張圖像。圖像的數(shù)量因類別而異枚钓,但每個類別至少有100張圖像铅搓。所有圖像均為jpg格式。此處提供的圖像僅用于研究目的搀捷。

十星掰、【vggface】地址:http://www.shujujishi.com/dataset/f66a2818-dd92-4c6e-bb83-a32f59f86170.html

?

介紹:VGG-Face中的身份分布數(shù)據(jù)集可能無法代表全球人口。在訓(xùn)練或部署根據(jù)此數(shù)據(jù)訓(xùn)練的模型時嫩舟,根據(jù)場景使用氢烘,避免學(xué)習(xí)結(jié)果有偏見

| VGGFace2數(shù)據(jù)集 | 具有9131個身份的新的大規(guī)模面部數(shù)據(jù)集。 |
| VoxCeleb | 1251個VGG Face身份的YouTube視頻的URL和時間戳家厌。 |

十一播玖、【MS-Celeb-1M】地址:http://academictorrents.com/details/9e67eb7cc23c9417f39778a8e06cca5e26196a97

?

介紹:用于識別人臉圖像的相關(guān)數(shù)據(jù)集,一百萬名人饭于。知識庫提供的豐富信息有助于進行消歧和提高識別精度蜀踏,并有助于各種現(xiàn)實應(yīng)用,如圖像字幕和新聞視頻分析掰吕。是世界上最大的公開數(shù)據(jù)集果覆,在版本1中包含1000萬幅圖像。

十二殖熟、【PubFig: Public Figures Face Database】地址:https://www.cs.columbia.edu/CAVE/databases/pubfig/

?

介紹:PubFig數(shù)據(jù)庫是一個大型的真實人臉數(shù)據(jù)集局待,58797張圖像200人。與大多數(shù)其他現(xiàn)有的人臉數(shù)據(jù)集不同,這些圖像是在完全不受控制的情況下拍攝的钳榨,對象不合作舰罚。因此,在姿勢薛耻、照明营罢、表情、場景饼齿、相機愤钾、成像條件和參數(shù)等方面有很大的變化。

十三候醒、【megaface】地址:http://megaface.cs.washington.edu/dataset/download_training.html

?

介紹:megaface訓(xùn)練數(shù)據(jù)集是最大的(在身份數(shù)量上)可公開獲得的面部識別數(shù)據(jù)集,具有470萬張臉杂瘸、672個身份和它們各自的邊界框倒淫。

十四、【Yale Face Database 】http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html

?

介紹:耶魯人臉數(shù)據(jù)庫包含28個人在9種姿勢和64種光照條件下的16128幅圖像

其他

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末败玉,一起剝皮案震驚了整個濱河市敌土,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌运翼,老刑警劉巖返干,帶你破解...
    沈念sama閱讀 218,607評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異血淌,居然都是意外死亡矩欠,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,239評論 3 395
  • 文/潘曉璐 我一進店門悠夯,熙熙樓的掌柜王于貴愁眉苦臉地迎上來癌淮,“玉大人,你說我怎么就攤上這事沦补∪樾睿” “怎么了?”我有些...
    開封第一講書人閱讀 164,960評論 0 355
  • 文/不壞的土叔 我叫張陵夕膀,是天一觀的道長虚倒。 經(jīng)常有香客問我,道長产舞,這世上最難降的妖魔是什么魂奥? 我笑而不...
    開封第一講書人閱讀 58,750評論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮庞瘸,結(jié)果婚禮上捧弃,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好违霞,可當(dāng)我...
    茶點故事閱讀 67,764評論 6 392
  • 文/花漫 我一把揭開白布嘴办。 她就那樣靜靜地躺著,像睡著了一般买鸽。 火紅的嫁衣襯著肌膚如雪涧郊。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,604評論 1 305
  • 那天眼五,我揣著相機與錄音妆艘,去河邊找鬼。 笑死看幼,一個胖子當(dāng)著我的面吹牛批旺,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播诵姜,決...
    沈念sama閱讀 40,347評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼汽煮,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了棚唆?” 一聲冷哼從身側(cè)響起暇赤,我...
    開封第一講書人閱讀 39,253評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎宵凌,沒想到半個月后鞋囊,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,702評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡瞎惫,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,893評論 3 336
  • 正文 我和宋清朗相戀三年溜腐,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瓜喇。...
    茶點故事閱讀 40,015評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡逗扒,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出欠橘,到底是詐尸還是另有隱情矩肩,我是刑警寧澤,帶...
    沈念sama閱讀 35,734評論 5 346
  • 正文 年R本政府宣布肃续,位于F島的核電站黍檩,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏始锚。R本人自食惡果不足惜刽酱,卻給世界環(huán)境...
    茶點故事閱讀 41,352評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望瞧捌。 院中可真熱鬧棵里,春花似錦润文、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,934評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至头谜,卻和暖如春骏掀,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背柱告。 一陣腳步聲響...
    開封第一講書人閱讀 33,052評論 1 270
  • 我被黑心中介騙來泰國打工怀浆, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留凤粗,地道東北人。 一個月前我還...
    沈念sama閱讀 48,216評論 3 371
  • 正文 我出身青樓躲叼,卻偏偏與公主長得像绊率,于是被迫代替她去往敵國和親促脉。 傳聞我的和親對象是個殘疾皇子拓诸,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,969評論 2 355