測試算法的數(shù)據(jù)庫

出于科研需要榔组，開一個帖子來總結(jié)一下自己在閱讀文獻(xiàn)中遇到過的數(shù)據(jù)庫，也方便之后再使用联逻。

分類+檢測數(shù)據(jù)庫

ImageNet

ImageNet,無需多言搓扯，上介紹：

What is ImageNet?

ImageNet is an image dataset organized according to the WordNet hierarchy. Each meaningful concept in WordNet, possibly described by multiple words or word phrases, is called a "synonym set" or "synset". There are more than 100,000 synsets in WordNet, majority of them are nouns (80,000+). In ImageNet, we aim to provide on average 1000 images to illustrate each synset. Images of each concept are quality-controlled and human-annotated. In its completion, we hope ImageNet will offer tens of millions of cleanly sorted images for most of the concepts in the WordNet hierarchy.

ImageNet是一個根據(jù)WordNet層級組織起來的數(shù)據(jù)庫。每一個在WordNet上有意義的概念包归，可能是通過一個詞锨推，也可能是通過多個詞組織起來的。都被稱作“同義詞組”公壤。在WordNet上大約有100000個同義詞組（概念）换可，其中8000多個是名詞。在ImageNet上厦幅，我們的目標(biāo)是為每一個概念提供1000個圖像沾鳄。每一個圖像都有質(zhì)量保證和人工標(biāo)注。在完成后确憨，我們希望能夠提供百萬級的分類好的圖片译荞。

與其相關(guān)的競賽是 ILSVRC瓤的。

分類數(shù)據(jù)庫

MNIST

MNIST 是大牛Yan LeCun的工作之一，用來識別手寫數(shù)字吞歼。簡介：

The MNIST database of handwritten digits, available from this page, has a training set of 60,000 examples, and a test set of 10,000 examples. It is a subset of a larger set available from NIST. The digits have been size-normalized and centered in a fixed-size image.

It is a good database for people who want to try learning techniques and pattern recognition methods on real-world data while spending minimal efforts on preprocessing and formatting.

MNIST數(shù)據(jù)庫是手寫數(shù)字的數(shù)據(jù)庫（人寫的數(shù)字）圈膏。它包括訓(xùn)練集（60000個實(shí)例），測試集（10000個實(shí)例）浆熔。它是NIST數(shù)據(jù)庫的一個子集本辐。這些數(shù)字大小相同，而且都位于圖像中央医增。

它可以幫助科研人員測試學(xué)習(xí)技術(shù)和模式識別方法。

CIFAR

CIFAR 是多倫多大學(xué)計算機(jī)科學(xué)系維護(hù)的一個數(shù)據(jù)庫老虫，全稱是Canadian Institute for Advanced Research叶骨，都是分類好的圖片，用來測試算法分類的錯誤率的祈匙。既然是多倫多大學(xué)的忽刽，果然……CIFAR有Hinton大神參與維護(hù)。CIFAR又分為CIFAR-10和CIFAR-100夺欲，其實(shí)就是10個類別和100個類別的區(qū)別跪帝。

CIFAR-10包括了60000張32x32的彩色圖片，共分為10類些阅，每一類6000張圖片伞剑。總共有50000個訓(xùn)練圖像和10000個測試圖像市埋。

這個數(shù)據(jù)庫被分為5個訓(xùn)練批次（batch）和1個測試批次黎泣，每個批次10000張圖片。測試批次準(zhǔn)確包括了每個類別各1000張隨機(jī)選擇的圖片缤谎。訓(xùn)練批次包含了隨機(jī)選擇的剩余的圖片抒倚，也就是說，某些訓(xùn)練批次可能包含的某一個類別的圖片會多一些坷澡⊥信唬總共加起來，這五個訓(xùn)練批次共包含每類5000張圖片频敛。

這些分類都是互斥的项郊。沒有重疊，比如說有兩個類是汽車（automobile）和卡車（truck）姻政。汽車包括轎車呆抑，SUV等≈梗卡車只包括大卡車鹊碍。你要問我皮卡怎么算厌殉？答案是兩個類里面都沒有皮卡。

CIFAR-100差不多侈咕，就是類別多了10倍公罕，每一類的圖片的數(shù)量不同。詳細(xì)的需要的時候再去看吧耀销。

YFCC100

YFCC100是雅虎的圖片/視頻分類數(shù)據(jù)庫楼眷。

檢測數(shù)據(jù)庫

PASCAL VOC 2007/2012

Visual Object Classes Challenge 2012 (VOC 2012) 是牛津大學(xué)出品的數(shù)據(jù)庫，用來識別物體熊尉。簡介：

The main goal of this challenge is to recognize objects from a number of visual object classes in realistic scenes (i.e. not pre-segmented objects). It is fundamentally a supervised learning learning problem in that a training set of labelled images is provided. The twenty object classes that have been selected are:

Person: person
Animal: bird, cat, cow, dog, horse, sheep
Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train
Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

There are three main object recognition competitions: classification, detection, and segmentation, a competition on action classification, and a competition on large scale recognition run by ImageNet. In addition there is a "taster" competition on person layout.

VOC2012的主要目標(biāo)是從真實(shí)場景中識別物體罐柳。它的基本作用是為監(jiān)督學(xué)習(xí)問題提供一個訓(xùn)練集。20個物體類別是：

人：人
動物：鳥狰住，毛张吉，牛，狗催植，馬肮蛹，羊
交通工具：飛機(jī)，自行車创南，傳伦忠，公交，轎車稿辙，摩托車昆码，火車；
室內(nèi)物體：瓶子邓深，椅子未桥，餐桌，盆栽植物芥备，沙發(fā)冬耿，電視/顯示器

物體識別主要有三類任務(wù)：

分類，檢測和分割
動作分類
大尺度識別（by ImageNet）
額外的：人體輪廓

COCO

COCO 是一個新的圖像識別萌壳，分割亦镶，標(biāo)記數(shù)據(jù)庫。這里面的圖像都已經(jīng)預(yù)先分割好了袱瓮，就看你的算法分割的錯誤率低不低了缤骨。與其相關(guān)的競賽是COCO 2016 Detection and Keypoint Challenges

KITTI

KITTI Vision Benchmark Suite，測試自動駕駛尺借。這個庫里面的圖片都是汽車在行駛過程中在Karlruhe這個城市拍攝的街景绊起，都有標(biāo)簽。比較小燎斩，只有289張訓(xùn)練圖片虱歪。

其中一些道路標(biāo)簽包括：Highway, minor road

分割數(shù)據(jù)庫

CityScapes Dataset

CityScapes dataset 目標(biāo)是城市街景的語義理解（感覺就是城市街景里面的物體識別）蜂绎。特點(diǎn)：

Type of annotations

Semantic
Instance-wise
Dense pixel annotations

Complexity

30 classes
See Class Definitions for a list of all classes and have a look at the applied labeling policy.

Diversity

50 cities
Several months (spring, summer, fall)
Daytime
Good/medium weather conditions
Manually selected frames
- Large number of dynamic objects
- Varying scene layout
- Varying background

Volume

5?000 annotated images with fine annotations (examples)
20?000 annotated images with coarse annotations (examples)

比較老的數(shù)據(jù)庫

NORB

THE NORB DATASET

Caltech 101/256

Caltech 101

最后編輯于：2017.12.05 05:39:50

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市笋鄙，隨后出現(xiàn)的幾起案子师枣，更是在濱河造成了極大的恐慌，老刑警劉巖萧落，帶你破解...
沈念sama閱讀 218,204評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件践美，死亡現(xiàn)場離奇詭異，居然都是意外死亡找岖，警方通過查閱死者的電腦和手機(jī)陨倡，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,091評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來许布，“玉大人玫膀，你說我怎么就攤上這事〉ⅲ” “怎么了？”我有些...
開封第一講書人閱讀 164,548評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵箕昭，是天一觀的道長灵妨。經(jīng)常有香客問我，道長落竹，這世上最難降的妖魔是什么泌霍？我笑而不...
開封第一講書人閱讀 58,657評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮述召，結(jié)果婚禮上朱转，老公的妹妹穿的比我還像新娘。我一直安慰自己积暖，他們只是感情好藤为，可當(dāng)我...
茶點(diǎn)故事閱讀 67,689評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著夺刑，像睡著了一般缅疟。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上遍愿，一...
開封第一講書人閱讀 51,554評論 1贊 305
城市分裂傳說
那天存淫，我揣著相機(jī)與錄音，去河邊找鬼沼填。笑死桅咆，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的坞笙。我是一名探鬼主播岩饼，決...
沈念sama閱讀 40,302評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼荚虚，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了忌愚？” 一聲冷哼從身側(cè)響起曲管，我...
開封第一講書人閱讀 39,216評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎硕糊，沒想到半個月后院水，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,661評論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡简十，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,851評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年檬某，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片螟蝙。...
茶點(diǎn)故事閱讀 39,977評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡恢恼，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出胰默，到底是詐尸還是另有隱情场斑，我是刑警寧澤，帶...
沈念sama閱讀 35,697評論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布牵署，位于F島的核電站漏隐，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏奴迅。R本人自食惡果不足惜青责，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,306評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望取具。院中可真熱鬧脖隶，春花似錦、人聲如沸暇检。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,898評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽占哟。三九已至心墅，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間榨乎，已是汗流浹背怎燥。一陣腳步聲響...
開封第一講書人閱讀 33,019評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蜜暑，地道東北人铐姚。一個月前我還...
沈念sama閱讀 48,138評論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親隐绵。傳聞我的和親對象是個殘疾皇子之众，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,927評論 2贊 355