圖像識(shí)別的經(jīng)典數(shù)據(jù)集合
MNSIT:
CIFAR:10個(gè)不同種類的6000張圖片,圖片的每張像素是32*32蜒犯。
ImageNet:基于wordnet的大型圖像數(shù)據(jù)庫(kù)丧叽。將imagenet中的近15000w的圖片與wordnet中的20000個(gè)名詞同義集火邓。
在imagenet的數(shù)據(jù)集中一個(gè)實(shí)體的標(biāo)識(shí)矩陣稱為bounding box.
top-n正確率:圖像識(shí)別算法給出的前n個(gè)答案中有一個(gè)正確的概率。
MNIST與CIFAR數(shù)據(jù)集的的區(qū)別:
CIFAR的數(shù)據(jù)集是彩色的礁叔,分辨的難度比較大,MNIST的數(shù)據(jù)集合是黑白色,分辨的難度比較小润匙。
CNN
cnn結(jié)構(gòu)圖
卷積層
CNN出現(xiàn)的原因
圖像處理問題的全連接參數(shù)太多
以mnist圖像集為例子,一張圖片的像素是28*28*1(28個(gè)像素*28個(gè)像素*圖像是白是黑)唉匾,
第一個(gè)hidden layer的nuture為500個(gè)孕讳,第一個(gè)全連接的參數(shù)為28×28×500+500
以CIFAR圖像集為例子:一張圖片的參數(shù)為32×32×3.同樣考慮是第一層hidden layer的
nutire為500個(gè),則第一個(gè)全連接的參數(shù)為32×32×3×500+500~150w個(gè)參數(shù)巍膘。
CNN的結(jié)構(gòu)
1:輸入層:(x,y,channel)
x,y:圖片的像素
channel:圖像的色彩通道厂财,黑白為1,RGB色彩模式下圖像通道為3。
2:卷積層
filter:將前一層的子矩陣轉(zhuǎn)換為下層的單位矩陣,
filter的尺寸:前一個(gè)的子矩陣的尺寸峡懈,這是需要人工指定的璃饱,常用的為3*3,5*5.
filter的深度:下層單位矩陣的深度。
單位矩陣:1*1*深度(深度可變,長(zhǎng)寬都為1)
矩陣移動(dòng):左上到右上肪康,左下角矩陣荚恶,繼續(xù)向右。
矩陣大小控制:用0填充磷支,設(shè)置過濾器的移動(dòng)步長(zhǎng)谒撼。
3:池化層
作用類似于前向傳播的加權(quán),有2種方式
max pooling:最大值操作的池化層
average pooling:平均值操作的池化層
類似與卷積層齐唆,池化層也有自定義filter尺寸嗤栓,用0填充,設(shè)置過濾器的移動(dòng)步長(zhǎng)箍邮。
不同與卷積層茉帅,池化層的filter還需要在filter深度上移動(dòng),卷積層則不不需要锭弊。
4:全連接層
卷積層堪澎,池化層的作用主要是做圖像特征的提取。
全連接層的主要作用是完成分類任務(wù)味滞。
5:softmax層:主要用于圖像分類問題
得到不同label的probability`
經(jīng)典cnn網(wǎng)絡(luò)架構(gòu)
一般的架構(gòu)為
輸入層->(一個(gè)或者多個(gè)卷及層+沒有或者一個(gè)池化層)+全連接層+other
ps:論文發(fā)現(xiàn)可以通過調(diào)節(jié)卷及層的步長(zhǎng)取代池化層實(shí)現(xiàn)減少參數(shù)過擬合樱蛤。
lenet-5
inception-v3
遷移學(xué)習(xí)
將一個(gè)問題上訓(xùn)練好的模型通過簡(jiǎn)單調(diào)整使用與一個(gè)新模型
參考鏈接
http://www.image-net.org/
http://www.reibang.com/p/fe428f0b32c1
http://blog.topspeedsnail.com/