VGGNet網(wǎng)絡(luò)結(jié)構(gòu):
VGGNe初步探索了卷積神經(jīng)網(wǎng)絡(luò)深度與其性能的關(guān)系撮抓,通過反復(fù)堆疊3x3的卷積層和2x2的池化層燥翅,VGGNet成功構(gòu)建了16~19層得網(wǎng)絡(luò)阵谚。
VGGNet的擴展性很強黑忱,遷移到其他圖像數(shù)據(jù)上的泛化興非常好,到目前為止袄膏,VGGNet依然經(jīng)常被用來提取圖像特征践图。
VGGNet共有5段卷積,每一段內(nèi)都有2~3個卷積層沉馆,同時每段尾部都會連接一個最大池化層來縮小feature map尺寸码党。
A到E網(wǎng)絡(luò)逐漸變深,但是參數(shù)量變化不大斥黑。CNNs中參數(shù)左右集中在全連接層揖盘;卷積層參數(shù)少,但是計算量大锌奴,主要是卷積層耗時兽狭。D和E就是VGGNet-16和VGGNet-19。
VGGNet網(wǎng)絡(luò)特點和技術(shù)點:
卷積層只使用了3x3和1x1兩種小卷積核,且常出現(xiàn)多個3x3卷積核串聯(lián)堆疊的情況椭符,這種設(shè)計非常實用:比如2個3x3卷積核串聯(lián)堆疊荔燎,作用相當(dāng)于1個5x5卷積核;3個3x3卷積核串聯(lián)堆疊销钝,作用相當(dāng)于1個7x7卷積核有咨。這樣做有2個優(yōu)點:①減少了卷積核的參數(shù)量(其實這個優(yōu)點不是很突出)
②層數(shù)增加,使用的激活函數(shù)(如ReLU)次數(shù)變多蒸健,產(chǎn)生了更強的非線性變換(抽象能力)座享,使得網(wǎng)絡(luò)對特征的學(xué)習(xí)能力更強。
原論文作者對比各級網(wǎng)絡(luò)總結(jié)出了以下介個觀點:
①LRN層作用不大似忧,卻導(dǎo)致更多的內(nèi)存消耗和計算時間渣叛。
②越深的網(wǎng)絡(luò)效果越好。
③1x1卷積很有效盯捌,但是沒有3x3卷積效果好淳衙,大一些的卷積核可以學(xué)習(xí)到更大的空間特征。
1x1卷積:
又稱為網(wǎng)中網(wǎng)(Network In Network)饺著,它不考慮像素與像素之間的關(guān)系箫攀。其作用:
(1)通道數(shù)量的升維/降維,只改變feature map輸出的channels,不改變它的寬度和高度幼衰,是一個性價比很高的聚合操作靴跛;實現(xiàn)降維和升維的操作其實就是channels間信息的線性組合變化。
(2)可以在保持feature map尺度不變的(即不損失分辨率)的前提下大幅增加非線性特性(利用后接的非線性激活函數(shù))渡嚣,把網(wǎng)絡(luò)做的很deep梢睛。
NIN論文中解釋1×1的卷積實現(xiàn)了多個feature map的結(jié)合,從而整合了不同通道間的信息识椰。(個人認(rèn)為這個作用并不是特點绝葡,因為其它大小的卷積核也可以實現(xiàn))
多尺度訓(xùn)練Mutli-Scale:
訓(xùn)練采用多尺度訓(xùn)練,將原始圖像縮放到不同尺寸S腹鹉,然后再隨機裁切成224 x 224的圖片挤牛,并且對圖片進(jìn)行水平翻轉(zhuǎn)和隨機RGB色差調(diào)整,這樣能增加很多數(shù)據(jù)量种蘸,對于防止模型過擬合有很不錯的效果。
初始對原始圖片進(jìn)行裁剪時竞膳,原始圖片的最小邊不宜過小航瞭,這樣的話,裁剪到224 x 224的時候坦辟,就相當(dāng)于幾乎覆蓋了整個圖片刊侯,這樣對原始圖片進(jìn)行不同的隨機裁剪得到的圖片就基本上沒差別,就失去了增加數(shù)據(jù)集的意義锉走,但同時也不宜過大滨彻,這樣的話藕届,裁剪到的圖片只含有目標(biāo)的一小部分,也不是很好亭饵。
針對上述裁剪的問題休偶,提出的兩種解決辦法:
(1) 固定最小邊的尺寸為256;
(2) 隨機從[256辜羊,512]的確定范圍內(nèi)進(jìn)行抽樣踏兜,這樣原始圖片尺寸不一,有利于訓(xùn)練八秃,這個方法叫做尺度抖動(scale jittering)碱妆,有利于訓(xùn)練集增強。