在很多網(wǎng)絡(luò)中鞠评,都使用了3個(gè)3x3卷積核來代替7x7卷積核驰凛,使用了2個(gè)3x3卷積核來代替5x5卷積核非驮,這樣做的主要目的是:
(1)保證具有相同感知野的條件下交汤,提升了網(wǎng)絡(luò)的深度,在一定程度上提升了神經(jīng)網(wǎng)絡(luò)的效果劫笙;
(2)減少計(jì)算參數(shù)量
接下來說明一下減少參數(shù)的作用芙扎。我們假設(shè)圖片是28*28的
對(duì)于兩個(gè)3x3卷積核,所用的參數(shù)總量為2x(3x3)xchannels, 對(duì)于5x5卷積核為5x5xchannels, 因此可以顯著地減少參數(shù)的數(shù)量填大,可以減少大約30%的參數(shù)數(shù)量戒洼。
我們使用5*5的卷積核對(duì)其卷積,步長(zhǎng)為1允华,得到的結(jié)果是:(28-5)/1+1=24
然后我們使用2個(gè)卷積核為3*3的圈浇,這里的兩個(gè)是指2層:
第一層3*3:得到的結(jié)果是(28-3)/1+1=26
第二層3*3:得到的結(jié)果是(26-3)/1+1=24
所以我們的最終結(jié)果和5*5的卷積核是一樣的
注:
1、?感知野定義:?
在卷積神經(jīng)網(wǎng)絡(luò)中靴寂,感受野的定義是卷積神經(jīng)網(wǎng)絡(luò)每一層輸出的特征圖(feature map)上的像素點(diǎn)在原始圖像上映射的區(qū)域大小磷蜀。?
看圖理解:
上圖左邊5*5 (kernel_size k=3x3,padding_size p=1x1, stride s = 2x2)?
輸出3*3的特征百炬,右圖是尺寸不變的特征分布蠕搜,看到輸入層3*3的區(qū)域?qū)?yīng)第一層(綠色)的一個(gè)特征點(diǎn)。即第一層的像素點(diǎn)在原始圖片上映射大小是3*3.同理收壕,再經(jīng)過(kernel_size k=3x3妓灌,padding_size p=1x1, stride s = 2x2)輸出第二層(黃色)的特征大小為2*2,看到第二層的像素點(diǎn)在原始圖片上映射大小是7*7.
上面的數(shù)據(jù)僅是從圖片上得到的蜜宪,大致對(duì)感知野有了直觀上的理解虫埂,就是這一層的特征是由輸入的哪些特征的集合或者說與哪些輸入特征有關(guān),理解感知就是說這一層的特征能夠看到即感知到輸入的哪一塊(部分)圃验。?
那么層數(shù)越深掉伏,不斷卷積特征越來越小,其對(duì)應(yīng)的感知野越大澳窑。
2斧散、stride with padding: (n + 2p - f)/s + 1