CNN基礎(chǔ)知識入門
吳恩達deeplearning之CNN—卷積神經(jīng)網(wǎng)絡(luò)入門
2.2經(jīng)典網(wǎng)絡(luò)
1袜硫、LeNet-5:
如圖是一個用LeNet-5
手寫數(shù)字識別的案例,由于LeNet-5
只針對灰度圖像绿映,所以輸入圖片只有1個深度(channel or depth)宠能。
(1)過程:
卷積層
:
6個5X5過濾器(卷積核)淆院,步長為1薄风。Padding = 0(1998年沒有padding)
池化
:
平均池化(avg pool,那個年代更愛用平均池化)竹观,過濾器寬度f=2镐捧,步長s=2
卷積層
:
16個5X5過濾器(卷積核),步長為1臭增。Padding = 0
池化
:
平均池化懂酱,過濾器寬度f=2,步長s=2
此時得到400個節(jié)點誊抛。
全連接層FC
:
400個節(jié)點列牺,每個節(jié)點有120個神經(jīng)元。
全連接層FC
:
120個節(jié)點芍锚,每個節(jié)點有84個神經(jīng)元昔园。
輸出y
:
現(xiàn)在更喜歡使用softmax
產(chǎn)生10個輸出蔓榄。
(2)分析:
一共用到了6萬個左右的參數(shù)并炮,今天的神經(jīng)網(wǎng)絡(luò)很輕易的就產(chǎn)生上億個參數(shù)。
隨著神經(jīng)網(wǎng)絡(luò)的深入甥郑,可以看到圖像的高度nH
和寬度nW
在減小逃魄,而深度(channel or depth)在增加。
可以看到典型的結(jié)果:卷積層(CONV)
→池化層(POOL)
→卷積層(CONV)
→池化層(POOL)
→全連接層(FC)
→全連接層(FC)
→輸出(Output)
(3)論文參考:
論文推薦: Gradient-based learning applied to document recognition
閱讀建議:
1)當(dāng)時多用的是 sigmoid
和tanh
澜搅,很少用ReLU
2)關(guān)于當(dāng)時nC(通道數(shù))
的取值方式現(xiàn)在基本不用伍俘。
3)精讀第二段,泛讀第三段勉躺。
2癌瘾、AlexNet
(1)過程:
卷積層
:
96個11X11過濾器(卷積核),步長為4饵溅。Padding = 0
池化
:
最大池化(MAX-POOL)妨退,過濾器寬度f=3,步長s=2
卷積層
:
256個5X5過濾器(卷積核)。使用same的Padding咬荷。
池化
:
最大池化(MAX-POOL)冠句,過濾器寬度f=3,步長s=2
卷積層
:
384個3X3過濾器(卷積核)幸乒。使用same的Padding懦底。
卷積層
:
384個3X3過濾器(卷積核)。使用same的Padding罕扎。
卷積層
:
256個3X3過濾器(卷積核)聚唐。使用same的Padding。
池化
:
最大池化(MAX-POOL)壳影,過濾器寬度f=3拱层,步長s=2。此時得到9216個節(jié)點宴咧。
全連接層FC
:
9216個節(jié)點根灯,每個節(jié)點有4096個神經(jīng)元。
全連接層FC
:
4096個節(jié)點掺栅,每個節(jié)點有4096個神經(jīng)元烙肺。
輸出Output
:
Softmax1000,輸出1000個結(jié)果氧卧。
(2)分析:
AlexNet
和LeNet
很相似桃笙,但參數(shù)多了很多,有6000萬個沙绝。當(dāng)用于訓(xùn)練圖像和數(shù)據(jù)集時搏明,AlexNet
能夠處理非常相似的基本構(gòu)造模塊,這些模塊通常包含大量的隱藏單元或數(shù)據(jù)闪檬。AlexNet
使用了ReLU
激活函數(shù)星著,這也是一個優(yōu)勢。
(3)論文參考:
論文推薦: ImageNet classification with deep convolutional neural network
閱讀建議:
1)當(dāng)時GPU還比較慢粗悯,文章采用了復(fù)雜的方法在兩個GPU上訓(xùn)練虚循,并進行關(guān)聯(lián)交流。
2)使用了局部響應(yīng)歸一化層(LRN)样傍,這類層現(xiàn)在基本用不到横缔。
影響:
這篇論文之后,計算機視覺群體開始重視深度學(xué)習(xí)衫哥。CNN翻身之作茎刚。
3、VGG-16
卷積層
均為3X3過濾器(卷積核)
撤逢,步長為1
膛锭,使用same的Padding
捌斧。池化層均為
最大池化
,過濾器寬度f=2
泉沾,步長s=2
捞蚂。(nH和nW會減半)
(1)過程:
卷積層
:64個過濾器,連續(xù)作用2
次跷究。
池化層
:使得nH和nW減半姓迅。
卷積層
:128個過濾器,連續(xù)作用2
次俊马。
池化層
:使得nH和nW減半丁存。
卷積層
:256個過濾器,連續(xù)作用3
次柴我。
池化層
:使得nH和nW減半解寝。
卷積層
:512個過濾器,連續(xù)作用3
次艘儒。
池化層
:使得nH和nW減半聋伦。
卷積層
:512個過濾器,連續(xù)作用3次界睁。
池化層
:使得nH和nW減半觉增。
全連接層
:4096
全連接層
:4096
輸出
:Softmax函數(shù),1000個輸出翻斟。
(2)分析:
VGG-16
中16
的含義指的是一共有16個卷積層(13)和全連接層(3)逾礁,一共有1.38億個參數(shù),參數(shù)數(shù)量非常多访惜。
它結(jié)構(gòu)不復(fù)雜嘹履,規(guī)整,可以看到卷積核從64到128到256到512债热,每次都是2倍的變化砾嫉。
VGG-16
和VGG-19
效果不分高下,因此更多人用VGG-16
阳柔。
(3)論文參考:
論文推薦:Very deep convolutional networks for large-scale image recognition