? ? ? ? 今天主要是對卷積神經(jīng)網(wǎng)絡中的概念和經(jīng)典結構做一個梳理壹粟,我主要接觸到的是機器學習中偏向計算機視覺的深度學習部分,所以今天這里主要總結CNN以及一些典型結構趁仙。盡量用簡單明了的語言說明每一個概念洪添。
CNN
基本概念
????????現(xiàn)代的卷積神經(jīng)網(wǎng)絡雀费,簡單來說就是用卷積層來模擬對特定圖案的響應,池化層模擬感受野盏袄。
????????數(shù)據(jù)輸入忿峻,輸入首先經(jīng)過卷積層得到響應進行仿射變換,然后經(jīng)過激活層進行非線性變換逛尚。
卷積層和特征響應圖
????????在深度學習中使用的卷積在不同的深度學習框架中的實現(xiàn)可能有些不同垄惧,有些框架中的卷積就是卷積黑低,而有些框架中的卷積是互相關酌毡。
????????我們把卷積核做卷積之后的結果叫做 feature map克握。
????????卷積核可以可以找到圖像中和自身紋理最相似的部分枷踏,如果相似度越大,則響應度越高旭蠕。
同變性:
????????可以想象有個框在圖像上移動停团,不論是先做卷積再移動掏熬,還是先移動再做卷積,得到的結果 feature map 都是相同的旗芬。
參數(shù)共享
????????卷積核在任何一個位置都是不變的舌胶,所以在和卷積核對應位置求和的時候疮丛,相當于就是和同一套weight 相乘。
稀疏連接
????????這里主要是和全連接有所區(qū)別誊薄。
????????假設有一個 4x4 的二維輸入和 3x3 的二維輸出履恩。
????????對于全連接層呢蔫,權值一共有 16 x 9 個權值,但是對于稀疏連接片吊,假設卷積核的大小是 2x2 的昙衅,卷積形式是valid定鸟,那么權值一共有 4 x 9 = 36 個權值,權值的個數(shù)只有原來的 1/4联予。這里還沒有考慮 卷積核移動的stride所帶來的對權值個數(shù)的減少啼县。
多通道卷積
????????一張圖片通常會有多個通道 channel????
????????對于多通道的輸入,我們給每個通道用不同的卷積核做卷積季眷,然后將三個通道得到的feature map 相加就可以了余蟹。
激活函數(shù)
????????卷積層的激活函數(shù)和全連接層沒有多大的區(qū)別子刮,就是要給我們的卷積結果做一個非線性變換。
????????常用的的激活函數(shù):
Sigmod挺峡,tanh葵孤,ReLu橱赠,leaky ReLU
池化、不變性和感受野
????????池化狭姨,也就是對統(tǒng)計信息的提取宰啦。
????????舉個最簡單的例子饼拍,我們得到一堆數(shù)據(jù)不好處理,我們將這些數(shù)據(jù)求一個均值代表這組數(shù)據(jù)师抄,這也是一種池化漓柑。
????????在CNN中的池化司澎,主要是代表著對feature map上的給定區(qū)域求出一個代表這個區(qū)域特點的數(shù)值,常用的有 max-polling? 和? average-polling挤安。
????????池化層的作用就是引入了不變性谚殊。
????????感受野蛤铜,也就是一個神經(jīng)元對應feature map中的值的范圍。池化相當于模擬了感受野围肥,在感受野內(nèi)任何一個值的變化剿干,這個變化的響應都會傳播到池化后的層中穆刻。
????????所以越是高的層中一個神經(jīng)元對應的感受野也就越大。
分布式表征
????????這個名稱聽起來比較高端氢伟,其實就是一個自然概念榜轿。
????????比如體檢的時候表格上的姓名、性別谬盐、年齡甸私、身高等飞傀,這些特征分別列舉出來,這就是分布式表征砸烦。
????????在神經(jīng)網(wǎng)絡中弃鸦,考慮每個神經(jīng)元將空間劃分為兩個線性區(qū)域外冀,那么n個神經(jīng)元就可以劃分 2^n 個區(qū)域掀泳。
????????和分布式表征對應的局部表征或者符號表征雪隧,也就是每個概念都用一個編碼或者一個樣本來表述。
分布式表征和局部泛化
????????假設在一個二維空間中的樣本已經(jīng)是線性可分的了脑沿,那么和局部表征相比分布式表征顯然有更好的泛化能力。
????????在采用分布式表征的時候马僻,由于局部泛化是基于函數(shù)在空間中的連續(xù)的假設,所以在樣本量很大的時候韭邓,能夠進行很好的泛化措近。
分層表達
????????神經(jīng)網(wǎng)絡每一層都相當于經(jīng)過了 一層 仿射變換 + 非線性變換女淑,把樣本在一個新的空間中表示,一層層表達的傳遞過程中鸭你,數(shù)據(jù)在不同層面的分布式表征進行了新的表示屈张。
在計算機視覺中
像素 -> 邊緣? -> 基本形狀? ->紋理? -> 復雜圖案->……