原文: http://www.36dsj.com/archives/24006
CNN的基本結(jié)構(gòu)包括兩層撇眯,其一為特征提取層领舰,每個(gè)神經(jīng)元的輸入與前一層的局部接受域相連湖饱,并提取該局部的特征脓鹃。一旦該局部特征被提取后傻昙,它與其它特征間的位置關(guān)系也隨之確定下來廊谓;其二是特征映射層梳猪,網(wǎng)絡(luò)的每個(gè)計(jì)算層由多個(gè)特征映射組成,每個(gè)特征映射是一個(gè)平面,平面上所有神經(jīng)元的權(quán)值相等春弥。特征映射結(jié)構(gòu)采用影響函數(shù)核小的sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù)呛哟,使得特征映射具有位移不變性。此外匿沛,由于一個(gè)映射面上的神經(jīng)元共享權(quán)值扫责,因而減少了網(wǎng)絡(luò)自由參數(shù)的個(gè)數(shù)。卷積神經(jīng)網(wǎng)絡(luò)中的每一個(gè)卷積層都緊跟著一個(gè)用來求局部平均與二次提取的計(jì)算層逃呼,這種特有的兩次特征提取結(jié)構(gòu)減小了特征分辨率鳖孤。
CNN主要用來識(shí)別位移、縮放及其他形式扭曲不變性的二維圖形抡笼。由于CNN的特征檢測層通過訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)苏揣,所以在使用CNN時(shí),避免了顯示的特征抽取推姻,而隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí)平匈;再者由于同一特征映射面上的神經(jīng)元權(quán)值相同,所以網(wǎng)絡(luò)可以并行學(xué)習(xí)藏古,這也是卷積網(wǎng)絡(luò)相對于神經(jīng)元彼此相連網(wǎng)絡(luò)的一大優(yōu)勢增炭。卷積神經(jīng)網(wǎng)絡(luò)以其局部權(quán)值共享的特殊結(jié)構(gòu)在語音識(shí)別和圖像處理方面有著獨(dú)特的優(yōu)越性,其布局更接近于實(shí)際的生物神經(jīng)網(wǎng)絡(luò)校翔,權(quán)值共享降低了網(wǎng)絡(luò)的復(fù)雜性弟跑,特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡(luò)這一特點(diǎn)避免了特征提取和分類過程中數(shù)據(jù)重建的復(fù)雜度。
卷積神經(jīng)網(wǎng)絡(luò)
在圖像處理中防症,往往把圖像表示為像素的向量孟辑,比如一個(gè)1000×1000的圖像,可以表示為一個(gè)1000000的向量蔫敲。在上一節(jié)中提到的神經(jīng)網(wǎng)絡(luò)中饲嗽,如果隱含層數(shù)目與輸入層一樣,即也是1000000時(shí)奈嘿,那么輸入層到隱含層的參數(shù)數(shù)據(jù)為1000000×1000000=10^12貌虾,這樣就太多了,基本沒法訓(xùn)練裙犹。所以圖像處理要想練成神經(jīng)網(wǎng)絡(luò)大法尽狠,必先減少參數(shù)加快速度。就跟辟邪劍譜似的叶圃,普通人練得很挫袄膏,一旦自宮后內(nèi)力變強(qiáng)劍法變快,就變的很牛了掺冠。
2.1 局部感知
卷積神經(jīng)網(wǎng)絡(luò)有兩種神器可以降低參數(shù)數(shù)目沉馆,第一種神器叫做局部感知野。一般認(rèn)為人對外界的認(rèn)知是從局部到全局的,而圖像的空間聯(lián)系也是局部的像素聯(lián)系較為緊密斥黑,而距離較遠(yuǎn)的像素相關(guān)性則較弱揖盘。因而,每個(gè)神經(jīng)元其實(shí)沒有必要對全局圖像進(jìn)行感知锌奴,只需要對局部進(jìn)行感知兽狭,然后在更高層將局部的信息綜合起來就得到了全局的信息。網(wǎng)絡(luò)部分連通的思想缨叫,也是受啟發(fā)于生物學(xué)里面的視覺系統(tǒng)結(jié)構(gòu)椭符。視覺皮層的神經(jīng)元就是局部接受信息的(即這些神經(jīng)元只響應(yīng)某些特定區(qū)域的刺激)。如下圖所示:左圖為全連接耻姥,右圖為局部連接销钝。
在上右圖中,假如每個(gè)神經(jīng)元只和10×10個(gè)像素值相連琐簇,那么權(quán)值數(shù)據(jù)為1000000×100個(gè)參數(shù)蒸健,減少為原來的千分之一。而那10×10個(gè)像素值對應(yīng)的10×10個(gè)參數(shù)婉商,其實(shí)就相當(dāng)于卷積操作似忧。
2.2 參數(shù)共享
但其實(shí)這樣的話參數(shù)仍然過多,那么就啟動(dòng)第二級(jí)神器丈秩,即權(quán)值共享盯捌。在上面的局部連接中,每個(gè)神經(jīng)元都對應(yīng)100個(gè)參數(shù)蘑秽,一共1000000個(gè)神經(jīng)元饺著,如果這1000000個(gè)神經(jīng)元的100個(gè)參數(shù)都是相等的,那么參數(shù)數(shù)目就變?yōu)?00了肠牲。
怎么理解權(quán)值共享呢幼衰?我們可以這100個(gè)參數(shù)(也就是卷積操作)看成是提取特征的方式,該方式與位置無關(guān)缀雳。這其中隱含的原理則是:圖像的一部分的統(tǒng)計(jì)特性與其他部分是一樣的渡嚣。這也意味著我們在這一部分學(xué)習(xí)的特征也能用在另一部分上,所以對于這個(gè)圖像上的所有位置肥印,我們都能使用同樣的學(xué)習(xí)特征识椰。
更直觀一些,當(dāng)從一個(gè)大尺寸圖像中隨機(jī)選取一小塊深碱,比如說 8×8 作為樣本腹鹉,并且從這個(gè)小塊樣本中學(xué)習(xí)到了一些特征,這時(shí)我們可以把從這個(gè) 8×8 樣本中學(xué)習(xí)到的特征作為探測器莹痢,應(yīng)用到這個(gè)圖像的任意地方中去种蘸。特別是,我們可以用從 8×8 樣本中所學(xué)習(xí)到的特征跟原本的大尺寸圖像作卷積竞膳,從而對這個(gè)大尺寸圖像上的任一位置獲得一個(gè)不同特征的激活值航瞭。
如下圖所示,展示了一個(gè)33的卷積核在55的圖像上做卷積的過程坦辟。每個(gè)卷積都是一種特征提取方式刊侯,就像一個(gè)篩子,將圖像中符合條件(激活值越大越符合條件)的部分篩選出來锉走。