(注:以下截圖均來(lái)自臺(tái)灣大學(xué)李宏毅老師的課程PPT)
指路視頻:https://www.bilibili.com/video/BV1JE411g7XF?p=17
博主剛接觸CNN不久爽雄,本篇算是自己看了李宏毅老師CNN課程視頻的學(xué)習(xí)記錄吧,基本流程就沒(méi)怎么寫了,主要是自己看完視頻解決的疑惑浑吟。下列表述如有錯(cuò)誤的妹田,歡迎大家指正垦缅!
問(wèn)題一:CNN中的卷積核是怎么設(shè)置的确憨?為什么国撵?
聯(lián)想空間濾波器遍歷全圖實(shí)現(xiàn)濾波效果的過(guò)程蹈丸,模板(卷積核)相當(dāng)于一個(gè)系統(tǒng)的沖激響應(yīng)成黄,作用于不同的像素點(diǎn)(輸入)會(huì)有不同的輸出(內(nèi)積值)。而在此處逻杖,如右圖所示的Filter-1, 其只有主對(duì)角線上的值全為1奋岁,目的是為了檢測(cè)有沒(méi)有主對(duì)角線這樣的一個(gè)特征,如果有的話荸百,如圖中放置在第一個(gè)位置闻伶,得到的內(nèi)積為1×1+1×1+1×1=3,3也是該卷積核遍歷過(guò)程中所能得到的最大內(nèi)積值(因?yàn)橹灰渌恢糜袛?shù)值够话,根據(jù)Filter-1的設(shè)置蓝翰,就會(huì)減去一定的值,這樣總值必然會(huì)比3信啊)畜份。這也就驗(yàn)證了“長(zhǎng)得越像,內(nèi)積越大”的道理欣尼。這樣就能檢測(cè)出特征(此處為主對(duì)角線)了爆雹。對(duì)于其他特征卷積核的設(shè)計(jì)也是一樣的道理。
該圖檢測(cè)的是另一個(gè)特征媒至,最大值3出現(xiàn)在右下角顶别,這樣就說(shuō)明在右下角處有存在這個(gè)卷積核(垂直線)的特征。卷積之后得到的新矩陣也稱為Feature Map(特征圖)拒啰,通過(guò)Feature Map我們可以知道該圖像具有的特征及其所在位置驯绎。一個(gè)卷積核對(duì)原圖進(jìn)行遍歷可以得到一個(gè)特征圖,如果有100個(gè)卷積核則可以得到100個(gè)特征圖谋旦。
對(duì)于多通道的圖像剩失,其遍歷的卷積核的通道數(shù)也要和圖像的通道數(shù)一樣屈尼,但是每一層卷積核矩陣值的設(shè)計(jì)都是一樣的,因?yàn)椴煌ǖ乐皇谴淼念伾煌┕拢涮卣鬟€是不變的脾歧,所以如上圖,要檢測(cè)的是垂直的直線演熟,每一層的矩陣值(上圖三通道 有三層)都是一樣的鞭执。(特征矩陣是固定的)。而在遍歷的時(shí)候芒粹,就是每一層的內(nèi)積相加作為該位置的值兄纺。
這里有一個(gè)還未明白的問(wèn)題,就是第一層卷積的意義按照上面的解釋是可以理解的化漆,但是第二層卷積第三層卷積呢估脆,在之前特征圖上繼續(xù)做操作,這里還是不太理解座云。
問(wèn)題二:如何理解卷積層和全連接層的關(guān)系
簡(jiǎn)單來(lái)說(shuō)疙赠,在CNN中,卷積層負(fù)責(zé)把圖像的特征提取出來(lái)朦拖,然后把這些特征輸送到全連接層進(jìn)行圃阳,通過(guò)全連接層不斷地強(qiáng)化特征最終可以得到該圖像物體所屬的類別。這里不得不再次感嘆李宏毅老師講的是真的好贞谓,老師說(shuō)限佩,其實(shí)卷積層就是丟了某些參數(shù)的全連接層的一部分葵诈。
如上圖裸弦,將尺寸為6×6的圖像像素展開(flatten)為一維向量,根據(jù)求內(nèi)積的過(guò)程可知作喘,每一個(gè)像素點(diǎn)都乘了卷積核中對(duì)應(yīng)位置的參數(shù)理疙,最終相加得到第一個(gè)神經(jīng)元的值——3.而卷積核的參數(shù)不就是全連接網(wǎng)絡(luò)中每條連接線的參數(shù)嗎。只不過(guò)對(duì)于這個(gè)過(guò)程泞坦,并不是“全連接”窖贤,第一個(gè)神經(jīng)元其實(shí)只連接到9個(gè)像素點(diǎn)。所以說(shuō)卷積層就是丟了某些參數(shù)的全連接層的一部分贰锁。此外赃梧,原本在全連接層中每個(gè)神經(jīng)元都會(huì)有獨(dú)立的權(quán)值,但是在這里豌熄,不同的神經(jīng)元共享權(quán)值授嘀。如下圖所示,第二個(gè)神經(jīng)元的值也是用剛才的一組權(quán)值得到的锣险。
圖記:
卷積網(wǎng)絡(luò)輸出特征圖蹄皱,然后flatten之后輸入全連接網(wǎng)絡(luò)
CNN用Keras實(shí)現(xiàn)流程及對(duì)應(yīng)代碼
圖解:
第一次卷積:25個(gè)卷積核 每個(gè)卷積核3×3览闰,輸入圖片大小1個(gè)通道,尺寸是28×28
第一次池化:表示每2×2的塊作為一個(gè)“池”合并為一個(gè)值
第二次卷積:50個(gè)卷積核巷折,每個(gè)卷積核3×3压鉴,(系統(tǒng)會(huì)自動(dòng)補(bǔ)上通道數(shù),不需特地說(shuō)明锻拘,此時(shí)的通道已經(jīng)變成25了)
第二次池化:表示每2*2的塊作為一個(gè)“池”合并為一個(gè)值
第一次只有一個(gè)通道油吭,所以參數(shù)數(shù)為3×3×1=9
第二次輸入圖像有25個(gè)通道,所以參數(shù)數(shù)為3×3×25=225
對(duì)于這個(gè)視頻署拟,我在復(fù)習(xí)的時(shí)候搞明白了上面的這些點(diǎn)上鞠。對(duì)于CNN的全過(guò)程還有一些沒(méi)有完全理解的,不過(guò)今天就先記到這里吧芯丧,還是得再去看看李宏毅老師的課芍阎。
有什么表述有誤的,請(qǐng)大家多多指正缨恒!