卷積神經(jīng)網(wǎng)絡(luò)|深度學(xué)習(xí)(李宏毅)(四)

一印蔬、 為什么使用CNN處理圖片

  • 在圖片中有一些比整張圖片要小的pattern(比如鳥的圖片中鳥的喙就是一個(gè)小的pattern)预明,識(shí)別這些pattern并不需要看整張圖片。
  • 這些小的pattern會(huì)出現(xiàn)在圖片的不同位置,例如鳥圖片中鳥的喙可能出現(xiàn)在左上角也可能出現(xiàn)在中間。
  • 對(duì)圖片進(jìn)行降采樣(池化)不會(huì)改變圖片的特征币他,因此神經(jīng)網(wǎng)絡(luò)處理圖片所需的參數(shù)就會(huì)更少观蜗。

二缕坎、 卷積 v.s. 全連接

??可以將卷積網(wǎng)絡(luò)看作一種特殊的的全連接網(wǎng)絡(luò)蒂誉,每一個(gè)卷積核卷積后得到的feature map可以看做一個(gè)隱藏層的輸出教藻,feature map中的每一個(gè)數(shù)可以看做這個(gè)隱藏層的一個(gè)神經(jīng)元距帅。在這個(gè)特殊的全連接網(wǎng)絡(luò)中隱藏層的每個(gè)神經(jīng)元只會(huì)接收上一層的部分輸入右锨,而且隱藏層的神經(jīng)元對(duì)應(yīng)的權(quán)重是共享的,在反向傳播過程中只需要按照一般的過程進(jìn)行反向傳播碌秸,然后再將對(duì)應(yīng)的共享參數(shù)取均值即可绍移。具體的過程如下圖所示:

卷積 v.s. 全連接

三、 卷積網(wǎng)絡(luò)中的channel(通道)

??對(duì)于輸入樣本中 channels 的含義讥电。一般的RGB圖片蹂窖,channels 數(shù)量是 3 (紅、綠恩敌、藍(lán))瞬测;而monochrome(單色)圖片,channels 數(shù)量是 1 纠炮。
??舉個(gè)例子月趟,如下圖,假設(shè)現(xiàn)有一個(gè)為 6×6×3 的圖片樣本恢口,使用 3×3×3 的卷積核(filter)進(jìn)行卷積操作孝宗。此時(shí)輸入圖片的 channels 為 3 ,而卷積核中的 in_channels 與 需要進(jìn)行卷積操作的數(shù)據(jù)的 channels 一致(這里就是圖片樣本耕肩,為3)因妇,注意每個(gè)卷積核的channels(也就是in_channels)一定是與圖片的channels一致,因?yàn)閳D片的每一個(gè)channel都會(huì)分別于卷積核中對(duì)應(yīng)的channel進(jìn)行卷積操作猿诸。

RGB圖片的卷積

??接下來婚被,進(jìn)行卷積操作,卷積核中的27個(gè)數(shù)字與分別與樣本對(duì)應(yīng)相乘后梳虽,再進(jìn)行求和摔寨,得到第一個(gè)結(jié)果。依次進(jìn)行怖辆,最終得到4×4的結(jié)果是复。

RGB圖片的卷積

??上面步驟完成后删顶,由于只有一個(gè)卷積核,所以最終得到的結(jié)果為 4×4×1 淑廊, out_channels 為 1 逗余。在實(shí)際應(yīng)用中,都會(huì)使用多個(gè)卷積核季惩。這里如果再加一個(gè)卷積核录粱,就會(huì)得到 4×4×2 的結(jié)果,因此卷積核的數(shù)量也就是out_channels画拾,即該卷積層輸出的feature map的channel數(shù)啥繁。

多卷積核

??總結(jié)一下,上面提到的 channels 可以分為三種:
??(1)最初輸入的圖片樣本的 channels 青抛,取決于圖片類型旗闽,比如RGB;
??(2)卷積操作完成后輸出的 out_channels 蜜另,取決于卷積核的數(shù)量适室。此時(shí)的 out_channels 也會(huì)作為下一次卷積時(shí)的卷積核的 in_channels;
??(3)卷積核中的 in_channels 举瑰,剛剛(2)中已經(jīng)說了捣辆,就是上一次卷積的 out_channels ,如果是第一次做卷積此迅,就是(1)中樣本圖片channels汽畴。

四、卷積網(wǎng)絡(luò)學(xué)到了什么(可視化)

??以下圖網(wǎng)絡(luò)結(jié)構(gòu)為例:

網(wǎng)絡(luò)結(jié)構(gòu)

4.1 卷積核學(xué)到了什么

??定義第k個(gè)卷積核的激活度:

卷積核的激活度

??每個(gè)卷積核負(fù)責(zé)偵測(cè)圖像中的一種pattern耸序,激活度越高說明圖像中出現(xiàn)越多的這種pattern忍些。在訓(xùn)練模型完成以后,將激活度看做因變量佑吝,圖像看做自變量坐昙,通過極大化激活度而得到的圖像即是該卷積核所偵測(cè)的pattern,也就實(shí)現(xiàn)了一個(gè)可視化的過程芋忿。具體過程如下所示:

可視化

??這里列出12個(gè)卷積核求解得到的結(jié)果炸客,可以看到每個(gè)卷積核都會(huì)偵測(cè)一種pattern。

4.2 全連接隱藏層神經(jīng)元學(xué)到了什么

全連接隱藏層

??將神經(jīng)元的輸出看做因變量做同樣的最優(yōu)化過程得到結(jié)果戈钢,從上圖中可以看出與卷積核只偵測(cè)小的pattern不同痹仙,全連接隱藏層的神經(jīng)元會(huì)看到整張圖像的特征。

4.3 輸出層神經(jīng)元學(xué)到了什么

輸出層

??上圖為使用CNN對(duì)手寫體數(shù)字識(shí)別數(shù)據(jù)集訓(xùn)練出來的網(wǎng)絡(luò)結(jié)構(gòu)的輸出層可視化的結(jié)果殉了,可以看到得到的結(jié)果并非類似數(shù)字的圖像开仰,可見機(jī)器和人識(shí)別圖像的方式是不一樣的。將輸出層節(jié)點(diǎn)的值進(jìn)行L1正則化然后再看求解得到的結(jié)果就可以隱約看出數(shù)字的特征了:

正則化

五、卷積網(wǎng)絡(luò)應(yīng)用

5.1 Deep Dream

??Deep Dream不修改參數(shù)众弓,而是修改輸入圖像恩溅,生成一些奇特的圖像。

Deep Dream效果

5.2 Deep Style

Deep Style效果

??其實(shí)現(xiàn)的大體原理如下:

Deep Style

??保留左邊圖片卷積核的輸出值谓娃,輸出值代表了圖片的內(nèi)容脚乡;保留右邊圖片卷積核之間的相關(guān)性(corelation),相關(guān)性代表了圖片的風(fēng)格滨达,然后進(jìn)行最優(yōu)化(maximum)奶稠,最終就會(huì)得到右圖風(fēng)格的左圖,效果如下:

效果

5.3 下圍棋(Alpha Go)

??使用神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)下一步棋的位置時(shí)捡遍,網(wǎng)絡(luò)的輸入是當(dāng)前的棋盤的狀態(tài)(shape:19 * 19锌订,黑子:1,白字:-1画株,空:0)辆飘,輸出下一步的位置。
??解決這個(gè)問題既可以使用全連接網(wǎng)絡(luò)污秆,也可以使用CNN劈猪,但是CNN效果更好昧甘,這是因?yàn)橄聡宓膯栴}符合一中介紹的選擇CNN的理由:

  • 通過圍棋的特點(diǎn)可以知道良拼,只需要偵測(cè)棋盤上一些小的pattern就可以進(jìn)行識(shí)別。
  • 這些小的pattern可能存在于棋盤的不同位置(指可能存在于棋盤的左上角或中間等位置)充边。
    :由于棋盤不同于圖片庸推,圖片進(jìn)行降采樣以后仍然可以識(shí)別特征而圍棋棋盤不可以,所以Alpha Go所使用的的CNN架構(gòu)中沒有池化層浇冰。)
    ??下圖為該應(yīng)用的原理:
原理

5.4 語音辨識(shí)

語音辨識(shí)

??卷積核只在Frequency方向上移動(dòng)贬媒,這是因?yàn)樵跁r(shí)間上移動(dòng)卷積核意義不大,比如同樣說“你好”肘习,男女的聲音很可能只是在Frequency上有差別际乘。

5.5 文本識(shí)別

文本識(shí)別

??同樣的卷積核只橫向移動(dòng),這是因?yàn)槊總€(gè)詞向量的不同維度之間是獨(dú)立的漂佩。因此在CNN的實(shí)際應(yīng)用中要根據(jù)實(shí)際情況選擇卷積核的移動(dòng)方式脖含。

參考資料

ref:理解CNN中的通道 channel
ref:深度卷積神經(jīng)網(wǎng)絡(luò)圖像風(fēng)格變換 Deep Photo Style Transfer

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市投蝉,隨后出現(xiàn)的幾起案子养葵,更是在濱河造成了極大的恐慌,老刑警劉巖瘩缆,帶你破解...
    沈念sama閱讀 211,194評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件关拒,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)着绊,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門谐算,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人归露,你說我怎么就攤上這事氯夷。” “怎么了靶擦?”我有些...
    開封第一講書人閱讀 156,780評(píng)論 0 346
  • 文/不壞的土叔 我叫張陵腮考,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我玄捕,道長(zhǎng)踩蔚,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,388評(píng)論 1 283
  • 正文 為了忘掉前任枚粘,我火速辦了婚禮馅闽,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘馍迄。我一直安慰自己福也,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,430評(píng)論 5 384
  • 文/花漫 我一把揭開白布攀圈。 她就那樣靜靜地躺著暴凑,像睡著了一般。 火紅的嫁衣襯著肌膚如雪赘来。 梳的紋絲不亂的頭發(fā)上现喳,一...
    開封第一講書人閱讀 49,764評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音犬辰,去河邊找鬼嗦篱。 笑死,一個(gè)胖子當(dāng)著我的面吹牛幌缝,可吹牛的內(nèi)容都是我干的灸促。 我是一名探鬼主播,決...
    沈念sama閱讀 38,907評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼涵卵,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼浴栽!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起缘厢,我...
    開封第一講書人閱讀 37,679評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤吃度,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后贴硫,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體椿每,經(jīng)...
    沈念sama閱讀 44,122評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡伊者,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,459評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了间护。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片亦渗。...
    茶點(diǎn)故事閱讀 38,605評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖汁尺,靈堂內(nèi)的尸體忽然破棺而出法精,到底是詐尸還是另有隱情,我是刑警寧澤痴突,帶...
    沈念sama閱讀 34,270評(píng)論 4 329
  • 正文 年R本政府宣布搂蜓,位于F島的核電站,受9級(jí)特大地震影響辽装,放射性物質(zhì)發(fā)生泄漏帮碰。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,867評(píng)論 3 312
  • 文/蒙蒙 一拾积、第九天 我趴在偏房一處隱蔽的房頂上張望殉挽。 院中可真熱鬧,春花似錦拓巧、人聲如沸斯碌。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽傻唾。三九已至,卻和暖如春贤斜,著一層夾襖步出監(jiān)牢的瞬間策吠,已是汗流浹背逛裤。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評(píng)論 1 265
  • 我被黑心中介騙來泰國(guó)打工瘩绒, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人带族。 一個(gè)月前我還...
    沈念sama閱讀 46,297評(píng)論 2 360
  • 正文 我出身青樓锁荔,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親蝙砌。 傳聞我的和親對(duì)象是個(gè)殘疾皇子阳堕,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,472評(píng)論 2 348