這一章主要是講深度學(xué)習(xí)迅诬,首先介紹了卷積神經(jīng)網(wǎng)絡(luò)的概念蓝翰。在之前的章節(jié)中我們的神經(jīng)網(wǎng)絡(luò)每一層的每一個神經(jīng)元都是和前面一層的所有神經(jīng)元相連,這樣的結(jié)構(gòu)叫全連接層洼冻,這樣也使得我們的網(wǎng)絡(luò)參數(shù)比較多宣虾。但實際上惯裕,這樣的結(jié)構(gòu)可能是有些冗余的。我們?nèi)祟愐R別圖片中的一只貓绣硝,實際上只需要根據(jù)某一個局部的特征就能夠識別出來蜻势,而不需要關(guān)注一張圖片的所有像素。因此鹉胖,如果能提取這樣的局部特征握玛,那么應(yīng)該會提高識別的效率够傍。卷積神經(jīng)網(wǎng)絡(luò)就是這樣一個提取局部特征的工具。(關(guān)于卷積神經(jīng)網(wǎng)絡(luò)這個術(shù)語的由來挠铲,卷積網(wǎng)絡(luò)的提出者之一Yann LeCun認(rèn)為卷積網(wǎng)絡(luò)受神經(jīng)網(wǎng)絡(luò)的啟發(fā)很少冕屯,因此它喜歡叫卷積網(wǎng)絡(luò)而不是卷積神經(jīng)網(wǎng)絡(luò))
卷積神經(jīng)網(wǎng)絡(luò)的基本思想有三個,分別是局部接受域拂苹,共享權(quán)重安聘,和pooling。
局部接受域是指下一層網(wǎng)絡(luò)中的神經(jīng)元只與上一層中的局部神經(jīng)元相連瓢棒,而不是全連接搞挣,如下圖所示:
上圖中,輸入神經(jīng)元中的5*5的區(qū)域我們可以稱之為窗音羞,第一隱層的神經(jīng)元就是由這個窗在輸入層上不斷滑動得到的。如果滑動是沿著兩個方向仓犬,如上圖所示嗅绰,就叫做二維卷積,如果滑動是沿著一個方向搀继,則叫一維卷積窘面。
共享權(quán)重(和偏差):上面的每個窗對應(yīng)著一組權(quán)重,而共享權(quán)重就是說這些窗的權(quán)重都是一樣的叽躯,這也意味著第一隱層的神經(jīng)元所檢測的都是同一類特征财边,只是不同位置。共享權(quán)重的意義在于点骑,一是減少了參數(shù)數(shù)量酣难,二是也對應(yīng)于圖片的平移不變性,一張貓的圖片黑滴,平移幾個像素憨募,仍然還是貓,共享權(quán)重這種不考慮區(qū)域差異的設(shè)計袁辈,可以滿足平移不變性的需求菜谣。
上面的窗實際上也可以叫卷積核,而經(jīng)過卷積核處理得到的新一層神經(jīng)元可以稱之為特征圖晚缩。如果想檢測多個特征尾膊,則可以使用多個卷積核,得到多個特征圖荞彼,在基于這些特征圖進(jìn)行下一層傳播的時候冈敛,又可以選取新的卷積核,但是卷積核的厚度(除二維卷積核的長寬以外的另一維度)可能就不為1了卿泽,但是卷積過程是相似的莺债,對應(yīng)元素相乘再疊加即可滋觉。
在卷積層以外常常要加上Pooling層,這一層的作用是類似于抽樣齐邦,即在卷積層得到的結(jié)果中每一個小區(qū)域選出一個代表元素組成一個新的圖椎侠,其他的元素則不再考慮。這樣做的意義是減少需要處理的數(shù)據(jù)量措拇,同時又能保證一定的效果我纪,畢竟真正有用的元素有可能出現(xiàn)在一個局部區(qū)域里的不同位置點中,我們只需要把它們提取出來就行了丐吓。常用的pooling方法是max pooling浅悉,即選出某一個局部區(qū)域中的元素最大值組成新的特征圖。
而在設(shè)置完了卷積層和pooling層后券犁,在輸出層之前术健,往往會再加上一個全連接層,從而使得輸出的結(jié)果可以利用盡量多的特征進(jìn)行判斷粘衬。
其他深度神經(jīng)網(wǎng)絡(luò)方法
除深度卷積神經(jīng)網(wǎng)絡(luò)外荞估,還有其他種類的深度網(wǎng)絡(luò),包括:
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN):在前饋網(wǎng)絡(luò)中神經(jīng)元的激活只取決于一個靜態(tài)單輸入稚新,即神經(jīng)網(wǎng)絡(luò)中的所有東西都是靜態(tài)的勘伺。但實際上某一個神經(jīng)元的激活不一定只取決于它前面層的激活值,也可能取決于時間上更早的激活值(比如兩幅圖片連續(xù)輸入褂删,從靜態(tài)卷積神經(jīng)網(wǎng)絡(luò)看來飞醉,每一次每個神經(jīng)元的激活值都只和當(dāng)前這張圖片有關(guān),但實際上有可能與上一張圖片的某些激活值有關(guān)屯阀。)
RNN的一個作用是使得神經(jīng)網(wǎng)絡(luò)更像算法傳統(tǒng)的思維方式缅帘,即從順序的角度去看待問題,先解決什么蹲盘,再解決什么股毫,最后得到答案,因此RNN可以用來制造神經(jīng)圖靈機召衔,可以用來推斷排序或者復(fù)制算法铃诬。
長短時記憶網(wǎng)絡(luò)(LSTM):RNN面臨的一個挑戰(zhàn)是非常難訓(xùn)練,甚至比深度前饋網(wǎng)絡(luò)還難苍凛。原因是RNN中梯度不僅在空間上反向傳播趣席,而且在時間上反向傳播,因此梯度消失或爆炸的現(xiàn)象會更明顯醇蝴。而長短時記憶單元則可以用來解決這個問題宣肚。
深度信念網(wǎng)絡(luò)、生成模型和玻爾茲曼機:當(dāng)代對于深度學(xué)習(xí)的興趣其實起源于2006年關(guān)于深度信念網(wǎng)絡(luò)(DBN)的一些論文悠栓。盡管近年來其熱度因為前饋網(wǎng)絡(luò)和循環(huán)網(wǎng)絡(luò)的流行有所降低霉涨,但它仍然是一個很有趣的工具按价。一個原因是它是生成模型的一個例子。在一般前饋網(wǎng)絡(luò)中笙瑟,我們有一個輸入楼镐,然后在不同隱層得到輸出。而在DBN中往枷,我們可以設(shè)置某些中間神經(jīng)元的值然后反向傳播框产,生成輸入值。即如果我們訓(xùn)練一個用于手寫字母識別的DBN错洁,則它也可以用來生成手寫字母秉宿。這意味著我們的神經(jīng)網(wǎng)絡(luò)不但可以“讀”圖片,也可以“寫”圖片了屯碴。另一個使DBN有趣的原因是它可以做無監(jiān)督或半監(jiān)督學(xué)習(xí)描睦,即可以不需要標(biāo)簽即可理解圖像。
另外一篇有趣的論文是利用深度卷積網(wǎng)絡(luò)+強化學(xué)習(xí)來玩游戲导而。想法是用深度卷積網(wǎng)絡(luò)來簡化屏幕中的像素數(shù)據(jù)酌摇,把它們變成簡單的特征集,然后用于決定策略嗡载。這篇論文被冠名為Playing Atari with Reinforcement Learning,取得了很好的市場效果仍稀。
關(guān)于神經(jīng)網(wǎng)絡(luò)的未來
神經(jīng)網(wǎng)絡(luò)(或者說機器學(xué)習(xí))的未來是什么樣的洼滚?作者可能會從這三個方向發(fā)展:
Intention-driven user interface:簡單地說就是類似搜索引擎可以更準(zhǔn)確地知道你想搜什么。
Machine learning技潘,data science遥巴,and the virtuous circle of innovation:機器學(xué)習(xí)也可以用于數(shù)據(jù)科學(xué),來尋找數(shù)據(jù)中潛藏的規(guī)律享幽。作者認(rèn)為在未來機器學(xué)習(xí)的大突破可能不是新概念的產(chǎn)生铲掐,而是機器學(xué)習(xí)技術(shù)可以變得可獲利,創(chuàng)造新的市場值桩。
The role of neural networks and deep learning:作者做了一個預(yù)測摆霉,他認(rèn)為深度學(xué)習(xí)將始終存在,因為深度學(xué)習(xí)所代表的學(xué)習(xí)層級概念奔坟,建立多層抽象的方法携栋,似乎是理解這個世界的基本方式。但這并不代表深度學(xué)習(xí)的方法不會發(fā)生根本性改變咳秉。也許以后我們不再用神經(jīng)網(wǎng)絡(luò)了婉支,但是深度學(xué)習(xí)始終存在。
Will neural networks and deep learning soon lead to artificial intelligence澜建?或者說向挖,深度學(xué)習(xí)是否可以幫助解決通用人工智能的問題蝌以?這是一個很難回答的問題,作者在這里引用了一個定理來回答這個問題何之,即Conway's Law:
“設(shè)計一個系統(tǒng)的組織跟畅,會不可避免地設(shè)計一套與自身交流結(jié)構(gòu)相似的系統(tǒng)”
想象波音客機的制造過程,最終我們會發(fā)現(xiàn)帝美,波音客機是怎么組成的碍彭,那么制造商的結(jié)構(gòu)就應(yīng)該是怎樣的(因為每個制造商負(fù)責(zé)其中一個部件)。醫(yī)學(xué)的發(fā)展也是如此悼潭,從最初的零星發(fā)現(xiàn)庇忌,到如今形成一門龐大的學(xué)科,具有多種分支舰褪,這反過來也說明了醫(yī)學(xué)本身的復(fù)雜性皆疹,在這樣的復(fù)雜性下,醫(yī)學(xué)才能取得今天的成就占拍。反觀目前的深度學(xué)習(xí)研究略就,似乎還屬于一個相對壟斷的領(lǐng)域,有零星的幾個研究領(lǐng)域晃酒,根據(jù)Conway‘s Law表牢,這可能意味著我們對深度學(xué)習(xí)的了解還遠(yuǎn)遠(yuǎn)不夠。而要怎樣才算夠了贝次?目前還沒人知道崔兴。