現(xiàn)在開始提提深度學(xué)習(xí)吧背犯。實(shí)際上漠魏,正如最初一篇里面神經(jīng)網(wǎng)絡(luò)歷史里面提到的柱锹,神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)很多理論都是上世紀(jì)的東西了禁熏。
深度學(xué)習(xí)瞧毙,如它的名字宙彪,就是把之前說的神經(jīng)網(wǎng)絡(luò)的深度加深释漆,層數(shù)變多男图,結(jié)果卻獲得了出乎意料的效果逊笆。
特別是览露,自2012年在 ImageNet 競(jìng)賽中取得驚人成功后,立刻引發(fā)了一波浪潮堰乔,直到現(xiàn)在還在繼續(xù)著镐侯。
這里能講的韵卤,就是一些和淺層網(wǎng)絡(luò)比深度網(wǎng)絡(luò)會(huì)有那些優(yōu)點(diǎn)沈条,缺點(diǎn),還有哪些應(yīng)用诅炉。因?yàn)槔酰緛砩疃葘W(xué)習(xí)就是有很多噱頭在里面。
先稍微簡(jiǎn)單補(bǔ)充點(diǎn)涕烧,之前神經(jīng)網(wǎng)絡(luò)訓(xùn)練的一些技巧吧月而。
之前提到,用反向傳播算法來訓(xùn)練神經(jīng)網(wǎng)絡(luò)议纯。然而實(shí)際上父款,真的直接這樣用就可以嗎。
答案當(dāng)然是否。反向傳播雖然很厲害禀苦,但還不是萬金油拜效,還得有很多小伙伴的幫組浓恶,才能讓深層網(wǎng)絡(luò)成為萬金油炕吸。
這些小伙伴們包括树肃,正則化 (Regularization)、正規(guī)化 (Normalization)、初始化 (Initialization)、模型選擇 (包括網(wǎng)格搜索和隨機(jī)搜索來選各種參數(shù))屋群、什么時(shí)候停止訓(xùn)練 (停止法 Early Stopping)、 動(dòng)量 (Momentum)溺欧、各種優(yōu)化器(Adagrad, RMSProp, Adam)等等聂使。
以上各種方法的目的,無非兩個(gè),第一炬转,使得訓(xùn)練出來的網(wǎng)絡(luò)處理新數(shù)據(jù)時(shí)有更好的準(zhǔn)確率菲驴,高泛化性(很好地處理新數(shù)據(jù))先煎;第二褒侧,讓訓(xùn)練速度更加快。
深度學(xué)習(xí)為什么得以爆發(fā)
最近在吳教授的課上看到的疑俭,就直接拿來用吧懒浮。如圖 (有時(shí)候,看到字和我一樣丑的牛人時(shí)冠王,就會(huì)有種原來我不是一個(gè)人在戰(zhàn)斗的莫名安全感)绒疗。
這張圖上磨镶,主要其實(shí)說的就是目前深度學(xué)習(xí)的爆發(fā),很大程度上是因?yàn)閿?shù)據(jù)的增多统刮。也就是匀奏,因?yàn)槟壳拔覀兩罡鞣矫娴臄?shù)字化,還有各種廉價(jià)攝像頭、傳感器等等帶給我們的大數(shù)據(jù)時(shí)代。
而數(shù)據(jù)以外還有就是,深度學(xué)習(xí)的研究開發(fā)速度的增加,首先是因?yàn)楦鞣N硬件方面計(jì)算能力的提升 (超級(jí)計(jì)算機(jī)外厂、GPU、TPU什么的),還有軟件方面的算法也加快了訓(xùn)練開發(fā)速度帕棉。這導(dǎo)致的是一個(gè)握恳,從想法到代碼再到實(shí)驗(yàn),越來越快的迭代拔稳。而現(xiàn)在更是有各種想要讓計(jì)算機(jī)自己訓(xùn)練迭代的研究采记,這導(dǎo)致的結(jié)果無法想象。
所以,現(xiàn)在我們看到的就是一個(gè)不停向前竟贯,越滾越快越大的雪球一樣沃琅,同時(shí)它帶來著強(qiáng)大的沖擊年碘。
深度學(xué)習(xí)(Deep Learning)與人腦視覺系統(tǒng)
目前,深度學(xué)習(xí)最主要的一大領(lǐng)域就是剧罩,計(jì)算機(jī)視覺。
所以這里,我們可以試著用人類的視覺系統(tǒng)扑毡,來類比一個(gè)用于視覺處理的深度學(xué)習(xí)網(wǎng)絡(luò)鹤啡。
人類的視覺系統(tǒng),從最初的視網(wǎng)膜接受光信號(hào)開始几颜,獲得刺激躁愿。而視網(wǎng)膜主要是由三種視錐細(xì)胞組成云挟,在這里我們可以把每個(gè)光信號(hào)接受器狮暑,當(dāng)做是一張圖片中一個(gè)個(gè)的像素 (pixel)。然后敦冬,這些像素信號(hào)向上傳遞給更高的視覺系統(tǒng)層萌庆,這里面如圖彭则,在40-60毫秒的時(shí)候到達(dá)V1層凛捏,在這里,這些像素會(huì)被組合成最基礎(chǔ)的視覺特征奶镶,比如說線條、角之類。
之后這些基礎(chǔ)特征信號(hào)旦委,繼續(xù)傳遞給上層視覺系統(tǒng)V2、V4身弊,在那里這些初級(jí)的視覺特征被組合成更高級(jí)的特征,比如形狀壮莹、紋理诈唬。在這個(gè)例子中八酒,初級(jí)特征組合成基本部位,比如說眼睛与殃、鼻子、和嘴巴悴晰。
最后,這些部位特征再往上到達(dá)PIT和AIT層泪喊,組合成更加復(fù)雜的視覺特征蚓再,于是眼睛娃属、嘴、還有鼻子等組合成了一張臉。
接著就是盖奈,將這個(gè)高級(jí)信號(hào)傳給腦中更高級(jí)的決策系統(tǒng)混坞,腦袋中的決策系統(tǒng)根據(jù)得到的高級(jí)信號(hào)作出決策,比如說辨認(rèn)出是什么東西钢坦,如何對(duì)其作出反應(yīng)究孕。
所以,深度網(wǎng)絡(luò)爹凹,特別是卷積網(wǎng)絡(luò) (CNN)厨诸,也可以看做如這里的視覺系統(tǒng)一樣,有很多很多層逛万,在淺層捕捉到初級(jí)特征泳猬,然后隨著深度加深,慢慢組合成高級(jí)特征宇植,最后傳遞給決策系統(tǒng)得封,作出判斷和分類。
為什么深度學(xué)習(xí)更有效
根據(jù)之前提過的指郁,通用逼近原理 (Universal Approximation Theorem)忙上,單層神經(jīng)網(wǎng)絡(luò)理論上就可以模擬所有的連續(xù)函數(shù)了。
那為什么我們還要深層網(wǎng)絡(luò)呢闲坎?
答案是疫粥,用深層結(jié)構(gòu),我們可以用比單層網(wǎng)絡(luò)更加簡(jiǎn)潔的方式來表示某個(gè)特定函數(shù)腰懂。在神經(jīng)網(wǎng)絡(luò)中梗逮,也就是用更加少的神經(jīng)元,表示更復(fù)雜的函數(shù)绣溜。
單層網(wǎng)絡(luò)的話慷彤,若想要表示一個(gè)更為復(fù)雜的函數(shù)時(shí),比如復(fù)雜的布爾函數(shù)怖喻,那么我們要增加的神經(jīng)元個(gè)數(shù)是指數(shù)級(jí)的底哗。也就是
而用深層網(wǎng)絡(luò)的話,在同樣情況下锚沸,只需要增加多項(xiàng)式級(jí)的神經(jīng)元數(shù)量跋选。也就是等式右邊變?yōu)?/p>
而當(dāng)x越來越大的時(shí)候,指數(shù)級(jí)和多項(xiàng)式級(jí)的差也會(huì)越來越大哗蜈,這里指數(shù)級(jí)要更大前标。平常大家也喜歡說指數(shù)級(jí)增長(zhǎng)云云坠韩。
于是利用深層網(wǎng)絡(luò)來表示一個(gè)復(fù)雜函數(shù)的時(shí)候,我們可以用更少的神經(jīng)元候生,也就是更少的參數(shù)了同眯。
深度學(xué)習(xí)一些成功應(yīng)用
深度學(xué)習(xí)最先,也是最主要的成功應(yīng)用是語音識(shí)別唯鸭、計(jì)算機(jī)視覺须蜗,還有自然語言處理這三大快了。
語音識(shí)別:
中國(guó)在這一塊做得很棒目溉,比如說科大訊飛的語音平臺(tái)明肮,還有阿里/百度的語音識(shí)別平臺(tái)。
其實(shí)如果用過科大訊飛的訊飛輸入法或是語記平臺(tái)的話缭付,是可以體會(huì)到它準(zhǔn)確的識(shí)別能力的∈凉溃現(xiàn)在最好的系統(tǒng)準(zhǔn)確率,已經(jīng)很接近人了陷猫。而且秫舌,各大實(shí)驗(yàn)室也都還在研究在嘈雜環(huán)境下的語音識(shí)別,還有就是對(duì)各種方言的識(shí)別绣檬,不管你是操著什么口語都能夠識(shí)別出來足陨。
計(jì)算機(jī)視覺:
計(jì)算機(jī)視覺這方面的應(yīng)用那就更是數(shù)不勝數(shù)了。就比如大家都玩得特別嗨的Faceu 激萌這樣的應(yīng)用娇未,以及如Prism這樣的圖片風(fēng)格遷移應(yīng)用墨缘,而更加商業(yè)級(jí)的就如商湯科技的人臉識(shí)別,還有各大電商的以圖搜圖等等零抬。
其實(shí)目前深度學(xué)習(xí)研究領(lǐng)域镊讼,最大的一塊應(yīng)該就是計(jì)算機(jī)視覺領(lǐng)域了。
自然語言處理:
自然語言處理的話平夜,實(shí)際很多還沒有做到像上面兩個(gè)應(yīng)用那么厲害蝶棋。也就是說已經(jīng)接近人, 甚至達(dá)到超過人的水平了忽妒。
畢竟語言是我們?nèi)祟愅嫒梗钪匾矌缀蹩梢哉f是獨(dú)有的一個(gè)技能了。
這方面的應(yīng)用锰扶,比如谷歌翻譯,還有各種問答系統(tǒng)(Siri寝受,小冰坷牛,Alex之類),聊天機(jī)器人很澄。
特別是谷歌翻譯京闰,中英文翻譯真的是做得很厲害了⊙占埃現(xiàn)在很多時(shí)候都是直接用谷歌翻譯翻好底稿,然后自己在上面改蹂楣。再把這個(gè)和幾年前比比俏站,真的是天壤之別,還記得那個(gè)時(shí)候大家最喜歡干的就是調(diào)戲谷姐了痊土。
還有如果用過最近的谷歌翻譯手機(jī)應(yīng)用的話肄扎,里面有個(gè)結(jié)合和視覺處理的,直接在視頻里面替換翻譯文字的功能赁酝,真的是感覺碉堡了犯祠。
而各種聊天機(jī)器人或是問答系統(tǒng),大家的體驗(yàn)我也不用說了酌呆。相信也能夠體驗(yàn)到衡载,還有很多地方做得并不是很好。