深度學(xué)習(xí)的發(fā)展歷程
作為機(jī)器學(xué)習(xí)最重要的一個分支琅豆,深度學(xué)習(xí)近年來發(fā)展迅猛衡载,在國內(nèi)外都引起了廣泛的關(guān)注。然而深度學(xué)習(xí)的火熱也不是一時興起的费彼,而是經(jīng)歷了一段漫長的發(fā)展史滑臊。接下來我們簡單了解一下深度學(xué)習(xí)的發(fā)展歷程。
深度學(xué)習(xí)的起源階段
1943年箍铲,心里學(xué)家麥卡洛克和數(shù)學(xué)邏輯學(xué)家皮茲發(fā)表論文《神經(jīng)活動中內(nèi)在思想的邏輯演算》[1]雇卷,提出了MP模型。MP模型是模仿神經(jīng)元的結(jié)構(gòu)和工作原理颠猴,構(gòu)成出的一個基于神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型关划,本質(zhì)上是一種“模擬人類大腦”的神經(jīng)元模型(這里有必要說明的是,我們說的模仿其實(shí)更準(zhǔn)確的說法應(yīng)該是參考翘瓮,計算機(jī)領(lǐng)域的“人工神經(jīng)網(wǎng)絡(luò)”的確是受到生物學(xué)上的“神經(jīng)網(wǎng)絡(luò)”的啟發(fā)贮折,但是兩者相差萬里,沒有直接的可比性资盅。)脱货。MP模型作為人工神經(jīng)網(wǎng)絡(luò)的起源,開創(chuàng)了人工神經(jīng)網(wǎng)絡(luò)的新時代律姨,也奠定了神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)振峻。
1949年,加拿大著名心理學(xué)家唐納德·赫布在《行為的組織》中提出了一種基于無監(jiān)督學(xué)習(xí)的規(guī)則——海布學(xué)習(xí)規(guī)則(Hebb Rule)[2]择份。海布規(guī)則模仿人類認(rèn)知世界的過程建立一種“網(wǎng)絡(luò)模型”扣孟,該網(wǎng)絡(luò)模型針對訓(xùn)練集進(jìn)行大量的訓(xùn)練并提取訓(xùn)練集的統(tǒng)計特征,然后按照樣本的相似程度進(jìn)行分類荣赶,把相互之間聯(lián)系密切的樣本分為一類凤价,這樣就把樣本分成了若干類。海布學(xué)習(xí)規(guī)則與“條件反射”機(jī)理一致拔创,為以后的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法奠定了基礎(chǔ)利诺,具有重大的歷史意義。
20世紀(jì)50年代末剩燥,在MP模型和海布學(xué)習(xí)規(guī)則的研究基礎(chǔ)上慢逾,美國科學(xué)家羅森布拉特發(fā)現(xiàn)了一種類似于人類學(xué)習(xí)過程的學(xué)習(xí)算法——感知機(jī)學(xué)習(xí)[3]。并于1958年灭红,正式提出了由兩層神經(jīng)元組成的神經(jīng)網(wǎng)絡(luò)侣滩,稱之為“感知器”。感知器本質(zhì)上是一種線性模型变擒,可以對輸入的訓(xùn)練集數(shù)據(jù)進(jìn)行二分類君珠,且能夠在訓(xùn)練集中自動更新權(quán)值。感知器的提出吸引了大量科學(xué)家對人工神經(jīng)網(wǎng)絡(luò)研究的興趣娇斑,對神經(jīng)網(wǎng)絡(luò)的發(fā)展具有里程碑式的意義策添。
但隨著研究的深入材部,人們發(fā)現(xiàn)了感知器模型所存在的不足,它甚至無法解決最簡單的線性不可分問題(例如異或問題)唯竹。由于這一不足以及沒有及時推廣感知器到多層神經(jīng)網(wǎng)絡(luò)中乐导,在20世紀(jì)70年代,人工神經(jīng)網(wǎng)絡(luò)進(jìn)入了第一個寒冬期摩窃,人工神經(jīng)網(wǎng)絡(luò)的發(fā)展也受到了很大的阻礙甚至質(zhì)疑。
深度學(xué)習(xí)的發(fā)展階段
1982年芬骄,著名物理學(xué)家約翰·霍普菲爾德發(fā)明了Hopfield神經(jīng)網(wǎng)絡(luò)猾愿。Hopfield神經(jīng)網(wǎng)絡(luò)是一種結(jié)合存儲系統(tǒng)和二元系統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)。Hopfield網(wǎng)絡(luò)也可以模擬人類的記憶账阻,根據(jù)激活函數(shù)的選取不同蒂秘,有連續(xù)型和離散型兩種類型,分別用于優(yōu)化計算和聯(lián)想記憶淘太。但由于容易陷入局部最小值的缺陷姻僧,該算法并未在當(dāng)時引起很大的轟動。
直到1986年蒲牧,深度學(xué)習(xí)之父杰弗里·辛頓提出了一種適用于多層感知器的反向傳播算法——BP算法[3]撇贺。BP算法在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)正向傳播的基礎(chǔ)上,增加了誤差的反向傳播過程冰抢。反向傳播過程不斷地調(diào)整神經(jīng)元之間的權(quán)值和閾值松嘶,直到輸出的誤差達(dá)到減小到允許的范圍之內(nèi),或達(dá)到預(yù)先設(shè)定的訓(xùn)練次數(shù)為止挎扰。BP算法解決了非線性分類問題翠订,讓人工神經(jīng)網(wǎng)絡(luò)再次引起了人們廣泛的關(guān)注。
但是由于八十年代計算機(jī)的硬件水平有限遵倦,運(yùn)算能力跟不上尽超,以及當(dāng)神經(jīng)網(wǎng)絡(luò)的層數(shù)增加時,BP算法會出現(xiàn)“梯度消失”的問題等等梧躺。這使得BP算法的發(fā)展受到了很大的限制似谁。再加上90年代中期,以SVM為代表的其它淺層機(jī)器學(xué)習(xí)算法被提出掠哥,并在分類棘脐、回歸問題上均取得了很好的效果,其原理相較于神經(jīng)網(wǎng)絡(luò)模型具有更好的可解釋性龙致,所以人工神經(jīng)網(wǎng)絡(luò)的發(fā)展再次進(jìn)入了瓶頸期蛀缝。
深度學(xué)習(xí)的爆發(fā)階段
2006年,杰弗里·辛頓以及他的學(xué)生魯斯蘭·薩拉赫丁諾夫正式提出了深度學(xué)習(xí)的概念目代。他們在世界頂級學(xué)術(shù)期刊《Science》發(fā)表的一篇文章中詳細(xì)的給出了“梯度消失”問題的解決方案——通過無監(jiān)督的學(xué)習(xí)方法逐層訓(xùn)練算法[4]屈梁,再使用有監(jiān)督的反向傳播算法進(jìn)行調(diào)優(yōu)嗤练。該深度學(xué)習(xí)方法的提出,立即在學(xué)術(shù)圈引起了巨大的反響在讶,以斯坦福大學(xué)煞抬、多倫多大學(xué)為代表的眾多世界知名高校紛紛投入巨大的人力、財力進(jìn)行深度學(xué)習(xí)領(lǐng)域的相關(guān)研究构哺,而后又迅速蔓延到工業(yè)界中革答。
2012年,在著名的ImageNet圖像識別大賽中曙强,杰弗里·辛頓領(lǐng)導(dǎo)的小組采用深度學(xué)習(xí)模型AlexNet一舉奪冠[5]残拐。AlexNet采用ReLU激活函數(shù),極大程度上上解決了梯度消失問題碟嘴,并采用GPU極大的提高了模型的運(yùn)算速度溪食。同年,由斯坦福大學(xué)著名的吳恩達(dá)教授和世界頂尖計算機(jī)專家Jeff Dean共同主導(dǎo)的深度神經(jīng)網(wǎng)絡(luò)——DNN技術(shù)在圖像識別領(lǐng)域取得了驚人的成績娜扇,在ImageNet評測中成功的把錯誤率從26%降低到了15%错沃。深度學(xué)習(xí)技術(shù)在世界大賽的脫穎而出,又進(jìn)一步吸引了學(xué)術(shù)界和工業(yè)界對于深度學(xué)習(xí)領(lǐng)域的關(guān)注雀瓢。
隨著深度學(xué)習(xí)技術(shù)的不斷進(jìn)步以及計算機(jī)硬件算力的不斷提升枢析,2014年,F(xiàn)acebook基于深度學(xué)習(xí)技術(shù)的DeepFace項目刃麸,在人臉識別方面的準(zhǔn)確率已經(jīng)能達(dá)到97%以上登疗,跟人類識別的準(zhǔn)確率幾乎沒有差別。這樣的結(jié)果也再一次證明了深度學(xué)習(xí)技術(shù)在圖像識別方面的一騎絕塵嫌蚤。
2016年辐益,谷歌公司基于深度強(qiáng)化學(xué)習(xí)開發(fā)的AlphaGo以4:1的比分戰(zhàn)勝了國際頂尖圍棋高手李世石,深度學(xué)習(xí)的熱度一時無兩脱吱。后來智政,AlphaGo又接連和眾多世界級圍棋高手過招,均取得了完勝箱蝠。這也證明了在圍棋界续捂,基于深度學(xué)習(xí)技術(shù)的機(jī)器人幾乎已經(jīng)超越了人類。
2017年宦搬,基于深度強(qiáng)化學(xué)習(xí)技術(shù)的AlphaGo升級版AlphaGo Zero橫空出世牙瓢。其采用“從零開始”、“無師自通”的學(xué)習(xí)模式间校,以100:0的比分輕而易舉打敗了之前的AlphaGo矾克。除了圍棋,它還精通國際象棋等其它棋類游戲憔足,可以說是真正的棋類“天才”胁附。此外在這一年酒繁,深度學(xué)習(xí)相關(guān)技術(shù)也在醫(yī)療、金融控妻、藝術(shù)州袒、無人駕駛等多個領(lǐng)域均取得了顯著的成果。所以弓候,也有專家把2017年看作是深度學(xué)習(xí)甚至是人工智能發(fā)展最為突飛猛進(jìn)的一年郎哭。
深度學(xué)習(xí)發(fā)展到今天已經(jīng)越來越趨于成熟,尤其是圖像方面菇存。無論是科研還是應(yīng)用夸研,大家也越來越理性,而不是像早些時候撰筷,把深度學(xué)習(xí)視為“萬能的”陈惰,盲目的去跟風(fēng)畦徘。當(dāng)然毕籽,這一領(lǐng)域也還有許多問題需要解決,還有很多有趣井辆、有挑戰(zhàn)性的方向可以研究关筒。
深度學(xué)習(xí)的應(yīng)用
作為機(jī)器學(xué)習(xí)發(fā)展到一定階段的產(chǎn)物,近年來深度學(xué)習(xí)技術(shù)之所以能引起社會各界廣泛的關(guān)注杯缺,是因為不光在學(xué)術(shù)界蒸播,同時也在工業(yè)界取得了重大突破和廣泛的應(yīng)用。其中應(yīng)用最廣的幾個研究領(lǐng)域分別是自然語言處理萍肆、語音識別和圖像處理袍榆。接下來,我們分別來看一下這三個領(lǐng)域的發(fā)展現(xiàn)狀:
自然語言處理
自然語言處理(NLP)是語言學(xué)和人工智能的交叉科學(xué)塘揣,旨在讓計算機(jī)能夠“讀懂”人類的語言包雀。其包括的主要范疇有(我們這里說的自然語言處理僅僅指文本相關(guān)的):分詞、詞性標(biāo)注亲铡、命名實(shí)體識別才写、句法分析、關(guān)鍵詞抽取奖蔓、文本分類赞草、自動摘要以及信息檢索等等。傳統(tǒng)的自然語言處理主要是利用語言學(xué)領(lǐng)域本身的知識結(jié)合一些統(tǒng)計學(xué)的方法來獲取語言知識吆鹤。后來伴隨著機(jī)器學(xué)習(xí)淺層模型的發(fā)展(如:SVM厨疙、邏輯回歸等等),自然語言處理領(lǐng)域的研究取得了一定的突破疑务,但在語義消歧岖沛、語言的理解等方面還是顯得力不存心。近年來婴削,隨著深度學(xué)習(xí)相關(guān)技術(shù)(DNN、CNN唉俗、RNN等)[6][7]取得了顯著的進(jìn)展,其在自然語言處理方面的應(yīng)用也展現(xiàn)出了明顯的優(yōu)勢配椭。
從算法上來看虫溜,詞向量(word vector)作為深度學(xué)習(xí)算法在自然語言領(lǐng)域的先驅(qū),有著及其廣泛的應(yīng)用場景股缸,在機(jī)器翻譯衡楞、情感分析等方面均取得了不錯的效果。其基本思想是把人類語言中的詞盡可能完整地轉(zhuǎn)換成計算機(jī)可以理解的稠密向量敦姻,同時要保證向量的維度在可控的范圍之內(nèi)瘾境,在Bahdanau等人利用LSTM[8]模型結(jié)合一些自定義的語料,解決了傳統(tǒng)模型的Out of dictionary word問題之后镰惦,更使得基于深度學(xué)習(xí)的自然語言處理較于傳統(tǒng)方法有明顯的優(yōu)勢迷守。目前,基于深度學(xué)習(xí)的自然語言處理在文本分類旺入、機(jī)器翻譯兑凿、智能問答、推薦系統(tǒng)以及聊天機(jī)器人等方向都有著極為廣泛的應(yīng)用茵瘾。
語音識別與合成
語音相關(guān)的處理其實(shí)也屬于自然語言處理的范疇礼华,目前主要是語音合成(Text to Speech,TTS)和語音識別(Automated Speech Recognition拗秘,ASR)圣絮。語音識別應(yīng)該是大家最為熟知的,也是應(yīng)用最為廣泛的聘殖。同自然語言處理類似晨雳,語音識別也是人工智能和其它學(xué)科的交叉領(lǐng)域,其所涉及的領(lǐng)域有:模式識別奸腺、信號處理餐禁、概率論、信息論突照,發(fā)聲原理等等帮非。近年來隨著深度學(xué)習(xí)技術(shù)的興起,語音識別取得顯著的進(jìn)步,基于深度學(xué)習(xí)的語音技術(shù)不僅從實(shí)驗室走向了市場末盔,更得到了谷歌筑舅、微軟、百度以及科大訊飛等眾多科技公司的青睞陨舱。語音輸入法翠拣、家用聊天機(jī)器人、醫(yī)療語音救助機(jī)游盲、智能語音穿戴設(shè)備等具體的應(yīng)用場景也是層出不窮误墓。
事實(shí)上,在深度學(xué)習(xí)算法還未普及之前的很長一段時間益缎,語音識別系統(tǒng)大多采用高斯混合模型(GMM)這一機(jī)器學(xué)習(xí)淺層模型完成數(shù)據(jù)的量化和建模谜慌。由于該模型可以精確地量化訓(xùn)練集并對數(shù)據(jù)有較好的區(qū)分度,所以長期在語音識別領(lǐng)域占主導(dǎo)地位莺奔。直到2011年令哟,微軟公司推出了基于深度學(xué)習(xí)的語音識別系統(tǒng),模擬人類大腦分層對數(shù)據(jù)特征進(jìn)行提取驳癌,使得樣本特征之間的聯(lián)系更加密切役听,完美的克服了GMM[9]模型處理高維數(shù)據(jù)方面的不足典予。直到今天瘤袖,基于深度神經(jīng)網(wǎng)絡(luò)的模型仍然廣泛應(yīng)用在語音相關(guān)的各個領(lǐng)域中昂验。
圖像領(lǐng)域
事實(shí)上既琴,圖像領(lǐng)域目前算是深度學(xué)習(xí)應(yīng)用最為成熟的領(lǐng)域。也正是由于深度學(xué)習(xí)算法在ImageNet圖像識別大賽中遠(yuǎn)超其它機(jī)器學(xué)習(xí)算法逆济、以巨大優(yōu)勢奪魁才推動了深度學(xué)習(xí)發(fā)展的第三次浪潮奖慌。目前,通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)構(gòu)建的圖像處理系統(tǒng)能夠有效的減小過擬合建椰、對大像素數(shù)圖像內(nèi)容能很好的識別广凸,在融合GPU加速技術(shù)后谅海,使得神經(jīng)網(wǎng)絡(luò)在實(shí)際中能夠更好的擬合訓(xùn)練數(shù)據(jù)蹦浦,更快更準(zhǔn)確的識別大部分的圖片盲镶。總而言之枫吧,深度學(xué)習(xí)模型可謂是和圖像處理技術(shù)的完美結(jié)合九杂,不僅能夠提高圖像識別的準(zhǔn)確率宣蠕,同時還可以在一定程度上提高運(yùn)行效率抢蚀,減少了一定的人力成本。
參考文獻(xiàn)
- [1] A Logical Calculus of the Ideas Immanent in Nervous Activity . Warren S. McCulloch. Walter Pitts.1943
- [2] Organization of Behavior: A Neuropsychological Theory . Donald Hebb . 1949
- [3] Learning Internal Representations by Error Propagation . Rumelhart.1986
- [4] Reducing the dimensionality of data with neural networks . Hinton.2006
- [5]Imagenet classification with deep convolutional neural networks. Hinton.2012
- [6] ImageNet Classification with Deep Convolutional Networks. Yann LeCun .1998
- [7] Supervised Sequence Labelling with Recurrent Neural Networks. Alex Graves .2008
- [8] Learning to forget: continual prediction with LSTM. FA Gers 唱逢, J Schmidhuber 坞古, F Cummins . 2014
- [9] A finite sample correction for the variance of linear efficient two-step GMM estimators. F Windmeijer.2000