深度|神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)簡(jiǎn)史(第一部分):從感知機(jī)到BP算法

來自Andrey Kurenkov
A 'Brief' History of Neural Nets and Deep Learning, Part 1
深度|神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)簡(jiǎn)史(第一部分):從感知機(jī)到BP算法
導(dǎo)讀:這是《神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)簡(jiǎn)史》第一部分挑童。這一部分,我們會(huì)介紹1958年感知機(jī)神經(jīng)網(wǎng)絡(luò)的誕生,70年代人工智能寒冬以及1986年BP算法讓神經(jīng)網(wǎng)絡(luò)再度流行起來戚丸。

深度學(xué)習(xí)掀起海嘯

如今驳规,深度學(xué)習(xí)浪潮拍打計(jì)算機(jī)語言的海岸已有好幾年,但是水孩,2015年似乎才是這場(chǎng)海嘯全力沖擊自然語言處理(NLP)會(huì)議的一年蓝角。——Dr. Christopher D. Manning, Dec 2015

整個(gè)研究領(lǐng)域的成熟方法已經(jīng)迅速被新發(fā)現(xiàn)超越哭懈,這句話聽起來有些夸大其詞灾馒,就像是說它被「海嘯」襲擊了一樣。但是遣总,這種災(zāi)難性的形容的確可以用來描述深度學(xué)習(xí)在過去幾年中的異軍突起——顯著改善人們對(duì)解決人工智能最難問題方法的駕馭能力睬罗,吸引工業(yè)巨人(比如谷歌等)的大量投資,研究論文的指數(shù)式增長(zhǎng)(以及機(jī)器學(xué)習(xí)的研究生生源上升)旭斥。在聽了數(shù)節(jié)機(jī)器學(xué)習(xí)課堂容达,甚至在本科研究中使用它以后,我不禁好奇:這個(gè)新的「深度學(xué)習(xí)」會(huì)不會(huì)是一個(gè)幻想垂券,抑或上世紀(jì)80年代已經(jīng)研發(fā)出來的「人工智能神經(jīng)網(wǎng)絡(luò)」擴(kuò)大版花盐?讓我告訴你,說來話長(zhǎng)——這不僅僅是一個(gè)有關(guān)神經(jīng)網(wǎng)絡(luò)的故事菇爪,也不僅僅是一個(gè)有關(guān)一系列研究突破的故事算芯,這些突破讓深度學(xué)習(xí)變得比「大型神經(jīng)網(wǎng)絡(luò)」更加有趣,而是一個(gè)有關(guān)幾位不放棄的研究員如何熬過黑暗數(shù)十年凳宙,直至拯救神經(jīng)網(wǎng)絡(luò)也祠,實(shí)現(xiàn)深度學(xué)習(xí)夢(mèng)想的故事。

機(jī)器學(xué)習(xí)算法的百年歷史

線性回歸

首先簡(jiǎn)單介紹一下機(jī)器學(xué)習(xí)是什么近速。從二維圖像上取一些點(diǎn)诈嘿,盡可能繪出一條擬合這些點(diǎn)的直線。你剛才做的就是從幾對(duì)輸入值(x)和輸出值(y)的實(shí)例中概括出一個(gè)一般函數(shù)削葱,任何輸入值都會(huì)有一個(gè)對(duì)應(yīng)的輸出值奖亚。這叫做線性回歸,一個(gè)有著兩百年歷史從一些輸入輸出對(duì)組中推斷出一般函數(shù)的技巧析砸。這就是它很棒的原因:很多函數(shù)難以給出明確的方程表達(dá)昔字,但是,卻很容易在現(xiàn)實(shí)世界搜集到輸入和輸出值實(shí)例——比如首繁,將說出來的詞的音頻作為輸入作郭,詞本身作為輸出的映射函數(shù)。

線性回歸對(duì)于解決語音識(shí)別這個(gè)問題來說有點(diǎn)太無用弦疮,但是夹攒,它所做的基本上就是監(jiān)督式機(jī)器學(xué)習(xí):給定訓(xùn)練樣本,「學(xué)習(xí)」一個(gè)函數(shù)胁塞,每一個(gè)樣本數(shù)據(jù)就是需要學(xué)習(xí)的函數(shù)的輸入輸出數(shù)據(jù)(無監(jiān)督學(xué)習(xí)咏尝,稍后在再敘)压语。尤其是,機(jī)器學(xué)習(xí)應(yīng)該推導(dǎo)出一個(gè)函數(shù)编检,它能夠很好地泛化到不在訓(xùn)練集中的輸入值上胎食,既然我們真的能將它運(yùn)用到尚未有輸出的輸入中。例如允懂,谷歌的語音識(shí)別技術(shù)由擁有大量訓(xùn)練集的機(jī)器學(xué)習(xí)驅(qū)動(dòng)厕怜,但是,它的訓(xùn)練集也不可能大到包含你手機(jī)所有語音輸入蕾总。

泛化能力機(jī)制如此重要粥航,以至于總會(huì)有一套測(cè)試數(shù)據(jù)組(更多的輸入值與輸出值樣本)這套數(shù)據(jù)組并不包括在訓(xùn)練組當(dāng)中。通過觀察有多少個(gè)正確計(jì)算出輸入值所對(duì)應(yīng)的輸出值的樣本谤专,這套單獨(dú)數(shù)據(jù)組可以用來估測(cè)機(jī)器學(xué)習(xí)技術(shù)有效性躁锡。概括化的克星是過度擬合——學(xué)習(xí)一個(gè)對(duì)于訓(xùn)練集有效但是卻在測(cè)試數(shù)據(jù)組中表現(xiàn)很差的函數(shù)。既然機(jī)器學(xué)習(xí)研究者們需要用來比較方法有效性的手段置侍,隨著時(shí)間的推移映之,標(biāo)準(zhǔn)訓(xùn)練數(shù)據(jù)組以及測(cè)試組可被用來評(píng)估機(jī)器學(xué)習(xí)算法。

好了蜡坊,定義談得足夠多了杠输。重點(diǎn)是——我們繪制線條的聯(lián)系只是一個(gè)非常簡(jiǎn)單的監(jiān)督機(jī)器學(xué)習(xí)例子:要點(diǎn)在于訓(xùn)練集(X為輸入,Y為輸出)秕衙,線條是近似函數(shù)蠢甲,用這條線來為任何沒有包含在訓(xùn)練集數(shù)據(jù)里的X值(輸入值)找到相應(yīng)的Y值(輸出值)。別擔(dān)心据忘,接下來的歷史就不會(huì)這么干巴巴了鹦牛。讓我們繼續(xù)吧。

虛假承諾的荒唐

顯然這里話題是神經(jīng)網(wǎng)絡(luò)勇吊,那我們前言里為何要扯線性回歸呢曼追?呃, 事實(shí)上線性回歸和機(jī)器學(xué)習(xí)一開始的方法構(gòu)想,弗蘭克· 羅森布拉特(Frank Rosenblatt)的感知機(jī), 有些許相似性。

Perceptron
**

心理學(xué)家Rosenblatt構(gòu)想了感知機(jī)汉规,它作為簡(jiǎn)化的數(shù)學(xué)模型解釋大腦神經(jīng)元如何工作:它取一組二進(jìn)制輸入值(附近的神經(jīng)元)礼殊,將每個(gè)輸入值乘以一個(gè)連續(xù)值權(quán)重(每個(gè)附近神經(jīng)元的突觸強(qiáng)度),并設(shè)立一個(gè)閾值针史,如果這些加權(quán)輸入值的和超過這個(gè)閾值晶伦,就輸出1,否則輸出0(同理于神經(jīng)元是否放電)啄枕。對(duì)于感知機(jī)婚陪,絕大多數(shù)輸入值不是一些數(shù)據(jù),就是別的感知機(jī)的輸出值射亏。但有一個(gè)額外的細(xì)節(jié):這些感知機(jī)有一個(gè)特殊的近忙,輸入值為1的竭业,「偏置」輸入智润,因?yàn)槲覀兡苎a(bǔ)償加權(quán)和及舍,它基本上確保了更多的函數(shù)在同樣的輸入值下是可計(jì)算的。這一關(guān)于神經(jīng)元的模型是建立在沃倫·麥卡洛克(Warren McCulloch)和沃爾特·皮茲(Walter Pitts)工作上的窟绷。他們?cè)砻骶饴辏讯M(jìn)制輸入值加起來,并在和大于一個(gè)閾值時(shí)輸出1兼蜈,否則輸出0的神經(jīng)元模型攘残,可以模擬基本的或/與/非邏輯函數(shù)。這在人工智能的早期時(shí)代可不得了——當(dāng)時(shí)的主流思想是,計(jì)算機(jī)能夠做正式的邏輯推理將本質(zhì)上解決人工智能問題为狸。

另一個(gè)圖表歼郭,顯示出生物學(xué)上的靈感。激活函數(shù)就是人們當(dāng)前說的非線性函數(shù)辐棒,它作用于輸入值的加權(quán)和以產(chǎn)生人工神經(jīng)元的輸出值——在羅森布拉特的感知機(jī)情況下病曾,這個(gè)函數(shù)就是輸出一個(gè)閾值操作**

然而,麥卡洛克-皮茲模型缺乏一個(gè)對(duì)AI而言至關(guān)重要的學(xué)習(xí)機(jī)制漾根。這就是感知機(jī)更出色的地方所在——羅森布拉特受到唐納德·赫布(Donald Hebb) 基礎(chǔ)性工作的啟發(fā)泰涂,想出一個(gè)讓這種人工神經(jīng)元學(xué)習(xí)的辦法。赫布提出了一個(gè)出人意料并影響深遠(yuǎn)的想法辐怕,稱知識(shí)和學(xué)習(xí)發(fā)生在大腦主要是通過神經(jīng)元間突觸的形成與變化逼蒙,簡(jiǎn)要表述為赫布法則:

當(dāng)細(xì)胞A的軸突足以接近以激發(fā)細(xì)胞B,并反復(fù)持續(xù)地對(duì)細(xì)胞B放電寄疏,一些生長(zhǎng)過程或代謝變化將發(fā)生在某一個(gè)或這兩個(gè)細(xì)胞內(nèi)是牢,以致A作為對(duì)B放電的細(xì)胞中的一個(gè),效率增加陕截。

感知機(jī)并沒有完全遵循這個(gè)想法驳棱,但通過調(diào)輸入值的權(quán)重,可以有一個(gè)非常簡(jiǎn)單直觀的學(xué)習(xí)方案:給定一個(gè)有輸入輸出實(shí)例的訓(xùn)練集艘策,感知機(jī)應(yīng)該「學(xué)習(xí)」一個(gè)函數(shù):對(duì)每個(gè)例子蹈胡,若感知機(jī)的輸出值比實(shí)例低太多,則增加它的權(quán)重朋蔫,否則若設(shè)比實(shí)例高太多罚渐,則減少它的權(quán)重。更正式一點(diǎn)兒的該算法如下:

從感知機(jī)有隨機(jī)的權(quán)重和一個(gè)訓(xùn)練集開始驯妄。

對(duì)于訓(xùn)練集中一個(gè)實(shí)例的輸入值荷并,計(jì)算感知機(jī)的輸出值。

如若感知機(jī)的輸出值和實(shí)例中默認(rèn)正確的輸出值不同:(1)若輸出值應(yīng)該為0但實(shí)際為1青扔,減少輸入值是1的例子的權(quán)重源织。(2)若輸出值應(yīng)該為1但實(shí)際為0翩伪,增加輸入值是1的例子的權(quán)重。

對(duì)于訓(xùn)練集中下一個(gè)例子做同樣的事谈息,重復(fù)步驟2-4直到感知機(jī)不再出錯(cuò)缘屹。

這個(gè)過程很簡(jiǎn)單,產(chǎn)生了一個(gè)簡(jiǎn)單的結(jié)果:一個(gè)輸入線性函數(shù)(加權(quán)和)侠仇,正如線性回歸被非線性激活函數(shù)「壓扁」了一樣(對(duì)帶權(quán)重求和設(shè)定閾值的行為)轻姿。當(dāng)函數(shù)的輸出值是一個(gè)有限集時(shí)(例如邏輯函數(shù),它只有兩個(gè)輸出值True/1 和 False/0)逻炊,給帶權(quán)重的和設(shè)置閾值是沒問題的互亮,所以問題實(shí)際上不在于要對(duì)任何輸入數(shù)據(jù)集生成一個(gè)數(shù)值上連續(xù)的輸出(即回歸類問題),而在于對(duì)輸入數(shù)據(jù)做好合適的標(biāo)簽(分類問題)余素。


康奈爾航天實(shí)驗(yàn)室的Mark I 感知機(jī)豹休,第一臺(tái)感知機(jī)的硬件

羅森布拉特用定制硬件的方法實(shí)現(xiàn)了感知機(jī)的想法(在花哨的編程語言被廣泛使用之前),展示出它可以用來學(xué)習(xí)對(duì)20×20像素輸入中的簡(jiǎn)單形狀進(jìn)行正確分類桨吊。自此威根,機(jī)器學(xué)習(xí)問世了——建造了一臺(tái)可以從已知的輸入輸出對(duì)中得出近似函數(shù)的計(jì)算機(jī)。在這個(gè)例子中屏积,它只學(xué)習(xí)了一個(gè)小玩具般的函數(shù)医窿,但是從中不難想象出有用的應(yīng)用,例如將人類亂糟糟的手寫字轉(zhuǎn)換為機(jī)器可讀的文本炊林。

很重要的是姥卢,這種方法還可以用在多個(gè)輸出值的函數(shù)中,或具有多個(gè)類別的分類任務(wù)渣聚。這對(duì)一臺(tái)感知機(jī)來說是不可能完成的独榴,因?yàn)樗挥幸粋€(gè)輸出,但是奕枝,多輸出函數(shù)能用位于同一層的多個(gè)感知機(jī)來學(xué)習(xí)棺榔,每個(gè)感知機(jī)接收到同一個(gè)輸入,但分別負(fù)責(zé)函數(shù)的不同輸出隘道。實(shí)際上症歇,神經(jīng)網(wǎng)絡(luò)(準(zhǔn)確的說應(yīng)該是「人工神經(jīng)網(wǎng)絡(luò)(ANN,Artificial Neural Networks)」)就是多層感知機(jī)(今天感知機(jī)通常被稱為神經(jīng)元)而已谭梗,只不過在這個(gè)階段忘晤,只有一層——輸出層。所以激捏,神經(jīng)網(wǎng)絡(luò)的典型應(yīng)用例子就是分辨手寫數(shù)字设塔。輸入是圖像的像素,有10個(gè)輸出神經(jīng)元远舅,每一個(gè)分別對(duì)應(yīng)著10個(gè)可能的數(shù)字闰蛔。在這個(gè)案例中痕钢,10個(gè)神經(jīng)元中,只有1個(gè)輸出1序六,權(quán)值最高的和被看做是正確的輸出任连,而其他的則輸出0。


多層輸出的神經(jīng)網(wǎng)絡(luò)

也可以想象一個(gè)與感知機(jī)不同的人工神經(jīng)網(wǎng)絡(luò)难咕。例如课梳,閾值激活函數(shù)并不是必要的距辆; 1960年余佃,Bernard Widrow和Tedd Hoff很快開始探索一種方法——采用適應(yīng)性的「自適應(yīng)(ADALINE)」神經(jīng)元來輸出權(quán)值的輸入,這種神經(jīng)元使用化學(xué)「 存儲(chǔ)電阻器」跨算,并展示了這種「自適應(yīng)線性神經(jīng)元」能夠在電路中成為「 存儲(chǔ)電阻器」的一部分(存儲(chǔ)電阻器是帶有存儲(chǔ)的電阻)爆土。他們還展示了,不用閾值激活函數(shù)诸蚕,在數(shù)學(xué)上很美步势,因?yàn)樯窠?jīng)元的學(xué)習(xí)機(jī)制是基于將錯(cuò)誤最小化的微積分,而微積分我們都很熟悉了背犯。

如果我們多思考一下 「自適應(yīng)(ADALINE)」坏瘩,就會(huì)有進(jìn)一步的洞見:為大量輸入找到一組權(quán)重真的只是一種線性回歸。再一次漠魏,就像用線性回歸一樣倔矾,這也不足以解決諸如語音識(shí)別或計(jì)算機(jī)視覺這樣的人工智能難題。McCullough柱锹,Pitts和羅森布拉特真正感到興奮的是聯(lián)結(jié)主義(Connectionism)這個(gè)寬泛的想法:如此簡(jiǎn)單計(jì)算機(jī)單元構(gòu)成的網(wǎng)絡(luò)哪自,其功能會(huì)大很多而且可以解決人工智能難題。而且羅森布拉特說的和(坦白說很可笑的)《紐約時(shí)報(bào)》這段引文的意思差不多:

海軍披露了一臺(tái)尚處初期的電子計(jì)算機(jī)禁熏,期待這臺(tái)電子計(jì)算機(jī)能行走壤巷,談話,看和寫瞧毙,自己復(fù)制出自身存在意識(shí)…羅森布拉特博士胧华,康奈爾航空實(shí)驗(yàn)室的一位心理學(xué)家說,感知機(jī)能作為機(jī)械太空探險(xiǎn)者被發(fā)射到行星上宙彪。

[見原文視頻]

這種談話無疑會(huì)惹惱人工領(lǐng)域的其他研究人員矩动,其中有許多研究人員都在專注于這樣的研究方法,它們以帶有具體規(guī)則(這些規(guī)則遵循邏輯數(shù)學(xué)法則)的符號(hào)操作為基礎(chǔ)您访。MIT人工智能實(shí)驗(yàn)室創(chuàng)始人Marvin Minsky和Seymour Paper就是對(duì)這一炒作持懷疑態(tài)度研究人員中的兩位铅忿,1969年,他們?cè)谝槐鹃_創(chuàng)性著作中表達(dá)了這種質(zhì)疑灵汪,書中嚴(yán)謹(jǐn)分析了感知機(jī)的局限性檀训,書名很貼切柑潦,叫《感知機(jī)》。

他們分析中峻凫,最被廣為討論的內(nèi)容就是對(duì)感知機(jī)限制的說明渗鬼,例如,他們不能學(xué)習(xí)簡(jiǎn)單的布爾函數(shù)XOR荧琼,因?yàn)樗荒苓M(jìn)行線性分離譬胎。雖然此處歷史模糊,但是命锄,人們普遍認(rèn)為這本書對(duì)人工智能步入第一個(gè)冬天起到了推波助瀾的作用——大肆炒作之后堰乔,人工智能進(jìn)入泡沫幻滅期,相關(guān)資助和出版都遭凍結(jié)脐恩。

感知機(jī)局限性的視覺化镐侯。找到一個(gè)線性函數(shù),輸入X驶冒,Y時(shí)可以正確地輸出+或-苟翻,就是在2D圖表上畫一條從+中分離出-的線;很顯然骗污,就第三幅圖顯示的情況來看崇猫,這是不可能的

人工智能冬天的復(fù)蘇

因此,情況對(duì)神經(jīng)網(wǎng)絡(luò)不利需忿。但是诅炉,為什么?他們的想法畢竟是想將一連串簡(jiǎn)單的數(shù)學(xué)神經(jīng)元結(jié)合在一起贴谎,完成一些復(fù)雜任務(wù)汞扎,而不是使用單個(gè)神經(jīng)元。換句話說擅这,并不是只有一個(gè)輸出層澈魄,將一個(gè)輸入任意傳輸?shù)蕉鄠€(gè)神經(jīng)元(所謂的隱藏層,因?yàn)樗麄兊妮敵鰰?huì)作為另一隱藏層或神經(jīng)元輸出層的輸入)仲翎。只有輸出層的輸出是「可見」的——亦即神經(jīng)網(wǎng)絡(luò)的答案——但是痹扇,所有依靠隱藏層完成的間接計(jì)算可以處理復(fù)雜得多的問題,這是單層結(jié)構(gòu)望塵莫及的溯香。

有兩個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)

言簡(jiǎn)意賅地說鲫构,多個(gè)隱藏層是件好事,原因在于隱藏層可以找到數(shù)據(jù)內(nèi)在特點(diǎn)玫坛,后續(xù)層可以在這些特點(diǎn)(而不是嘈雜龐大的原始數(shù)據(jù))基礎(chǔ)上進(jìn)行操作结笨。以圖片中的面部識(shí)別這一非常常見的神經(jīng)網(wǎng)絡(luò)任務(wù)為例,第一個(gè)隱藏層可以獲得圖片的原始像素值,以及線炕吸、圓和橢圓等信息伐憾。接下來的層可以獲得這些線、圓和橢圓等的位置信息赫模,并且通過這些來定位人臉的位置——處理起來簡(jiǎn)單多了树肃!而且人們基本上也都明白這一點(diǎn)。事實(shí)上瀑罗,直到最近胸嘴,機(jī)器學(xué)習(xí)技術(shù)都沒有普遍直接用于原始數(shù)據(jù)輸入,比如圖像和音頻斩祭。相反劣像,機(jī)器學(xué)習(xí)被用于經(jīng)過特征提取后的數(shù)據(jù)——也就是說,為了讓學(xué)習(xí)更簡(jiǎn)單停忿,機(jī)器學(xué)習(xí)被用在預(yù)處理的數(shù)據(jù)上驾讲,一些更加有用的特征,比如角度席赂,形狀早已被從中提取出來。


傳統(tǒng)的特征的手工提取過程的視覺化

因此时迫,注意到這一點(diǎn)很重要:Minsky和Paper關(guān)于感知機(jī)的分析不僅僅表明不可能用單個(gè)感知機(jī)來計(jì)算XOR颅停,而且特別指出需要多層感知機(jī)——亦即現(xiàn)在所謂的多層神經(jīng)網(wǎng)絡(luò)——才可以完成這一任務(wù),而且羅森布拉特的學(xué)習(xí)算法對(duì)多層并不管用掠拳。那是一個(gè)真正的問題:之前針對(duì)感知機(jī)概括出的簡(jiǎn)單學(xué)習(xí)規(guī)則并不是適用于多層結(jié)構(gòu)癞揉。想知道原因?讓我們?cè)賮砘仡櫼幌聠螌咏Y(jié)構(gòu)感知機(jī)如何學(xué)習(xí)計(jì)算一些函數(shù):

和函數(shù)輸出數(shù)量相等的感知機(jī)會(huì)以小的初始權(quán)值開始(僅為輸入函數(shù)的倍數(shù))

選取訓(xùn)練集中的一個(gè)例子作為輸入溺欧,計(jì)算感知機(jī)的輸出

對(duì)于每一個(gè)感知機(jī)喊熟,如果其計(jì)算結(jié)果和該例子的結(jié)果不匹配,調(diào)整初始權(quán)值

繼續(xù)采用訓(xùn)練集中的下一個(gè)例子姐刁,重復(fù)過程2到4次芥牌,直到感知機(jī)不再犯錯(cuò)。

這一規(guī)則并不適用多層結(jié)構(gòu)的原因應(yīng)該很直觀清楚了:選取訓(xùn)練集中的例子進(jìn)行訓(xùn)練時(shí)聂使,我們只能對(duì)最終的輸出層的輸出結(jié)果進(jìn)行校正壁拉,但是,對(duì)于多層結(jié)構(gòu)來說柏靶,我們?cè)撊绾握{(diào)整最終輸出層之前的層結(jié)構(gòu)權(quán)值呢弃理?答案(盡管需要花時(shí)間來推導(dǎo))又一次需要依賴古老的微積分:鏈?zhǔn)椒▌t。這里有一個(gè)重要現(xiàn)實(shí):神經(jīng)網(wǎng)絡(luò)的神經(jīng)元和感知機(jī)并不完全相同屎蜓,但是痘昌,可用一個(gè)激活函數(shù)來計(jì)算輸出,該函數(shù)仍然是非線性的,但是可微分辆苔,和Adaline神經(jīng)元一樣笔诵;該導(dǎo)數(shù)不僅可以用于調(diào)整權(quán)值,減少誤差姑子,鏈?zhǔn)椒▌t也可用于計(jì)算前一層所有神經(jīng)元導(dǎo)數(shù)乎婿,因此,調(diào)整它們權(quán)重的方式也是可知的街佑。說得更簡(jiǎn)單些:我們可以利用微積分將一些導(dǎo)致輸出層任何訓(xùn)練集誤差的原因分配給前一隱藏層的每個(gè)神經(jīng)元谢翎,如果還有另外一層隱藏層,我們可以將這些原因再做分配沐旨,以此類推——我們?cè)诜聪騻鞑ミ@些誤差森逮。而且,如果修改了神經(jīng)網(wǎng)絡(luò)(包括那些隱藏層)任一權(quán)重值磁携,我們還可以找出誤差會(huì)有多大變化褒侧,通過優(yōu)化技巧(時(shí)間長(zhǎng),典型的隨機(jī)梯度下降)找出最小化誤差的最佳權(quán)值谊迄。

*反向傳播的基本思想 *

反向傳播由上世紀(jì)60年代早期多位研究人員提出闷供,70年代,由Seppo Linnainmaa引入電腦運(yùn)行统诺,但是歪脏,Paul Werbos在1974年的博士畢業(yè)論文中深刻分析了將之用于神經(jīng)網(wǎng)絡(luò)方面的可能性,成為美國(guó)第一位提出可以將其用于神經(jīng)網(wǎng)絡(luò)的研究人員粮呢。有趣的是婿失,他從模擬人類思維的研究工作中并沒有獲得多少啟發(fā),在這個(gè)案例中啄寡,弗洛伊德心理學(xué)理論啟發(fā)了他豪硅,正如他自己敘述:

1968年,我提出我們可以多少模仿弗洛伊德的概念——信度指派的反向流動(dòng)( a backwards flow of credit assignment,)挺物,指代從神經(jīng)元到神經(jīng)元的反向流動(dòng)…我解釋過結(jié)合使用了直覺懒浮、實(shí)例和普通鏈?zhǔn)椒▌t的反向計(jì)算,雖然它正是將弗洛伊德以前在心理動(dòng)力學(xué)理論中提出的概念運(yùn)用到數(shù)學(xué)領(lǐng)域中姻乓!

盡管解決了如何訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)的問題嵌溢,在寫作自己的博士學(xué)位論文時(shí)也意識(shí)到了這一點(diǎn),但是蹋岩,Werbos沒有發(fā)表將BP算法用于神經(jīng)網(wǎng)絡(luò)這方面的研究赖草,直到1982年人工智能冬天引發(fā)了寒蟬效應(yīng)。實(shí)際上剪个,Werbos認(rèn)為秧骑,這種研究進(jìn)路對(duì)解決感知機(jī)問題是有意義的,但是,這個(gè)圈子大體已經(jīng)失去解決那些問題的信念乎折。

Minsky的書最著名的觀點(diǎn)有幾個(gè):(1)我們需要用MLPs[多層感知機(jī)绒疗,多層神經(jīng)網(wǎng)絡(luò)的另一種說法)來代表簡(jiǎn)單的非線性函數(shù),比如XOR 映射骂澄;而且(2)世界上沒人發(fā)現(xiàn)可以將MLPs訓(xùn)練得夠好吓蘑,以至于可以學(xué)會(huì)這么簡(jiǎn)單的函數(shù)的方法。Minsky的書讓世上絕大多數(shù)人相信坟冲,神經(jīng)網(wǎng)絡(luò)是最糟糕的異端磨镶,死路一條。Widrow已經(jīng)強(qiáng)調(diào)健提,這種壓垮早期『感知機(jī)』人工智能學(xué)派的悲觀主義不應(yīng)怪在Minsky的頭上琳猫。他只是總結(jié)了幾百位謹(jǐn)慎研究人員的經(jīng)驗(yàn)而已,他們嘗試找出訓(xùn)練MLPs的辦法私痹,卻徒勞無功脐嫂。也曾有過希望,比如Rosenblatt所謂的backpropagation(這和我們現(xiàn)在說的 backpropagation并不完全相同N勺瘛)账千,而且Amari也簡(jiǎn)短表示,我們應(yīng)該考慮將最小二乘(也是簡(jiǎn)單線性回歸的基礎(chǔ))作為訓(xùn)練神經(jīng)網(wǎng)絡(luò)的一種方式(但沒有討論如何求導(dǎo)癞蚕,還警告說他對(duì)這個(gè)方法不抱太大期望)蕊爵。但是,當(dāng)時(shí)的悲觀主義開始變得致命桦山。上世紀(jì)七十年代早期,我確實(shí)在MIT采訪過Minsky醋旦。我建議我們合著一篇文章恒水,證明MLPs實(shí)際上能夠克服早期出現(xiàn)的問題…但是,Minsky并無興趣(14)饲齐。事實(shí)上钉凌,當(dāng)時(shí)的MIT,哈佛以及任何我能找到的研究機(jī)構(gòu)捂人,沒人對(duì)此有興趣御雕。

我肯定不能打保票,但是滥搭,直到十年后酸纲,也就是1986年,這一研究進(jìn)路才開始在David Rumelhart, Geoffrey Hinton和Ronald Williams合著的《Learning representations by back-propagating errors》中流行開來瑟匆,原因似乎就是缺少學(xué)術(shù)興趣闽坡。

盡管研究方法的發(fā)現(xiàn)不計(jì)其數(shù)(論文甚至清楚提道,David Parker 和 Yann LeCun是事先發(fā)現(xiàn)這一研究進(jìn)路的兩人),1986年的這篇文章卻因其精確清晰的觀點(diǎn)陳述而顯得很突出疾嗅。實(shí)際上外厂,學(xué)機(jī)器學(xué)習(xí)的人很容易發(fā)現(xiàn)自己論文中的描述與教科書和課堂上解釋概念方式本質(zhì)上相同。

不幸的是代承,科學(xué)圈里幾乎無人知道Werbo的研究汁蝶。1982年,Parker重新發(fā)現(xiàn)了這個(gè)研究辦法[39]并于1985年在M.I.T[40]上發(fā)表了一篇相關(guān)報(bào)道论悴。就在Parker報(bào)道后不久掖棉,Rumelhart, Hinton和Williams [41], [42]也重新發(fā)現(xiàn)了這個(gè)方法, 他們最終成功地讓這個(gè)方法家喻戶曉意荤,也主要?dú)w功于陳述觀點(diǎn)的框架非常清晰啊片。

但是,這三位作者沒有止步于介紹新學(xué)習(xí)算法玖像,而是走得更遠(yuǎn)紫谷。同年,他們發(fā)表了更有深度的文章《Learning internal representations by error propagation》捐寥。

文章特別談到了Minsky在《感知機(jī)》中討論過的問題笤昨。盡管這是過去學(xué)者的構(gòu)想,但是握恳,正是這個(gè)1986年提出的構(gòu)想讓人們廣泛理解了應(yīng)該如何訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)解決復(fù)雜學(xué)習(xí)問題瞒窒。而且神經(jīng)網(wǎng)絡(luò)也因此回來了!第二部分乡洼,我們將會(huì)看到幾年后崇裁,《Learning internal representations by error propagation》探討過的BP算法和其他一些技巧如何被用來解決一個(gè)非常重要的問題:讓計(jì)算機(jī)識(shí)別人類書寫。(待續(xù))

參考文獻(xiàn)
Christopher D. Manning. (2015). Computational Linguistics and Deep Learning Computational Linguistics, 41(4), 701–707.?
F. Rosenblatt. The perceptron, a perceiving and recognizing automaton Project Para. Cornell Aeronautical Laboratory, 1957. ?
W. S. McCulloch and W. Pitts. A logical calculus of the ideas immanent in nervous activity. The bulletin of mathematical biophysics, 5(4):115–133, 1943. ?
The organization of behavior: A neuropsychological theory. D. O. Hebb. John Wiley And Sons, Inc., New York, 1949 ?
B. Widrow et al. Adaptive ”Adaline” neuron using chemical ”memistors”. Number Technical Report 1553-2. Stanford Electron. Labs., Stanford, CA, October 1960. ?
“New Navy Device Learns By Doing”, New York Times, July 8, 1958. ?
Perceptrons. An Introduction to Computational Geometry. MARVIN MINSKY and SEYMOUR PAPERT. M.I.T. Press, Cambridge, Mass., 1969. ?
Linnainmaa, S. (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors. Master’s thesis, Univ. Helsinki. ?
P. Werbos. Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. PhD thesis, Harvard University, Cambridge, MA, 1974. ?
Werbos, P.J. (2006). Backwards differentiation in AD and neural nets: Past links and new opportunities. In Automatic Differentiation: Applications, Theory, and Implementations, pages 15-34. Springer. ?
Rumelhart, D. E., Hinton, G. E., and Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323, 533–536. ?
Widrow, B., & Lehr, M. (1990). 30 years of adaptive neural networks: perceptron, madaline, and backpropagation. Proceedings of the IEEE, 78(9), 1415-1442. ?
D. E. Rumelhart, G. E. Hinton, and R. J. Williams. 1986. Learning internal representations by error propagation. In Parallel distributed processing: explorations in the microstructure of cognition, vol. 1, David E. Rumelhart, James L. McClelland, and CORPORATE PDP Research Group (Eds.). MIT Press, Cambridge, MA, USA 318-362 ?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末束昵,一起剝皮案震驚了整個(gè)濱河市拔稳,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌锹雏,老刑警劉巖巴比,帶你破解...
    沈念sama閱讀 206,311評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異礁遵,居然都是意外死亡轻绞,警方通過查閱死者的電腦和手機(jī)播歼,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,339評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門郭卫,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人旧乞,你說我怎么就攤上這事晰赞〖诓。” “怎么了选侨?”我有些...
    開封第一講書人閱讀 152,671評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)然走。 經(jīng)常有香客問我援制,道長(zhǎng),這世上最難降的妖魔是什么芍瑞? 我笑而不...
    開封第一講書人閱讀 55,252評(píng)論 1 279
  • 正文 為了忘掉前任晨仑,我火速辦了婚禮,結(jié)果婚禮上拆檬,老公的妹妹穿的比我還像新娘洪己。我一直安慰自己,他們只是感情好竟贯,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,253評(píng)論 5 371
  • 文/花漫 我一把揭開白布答捕。 她就那樣靜靜地躺著,像睡著了一般屑那。 火紅的嫁衣襯著肌膚如雪拱镐。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,031評(píng)論 1 285
  • 那天持际,我揣著相機(jī)與錄音沃琅,去河邊找鬼。 笑死蜘欲,一個(gè)胖子當(dāng)著我的面吹牛益眉,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播姥份,決...
    沈念sama閱讀 38,340評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼郭脂,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了澈歉?” 一聲冷哼從身側(cè)響起朱庆,我...
    開封第一講書人閱讀 36,973評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎闷祥,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體傲诵,經(jīng)...
    沈念sama閱讀 43,466評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡凯砍,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,937評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了拴竹。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片悟衩。...
    茶點(diǎn)故事閱讀 38,039評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖栓拜,靈堂內(nèi)的尸體忽然破棺而出座泳,到底是詐尸還是另有隱情惠昔,我是刑警寧澤,帶...
    沈念sama閱讀 33,701評(píng)論 4 323
  • 正文 年R本政府宣布挑势,位于F島的核電站镇防,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏潮饱。R本人自食惡果不足惜来氧,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,254評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望香拉。 院中可真熱鬧啦扬,春花似錦、人聲如沸凫碌。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,259評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽盛险。三九已至瞄摊,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間枉层,已是汗流浹背泉褐。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留鸟蜡,地道東北人膜赃。 一個(gè)月前我還...
    沈念sama閱讀 45,497評(píng)論 2 354
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像揉忘,于是被迫代替她去往敵國(guó)和親跳座。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,786評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 每個(gè)人都習(xí)慣于跟隨大眾潮流泣矛,即便不知道為什么疲眷。 基于數(shù)據(jù)所設(shè)計(jì)的產(chǎn)品或功能,也許是人們目前需要的您朽,但絕對(duì)不是人類所...
    OD同學(xué)閱讀 179評(píng)論 0 0
  • 臨近期末同學(xué)陸續(xù)放假哗总,送走了兩個(gè)朋友几颜,臨走前大家坐在一塊兒吃了餐飯。 正好是下著小雨的夜晚讯屈,我們輾轉(zhuǎn)去了家味道很棒...
    余知昂閱讀 535評(píng)論 0 0
  • 有過痛苦蛋哭,方知眾生痛苦。 有過執(zhí)著涮母,放下執(zhí)著谆趾。 有過牽掛躁愿,了無牽掛。 1995年沪蓬,大話西游內(nèi)地首映彤钟,彼...
    青燈夜雨閱讀 829評(píng)論 2 9
  • 1. 等我學(xué)完經(jīng)濟(jì)學(xué)沒有了疑惑,那么才可以把主要精力放在人際關(guān)系上怜跑。
    智囊團(tuán)閱讀 88評(píng)論 0 0