當這位70歲的Hinton老人還在努力推翻自己積累了30年的學術成果時圆裕,我才知道什么叫做生命力(附Capsule最全解析)
Hinton以“深度學習之父”和“神經網(wǎng)絡先驅”響徹AI領域吓妆。
這幾日吨铸,Hinton被刊進各大媒體的頭版頭條,是因為他的那篇Capsule論文剂陡,終于揭下了神秘的面紗狐胎。
在論文中,Capsule被Hinton大神定義為這樣一組神經元:其活動向量所表示的是特定實體類型的實例化參數(shù)晕鹊。他的實驗表明暴浦,鑒別式訓練的多層Capsule系統(tǒng),在MNIST手寫數(shù)據(jù)集上表現(xiàn)出目前最先進的性能飞几,并且在識別高度重疊數(shù)字的效果要遠好于CNN独撇。
一個月前躁锁,在多倫多接受媒體采訪時战转,Hinton大神斷然宣稱要放棄反向傳播以躯,讓整個人工智能從頭再造。不明就里的媒體們頓時蒙圈不少忧设。
8月份的時候见转,Hinton大神還用一場“卷積神經網(wǎng)絡都有哪些問題蒜哀?”的演講來介紹他手中的Capsule研究,他認為“CNN的特征提取層與次抽樣層交叉存取乘客,將相同類型的相鄰特征檢測器的輸出匯集到一起”是大有問題的淀歇。當時的演講中,Hinton大神可沒少提CNN之父Yann LeCun的不同觀點牡直。
畢竟纳决,當前的CNN一味追求識別率,對于圖像內容的“理解”幫助有限饵史。而要進一步推進人工智能胜榔,讓它能像人腦一樣理解圖像內容夭织、構建抽象邏輯,僅僅是認出像素的排序肯定是不夠的讲竿,必須要找到方法來對其中的內容進行良好的表示……這就意味著新的方法和技術。
而當前的深度學習理論戴卜,自從Hinton大神在2007年(先以受限玻爾茲曼機進行訓練投剥、再用有監(jiān)督的反向傳播算法進行調優(yōu))確立起來后,除了神經網(wǎng)絡結構上的小修小改吃警,很多進展都集中在梯度流上啄育,正如知乎大V“SIY.Z”在《淺析Hinton最近提出的Capsule計劃》(https://zhuanlan.zhihu.com/p/29435406)時所舉的例子(為了方便大家閱讀這篇文章,營長將具體內容附在文章末尾):
sigmoid會飽和安券,造成梯度消失氓英。于是有了ReLU。
ReLU負半軸是死區(qū)址貌,造成梯度變0徘键。于是有了LeakyReLU吹害,PReLU。
強調梯度和權值分布的穩(wěn)定性赠制,由此有了ELU钟些,以及較新的SELU。
太深了汪拥,梯度傳不下去篙耗,于是有了highway宪赶。
干脆連highway的參數(shù)都不要脯燃,直接變殘差辕棚,于是有了ResNet。
強行穩(wěn)定參數(shù)的均值和方差扁瓢,于是有了BatchNorm补君。
在梯度流中增加噪聲,于是有了 Dropout伟桅。
RNN梯度不穩(wěn)定屿储,于是加幾個通路和門控渐逃,于是有了LSTM茄菊。
LSTM簡化一下,有了GRU竖哩。
GAN的JS散度有問題脊僚,會導致梯度消失或無效,于是有了WGAN增淹。
WGAN對梯度的clip有問題乌企,于是有了WGAN-GP。
而本質上的變革拳喻,特別是針對當前CNN所無力解決的動態(tài)視覺內容、三維視覺等難題……進行更為基礎的研究钦勘,或許真有可能另辟蹊徑个盆。
這當然是苦力活朵栖,Hinton大神親自操刀的話,成功了會毀掉自己賴以成名的反向傳播算法和深度學習理論终惑,失敗了則將重蹈愛因斯坦晚年“宇宙常數(shù)”的覆轍门扇。所以,李飛飛對他在這里的勇氣大為贊賞:
霸奕!drfeifei
如今Capsule的論文剛剛出來吉拳,深度學習的各路大神并沒有貿然對其下評論留攒,深夜中的外媒亦尚未就此發(fā)稿,甚至就連技術圈內一向口水不斷的Hacker News魄揉,今天也是靜悄悄地一片拭宁。
不過,可以肯定的一點是兵怯,一個月后的NIPS大會在旱,Capsule更進一步的效果必定會有所顯現(xiàn),AI科技大本營也一定會繼續(xù)跟進這里的進展驻仅。
至于Hinton此舉對于深度學習和整個人工智能界的后續(xù)影響噪服,包括Yann LeCun在內的各路大神恐怕都不敢冒下結論,以營長的水平仇味,在這里連翻譯和解析論文都顯得多余(論文在這里https://arxiv.org/abs/1710.09829雹顺,感興趣的話可自孺依ⅰ)。咱們還是靜等時間來驗證Hinton大神的苦心孤詣到底值不值得吧王财。
這正如Hinton大神在接受吳恩達采訪時所說的:
如果你的直覺很準裕便,那你就應該堅持,最終必能有所成就挂疆;反過來你直覺不好哎垦,那堅不堅持也就無所謂了漏设。反正你從直覺里也找不到堅持它們的理由今妄。
當然,營長肯定是相信Hinton大神的直覺的犬性,更是期待人工智能能在當前的水平上更進一步乒裆。
盡管意義不同推励,Hinton大神此舉卻讓營長想到了同在古稀之年的開爾文勛爵肉迫,他1900年那場關于物理學“兩朵烏云”的演講可是“預言”得賊準:“紫外災難”讓年近不惑的普朗克為量子力學開創(chuàng)了先河喊衫,“以太漂移”讓剛剛畢業(yè)的愛因斯坦開始思考狹義相對論杆怕,經典物理學的大廈就此崩塌。
那么寝杖,人工智能上空所飄蕩的到底是一朵“烏云”呢互纯?還是一個新的時代伟姐?讓我們拭目以待。
我們來看看Hinton的學術歷程鹿霸,這篇是來自知乎的文章:《淺析 Hinton 最近提出的 Capsule 計劃》雖然發(fā)表已有一個多月秆乳,但值得一讀
作者:SIY.Z
原文:https://zhuanlan.zhihu.com/p/29435406
這有可能也是知乎上面分析介紹深度學習最為全面的文章之一屹堰。希望做物理的,做數(shù)學的睦袖,做生物的荣刑,做化學的厉亏,做計算機,包括做科幻的都能看的很開心皿淋。
Hinton 以“深度學習之父” 和 “神經網(wǎng)絡先驅” 聞名于世,其對深度學習及神經網(wǎng)絡的諸多核心算法和結構(包括“深度學習”這個名稱本身疯暑,反向傳播算法高帖,受限玻爾茲曼機散址,深度置信網(wǎng)絡,對比散度算法瞪浸,ReLU激活單元吏祸,Dropout防止過擬合贡翘,以及深度學習早期在語音方面突破)做出了基礎性的貢獻。盡管已經將大半輩子的時間投入到神經網(wǎng)絡之上泛鸟,這位老人卻絲毫沒有想退休的意思踊东。
Hinton 近幾年以 “卷積神經網(wǎng)絡有什么問題闸翅?” 為主題做了多場報道 [1] [2],提出了他的 Capsule 計劃济赎。Hinton似乎毫不掩飾要推翻自己盼了30多年時間才建立起來的深度學習帝國的想法 [3]遗菠。他的這種精神也獲得了同行李飛飛(ImageNet創(chuàng)始者)等人肯定 [4]辙纬。
Hinton** 為什么突然想要推倒重來**叭喜?這肯定不是出于巧合或者突然心血來潮,畢竟作為一個領域的先驅譬涡,質疑自己親手建立的理論,不是誰都愿意做的事情盯腌。(試想一下陨瘩,如果你到處做報告舌劳,說自己的領域有各種各樣的問題,就算不會影響到自己大诸,也讓做這個領域的同行和靠這個領域吃飯的人不是很舒服)
說推倒重來有點過分,Hinton并沒有否定一切撵割,并且他的主要攻擊目標是深度學習在計算機視覺方面的理論睁枕。但是從幾次演講來看外遇,他的 Capsule 計劃確實和以前的方法出入比較大跳仿。Hinton 演講比較風趣菲语,但是也存在思維跳躍眼耀,難度跨度太大等問題佩憾。這些問題在他的關于 Capsule 的報告中還是比較突出的±慊疲可以說僅僅看報告很難理解完全 Hinton 的想法鬼廓。我這幾天結合各類資料,整理了一下 Hinton 的思路和動機尤慰,和大家分享一下蚣录。
Hinton 與神經網(wǎng)絡
(以下用NN指代人工神經網(wǎng)絡萎河,CNN指代(深度)卷積神經網(wǎng)絡,DNN指代深度神經網(wǎng)絡)
要深入理解Hinton的想法玛歌,就必須了解神經網(wǎng)絡發(fā)展的歷史支子,這也幾乎是Hinton的學術史达舒。
人工智能才起步的時候巩搏,科學家們很自然的會有模擬人腦的想法(被稱為連接主義),因為人腦是我們唯一知道的擁有高級智能的實體丰辣。
NN 起源于對神經系統(tǒng)的模擬笙什,最早的形式是感知機胚想,學習方法是神經學習理論中著名的 Hebb's rule 。NN最初提出就成為了人工智能火熱的研究方向淘正。不過 Hebb's rule 只能訓練單層NN鸿吆,而單層NN甚至連簡單的“異或”邏輯都不能學會述呐,而多層神經網(wǎng)絡的訓練仍然看不到希望乓搬,這導致了NN的第一個冬天。
Hinton 意識到激蹲,人工神經網(wǎng)絡不必非要按照生物的路子走学辱。在上世紀80年代环形, Hinton 和 LeCun 奠定和推廣了可以用來訓練多層神經網(wǎng)絡的反向傳播算法(back-propagation)抬吟。NN再次迎來了春天。
反向傳播算法危队,說白了就是一套快速求目標函數(shù)梯度的算法茫陆。
對于最基本的梯度下降(Gradient Descent):
反向傳播就是一種高效計算的方式
不過在那時刃鳄,NN就埋下了禍根叔锐。
首先是,反向傳播算法在生物學上很難成立讨盒,很難相信神經系統(tǒng)能夠自動形成與正向傳播對應的反向傳播結構(這需要精準地求導數(shù)返顺,對矩陣轉置,利用鏈式法則遂鹊,并且解剖學上從來也沒有發(fā)現(xiàn)這樣的系統(tǒng)存在的證據(jù))振乏。反向傳播算法更像是僅僅為了訓練多層NN而發(fā)展的算法。失去了生物學支持的NN無疑少了很多底氣慧邮,一旦遇到問題误澳,人們完全有更多理由拋棄它(歷史上上也是如此)
其次是,反向傳播算法需要SGD等方式進行優(yōu)化忆谓,這是個高度非凸的問題踱承,其數(shù)學性質是堪憂的,而且依賴精細調參毡琉。相比之下妙色,(當時的)后起之秀SVM等等使用了凸優(yōu)化技術身辨,這些都是讓人們遠離NN的拉力。當那時候的人們認為DNN的訓練沒有希望(當時反向傳播只能訓練淺層網(wǎng)絡)的時候煌珊,NN再次走向低谷。
深度學習時代的敲門磚——RBM
第二次NN低谷期間吏饿,Hinton沒有放棄蔬浙,轉而點了另外一個科技樹:熱力學統(tǒng)計模型。
Hinton由玻爾茲曼統(tǒng)計相關的知識畴博,結合馬爾科夫隨機場等圖學習理論,為神經網(wǎng)絡找到了一個新的模型:玻爾茲曼機(BM)官疲。Hinton用能量函數(shù)來描述NN的一些特性,期望這樣可以帶來更多的統(tǒng)計學支持途凫。
不久Hinton發(fā)現(xiàn)颖榜,多層神經網(wǎng)絡可以被描述為玻爾茲曼機的一種特例——受限玻爾茲曼機(RBM)。Hinton 在 Andrew Ng 近期對他的采訪中 (https://www.youtube.com/watch?v=-eyhCTvrEtE),稱其為 "most beautiful work I did"硼砰。
當年我第一次看到 RBM 的相關數(shù)學理論的時候,真的非常激動恶阴,覺得這樣的理論不work有點說不過去冯事。這里我給出相關的數(shù)學公式血公,以展示NN可以有完全不同于生物的詮釋方式昵仅。
在統(tǒng)計力學中累魔,玻爾茲曼分布(或稱吉布斯分布)可以用來描述量子體系的量子態(tài)的分布垦写,有著以下的形式:
其中是某個量子態(tài),為這個狀態(tài)的能量命辖, 為這個狀態(tài)出現(xiàn)的概率分蓖。
是玻爾茲曼常數(shù)。是系統(tǒng)溫度漓帚,在具體問題中也是一個常數(shù)午磁。于是我們不妨讓原來的表達式可以簡化為
也就是
這不就是 softmax 嗎?居然自然地在統(tǒng)計力學分布里面出現(xiàn)了(難怪之前 LeCun 讓大家學物理)昧辽。
為了再次簡化,我們定義
于是就有
(因為這時候公式里面只有一個s红氯,就沒有必要寫下標了)
下面問題來了痢甘,** E **是什么茉贡? s又應該是什么?
Hinton 看了看神經網(wǎng)絡的一層放椰,其分為可見層(輸入層)和隱含層(中間層)愉粤。按照經典網(wǎng)絡的定義,神經元有激活和未激活兩個狀態(tài)如蚜。那么干脆讓 s 等于可見層 v 并上隱含層 h神經元的狀態(tài)吧(默認都用向量的方式表示):于是
那么E又是什么呢怖亭?
非常巧合的是兴猩,量子物理學里面有個模型極其像神經網(wǎng)絡早歇,以至于只要了解過幾乎都會驚嘆兩者的相似度。這個模型就是著名 易辛模型(Ising model)晨另。易辛模型(物理學界常見調侃:你3維 Ising 模型會解了嗎谱姓?)描述了晶格系統(tǒng)中的相變,解釋了鐵磁性問題(你可能好奇過路翻,為啥這么多金屬,就鐵等少數(shù)金屬特別敏感蝶桶,而且還能被磁化真竖。這個模型給出了解釋)厌小。
Hinton 把神經元的偏置(對于可見層記作a, 對于隱含層記作b ) 作為 Ising model 的 “外場”,NN的權重W作為 Ising Model 的“內部耦合系數(shù)”(兩個神經元之間的權重越大旁振,代表它們的耦合越強涨岁,關聯(lián)越強)梢薪,于是能量就可以寫作非常簡單的形式: