【轉載】當這位70歲的Hinton老人還在努力推翻自己積累了30年的學術成果時，我才知道什么叫做生命力（附Capsule最全解析）

當這位70歲的Hinton老人還在努力推翻自己積累了30年的學術成果時圆裕，我才知道什么叫做生命力（附Capsule最全解析）

Hinton鎮(zhèn)樓

Hinton以“深度學習之父”和“神經網(wǎng)絡先驅”響徹AI領域吓妆。

這幾日吨铸，Hinton被刊進各大媒體的頭版頭條，是因為他的那篇Capsule論文剂陡，終于揭下了神秘的面紗狐胎。

在論文中，Capsule被Hinton大神定義為這樣一組神經元：其活動向量所表示的是特定實體類型的實例化參數(shù)晕鹊。他的實驗表明暴浦，鑒別式訓練的多層Capsule系統(tǒng)，在MNIST手寫數(shù)據(jù)集上表現(xiàn)出目前最先進的性能飞几，并且在識別高度重疊數(shù)字的效果要遠好于CNN独撇。

一個月前躁锁，在多倫多接受媒體采訪時战转，Hinton大神斷然宣稱要放棄反向傳播以躯，讓整個人工智能從頭再造。不明就里的媒體們頓時蒙圈不少忧设。

8月份的時候见转，Hinton大神還用一場“卷積神經網(wǎng)絡都有哪些問題蒜哀？”的演講來介紹他手中的Capsule研究，他認為“CNN的特征提取層與次抽樣層交叉存取乘客，將相同類型的相鄰特征檢測器的輸出匯集到一起”是大有問題的淀歇。當時的演講中，Hinton大神可沒少提CNN之父Yann LeCun的不同觀點牡直。

畢竟纳决，當前的CNN一味追求識別率，對于圖像內容的“理解”幫助有限饵史。而要進一步推進人工智能胜榔，讓它能像人腦一樣理解圖像內容夭织、構建抽象邏輯，僅僅是認出像素的排序肯定是不夠的讲竿，必須要找到方法來對其中的內容進行良好的表示……這就意味著新的方法和技術。

而當前的深度學習理論戴卜，自從Hinton大神在2007年（先以受限玻爾茲曼機進行訓練投剥、再用有監(jiān)督的反向傳播算法進行調優(yōu)）確立起來后，除了神經網(wǎng)絡結構上的小修小改吃警，很多進展都集中在梯度流上啄育，正如知乎大V“SIY.Z”在《淺析Hinton最近提出的Capsule計劃》（https://zhuanlan.zhihu.com/p/29435406）時所舉的例子（為了方便大家閱讀這篇文章，營長將具體內容附在文章末尾）：

sigmoid會飽和安券，造成梯度消失氓英。于是有了ReLU。
ReLU負半軸是死區(qū)址貌，造成梯度變0徘键。于是有了LeakyReLU吹害，PReLU。
強調梯度和權值分布的穩(wěn)定性赠制，由此有了ELU钟些，以及較新的SELU。
太深了汪拥，梯度傳不下去篙耗，于是有了highway宪赶。
干脆連highway的參數(shù)都不要脯燃，直接變殘差辕棚，于是有了ResNet。
強行穩(wěn)定參數(shù)的均值和方差扁瓢，于是有了BatchNorm补君。
在梯度流中增加噪聲，于是有了 Dropout伟桅。
RNN梯度不穩(wěn)定屿储，于是加幾個通路和門控渐逃，于是有了LSTM茄菊。
LSTM簡化一下，有了GRU竖哩。
GAN的JS散度有問題脊僚，會導致梯度消失或無效，于是有了WGAN增淹。
WGAN對梯度的clip有問題乌企，于是有了WGAN-GP。

而本質上的變革拳喻，特別是針對當前CNN所無力解決的動態(tài)視覺內容、三維視覺等難題……進行更為基礎的研究钦勘，或許真有可能另辟蹊徑个盆。

這當然是苦力活朵栖，Hinton大神親自操刀的話，成功了會毀掉自己賴以成名的反向傳播算法和深度學習理論终惑，失敗了則將重蹈愛因斯坦晚年“宇宙常數(shù)”的覆轍门扇。所以，李飛飛對他在這里的勇氣大為贊賞：
霸奕！drfeifei

如今Capsule的論文剛剛出來吉拳，深度學習的各路大神并沒有貿然對其下評論留攒，深夜中的外媒亦尚未就此發(fā)稿，甚至就連技術圈內一向口水不斷的Hacker News魄揉，今天也是靜悄悄地一片拭宁。

不過，可以肯定的一點是兵怯，一個月后的NIPS大會在旱，Capsule更進一步的效果必定會有所顯現(xiàn)，AI科技大本營也一定會繼續(xù)跟進這里的進展驻仅。

至于Hinton此舉對于深度學習和整個人工智能界的后續(xù)影響噪服，包括Yann LeCun在內的各路大神恐怕都不敢冒下結論，以營長的水平仇味，在這里連翻譯和解析論文都顯得多余（論文在這里https://arxiv.org/abs/1710.09829雹顺，感興趣的話可自孺依ⅰ）。咱們還是靜等時間來驗證Hinton大神的苦心孤詣到底值不值得吧王财。

這正如Hinton大神在接受吳恩達采訪時所說的：

如果你的直覺很準裕便，那你就應該堅持，最終必能有所成就挂疆；反過來你直覺不好哎垦，那堅不堅持也就無所謂了漏设。反正你從直覺里也找不到堅持它們的理由今妄。

當然，營長肯定是相信Hinton大神的直覺的犬性，更是期待人工智能能在當前的水平上更進一步乒裆。

盡管意義不同推励，Hinton大神此舉卻讓營長想到了同在古稀之年的開爾文勛爵肉迫，他1900年那場關于物理學“兩朵烏云”的演講可是“預言”得賊準：“紫外災難”讓年近不惑的普朗克為量子力學開創(chuàng)了先河喊衫，“以太漂移”讓剛剛畢業(yè)的愛因斯坦開始思考狹義相對論杆怕，經典物理學的大廈就此崩塌。

那么寝杖，人工智能上空所飄蕩的到底是一朵“烏云”呢互纯？還是一個新的時代伟姐？讓我們拭目以待。

我們來看看Hinton的學術歷程鹿霸，這篇是來自知乎的文章：《淺析 Hinton 最近提出的 Capsule 計劃》雖然發(fā)表已有一個多月秆乳，但值得一讀

作者：SIY.Z
原文：https://zhuanlan.zhihu.com/p/29435406

這有可能也是知乎上面分析介紹深度學習最為全面的文章之一屹堰。希望做物理的，做數(shù)學的睦袖，做生物的荣刑，做化學的厉亏，做計算機，包括做科幻的都能看的很開心皿淋。

Hinton 以“深度學習之父” 和 “神經網(wǎng)絡先驅” 聞名于世，其對深度學習及神經網(wǎng)絡的諸多核心算法和結構（包括“深度學習”這個名稱本身疯暑，反向傳播算法高帖，受限玻爾茲曼機散址，深度置信網(wǎng)絡，對比散度算法瞪浸，ReLU激活單元吏祸，Dropout防止過擬合贡翘，以及深度學習早期在語音方面突破）做出了基礎性的貢獻。盡管已經將大半輩子的時間投入到神經網(wǎng)絡之上泛鸟，這位老人卻絲毫沒有想退休的意思踊东。

Hinton 近幾年以 “卷積神經網(wǎng)絡有什么問題闸翅？” 為主題做了多場報道 [1] [2]，提出了他的 Capsule 計劃济赎。Hinton似乎毫不掩飾要推翻自己盼了30多年時間才建立起來的深度學習帝國的想法 [3]遗菠。他的這種精神也獲得了同行李飛飛（ImageNet創(chuàng)始者）等人肯定 [4]辙纬。

Hinton** 為什么突然想要推倒重來**叭喜？這肯定不是出于巧合或者突然心血來潮，畢竟作為一個領域的先驅譬涡，質疑自己親手建立的理論，不是誰都愿意做的事情盯腌。（試想一下陨瘩，如果你到處做報告舌劳，說自己的領域有各種各樣的問題，就算不會影響到自己大诸，也讓做這個領域的同行和靠這個領域吃飯的人不是很舒服）

說推倒重來有點過分，Hinton并沒有否定一切撵割，并且他的主要攻擊目標是深度學習在計算機視覺方面的理論睁枕。但是從幾次演講來看外遇，他的 Capsule 計劃確實和以前的方法出入比較大跳仿。Hinton 演講比較風趣菲语，但是也存在思維跳躍眼耀，難度跨度太大等問題佩憾。這些問題在他的關于 Capsule 的報告中還是比較突出的±慊疲可以說僅僅看報告很難理解完全 Hinton 的想法鬼廓。我這幾天結合各類資料，整理了一下 Hinton 的思路和動機尤慰，和大家分享一下蚣录。

Hinton 與神經網(wǎng)絡

（以下用NN指代人工神經網(wǎng)絡萎河，CNN指代（深度）卷積神經網(wǎng)絡，DNN指代深度神經網(wǎng)絡）

要深入理解Hinton的想法玛歌，就必須了解神經網(wǎng)絡發(fā)展的歷史支子，這也幾乎是Hinton的學術史达舒。

人工智能才起步的時候巩搏，科學家們很自然的會有模擬人腦的想法（被稱為連接主義），因為人腦是我們唯一知道的擁有高級智能的實體丰辣。

NN 起源于對神經系統(tǒng)的模擬笙什，最早的形式是感知機胚想，學習方法是神經學習理論中著名的 Hebb's rule 。NN最初提出就成為了人工智能火熱的研究方向淘正。不過 Hebb's rule 只能訓練單層NN鸿吆，而單層NN甚至連簡單的“異或”邏輯都不能學會述呐，而多層神經網(wǎng)絡的訓練仍然看不到希望乓搬，這導致了NN的第一個冬天。

Hinton 意識到激蹲，人工神經網(wǎng)絡不必非要按照生物的路子走学辱。在上世紀80年代环形， Hinton 和 LeCun 奠定和推廣了可以用來訓練多層神經網(wǎng)絡的反向傳播算法(back-propagation)抬吟。NN再次迎來了春天。

反向傳播算法危队，說白了就是一套快速求目標函數(shù)梯度的算法茫陆。

對于最基本的梯度下降(Gradient Descent)：
$\theta_i\leftarrow\theta_{i-1}-\nabla_{\theta}Loss$ 反向傳播就是一種高效計算 $\nabla_{\theta}Loss$ 的方式
不過在那時刃鳄，NN就埋下了禍根叔锐。

首先是，反向傳播算法在生物學上很難成立讨盒，很難相信神經系統(tǒng)能夠自動形成與正向傳播對應的反向傳播結構（這需要精準地求導數(shù)返顺，對矩陣轉置，利用鏈式法則遂鹊，并且解剖學上從來也沒有發(fā)現(xiàn)這樣的系統(tǒng)存在的證據(jù)）振乏。反向傳播算法更像是僅僅為了訓練多層NN而發(fā)展的算法。失去了生物學支持的NN無疑少了很多底氣慧邮，一旦遇到問題误澳，人們完全有更多理由拋棄它（歷史上上也是如此）

其次是，反向傳播算法需要SGD等方式進行優(yōu)化忆谓，這是個高度非凸的問題踱承，其數(shù)學性質是堪憂的，而且依賴精細調參毡琉。相比之下妙色，（當時的）后起之秀SVM等等使用了凸優(yōu)化技術身辨，這些都是讓人們遠離NN的拉力。當那時候的人們認為DNN的訓練沒有希望（當時反向傳播只能訓練淺層網(wǎng)絡）的時候煌珊，NN再次走向低谷。

深度學習時代的敲門磚——RBM

第二次NN低谷期間吏饿，Hinton沒有放棄蔬浙，轉而點了另外一個科技樹：熱力學統(tǒng)計模型。

Hinton由玻爾茲曼統(tǒng)計相關的知識畴博，結合馬爾科夫隨機場等圖學習理論，為神經網(wǎng)絡找到了一個新的模型：玻爾茲曼機(BM)官疲。Hinton用能量函數(shù)來描述NN的一些特性，期望這樣可以帶來更多的統(tǒng)計學支持途凫。

不久Hinton發(fā)現(xiàn)颖榜，多層神經網(wǎng)絡可以被描述為玻爾茲曼機的一種特例——受限玻爾茲曼機(RBM)。Hinton 在 Andrew Ng 近期對他的采訪中 (https://www.youtube.com/watch?v=-eyhCTvrEtE)，稱其為 "most beautiful work I did"硼砰。

當年我第一次看到 RBM 的相關數(shù)學理論的時候，真的非常激動恶阴，覺得這樣的理論不work有點說不過去冯事。這里我給出相關的數(shù)學公式血公，以展示NN可以有完全不同于生物的詮釋方式昵仅。

在統(tǒng)計力學中累魔，玻爾茲曼分布（或稱吉布斯分布）可以用來描述量子體系的量子態(tài)的分布垦写，有著以下的形式：
$P(s)\propto e^{-\frac{E(s)}{kT}}$
其中 $s$ 是某個量子態(tài)， $E(s)$ 為這個狀態(tài)的能量命辖， $P(s)$ 為這個狀態(tài)出現(xiàn)的概率分蓖。
$k$ 是玻爾茲曼常數(shù)。 $T$ 是系統(tǒng)溫度漓帚，在具體問題中也是一個常數(shù)午磁。于是我們不妨讓 $kT=1$ 原來的表達式可以簡化為
$P(s)\proptp e^{-E(s)}$
也就是
$P(s_i)=\frac{e^{-E(s_i)}}{\sum_se^{-E(s)}}$
這不就是 softmax 嗎？居然自然地在統(tǒng)計力學分布里面出現(xiàn)了（難怪之前 LeCun 讓大家學物理）昧辽。

為了再次簡化，我們定義
$Z:=\sum\limits_se^{-E(s)}$
于是就有
$P(s)=\frac{1}{Z}e^{-E(s)}$
（因為這時候公式里面只有一個s红氯，就沒有必要寫下標了）

下面問題來了痢甘，** E **是什么茉贡？ s又應該是什么？

Hinton 看了看神經網(wǎng)絡的一層放椰，其分為可見層（輸入層）和隱含層（中間層）愉粤。按照經典網(wǎng)絡的定義，神經元有激活和未激活兩個狀態(tài)如蚜。那么干脆讓 s 等于可見層 v 并上隱含層 h神經元的狀態(tài)吧（默認都用向量的方式表示）：于是

RBM示意圖

s= (v,h),P(v,h)=\frac{1}{Z}e^{-E(v,h)}

那么E又是什么呢怖亭？

非常巧合的是兴猩，量子物理學里面有個模型極其像神經網(wǎng)絡早歇，以至于只要了解過幾乎都會驚嘆兩者的相似度。這個模型就是著名 易辛模型(Ising model)晨另。易辛模型（物理學界常見調侃：你3維 Ising 模型會解了嗎谱姓？）描述了晶格系統(tǒng)中的相變，解釋了鐵磁性問題（你可能好奇過路翻，為啥這么多金屬，就鐵等少數(shù)金屬特別敏感蝶桶，而且還能被磁化真竖。這個模型給出了解釋）厌小。

Hinton 把神經元的偏置(對于可見層記作a, 對于隱含層記作b ) 作為 Ising model 的 “外場”，NN的權重W作為 Ising Model 的“內部耦合系數(shù)”（兩個神經元之間的權重越大旁振，代表它們的耦合越強涨岁，關聯(lián)越強）梢薪，于是能量就可以寫作非常簡單的形式：
$E(v,h)=-a^Tv-b^Th-h^TWv$

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末尝哆，一起剝皮案震驚了整個濱河市秋泄，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌瘦麸，老刑警劉巖歧胁，帶你破解...
沈念sama閱讀 206,126評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異屠缭，居然都是意外死亡崭参，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門铐殃，熙熙樓的掌柜王于貴愁眉苦臉地迎上來背稼，“玉大人，你說我怎么就攤上這事蟹肘×备梗” “怎么了许饿？”我有些...
開封第一講書人閱讀 152,445評論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長球化。經常有香客問我筒愚，道長菩浙，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,185評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任陆淀，我火速辦了婚禮轧苫，結果婚禮上浸剩，老公的妹妹穿的比我還像新娘绢要。我一直安慰自己，他們只是感情好重罪，可當我...
茶點故事閱讀 64,178評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布剿配。她就那樣靜靜地躺著，像睡著了一般茄唐。火紅的嫁衣襯著肌膚如雪沪编。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 48,970評論 1贊 284
城市分裂傳說
那天蚁廓，我揣著相機與錄音相嵌，去河邊找鬼况脆。笑死，一個胖子當著我的面吹牛捏雌，可吹牛的內容都是我干的。我是一名探鬼主播纬傲，決...
沈念sama閱讀 38,276評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼叹括，長吁一口氣：“原來是場噩夢啊……” “哼汁雷！你這毒婦竟也來了？” 一聲冷哼從身側響起侠讯，我...
開封第一講書人閱讀 36,927評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤厢漩，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后架谎，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體辟躏，經...
沈念sama閱讀 43,400評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡谷扣，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 35,883評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了捎琐。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片会涎。...
茶點故事閱讀 37,997評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖野哭，靈堂內的尸體忽然破棺而出在塔，到底是詐尸還是另有隱情，我是刑警寧澤拨黔，帶...
沈念sama閱讀 33,646評論 4贊 322
?日本核電站爆炸內幕
正文年R本政府宣布蛔溃，位于F島的核電站，受9級特大地震影響篱蝇，放射性物質發(fā)生泄漏贺待。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 39,213評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望哪工。院中可真熱鬧，春花似錦偎捎、人聲如沸茴她。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評論 0贊 19
一樁弒父案朴皆，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽遂铡。三九已至，卻和暖如春钾怔，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背矾利。一陣腳步聲響...
開封第一講書人閱讀 31,423評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留察皇，地道東北人。一個月前我還...
沈念sama閱讀 45,423評論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子吹缔，可洞房花燭夜當晚...
茶點故事閱讀 42,722評論 2贊 345

【轉載】當這位70歲的Hinton老人還在努力推翻自己積累了30年的學術成果時奇颠，我才知道什么叫做生命力（附Capsule最全解析）

【轉載】當這位70歲的Hinton老人還在努力推翻自己積累了30年的學術成果時，我才知道什么叫做生命力（附Capsule最全解析）

我們來看看Hinton的學術歷程鹿霸，這篇是來自知乎的文章：《淺析 Hinton 最近提出的 Capsule 計劃》雖然發(fā)表已有一個多月秆乳，但值得一讀

Hinton 與神經網(wǎng)絡

深度學習時代的敲門磚——RBM

推薦閱讀更多精彩內容