【轉載】當這位70歲的Hinton老人還在努力推翻自己積累了30年的學術成果時,我才知道什么叫做生命力(附Capsule最全解析)

當這位70歲的Hinton老人還在努力推翻自己積累了30年的學術成果時圆裕,我才知道什么叫做生命力(附Capsule最全解析)

Hinton鎮(zhèn)樓
Hinton鎮(zhèn)樓

Hinton以“深度學習之父”和“神經網(wǎng)絡先驅”響徹AI領域吓妆。

這幾日吨铸,Hinton被刊進各大媒體的頭版頭條,是因為他的那篇Capsule論文剂陡,終于揭下了神秘的面紗狐胎。

在論文中,Capsule被Hinton大神定義為這樣一組神經元:其活動向量所表示的是特定實體類型實例化參數(shù)晕鹊。他的實驗表明暴浦,鑒別式訓練的多層Capsule系統(tǒng),在MNIST手寫數(shù)據(jù)集上表現(xiàn)出目前最先進的性能飞几,并且在識別高度重疊數(shù)字的效果要遠好于CNN独撇。

一個月前躁锁,在多倫多接受媒體采訪時战转,Hinton大神斷然宣稱要放棄反向傳播以躯,讓整個人工智能從頭再造。不明就里的媒體們頓時蒙圈不少忧设。

8月份的時候见转,Hinton大神還用一場“卷積神經網(wǎng)絡都有哪些問題蒜哀?”的演講來介紹他手中的Capsule研究,他認為“CNN的特征提取層與次抽樣層交叉存取乘客,將相同類型的相鄰特征檢測器的輸出匯集到一起”是大有問題的淀歇。當時的演講中,Hinton大神可沒少提CNN之父Yann LeCun的不同觀點牡直。

畢竟纳决,當前的CNN一味追求識別率,對于圖像內容的“理解”幫助有限饵史。而要進一步推進人工智能胜榔,讓它能像人腦一樣理解圖像內容夭织、構建抽象邏輯,僅僅是認出像素的排序肯定是不夠的讲竿,必須要找到方法來對其中的內容進行良好的表示……這就意味著新的方法和技術。

而當前的深度學習理論戴卜,自從Hinton大神在2007年(先以受限玻爾茲曼機進行訓練投剥、再用有監(jiān)督的反向傳播算法進行調優(yōu))確立起來后,除了神經網(wǎng)絡結構上的小修小改吃警,很多進展都集中在梯度流上啄育,正如知乎大V“SIY.Z”在《淺析Hinton最近提出的Capsule計劃》(https://zhuanlan.zhihu.com/p/29435406)時所舉的例子(為了方便大家閱讀這篇文章,營長將具體內容附在文章末尾):

  • sigmoid會飽和安券,造成梯度消失氓英。于是有了ReLU。

  • ReLU負半軸是死區(qū)址貌,造成梯度變0徘键。于是有了LeakyReLU吹害,PReLU。

  • 強調梯度和權值分布的穩(wěn)定性赠制,由此有了ELU钟些,以及較新的SELU。

  • 太深了汪拥,梯度傳不下去篙耗,于是有了highway宪赶。

  • 干脆連highway的參數(shù)都不要脯燃,直接變殘差辕棚,于是有了ResNet。

  • 強行穩(wěn)定參數(shù)的均值和方差扁瓢,于是有了BatchNorm补君。

  • 在梯度流中增加噪聲,于是有了 Dropout伟桅。

  • RNN梯度不穩(wěn)定屿储,于是加幾個通路和門控渐逃,于是有了LSTM茄菊。

  • LSTM簡化一下,有了GRU竖哩。

  • GAN的JS散度有問題脊僚,會導致梯度消失或無效,于是有了WGAN增淹。

  • WGAN對梯度的clip有問題乌企,于是有了WGAN-GP。

而本質上的變革拳喻,特別是針對當前CNN所無力解決的動態(tài)視覺內容、三維視覺等難題……進行更為基礎的研究钦勘,或許真有可能另辟蹊徑个盆。

這當然是苦力活朵栖,Hinton大神親自操刀的話,成功了會毀掉自己賴以成名的反向傳播算法和深度學習理論终惑,失敗了則將重蹈愛因斯坦晚年“宇宙常數(shù)”的覆轍门扇。所以,李飛飛對他在這里的勇氣大為贊賞:
霸奕!drfeifei

如今Capsule的論文剛剛出來吉拳,深度學習的各路大神并沒有貿然對其下評論留攒,深夜中的外媒亦尚未就此發(fā)稿,甚至就連技術圈內一向口水不斷的Hacker News魄揉,今天也是靜悄悄地一片拭宁。

不過,可以肯定的一點是兵怯,一個月后的NIPS大會在旱,Capsule更進一步的效果必定會有所顯現(xiàn),AI科技大本營也一定會繼續(xù)跟進這里的進展驻仅。

至于Hinton此舉對于深度學習和整個人工智能界的后續(xù)影響噪服,包括Yann LeCun在內的各路大神恐怕都不敢冒下結論,以營長的水平仇味,在這里連翻譯和解析論文都顯得多余(論文在這里https://arxiv.org/abs/1710.09829雹顺,感興趣的話可自孺依ⅰ)。咱們還是靜等時間來驗證Hinton大神的苦心孤詣到底值不值得吧王财。

這正如Hinton大神在接受吳恩達采訪時所說的:

如果你的直覺很準裕便,那你就應該堅持,最終必能有所成就挂疆;反過來你直覺不好哎垦,那堅不堅持也就無所謂了漏设。反正你從直覺里也找不到堅持它們的理由今妄。

當然,營長肯定是相信Hinton大神的直覺的犬性,更是期待人工智能能在當前的水平上更進一步乒裆。

盡管意義不同推励,Hinton大神此舉卻讓營長想到了同在古稀之年的開爾文勛爵肉迫,他1900年那場關于物理學“兩朵烏云”的演講可是“預言”得賊準:“紫外災難”讓年近不惑的普朗克為量子力學開創(chuàng)了先河喊衫,“以太漂移”讓剛剛畢業(yè)的愛因斯坦開始思考狹義相對論杆怕,經典物理學的大廈就此崩塌。

那么寝杖,人工智能上空所飄蕩的到底是一朵“烏云”呢互纯?還是一個新的時代伟姐?讓我們拭目以待。

我們來看看Hinton的學術歷程鹿霸,這篇是來自知乎的文章:《淺析 Hinton 最近提出的 Capsule 計劃》雖然發(fā)表已有一個多月秆乳,但值得一讀

作者:SIY.Z
原文:https://zhuanlan.zhihu.com/p/29435406

這有可能也是知乎上面分析介紹深度學習最為全面的文章之一屹堰。希望做物理的,做數(shù)學的睦袖,做生物的荣刑,做化學的厉亏,做計算機,包括做科幻的都能看的很開心皿淋。

Hinton 以“深度學習之父” 和 “神經網(wǎng)絡先驅” 聞名于世,其對深度學習及神經網(wǎng)絡的諸多核心算法和結構(包括“深度學習”這個名稱本身疯暑,反向傳播算法高帖,受限玻爾茲曼機散址,深度置信網(wǎng)絡,對比散度算法瞪浸,ReLU激活單元吏祸,Dropout防止過擬合贡翘,以及深度學習早期在語音方面突破)做出了基礎性的貢獻。盡管已經將大半輩子的時間投入到神經網(wǎng)絡之上泛鸟,這位老人卻絲毫沒有想退休的意思踊东。

Hinton 近幾年以 “卷積神經網(wǎng)絡有什么問題闸翅?” 為主題做了多場報道 [1] [2],提出了他的 Capsule 計劃济赎。Hinton似乎毫不掩飾要推翻自己盼了30多年時間才建立起來的深度學習帝國的想法 [3]遗菠。他的這種精神也獲得了同行李飛飛(ImageNet創(chuàng)始者)等人肯定 [4]辙纬。

Hinton** 為什么突然想要推倒重來**叭喜?這肯定不是出于巧合或者突然心血來潮,畢竟作為一個領域的先驅譬涡,質疑自己親手建立的理論,不是誰都愿意做的事情盯腌。(試想一下陨瘩,如果你到處做報告舌劳,說自己的領域有各種各樣的問題,就算不會影響到自己大诸,也讓做這個領域的同行和靠這個領域吃飯的人不是很舒服)

說推倒重來有點過分,Hinton并沒有否定一切撵割,并且他的主要攻擊目標深度學習在計算機視覺方面的理論睁枕。但是從幾次演講來看外遇,他的 Capsule 計劃確實和以前的方法出入比較大跳仿。Hinton 演講比較風趣菲语,但是也存在思維跳躍眼耀,難度跨度太大等問題佩憾。這些問題在他的關于 Capsule 的報告中還是比較突出的±慊疲可以說僅僅看報告很難理解完全 Hinton 的想法鬼廓。我這幾天結合各類資料,整理了一下 Hinton 的思路和動機尤慰,和大家分享一下蚣录。

Hinton 與神經網(wǎng)絡

(以下用NN指代人工神經網(wǎng)絡萎河,CNN指代(深度)卷積神經網(wǎng)絡,DNN指代深度神經網(wǎng)絡)

要深入理解Hinton的想法玛歌,就必須了解神經網(wǎng)絡發(fā)展的歷史支子,這也幾乎是Hinton的學術史达舒。

人工智能才起步的時候巩搏,科學家們很自然的會有模擬人腦的想法(被稱為連接主義),因為人腦是我們唯一知道的擁有高級智能的實體丰辣。

NN 起源于對神經系統(tǒng)的模擬笙什,最早的形式是感知機胚想,學習方法是神經學習理論中著名的 Hebb's rule 。NN最初提出就成為了人工智能火熱的研究方向淘正。不過 Hebb's rule 只能訓練單層NN鸿吆,而單層NN甚至連簡單的“異或”邏輯都不能學會述呐,而多層神經網(wǎng)絡的訓練仍然看不到希望乓搬,這導致了NN的第一個冬天

Hinton 意識到激蹲,人工神經網(wǎng)絡不必非要按照生物的路子走学辱。在上世紀80年代环形, Hinton 和 LeCun 奠定和推廣了可以用來訓練多層神經網(wǎng)絡的反向傳播算法(back-propagation)抬吟。NN再次迎來了春天

反向傳播算法危队,說白了就是一套快速求目標函數(shù)梯度的算法茫陆。

對于最基本的梯度下降(Gradient Descent):
\theta_i\leftarrow\theta_{i-1}-\nabla_{\theta}Loss反向傳播就是一種高效計算\nabla_{\theta}Loss的方式
不過在那時刃鳄,NN就埋下了禍根叔锐。

首先是,反向傳播算法在生物學上很難成立讨盒,很難相信神經系統(tǒng)能夠自動形成與正向傳播對應的反向傳播結構(這需要精準地求導數(shù)返顺,對矩陣轉置,利用鏈式法則遂鹊,并且解剖學上從來也沒有發(fā)現(xiàn)這樣的系統(tǒng)存在的證據(jù))振乏。反向傳播算法更像是僅僅為了訓練多層NN而發(fā)展的算法。失去了生物學支持的NN無疑少了很多底氣慧邮,一旦遇到問題误澳,人們完全有更多理由拋棄它(歷史上上也是如此)

其次是,反向傳播算法需要SGD等方式進行優(yōu)化忆谓,這是個高度非凸的問題踱承,其數(shù)學性質是堪憂的,而且依賴精細調參毡琉。相比之下妙色,(當時的)后起之秀SVM等等使用了凸優(yōu)化技術身辨,這些都是讓人們遠離NN的拉力。當那時候的人們認為DNN的訓練沒有希望(當時反向傳播只能訓練淺層網(wǎng)絡)的時候煌珊,NN再次走向低谷

深度學習時代的敲門磚——RBM

第二次NN低谷期間吏饿,Hinton沒有放棄蔬浙,轉而點了另外一個科技樹:熱力學統(tǒng)計模型。

Hinton由玻爾茲曼統(tǒng)計相關的知識畴博,結合馬爾科夫隨機場等圖學習理論,為神經網(wǎng)絡找到了一個新的模型:玻爾茲曼機(BM)官疲。Hinton用能量函數(shù)來描述NN的一些特性,期望這樣可以帶來更多的統(tǒng)計學支持途凫。

不久Hinton發(fā)現(xiàn)颖榜,多層神經網(wǎng)絡可以被描述為玻爾茲曼機的一種特例——受限玻爾茲曼機(RBM)。Hinton 在 Andrew Ng 近期對他的采訪中 (https://www.youtube.com/watch?v=-eyhCTvrEtE),稱其為 "most beautiful work I did"硼砰。

當年我第一次看到 RBM 的相關數(shù)學理論的時候,真的非常激動恶阴,覺得這樣的理論不work有點說不過去冯事。這里我給出相關的數(shù)學公式血公,以展示NN可以有完全不同于生物的詮釋方式昵仅。

在統(tǒng)計力學中累魔,玻爾茲曼分布(或稱吉布斯分布)可以用來描述量子體系的量子態(tài)的分布垦写,有著以下的形式:
P(s)\propto e^{-\frac{E(s)}{kT}}
其中s是某個量子態(tài),E(s)為這個狀態(tài)的能量命辖, P(s)為這個狀態(tài)出現(xiàn)的概率分蓖。
k是玻爾茲曼常數(shù)。T是系統(tǒng)溫度漓帚,在具體問題中也是一個常數(shù)午磁。于是我們不妨讓kT=1原來的表達式可以簡化為
P(s)\proptp e^{-E(s)}
也就是
P(s_i)=\frac{e^{-E(s_i)}}{\sum_se^{-E(s)}}
這不就是 softmax 嗎?居然自然地在統(tǒng)計力學分布里面出現(xiàn)了(難怪之前 LeCun 讓大家學物理)昧辽。

為了再次簡化,我們定義
Z:=\sum\limits_se^{-E(s)}
于是就有
P(s)=\frac{1}{Z}e^{-E(s)}
(因為這時候公式里面只有一個s红氯,就沒有必要寫下標了)

下面問題來了痢甘,** E **是什么茉贡? s又應該是什么?

Hinton 看了看神經網(wǎng)絡的一層放椰,其分為可見層(輸入層)和隱含層(中間層)愉粤。按照經典網(wǎng)絡的定義,神經元有激活和未激活兩個狀態(tài)如蚜。那么干脆讓 s 等于可見層 v 并上隱含層 h神經元的狀態(tài)吧(默認都用向量的方式表示):于是

RBM示意圖
RBM示意圖

s= (v,h),P(v,h)=\frac{1}{Z}e^{-E(v,h)}

那么E又是什么呢怖亭?

非常巧合的是兴猩,量子物理學里面有個模型極其像神經網(wǎng)絡早歇,以至于只要了解過幾乎都會驚嘆兩者的相似度。這個模型就是著名 易辛模型(Ising model)晨另。易辛模型(物理學界常見調侃:你3維 Ising 模型會解了嗎谱姓?)描述了晶格系統(tǒng)中的相變,解釋了鐵磁性問題(你可能好奇過路翻,為啥這么多金屬,就鐵等少數(shù)金屬特別敏感蝶桶,而且還能被磁化真竖。這個模型給出了解釋)厌小。

Hinton 把神經元的偏置(對于可見層記作a, 對于隱含層記作b ) 作為 Ising model 的 “外場”,NN的權重W作為 Ising Model 的“內部耦合系數(shù)”(兩個神經元之間的權重越大旁振,代表它們的耦合越強涨岁,關聯(lián)越強)梢薪,于是能量就可以寫作非常簡單的形式:
E(v,h)=-a^Tv-b^Th-h^TWv

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末尝哆,一起剝皮案震驚了整個濱河市秋泄,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌瘦麸,老刑警劉巖歧胁,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異屠缭,居然都是意外死亡崭参,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門铐殃,熙熙樓的掌柜王于貴愁眉苦臉地迎上來背稼,“玉大人,你說我怎么就攤上這事蟹肘×备梗” “怎么了许饿?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長球化。 經常有香客問我筒愚,道長菩浙,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任陆淀,我火速辦了婚禮轧苫,結果婚禮上浸剩,老公的妹妹穿的比我還像新娘绢要。我一直安慰自己,他們只是感情好重罪,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布剿配。 她就那樣靜靜地躺著,像睡著了一般茄唐。 火紅的嫁衣襯著肌膚如雪沪编。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天蚁廓,我揣著相機與錄音相嵌,去河邊找鬼况脆。 笑死,一個胖子當著我的面吹牛捏雌,可吹牛的內容都是我干的。 我是一名探鬼主播纬傲,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼叹括,長吁一口氣:“原來是場噩夢啊……” “哼汁雷!你這毒婦竟也來了?” 一聲冷哼從身側響起侠讯,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤厢漩,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后架谎,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體辟躏,經...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡谷扣,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了捎琐。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片会涎。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖野哭,靈堂內的尸體忽然破棺而出在塔,到底是詐尸還是另有隱情,我是刑警寧澤拨黔,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布蛔溃,位于F島的核電站,受9級特大地震影響篱蝇,放射性物質發(fā)生泄漏贺待。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望哪工。 院中可真熱鬧,春花似錦偎捎、人聲如沸茴她。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽遂铡。三九已至,卻和暖如春钾怔,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背矾利。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留察皇,地道東北人。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子吹缔,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內容

  • 假期里,孩子似乎像斷了線的風箏抓半!飄飄悠悠的沒有方向的玩,雖然也做了部分假期作業(yè)探入,但是心還是沒定下來蜂嗽,今天正式...
    飛越高空閱讀 183評論 0 7
  • 當女兒決定這個學期要通校的時候,我的心就緊縮著隆嗅,她住校的時候,我們的生活就已經手忙腳亂了丽焊,她要是通校要早晚接送可怎...
    長青竹ing閱讀 239評論 3 5
  • 感賞: 昨天中午同事幫我收了村醫(yī)送來的資料惰拱,我沒被打擾得午休欣孤,謝謝同事的體貼。 女兒經過努力昨天數(shù)學考得98分她是...
    貴州六年級莊杰閱讀 132評論 0 2