【一文讀懂Hinton最新Capsules論文】CNN 未來向何處去

姓名:周雪寧

學(xué)號:1702110196

轉(zhuǎn)載:https://mp.weixin.qq.com/s/gdke9E1A3eRUzgidp9uOqg

【嵌牛導(dǎo)讀】:Hinton 最近發(fā)表的一篇論文?Dynamic Routing Between Capsules 提出用 Capsule 這個概念代替反向傳播,引起廣泛關(guān)注滑凉,大數(shù)醫(yī)達創(chuàng)始人,CMU計算機學(xué)院暨機器人研究所博士鄧侃用淺顯的語言梳理解讀了論文句柠。鄧侃認為讥脐,capsule 作為視覺數(shù)學(xué)表征,很可能是為了把視覺,聽覺峻黍、閱讀的原本相互獨立的數(shù)學(xué)向量,統(tǒng)一起來拨匆,完成多模態(tài)機器學(xué)習的終極目標姆涩。

【嵌牛鼻子】:capsule,CNN

【嵌牛提問】:Capsule具體思想是什么惭每?能否真的超越CNN骨饿?

【嵌牛正文】:

CNN 未來向何處去?

做領(lǐng)袖不容易台腥,要不斷地指明方向宏赘。所謂正確的方向,不僅前途要輝煌览爵,而且道路要盡可能順暢置鼻。

Geoffrey Hinton 是深度學(xué)習領(lǐng)域的領(lǐng)袖。2011 年蜓竹,正當 CNN 模型爆發(fā)性地取得一個又一個靚麗成就時箕母,老爺子卻開始冷靜地剖析 CNN 模型存在的致命弱點储藐,指出前進的方向。

老爺子上周剛剛發(fā)表了一篇論文嘶是,題為Dynamic Routing Between Capsules钙勃。一看這題目就預(yù)料得到,這篇論文一定會引起廣泛關(guān)注聂喇。因為這題目里辖源,涉及到兩個概念,CapsuleDynamic Routing希太。而這兩個概念克饶,正是老爺子主張的 CNN 前進的方向。

老爺子的論文誊辉,讀起來略感晦澀矾湃,其實道理并不難懂。筆者嘗試用淺顯的語言堕澄,把論文梳理一下邀跃,或許有助于理解。

Capsule:實體的視覺數(shù)學(xué)表征

深度學(xué)習蛙紫,其實就是一系列的張量變換拍屑。

從圖像、視頻坑傅、音頻僵驰、文字等等原始數(shù)據(jù)中,通過一系列張量變換裁蚁,篩選出特征數(shù)據(jù)矢渊,以便完成識別、分解枉证、翻譯等等任務(wù)矮男。

譬如原始數(shù)據(jù)是 28 x 28 的黑白圖像,每個黑白像素可以用 8 個 bits 來表達室谚,那么這張黑白圖像就可以用 28 * 28 * 8 的張量來表達毡鉴,張量中每個元素的取值是布爾值,0 或者 1秒赤。

又譬如想識別在這些黑白圖像中猪瞬,是否包含從 0 到 9 的手寫體數(shù)字,那么深度學(xué)習的傳統(tǒng)做法是入篮,輸出一個 10 維向量陈瘦,( x_{0}, x_{1}, ... x_{9} ),其中每個元素 x_{i} 的取值范圍是 [0, 1.0]潮售,表示出現(xiàn)相應(yīng)數(shù)字的概率痊项。

例如锅风,輸出的向量是 ( 0.2, 0.1, 0.7, 0.9, 0.2, ..., 0.1 ),那么意味著鞍泉,圖像中出現(xiàn)數(shù)字 2 的概率是 70%皱埠,出現(xiàn)數(shù)字 3 的概率是 90% 等等。

Capsule 的創(chuàng)新咖驮,在于改變了輸出边器,不是輸出一個向量,而是輸出 10 個向量托修。每個向量分別表達某個數(shù)字的若干個屬性忘巧。

老爺子的論文中,輸出的是十個 16 維向量睦刃,(?x_{i, j}?) 其中 i = 0 ... 15, j = 0, ... 9袋坑。也就是說,老爺子認為每個手寫體數(shù)字包含 16 個屬性眯勾,包含幾個圓圈,幾個彎勾婆誓,幾個折角吃环,幾根橫豎,彎勾折角的大小洋幻,筆劃的粗細郁轻,整個字體的傾斜度,等等文留。

Capsule 的想法好唯,不難理解。但是仔細想想燥翅,存在以下幾個問題骑篙。

傳統(tǒng)的圖像識別的解決方案,是把識別問題轉(zhuǎn)化為分類問題森书。這個方法已經(jīng)足以解決識別問題靶端。實體的視覺數(shù)學(xué)表征 capsule 的意義是什么?

如何證明?16 維的 capsule 向量凛膏,能夠作為手寫體數(shù)字的視覺數(shù)學(xué)表征杨名?為什么不是 32 維或者更多?

Capsule 向量中的元素?x_{i}猖毫,與實體的屬性之間的關(guān)聯(lián)台谍,是機器自動學(xué)習出來的。但是是否可以被人為預(yù)先強制指定吁断?

低級 capsule 與高級 capsule 之間的關(guān)聯(lián)關(guān)系趁蕊,是機器自動學(xué)習出來的坞生,還是可以被人為預(yù)先強制指定?

Capsule 的意義

老爺子試圖用 capsule 向量介衔,囊括實體的所有重要屬性恨胚。如果某個實體的所有屬性,都在圖像中出現(xiàn)炎咖,那么可以確認赃泡,這個圖像一定包含這個實體。所以他把這個向量乘盼,稱為實體膠囊 capsule升熊。

一個手寫體數(shù)字,不管字體是否端正绸栅,筆劃是粗還是細级野,圓圈和彎勾是大還是小,都用同一個膠囊 capsule 來表征粹胯。

一個輪胎蓖柔,不管拍攝的角度如何,不管是正圓還是橢圓风纠,不管輪轂是什么式樣况鸣,也都可以用同一個膠囊 capsule 來表征。

說得抽象一點竹观,capsule 就是實體的視覺的數(shù)學(xué)表征镐捧。

想起了詞向量,word vector臭增,詞向量是文字詞匯的數(shù)學(xué)表征烤送。

能否把 capsule 和 word vector 統(tǒng)一起來层皱,不管實體的表達是圖像還是文字瘩绒,都可以用同一個數(shù)學(xué)向量來表征困肩?

論文中沒有明說,但是老爺子多半心懷這個想法拗窃。

說得更直白一點昔园,capsule 作為視覺數(shù)學(xué)表征,很可能是為了把視覺并炮,聽覺默刚、閱讀的原本相互獨立的數(shù)學(xué)向量,統(tǒng)一起來逃魄,完成多模態(tài)機器學(xué)習的終極目標荤西。

重構(gòu)圖像:驗證 Capsule 的猜想

假設(shè) capsule 包含了某個實體的所有重要視覺屬性,那么理論上來說,應(yīng)該可以從?capsule 還原包含該實體的圖像邪锌。

為了證明這個猜測勉躺,論文使用了一個神經(jīng)網(wǎng)絡(luò),把 capsule 向量作為輸入觅丰,重構(gòu)手寫體數(shù)字圖像并輸出饵溅。

實驗結(jié)果證明,capsule 確實能夠重構(gòu)出正確的手寫體數(shù)字圖像妇萄。

而且更讓人驚奇的是蜕企,這些 capsules 中的某些屬性,也就是?(?x_{i, j}?), i = 0...15冠句,j = 0...9轻掩,其中的幾個 x{i},具有明確的物理意義懦底,譬如手寫體字體大小寬窄傾斜度唇牧,以及字體中彎勾圓弧等局部特征的大小位置等等。

為什么每個手寫體數(shù)字只包含 16 個屬性聚唐,而不是 32 個或者更多屬性丐重?

16 個屬性,已經(jīng)足以正確地重構(gòu)手寫體數(shù)字圖像杆查。32 個或者更多屬性弥臼,無非是表達方式更細膩而已,這個問題不太重要根灯。

Dynamic Routing:從原始數(shù)據(jù)中尋找實體屬性的存在證據(jù)

Capsule 向量的元素?x_{i},與實體的屬性之間的關(guān)聯(lián)掺栅,是人為確定的烙肺,還是機器自動對應(yīng)的?

根據(jù)論文的描述氧卧,關(guān)聯(lián)關(guān)系是機器自動對應(yīng)的桃笙,所以在 capsule 向量?(?x_{i}?), i = 0...15 中,某些?x_{i}?的物理意義比較明確沙绝,其它?x_{i}?的物理意義卻可能難以解釋搏明。

假如人為強制指定 capsule 中各個?x_{i}? 的物理意義,換句話說闪檬,人為強制指定?capsule 向量元素?x_{i}?與實體屬性之間的關(guān)聯(lián)關(guān)系星著,是否會有助于提高識別精度,降低訓(xùn)練數(shù)據(jù)的數(shù)量粗悯?

回答這個問題之前虚循,需要先了解的?capsule 向量中?(?x_{i}?)?的取值,是怎么來的。

前文說到横缔,深度學(xué)習其實就是一系列的張量變換铺遂。通過一系列張量變換,從圖像茎刚、視頻襟锐、音頻、文字等等原始數(shù)據(jù)中膛锭,篩選出特征數(shù)據(jù)粮坞,以便完成識別、分解泉沾、翻譯等等任務(wù)捞蚂。

論文使用了兩層卷積神經(jīng)網(wǎng)絡(luò),對原始黑白照片跷究,也就是?28* 28 * 8 的原始張量姓迅,用兩層卷積,完成一系列張量變換俊马,轉(zhuǎn)變成新的張量 ( x_{attr, lon, lat, channel} )丁存,attr??= 0 ... 7, lon = 0 ... 5, lat = 0 ... 5, channel = 0 ... 31。

這個新張量中的 (?x_{attr} )?是初級 capsule柴我,表達原始圖像中值得注意的特征解寝。其中?attr?代表初級?capsule 的屬性,維度為 8艘儒。

新張量中的?(?x_{lon,lat} )??表示 capsule?(?x_{attr} )?在原始圖像中的方位聋伦。經(jīng)過張量變換后,28 * 28 的原始圖像界睁,被縮略為 6 *6 個方位觉增。(?x_{channel} )?是頻道,類似于多機位拍攝同一個場景翻斟,全面表達?capsule 在原始圖像中的視覺特點逾礁,總共有 32個頻道。

在新張量中访惜,總共有 lon * lat * channel = 6 * 6 * 32 = 1152 個初級 capsule?(?x_{attr} )?嘹履。換句話說,經(jīng)過一系列張量變換债热,從原始圖像中砾嫉,篩選出了 1152 個值得注意的圖像特征。

高級 capsule 是前文說的十個手寫體數(shù)字的 16 維屬性向量窒篱,即 ( x_{attr, class} ), attr = 0 ... 15, class = 0 ... 9焰枢。

想識別原始圖像中蚓峦,是否包含手寫體數(shù)字 3,也就是 class = 2济锄,只需要把 1152 個初級 capsules暑椰,逐一與高級 capsule 向量 x_{*, 2} ?做比對。

如何做比對呢荐绝?先做一次線性變換一汽,把 8 維的初級 capsule,變換成 16 維的初級 capsule低滩。然后計算 16 維的初級 capsule 與 16 維的高級 capsule 之間的余弦距離召夹,也就是兩個向量之間的點乘。

從每個高級 capsule 出發(fā)恕沫,在低級 capsules 中尋找它存在的證據(jù)监憎,這個過程,就是?Dynamic Routing婶溯。

如果某一個高級 capsule 中每一個屬性鲸阔,都能在 1152 個初級 capsules 中,找到 “對應(yīng)的” 一個或多個 capsules迄委,那么就證實了高級 capsule 中的這個屬性褐筛,確實在圖像中存在。

如果某一個高級 capsule 中的全部 16 個屬性叙身,都能在 1152 個初級 capsules 中渔扎,找到存在的證據(jù),那么就認定這個高級 capsule 在原始圖像中存在信轿。

如果有多個高級 capsules晃痴,都能在?1152 個初級 capsules 中,找到各自存在的證據(jù)财忽,那么就認定在原始圖像中存在多個高級 capsules倘核。

Capsule 與先驗知識

回到前文的問題,假如人為強制指定 capsule 中各個?x_{i}? 的物理意義定罢,換句話說,人為強制指定?capsule 向量元素?x_{i}?與實體屬性之間的關(guān)聯(lián)關(guān)系旁瘫,是否會有助于提高識別精度祖凫,降低訓(xùn)練數(shù)據(jù)的數(shù)量?

假如人為強制指定 capsule 中某個 x_{i} 用于表達圖像中是否存在圓圈酬凳,那么需要改變訓(xùn)練數(shù)據(jù)惠况。

現(xiàn)在的訓(xùn)練數(shù)據(jù),由輸入和輸出一對數(shù)據(jù)構(gòu)成宁仔。輸入數(shù)據(jù)是原始照片稠屠,輸出數(shù)據(jù)是標簽,說明原始照片中含有哪些數(shù)字。

如果要人為指定手寫體數(shù)字的 capsule 中的元素 x_{i}权埠,那么需要改變訓(xùn)練數(shù)據(jù)榨了。譬如輸入是原始照片,輸出的標簽攘蔽,是說明這張照片中是否有圓圈龙屉。

改變訓(xùn)練數(shù)據(jù)有什么意義?一個可能的意義是transfer learning满俗。

一張輪胎的照片中转捕,也包含圓圈。用現(xiàn)在的方法唆垃,輪胎的照片無助于手寫體數(shù)字的識別五芝,但是用??transfer learning,可以用輪胎的照片辕万,來訓(xùn)練機器識別圓圈枢步,然后把識別圓圈的算法模塊,融合到手寫體數(shù)字的識別系統(tǒng)中蓄坏。

至于用這種方法价捧,是否能夠提高識別精度,降低訓(xùn)練數(shù)據(jù)的數(shù)量涡戳,需要做實驗來驗證结蟋。

Parse Tree:實體特征的多層次分解,及與先驗知識的融合

在原始圖像中渔彰,識別手寫體數(shù)字嵌屎,這個實驗比較簡單。

假如設(shè)計一個難度更高的實驗恍涂,在原始圖像中宝惰,識別自行車。自行車由兩個輪胎再沧,兩個腳踏板尼夺,一個龍頭和骨架等等構(gòu)件組成。

要完成這個實驗炒瘸,需要先識別原始圖像中淤堵,是否存在輪胎、腳踏板顷扩、龍頭和骨架等等構(gòu)件拐邪。然后識別這些構(gòu)件之間的位置關(guān)系。

老爺子提議隘截,用 Parse Tree 來分解整個識別任務(wù)扎阶,從原始圖像汹胃,到圖像特征,到不同構(gòu)件东臀,到自行車的識別着饥。

Parse Tree 的生成,當然可以完全靠機器啡邑,從大量訓(xùn)練數(shù)據(jù)中自動學(xué)習贱勃。而且是一氣呵成地完成各個環(huán)節(jié),從原始圖像谤逼,到圖像特征贵扰,到不同構(gòu)件,到最終的自行車識別流部。

但是如果融合先驗知識戚绕,人為預(yù)先指定?Parse Tree 的結(jié)構(gòu),或許有助于把識別自行車的問題枝冀,拆解為若干子問題舞丛,分別識別輪胎、腳踏板果漾、龍頭和骨架等等構(gòu)件球切,然后再把子模塊整合成為自行車的識別系統(tǒng)。

當然绒障,把大問題拆解為若干子問題吨凑,需要針對各個子問題,準備各自的訓(xùn)練數(shù)據(jù)户辱。

這樣做是否有利于提高識別精度鸵钝,降低訓(xùn)練數(shù)據(jù)的數(shù)量,也需要做實驗來驗證庐镐。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末恩商,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子必逆,更是在濱河造成了極大的恐慌怠堪,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,755評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件名眉,死亡現(xiàn)場離奇詭異粟矿,居然都是意外死亡,警方通過查閱死者的電腦和手機璧针,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評論 3 395
  • 文/潘曉璐 我一進店門嚷炉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來渊啰,“玉大人探橱,你說我怎么就攤上這事申屹。” “怎么了隧膏?”我有些...
    開封第一講書人閱讀 165,138評論 0 355
  • 文/不壞的土叔 我叫張陵哗讥,是天一觀的道長。 經(jīng)常有香客問我胞枕,道長杆煞,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,791評論 1 295
  • 正文 為了忘掉前任腐泻,我火速辦了婚禮决乎,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘派桩。我一直安慰自己构诚,他們只是感情好,可當我...
    茶點故事閱讀 67,794評論 6 392
  • 文/花漫 我一把揭開白布铆惑。 她就那樣靜靜地躺著范嘱,像睡著了一般。 火紅的嫁衣襯著肌膚如雪员魏。 梳的紋絲不亂的頭發(fā)上丑蛤,一...
    開封第一講書人閱讀 51,631評論 1 305
  • 那天,我揣著相機與錄音撕阎,去河邊找鬼受裹。 笑死,一個胖子當著我的面吹牛闻书,可吹牛的內(nèi)容都是我干的名斟。 我是一名探鬼主播,決...
    沈念sama閱讀 40,362評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼魄眉,長吁一口氣:“原來是場噩夢啊……” “哼砰盐!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起坑律,我...
    開封第一講書人閱讀 39,264評論 0 276
  • 序言:老撾萬榮一對情侶失蹤岩梳,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后晃择,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體冀值,經(jīng)...
    沈念sama閱讀 45,724評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年宫屠,在試婚紗的時候發(fā)現(xiàn)自己被綠了列疗。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,040評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡浪蹂,死狀恐怖抵栈,靈堂內(nèi)的尸體忽然破棺而出告材,到底是詐尸還是另有隱情,我是刑警寧澤古劲,帶...
    沈念sama閱讀 35,742評論 5 346
  • 正文 年R本政府宣布斥赋,位于F島的核電站,受9級特大地震影響产艾,放射性物質(zhì)發(fā)生泄漏疤剑。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,364評論 3 330
  • 文/蒙蒙 一闷堡、第九天 我趴在偏房一處隱蔽的房頂上張望隘膘。 院中可真熱鬧,春花似錦杠览、人聲如沸棘幸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽误续。三九已至,卻和暖如春扫茅,著一層夾襖步出監(jiān)牢的瞬間蹋嵌,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評論 1 270
  • 我被黑心中介騙來泰國打工葫隙, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留栽烂,地道東北人。 一個月前我還...
    沈念sama閱讀 48,247評論 3 371
  • 正文 我出身青樓恋脚,卻偏偏與公主長得像腺办,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子糟描,可洞房花燭夜當晚...
    茶點故事閱讀 44,979評論 2 355

推薦閱讀更多精彩內(nèi)容