摘要:本文講的是“信息瓶頸”理論揭示深度學(xué)習(xí)本質(zhì),Hinton說他要看1萬遍鸠窗,利用深度神經(jīng)網(wǎng)絡(luò)的機(jī)器已經(jīng)學(xué)會了交談妓羊、開車,在玩視頻游戲和下圍棋時擊敗了世界冠軍稍计,還能做夢躁绸、畫畫,幫助進(jìn)行科學(xué)發(fā)現(xiàn),但同時它們也深深地讓其發(fā)明者困惑净刮,誰也沒有料到所謂的“深度學(xué)習(xí)”算法能做得這么好剥哑。
本文講的是“信息瓶頸”理論揭示深度學(xué)習(xí)本質(zhì),Hinton說他要看1萬遍淹父,利用深度神經(jīng)網(wǎng)絡(luò)的機(jī)器已經(jīng)學(xué)會了交談株婴、開車,在玩視頻游戲和下圍棋時擊敗了世界冠軍暑认,還能做夢困介、畫畫,幫助進(jìn)行科學(xué)發(fā)現(xiàn)蘸际,但同時它們也深深地讓其發(fā)明者困惑座哩,誰也沒有料到所謂的“深度學(xué)習(xí)”算法能做得這么好。沒有基本的原則指引這些學(xué)習(xí)系統(tǒng)粮彤,除了一些模糊的來自人類大腦的設(shè)計靈感(而關(guān)于這一點八回,實際上也沒有人真正懂得多少)。
像大腦一樣驾诈,深度神經(jīng)網(wǎng)絡(luò)也有很多層神經(jīng)元缠诅。當(dāng)神經(jīng)元被激活時,它會發(fā)出信號乍迄,連接上面一層的神經(jīng)元管引。在深度學(xué)習(xí)的過程中,網(wǎng)絡(luò)中的連接會根據(jù)需要被加強(qiáng)或減弱闯两,從而讓網(wǎng)絡(luò)更好地根據(jù)輸入(例如一張狗的照片的像素)發(fā)送信號褥伴,信號層層向上,經(jīng)過所有相關(guān)的神經(jīng)元漾狼,這些神經(jīng)元都與“狗”這個概念的高層抽象有關(guān)重慢。一個深度神經(jīng)網(wǎng)絡(luò)在“學(xué)習(xí)”過數(shù)以千計的狗的照片后,能像人一樣準(zhǔn)確地識別出從未見過的照片中的狗逊躁。
從具體個例到通用概念的飛躍似踱,讓深度神經(jīng)網(wǎng)絡(luò)擁有了如同人類在推理、創(chuàng)作時所展現(xiàn)出的“智能”稽煤。專業(yè)人員想知道核芽,是什么賦予了神經(jīng)網(wǎng)絡(luò)泛化的能力,也想知道人類的大腦在多大程度上也在進(jìn)行類似的活動酵熙。
近年來少有的干貨演講轧简,Hinton說他要看上10000遍才懂
上月,在柏林舉行的一場演講為這一疑問提供了一個可能的回答匾二,這場演講的視頻在人工智能研究人員間廣為分享哮独。
演講中拳芙,希伯來大學(xué)的計算機(jī)科學(xué)家和神經(jīng)學(xué)家Naftali Tishby,提出了一種解釋深度學(xué)習(xí)工作原理的新理論皮璧,并給出了證據(jù)支撐舟扎。Tishby認(rèn)為,深度神經(jīng)網(wǎng)絡(luò)根據(jù)一種被稱為“信息瓶頸”(information bottleneck)的過程在學(xué)習(xí)恶导,他和兩位合作者最早在1999年對這一過程進(jìn)行了純理論方面的描述。
信息瓶頸理論認(rèn)為浸须,網(wǎng)絡(luò)像把信息從一個瓶頸中擠壓出去一般惨寿,去除掉那些含有無關(guān)細(xì)節(jié)的噪音輸入數(shù)據(jù),只保留與通用概念(general concept)最相關(guān)的特征删窒。Tishby和他的學(xué)生Ravid Shwartz-Ziv的最新實驗裂垦,展示了深度學(xué)習(xí)過程中這種“擠壓”是如何發(fā)生的(至少在他們所研究的案例里)。
Tishby的發(fā)現(xiàn)在AI研究圈激起了強(qiáng)烈的反向肌索。Google Researc的Alex Alemi說:“我認(rèn)為信息瓶頸的想法可能在未來深度神經(jīng)網(wǎng)絡(luò)的研究中非常重要蕉拢。”Alemi已經(jīng)開發(fā)了新的近似方法诚亚,在大規(guī)模深度神經(jīng)網(wǎng)絡(luò)中應(yīng)用信息瓶頸分析晕换。Alemi說,信息瓶頸可能“不僅能夠用于理解為什么神經(jīng)網(wǎng)絡(luò)有用站宗,也是用于構(gòu)建新目標(biāo)和新網(wǎng)絡(luò)架構(gòu)的理論工具”闸准。
另外一些研究人員則持懷疑態(tài)度,認(rèn)為信息瓶頸理論不能完全解釋深學(xué)習(xí)的成功梢灭。但是夷家,紐約大學(xué)的粒子物理學(xué)家Kyle Cranmer——他使用機(jī)器學(xué)習(xí)來分析大型強(qiáng)子對撞機(jī)的粒子碰撞——表示,一種通用的學(xué)習(xí)原理(a general principle of learning)敏释,“聽上去有些道理”库快。
深度學(xué)習(xí)先驅(qū)Geoffrey Hinton在看完Tishby的柏林演講后發(fā)電子郵件給Tishby≡客纾“這簡直太有趣了义屏,”Hinton寫道:“我還得聽上10,000次才能真正理解它,但如今聽一個演講蜂大,里面有真正原創(chuàng)的想法湿蛔,而且可能解決重大的問題,真是非常罕見了县爬⊙羯叮”
Tishby認(rèn)為,信息瓶頸是學(xué)習(xí)的一個基本原則财喳,無論是算法也好察迟,蒼蠅也罷斩狱,任何有意識的存在或突發(fā)行為的物理學(xué)計算,大家最期待的答案——“學(xué)習(xí)最重要的部分實際上是忘記”扎瓶。
香農(nóng)錯了——利用信息論所踊,我們能夠精確定義“相關(guān)性”
Tishby很早便開始考慮信息瓶頸的問題,那時候其他研究人員也才剛剛開始醞釀深度神經(jīng)網(wǎng)絡(luò)概荷,盡管當(dāng)時無論是信息瓶頸還是深度神經(jīng)網(wǎng)絡(luò)都還沒有得名秕岛。那是20世紀(jì)80年代,Tishby在思考人類是如何做語音識別的——語音識別是當(dāng)時AI的一個重大挑戰(zhàn)误证。Tishby意識到继薛,問題的關(guān)鍵是相關(guān)性:說出來的一個詞最相關(guān)的特征是什么,我們又該如何從重音愈捅、語調(diào)遏考、模糊音等變量中將這個特征計算出來?在通常情況下蓝谨,當(dāng)我們面對現(xiàn)實生活中汪洋大海般的數(shù)據(jù)時灌具,哪些信號是我們會保留下來的?
“相關(guān)信息(relevant information)的概念在歷史上提到了許多次譬巫,但從來沒有被正確地形式化咖楣,”Tishby在上個月接受采訪時說:“多年來,人們認(rèn)為信息論不是考慮相關(guān)性的正確方式芦昔,這個誤解可以一直追溯到香農(nóng)本人截歉。”
克勞德·香農(nóng)烟零,信息論的創(chuàng)始人瘪松,從某種程度上說,是香農(nóng)解放了人類對信息的研究锨阿,讓信息能夠以抽象的0宵睦、1形式和純粹的數(shù)學(xué)意義被研究。正如Tishby所說的那樣墅诡,香農(nóng)認(rèn)為“信息并非關(guān)乎語義”壳嚎。但是,Tishby認(rèn)為末早,這是不正確的烟馅。
Tishby意識到,利用信息論然磷,“你能精確定義‘相關(guān)’(relevant)”郑趁。
希伯來大學(xué)計算機(jī)科學(xué)家和神經(jīng)學(xué)家Naftali Tishby
假設(shè)X是一個復(fù)雜的數(shù)據(jù)集,就像一張狗的照片的像素姿搜,而Y是這些數(shù)據(jù)代表的一個更為簡單的變量寡润,比如單詞“狗”捆憎。你可以任意壓縮X而不丟失預(yù)測Y的能力,將X中所有與Y“相關(guān)”的信息捕獲下來梭纹。在他們1999年的論文中躲惰,Tishby和他的共同作者,F(xiàn)ernando Pereira(現(xiàn)在在谷歌)和William Bialek(現(xiàn)在在普林斯頓大學(xué))变抽,將這一過程轉(zhuǎn)換成一個數(shù)學(xué)優(yōu)化問題并且提出了數(shù)學(xué)公式础拨。這是一個沒有殺手級應(yīng)用的核心基礎(chǔ)概念。
“我沿著這條路在各種不同的情景中思考了30年绍载,”Tishby說:“我唯一的運(yùn)氣就是深度神經(jīng)網(wǎng)絡(luò)變得如此重要诡宗。”
一篇論文的驚人發(fā)現(xiàn):深度學(xué)習(xí)與物理重整化是完全相同的過程
深度神經(jīng)網(wǎng)絡(luò)背后的概念已經(jīng)存在了幾十年逛钻,但它們在語音和圖像識別任務(wù)中的表現(xiàn)在最近幾年才開始起飛僚焦,得益于改進(jìn)了訓(xùn)練方案和更強(qiáng)大的計算機(jī)處理器锰提。Tishby在讀了物理學(xué)家David Schwab和Pankaj Mehta在2014年發(fā)表的一篇論文后曙痘,開始注意到深度學(xué)習(xí)與信息瓶頸理論的關(guān)聯(lián)。
David Schwab和Pankaj Mehta兩人發(fā)現(xiàn)立肘,Hinton發(fā)明的“深度信念網(wǎng)絡(luò)”(DBN)边坤,在一種特定的情況下,酷似物理學(xué)中的重整化(renormalization)谅年,也就是以粗粒度的方式獲取物理系統(tǒng)的細(xì)節(jié)茧痒,從而計算其整體狀態(tài)。當(dāng)Schwab和Mehta將深度信念網(wǎng)絡(luò)應(yīng)用于一個處于“臨界點”的磁力模型時(這時該系統(tǒng)是分形融蹂,在任意尺度都自相似)旺订,他們發(fā)現(xiàn),網(wǎng)絡(luò)會自動使用重整化般的過程來發(fā)現(xiàn)模型的狀態(tài)超燃。
這一發(fā)現(xiàn)令人震驚区拳,正如生物物理學(xué)家Ilya Nemenman當(dāng)時評論所說的那樣,它表明了“在統(tǒng)計物理的背景下提取相關(guān)特征和在深度學(xué)習(xí)的背景下提取相關(guān)特征并不只是類似意乓,而是完完全全的同一個樱调。”
物理學(xué)家David Schwab和Pankaj Mehta在2014年的論文届良,證明在特定情況下深度學(xué)習(xí)等同于物理中的重整化技術(shù)笆凌,這讓Tishby注意到信息瓶頸理論與深度學(xué)習(xí)之間的關(guān)聯(lián)
唯一的問題是,在一般情況下士葫,現(xiàn)實世界并不是分形乞而。Cranmer說:“我不會說[重整化步驟]就是深度學(xué)習(xí)在處理自然圖像時效果這么好的原因÷裕”
但Tishby——他當(dāng)時正在接受胰腺癌化療——意識到晦闰,無論是粗粒度過程還是深度學(xué)習(xí)放祟,都可以被一個更廣泛通用的想法所涵蓋∩胗遥“對科學(xué)和對我以前想法的思考是我的治療和康復(fù)的重要組成部分跪妥,”Tishby說。
Naftali Tishby的學(xué)生Noga Zaslavsky(左)和Ravid Shwartz-Ziv声滥,他們幫助開發(fā)了深度學(xué)習(xí)信息瓶頸理論眉撵。
信息瓶頸:網(wǎng)絡(luò)在抽取相關(guān)性時的理論邊界
2015年,Tishby和他的學(xué)生Noga Zaslavsky假設(shè)深度學(xué)習(xí)是一個信息瓶頸過程落塑,盡可能地壓縮噪聲數(shù)據(jù)纽疟,同時保留數(shù)據(jù)所代表的信息。Tishby和Shwartz-Ziv對深度神經(jīng)網(wǎng)絡(luò)的新實驗揭示了瓶頸過程如何實際發(fā)生的憾赁。在一種情況下污朽,研究人員使用小型神經(jīng)網(wǎng)絡(luò),使用隨機(jī)梯度下降和BP龙考,經(jīng)過訓(xùn)練后蟆肆,能夠用1或0(也即“是狗”或“不是狗”)標(biāo)記輸入數(shù)據(jù),并給出其282個神經(jīng)連接隨機(jī)初始強(qiáng)度晦款,然后跟蹤了網(wǎng)絡(luò)在接收3000個樣本輸入數(shù)據(jù)集后發(fā)生了什么炎功。
實驗中,Tishby和Shwartz-Ziv跟蹤了每層網(wǎng)絡(luò)保留了多少輸入中的信息和輸出標(biāo)簽中的信息缓溅。結(jié)果發(fā)現(xiàn)蛇损,信息經(jīng)過逐層傳遞,最終收斂到信息瓶頸的理論邊界:也就是Tishby坛怪、Pereira和Bialek在他們1999年論文中推導(dǎo)出的理論界限淤齐,代表系統(tǒng)在抽取相關(guān)信息時能夠做到的最好的情況。在這個邊界上袜匿,網(wǎng)絡(luò)在沒有犧牲準(zhǔn)確預(yù)測標(biāo)簽?zāi)芰Φ那闆r下更啄,盡可能地壓縮輸入。
Tishby和Shwartz-Ziv還提出了一個有趣的發(fā)現(xiàn)沉帮,即深度學(xué)習(xí)分為兩個階段:一個簡短的“擬合”階段锈死,在此期間,網(wǎng)絡(luò)學(xué)著去標(biāo)注其訓(xùn)練數(shù)據(jù)穆壕,以及一個更長時間的“壓縮”階段待牵,在這個階段網(wǎng)絡(luò)變得能夠泛化,也即標(biāo)記新的測試數(shù)據(jù)喇勋。
作者在論文中指出缨该,他們在實驗中首次觀察到了隨機(jī)梯度下降優(yōu)化過程中兩個獨特的階段,經(jīng)驗誤差最小化(ERM)和表示壓縮川背。上圖展示了SGD過程中信息逐層傳遞收斂的情況贰拿。
在深度神經(jīng)網(wǎng)絡(luò)通過隨機(jī)梯度下降調(diào)整其連接權(quán)重的過程中蛤袒,首先,網(wǎng)絡(luò)存儲的關(guān)于輸入的數(shù)據(jù)會大致保持恒定或者稍微增加一點點膨更,這時網(wǎng)絡(luò)連接會進(jìn)行調(diào)整妙真,為輸入中的模式進(jìn)行編碼,更好地擬合標(biāo)簽荚守。有一些專家也將這個階段與記憶進(jìn)行了類比珍德。
然后,學(xué)習(xí)切換到壓縮階段矗漾。網(wǎng)絡(luò)開始扔掉一些關(guān)于輸入數(shù)據(jù)的信息锈候,只跟蹤最強(qiáng)的特征——與輸出標(biāo)簽最相關(guān)的那些關(guān)聯(lián)(correlation)。這是因為敞贡,在隨機(jī)梯度下降的每次迭代中泵琳,訓(xùn)練數(shù)據(jù)中或多或少的意外相關(guān)性會告訴網(wǎng)絡(luò)做不同的事情,在隨機(jī)游走(random walk)中上下?lián)軇由窠?jīng)連接的強(qiáng)度誊役。這種隨機(jī)化與壓縮系統(tǒng)輸入數(shù)據(jù)的表示(representation)實際上是相同的获列。看這個例子势木,一些狗的照片的背景中可能有房子蛛倦,而其他的照片沒有歌懒。在網(wǎng)絡(luò)不停地訓(xùn)練過程中啦桌,它可能會“忘記”一些照片中房屋和狗之間的相關(guān)性,因為其他照片抵消了這一點及皂。Tishby和Shwartz-Ziv認(rèn)為甫男,正是對細(xì)節(jié)的遺忘使得系統(tǒng)能夠形成通用的概念。實際上验烧,他們的實驗表明板驳,深度神經(jīng)網(wǎng)絡(luò)在壓縮階段提高了泛化性能,在標(biāo)記測試數(shù)據(jù)方面變得更好碍拆。
信息瓶頸能否解釋所有的深度學(xué)習(xí)若治?
信息瓶頸是否能解釋所有深度學(xué)習(xí),除了壓縮以外是否還有其他的泛化途徑感混,這些還有待觀察端幼。一些AI專家認(rèn)為,Tishby的想法是近期出現(xiàn)的關(guān)于深度學(xué)習(xí)最重要的理論見解之一弧满。不過婆跑,哈佛大學(xué)AI研究員和理論神經(jīng)科學(xué)家Andrew Saxe指出,某些非常大的深度神經(jīng)網(wǎng)絡(luò)似乎不需要專門的壓縮階段來泛化庭呜。研究人員會用一種叫做“早期停止”(early stopping)的方式進(jìn)行編程滑进,減少訓(xùn)練犀忱,從一開始就防止網(wǎng)絡(luò)編碼過多的相關(guān)性。
Tishby認(rèn)為扶关,Saxe及其同事分析的網(wǎng)絡(luò)模型與標(biāo)準(zhǔn)的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)有所不同阴汇,但是即使如此,信息瓶頸的理論界限比其他方法更好地定義了這些網(wǎng)絡(luò)的泛化性能节槐。關(guān)于瓶頸是否適用于較大神經(jīng)網(wǎng)絡(luò)鲫寄,Tishby和Shwartz-Ziv的最新實驗部分解決了這一問題。在最新的這項實驗中疯淫,Tishby他們訓(xùn)練了更大的地来,擁有33萬連接的深度神經(jīng)網(wǎng)絡(luò),識別美國國家標(biāo)準(zhǔn)和技術(shù)研究所數(shù)據(jù)庫(Modified National Institute of Standards and Technology database)中60,000張手寫數(shù)字的圖像熙掺,這也是衡量深度學(xué)習(xí)算法性能的一個知名基準(zhǔn)未斑。
Tishby和Shwartz-Ziv觀察到了同樣的現(xiàn)象,網(wǎng)絡(luò)收斂到了信息瓶頸的理論界限币绩;他們也觀察到了深度學(xué)習(xí)那兩個截然不同的階段蜡秽,并且與較小的網(wǎng)絡(luò)相比,大規(guī)模網(wǎng)絡(luò)在這兩個階段的轉(zhuǎn)換更加明顯缆镣。
“我現(xiàn)在完全相信這是一個普遍現(xiàn)象芽突。”Tishby說董瞻。
人與機(jī)器:學(xué)習(xí)過程中最重要的寞蚌,是遺忘
大腦如何從我們的感官中篩選信號并將其提升到意識水平的謎團(tuán)驅(qū)使了早期AI研究者對深度神經(jīng)網(wǎng)絡(luò)的興趣,他們希望逆向設(shè)計大腦的學(xué)習(xí)規(guī)則钠糊。時至今日挟秤,AI從業(yè)者在技術(shù)進(jìn)步的狂熱中,已經(jīng)在很大程度上放棄了這一點抄伍,迷醉于提高性能而不考慮生物學(xué)上的合理性艘刚。不過,在他們打造的思維機(jī)器能力不斷提升的過程中截珍,許多研究人員仍然希望攀甚,這些探索能夠揭示關(guān)于學(xué)習(xí)和智能的通用見解。
紐約大學(xué)心理學(xué)和數(shù)據(jù)科學(xué)助理教授Brenden Lake致力于研究人類和機(jī)器學(xué)習(xí)的異同岗喉,他認(rèn)為Tishby的發(fā)現(xiàn)是“打開神經(jīng)網(wǎng)絡(luò)黑匣子的重要一步”秋度。但Lake強(qiáng)調(diào)說,大腦代表了一個更大沈堡、更黑的黑盒子静陈。成年人的大腦擁有860億個神經(jīng)元,之間更有數(shù)百萬億個連接,很可能采用了眾多策略來加強(qiáng)泛化鲸拥,遠(yuǎn)遠(yuǎn)超越嬰兒期發(fā)生的基本的圖像和聲音識別的學(xué)習(xí)過程拐格,后者在很大程度上類似當(dāng)前的深度學(xué)習(xí)。
Lake說刑赶,Tishby觀察到的擬合和壓縮階段捏浊,似乎并不能對應(yīng)到兒童學(xué)習(xí)手寫字符的過程中。 人類孩子學(xué)習(xí)認(rèn)字寫字撞叨,并不需要看數(shù)千個字符并在比較長的時間中壓縮他們思維中的表示(representation)金踪。事實上,人類兒童可以從一個樣本中學(xué)習(xí)牵敷。Lake和他的同事構(gòu)建模型表明胡岔,大腦可能會把新的字符解構(gòu)成一系列的筆畫——以前就有的思維表示,從而將字母(letter)的概念加入到先前的知識大廈中枷餐,“而不是像標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)算法一樣靶瘸,將一個字母作為像素圖案來學(xué)習(xí),通過映射特征學(xué)習(xí)概念”毛肋。Lake說怨咪,人類建立了一個簡單的因果模型——一個更短的泛化路徑。
這種想法可能為AI研究社區(qū)帶來啟發(fā)润匙,進(jìn)一步推動兩個領(lǐng)域彼此間的往來诗眨。Tishby認(rèn)為,他的信息瓶頸理論最終將被證明在兩門學(xué)科中都有用孕讳,可能在人類學(xué)習(xí)中采取一種比AI學(xué)習(xí)更泛化的表示匠楚。信息瓶頸理論的一個直接應(yīng)用,便是更好地了解人類神經(jīng)網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)可以解決哪些問題卫病。
“它給出了可以學(xué)習(xí)的問題的完整描述油啤,”Tishby說:“這些都是我可以在輸入中消除噪音典徘,而不會損害我分類能力的問題蟀苛。例如自然視覺、語音識別逮诲。這些也正是我們的大腦可以應(yīng)付的問題帜平。”
同時梅鹦,人類神經(jīng)網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)都無法很好地解決另一些問題裆甩,那就是每個細(xì)節(jié)都很重要,因此無法去除信息的問題齐唆。例如嗤栓,大多數(shù)人不能快速地在心里將兩個數(shù)字相乘。Tishby說:“我們有一大堆類似這樣的問題,改變一個變量都會引發(fā)全局變化的邏輯問題茉帅。例如離散問題叨叙、加密問題。我不認(rèn)為深度學(xué)習(xí)都幫助我破譯密碼堪澎±薮恚”
泛化——或者說遍歷信息瓶頸——意味著舍棄一些細(xì)節(jié)。這對心算不好樱蛤,但心算并不是大腦的主要任務(wù)钮呀。我們擅長在人群中尋找熟悉的面孔,在嘈雜昨凡、混亂的世界中對尋找顯著信號的秩序爽醋。正如Naftali Tishby所說,學(xué)習(xí)中最重要的便脊,實際上是遺忘子房。