經(jīng)過(guò)漫長(zhǎng)的冬季之后,人工智能的發(fā)展經(jīng)歷了炎熱的夏天间护,這主要?dú)w功于深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)的發(fā)展亦渗。更準(zhǔn)確地說(shuō),對(duì)深度學(xué)習(xí)的新興趣很大程度上歸功于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的成功汁尺,卷積神經(jīng)網(wǎng)絡(luò)是一種特別擅長(zhǎng)處理可視數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)法精。?
但是,如果我告訴您CNN根本存在缺陷怎么辦痴突?這就是深度學(xué)習(xí)的先驅(qū)之一Geoffrey Hinton?在AAAI會(huì)議(主要的年度AI會(huì)議之一)上的主題演講中談到的內(nèi)容搂蜓。?
Hinton與Yann LeCun和Yoshua Bengio一起參加了會(huì)議,他與他共同構(gòu)成了都靈獎(jiǎng)的“?深度學(xué)習(xí)教父?”三人組辽装,他談到了CNN以及膠囊網(wǎng)絡(luò)的局限性帮碰,這是他在AI上的下一個(gè)突破的總體規(guī)劃。
與他的所有演講一樣拾积,Hinton討論了很多技術(shù)細(xì)節(jié)殉挽,以了解與人類視覺(jué)系統(tǒng)相比,使convnet效率低下或與眾不同的原因拓巧。以下是他提出的一些關(guān)鍵點(diǎn)斯碌。但是首先,作為我們的習(xí)慣肛度,有一些關(guān)于我們?nèi)绾蔚竭_(dá)這里以及為什么CNN對(duì)AI社區(qū)如此重要的背景傻唾。
解決計(jì)算機(jī)視覺(jué)
自從人工智能誕生之初,科學(xué)家就試圖制造能夠像人類一樣看到世界的計(jì)算機(jī)承耿。這些努力導(dǎo)致了他們自己的研究領(lǐng)域冠骄,統(tǒng)稱為計(jì)算機(jī)視覺(jué)伪煤。?
計(jì)算機(jī)視覺(jué)的早期工作涉及使用符號(hào)人工智能,該軟件中的每個(gè)規(guī)則都必須由人類程序員指定凛辣。問(wèn)題在于抱既,并非人類視覺(jué)設(shè)備的每個(gè)功能都可以在明確的計(jì)算機(jī)程序規(guī)則中分解。該方法最終獲得的成功和使用非常有限蟀给。?
一種不同的方法是使用機(jī)器學(xué)習(xí)蝙砌。與象征性AI相反,機(jī)器學(xué)習(xí)算法具有一般結(jié)構(gòu)跋理,并通過(guò)檢查訓(xùn)練示例來(lái)釋放它們自己的行為。但是恬总,大多數(shù)早期的機(jī)器學(xué)習(xí)算法仍然需要大量的人工來(lái)設(shè)計(jì)檢測(cè)圖像中相關(guān)特征的零件前普。?
經(jīng)典的機(jī)器學(xué)習(xí)方法涉及許多復(fù)雜的步驟,并且需要數(shù)十位領(lǐng)域?qū)<乙佳撸瑪?shù)學(xué)家和程序員的協(xié)作拭卿。
另一方面,卷積神經(jīng)網(wǎng)絡(luò)是端到端的AI模型贱纠,它們發(fā)展了自己的特征檢測(cè)機(jī)制峻厚。訓(xùn)練有素的多層CNN會(huì)自動(dòng)以分層的方式識(shí)別特征,從簡(jiǎn)單的邊角開(kāi)始到復(fù)雜的對(duì)象(例如臉谆焊,椅子惠桃,汽車,狗等)辖试。
CNN最早是在1980年代由LeCun提出的辜王,當(dāng)時(shí)是多倫多大學(xué)欣頓實(shí)驗(yàn)室的博士后研究員。但是由于它們對(duì)計(jì)算和數(shù)據(jù)的巨大需求罐孝,它們被甩在了一邊呐馆,獲得了非常有限的采用。經(jīng)過(guò)三十年的發(fā)展莲兢,CNN的計(jì)算硬件和數(shù)據(jù)存儲(chǔ)技術(shù)取得了長(zhǎng)足的發(fā)展汹来。
如今,由于大型計(jì)算集群改艇,專用硬件和大量數(shù)據(jù)的可用性收班,卷積網(wǎng)在圖像分類和對(duì)象識(shí)別中發(fā)現(xiàn)了許多有用的應(yīng)用程序。?
神經(jīng)網(wǎng)絡(luò)的每一層將從輸入圖像中提取特定特征遣耍。
CNN和人類視覺(jué)之間的區(qū)別
“ CNN學(xué)會(huì)了端到端的一切闺阱。事實(shí)是,如果一項(xiàng)功能在某個(gè)地方很不錯(cuò)舵变,那么在其他地方也很不錯(cuò)酣溃,因此他們獲得了巨大的成功瘦穆。辛頓在AAAI演講中說(shuō):“這使他們能夠結(jié)合證據(jù)并很好地概括各個(gè)職位∩尥悖”?“但是它們與人類的感知有很大不同扛或。”
計(jì)算機(jī)視覺(jué)的主要挑戰(zhàn)之一是處理現(xiàn)實(shí)世界中的數(shù)據(jù)差異碘饼。我們的視覺(jué)系統(tǒng)可以從不同角度熙兔,在不同背景下以及在不同光照條件下識(shí)別物體。當(dāng)物體被其他物體部分遮擋或以偏心的方式著色時(shí)艾恼,我們的視覺(jué)系統(tǒng)會(huì)使用線索和其他知識(shí)來(lái)填充缺失的信息以及我們所見(jiàn)事物的原因住涉。
實(shí)踐證明,創(chuàng)建可以復(fù)制相同對(duì)象識(shí)別功能的AI非常困難钠绍。
Hinton說(shuō):“ CNN旨在應(yīng)付翻譯舆声。”?這意味著訓(xùn)練有素的卷積網(wǎng)絡(luò)可以識(shí)別對(duì)象柳爽,而不管其在圖像中的位置如何媳握。但是他們不能很好地處理改變視點(diǎn)的其他影響,例如旋轉(zhuǎn)和縮放磷脯。
根據(jù)Hinton的說(shuō)法蛾找,解決此問(wèn)題的一種方法是使用4D或6D映射來(lái)訓(xùn)練AI,然后再執(zhí)行對(duì)象檢測(cè)赵誓。他補(bǔ)充說(shuō):“但這真是令人望而卻步温圆∏胺剑”
目前秫筏,我們最好的解決方案是收集大量圖像抵赢,以不同位置顯示每個(gè)對(duì)象。然后绑雄,我們?cè)谶@個(gè)龐大的數(shù)據(jù)集上訓(xùn)練我們的CNN展辞,希望它能看到足夠多的物體實(shí)例以進(jìn)行概括,并能夠在現(xiàn)實(shí)世界中以可靠的準(zhǔn)確性檢測(cè)物體万牺。諸如ImageNet之類的數(shù)據(jù)集旨在實(shí)現(xiàn)這一目標(biāo)罗珍,該數(shù)據(jù)集包含超過(guò)1400萬(wàn)個(gè)帶注釋的圖像。
“這不是很有效脚粟,”欣頓說(shuō)覆旱。“我們希望神經(jīng)網(wǎng)絡(luò)能夠毫不費(fèi)力地推廣到新觀點(diǎn)核无。如果他們學(xué)會(huì)了識(shí)別某些東西扣唱,并且將其放大10倍并旋轉(zhuǎn)60度,那么這根本不會(huì)給他們帶來(lái)任何問(wèn)題。我們知道計(jì)算機(jī)圖形就是那樣噪沙,我們希望使神經(jīng)網(wǎng)絡(luò)更像那樣炼彪。”
實(shí)際上正歼,ImageNet(目前是評(píng)估計(jì)算機(jī)視覺(jué)系統(tǒng)的首選基準(zhǔn))存在缺陷辐马。盡管數(shù)據(jù)集龐大,但無(wú)法捕獲對(duì)象的所有可能角度和位置局义。它主要由在理想照明條件下以已知角度拍攝的圖像組成喜爷。
這對(duì)于人類視覺(jué)系統(tǒng)是可以接受的,它可以輕松地概括其知識(shí)萄唇。實(shí)際上檩帐,從多個(gè)角度看待某個(gè)對(duì)象后,我們通沉碛可以想象它在新位置和不同視覺(jué)條件下的外觀轿塔。
但是,CNN需要詳細(xì)說(shuō)明他們需要處理的案件仲墨,而且他們沒(méi)有人腦的創(chuàng)造力。深度學(xué)習(xí)開(kāi)發(fā)人員通常嘗試通過(guò)應(yīng)用稱為“數(shù)據(jù)增強(qiáng)”的過(guò)程來(lái)解決此問(wèn)題揍障,在該過(guò)程中目养,他們?cè)谟?xùn)練神經(jīng)網(wǎng)絡(luò)之前翻轉(zhuǎn)圖像或旋轉(zhuǎn)少量圖像。實(shí)際上毒嫡,CNN將在每個(gè)圖像的多個(gè)副本上訓(xùn)練癌蚁,每個(gè)副本略有不同。這將幫助AI更好地概括相同對(duì)象的變化兜畸。數(shù)據(jù)擴(kuò)充在某種程度上使AI模型更加健壯努释。
但是,數(shù)據(jù)增強(qiáng)將無(wú)法覆蓋CNN和其他神經(jīng)網(wǎng)絡(luò)無(wú)法處理的極端情況咬摇,例如上翹的椅子或躺在床上的皺褶T恤伐蒂。這些是像素操縱無(wú)法實(shí)現(xiàn)的現(xiàn)實(shí)情況。
已經(jīng)通過(guò)創(chuàng)建更好地表示現(xiàn)實(shí)世界的混亂視覺(jué)的計(jì)算機(jī)視覺(jué)基準(zhǔn)和訓(xùn)練數(shù)據(jù)集來(lái)解決該泛化問(wèn)題缕减。但是,盡管它們可以改善當(dāng)前AI系統(tǒng)的結(jié)果芒珠,但是它們并不能解決跨觀點(diǎn)進(jìn)行歸納的根本問(wèn)題桥狡。這些新數(shù)據(jù)集將始終不包含新的角度,新的照明條件,新的顏色和姿勢(shì)裹芝。那些新情況將使最大部逮,最先進(jìn)的AI系統(tǒng)困惑不已。?
差異可能很危險(xiǎn)
從上面提出的觀點(diǎn)來(lái)看局雄,CNN顯然以與人類截然不同的方式識(shí)別物體甥啄。但是,這些差異不僅限于泛化能力弱炬搭,而且還需要更多示例來(lái)學(xué)習(xí)對(duì)象蜈漓。CNN產(chǎn)生的對(duì)象的內(nèi)部表示形式也與人腦的生物神經(jīng)網(wǎng)絡(luò)非常不同。
這如何體現(xiàn)呢宫盔?“我可以拍攝一張圖像融虽,并產(chǎn)生一點(diǎn)點(diǎn)噪點(diǎn),而CNN會(huì)將其識(shí)別為完全不同的東西灼芭,我?guī)缀蹩床坏剿呀?jīng)改變有额。這似乎真的很奇怪,我以此為依據(jù)證明CNN實(shí)際上是在使用與我們完全不同的信息來(lái)識(shí)別圖像彼绷,”欣頓在AAAI會(huì)議上的主題演講中說(shuō)巍佑。
這些經(jīng)過(guò)輕微修改的圖像被稱為“?對(duì)抗性示例?”,并且是AI社區(qū)研究的熱門領(lǐng)域寄悯。
對(duì)抗性示例可能會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行錯(cuò)誤分類萤衰,而對(duì)人眼卻保持不變
Hinton說(shuō):“并不是說(shuō)錯(cuò)了,他們只是以一種完全不同的方式來(lái)做猜旬,而且他們的完全不同的方式在推廣方式上有一些差異脆栋。”
但是許多例子表明洒擦,對(duì)抗性干擾可能是極其危險(xiǎn)的椿争。當(dāng)您的圖像分類器錯(cuò)誤地將熊貓標(biāo)記為長(zhǎng)臂猿時(shí),一切都很可愛(ài)有趣熟嫩。但是秦踪,當(dāng)自動(dòng)駕駛汽車的計(jì)算機(jī)視覺(jué)系統(tǒng)缺少停車標(biāo)志,邪惡的黑客繞過(guò)面部識(shí)別安全系統(tǒng)或Google Photos將?人類標(biāo)記為大猩猩時(shí)邦危,您就會(huì)遇到問(wèn)題洋侨。
關(guān)于檢測(cè)對(duì)抗性漏洞并創(chuàng)建可抵抗對(duì)抗性擾動(dòng)的強(qiáng)大AI系統(tǒng),已有許多研究倦蚪。但是希坚,對(duì)抗性的例子也提醒我們:我們的視覺(jué)系統(tǒng)經(jīng)過(guò)幾代人的進(jìn)化,可以處理我們周圍的世界陵且,我們也創(chuàng)造了我們的世界來(lái)適應(yīng)我們的視覺(jué)系統(tǒng)裁僧。因此个束,只要我們的計(jì)算機(jī)視覺(jué)系統(tǒng)以與人類視覺(jué)根本不同的方式工作,它們將是不可預(yù)測(cè)且不可靠的聊疲,除非它們得到激光雷達(dá)和雷達(dá)測(cè)繪等互補(bǔ)技術(shù)的支持茬底。?
坐標(biāo)系和整體關(guān)系很重要
杰弗里·欣頓(Geoffrey Hinton)在AAAI主題演講中指出的另一個(gè)問(wèn)題是,卷積神經(jīng)網(wǎng)絡(luò)無(wú)法從物體及其部位理解圖像获洲。他們將它們識(shí)別為以不同圖案排列的像素斑點(diǎn)阱表。它們沒(méi)有實(shí)體及其關(guān)系的顯式內(nèi)部表示。
“當(dāng)您將CNN定位在各個(gè)像素位置的中心時(shí)贡珊,您會(huì)越來(lái)越多地描述該像素位置上發(fā)生的情況最爬,這取決于越來(lái)越多的上下文。最后门岔,您獲得了如此豐富的描述爱致,以至于您知道圖像中存在哪些對(duì)象。但他們沒(méi)有明確解析圖像寒随,”欣頓說(shuō)糠悯。
我們對(duì)物體組成的了解有助于我們了解世界并了解我們之前從未見(jiàn)過(guò)的事物,例如這個(gè)奇異的茶壺妻往。
將對(duì)象分解為多個(gè)部分有助于我們了解其性質(zhì)互艾。這是馬桶或茶壺嗎?(來(lái)源:粉碎列表)
CNN還缺少坐標(biāo)框架讯泣,這是人類視覺(jué)的基本組成部分忘朝。基本上判帮,當(dāng)我們看到一個(gè)物體時(shí),我們會(huì)開(kāi)發(fā)一個(gè)關(guān)于其方向的心理模型溉箕,這有助于我們解析其不同特征晦墙。例如,在下面的圖片中肴茄,考慮右邊的臉晌畅。如果您將其上下顛倒,則臉會(huì)在左側(cè)寡痰。但實(shí)際上抗楔,您無(wú)需實(shí)際翻轉(zhuǎn)圖像即可看到左側(cè)的臉部。只需在精神上調(diào)整您的坐標(biāo)系拦坠,就可以看到兩張臉连躏,無(wú)論圖片的方向如何。
“根據(jù)所施加的坐標(biāo)系贞滨,您會(huì)有完全不同的內(nèi)部感知入热。卷積神經(jīng)網(wǎng)絡(luò)確實(shí)無(wú)法解釋這一點(diǎn)。您給他們一個(gè)輸入,他們有一個(gè)感知勺良,并且感知不依賴于施加坐標(biāo)系绰播。我想這與對(duì)抗性例子有關(guān),也與卷積網(wǎng)以與人完全不同的方式進(jìn)行感知這一事實(shí)有關(guān)尚困〈缆幔”欣頓說(shuō)。
學(xué)習(xí)計(jì)算機(jī)圖形學(xué)課程
Hinton在AAAI會(huì)議上的演講中指出事甜,解決計(jì)算機(jī)視覺(jué)的一種非常方便的方法是制作逆圖形谬泌。3D計(jì)算機(jī)圖形模型由對(duì)象的層次結(jié)構(gòu)組成。每個(gè)對(duì)象都有一個(gè)轉(zhuǎn)換矩陣讳侨,該矩陣定義了與其父對(duì)象相比的平移呵萨,旋轉(zhuǎn)和縮放比例。每個(gè)層次結(jié)構(gòu)中頂級(jí)對(duì)象的變換矩陣定義了其相對(duì)于世界原點(diǎn)的坐標(biāo)和方向跨跨。
例如潮峦,考慮汽車的3D模型∮掠ぃ基礎(chǔ)對(duì)象具有4×4變換矩陣忱嘹,該矩陣表示汽車的中心位于具有旋轉(zhuǎn)(X = 0,Y = 0耕渴,Z = 90)的坐標(biāo)(X = 10拘悦,Y = 10,Z = 0)處橱脸。汽車本身由許多對(duì)象組成础米,例如車輪,底盤添诉,方向盤屁桑,擋風(fēng)玻璃,變速箱栏赴,發(fā)動(dòng)機(jī)等蘑斧。每個(gè)對(duì)象都有自己的變換矩陣,與母矩陣(中心點(diǎn))相比须眷,它們定義了位置和方向竖瘾。汽車)。例如花颗,左前輪的中心位于(X = -1.5捕传,Y = 2,Z = -0.3)扩劝。左前輪的世界坐標(biāo)可以通過(guò)將其變換矩陣乘以其父矩陣得到乐横。
其中一些對(duì)象可能具有自己的子集求橄。例如,車輪由輪胎葡公,輪輞罐农,輪轂,螺母等組成催什。這些子項(xiàng)中的每個(gè)子項(xiàng)都有自己的變換矩陣涵亏。
使用這種坐標(biāo)系層次結(jié)構(gòu),可以非常輕松地定位和可視化對(duì)象蒲凶,而不管它們的姿勢(shì)和方向或視點(diǎn)如何气筋。當(dāng)您要渲染對(duì)象時(shí),將3D對(duì)象中的每個(gè)三角形乘以其變換矩陣及其父級(jí)的變換矩陣旋圆。然后將其與視點(diǎn)對(duì)齊(另一個(gè)矩陣乘法)宠默,然后在柵格化為像素之前轉(zhuǎn)換為屏幕坐標(biāo)。
“如果您(對(duì)從事計(jì)算機(jī)圖形學(xué)的人說(shuō))灵巧,'您能從另一個(gè)角度告訴我嗎搀矫?'他們不會(huì)說(shuō),'哦刻肄,我想瓤球,但是我們沒(méi)有從那個(gè)角度訓(xùn)練因此我們不能從那個(gè)角度向您展示它∶羝”?他們只是從另一個(gè)角度向您展示卦羡,因?yàn)樗鼈兙哂?D模型,并且它們對(duì)空間結(jié)構(gòu)進(jìn)行建模麦到,因?yàn)榱慵驼w之間的關(guān)系完全不依賴于視點(diǎn)绿饵。”欣頓說(shuō)瓶颠『铮“我認(rèn)為在處理3D對(duì)象的圖像時(shí)不使用這種漂亮的結(jié)構(gòu)是很瘋狂的〔角澹”
膠囊網(wǎng)絡(luò)是Hinton雄心勃勃的新項(xiàng)目,它試圖做逆計(jì)算機(jī)圖形學(xué)虏肾。盡管膠囊應(yīng)該有自己的一套文章廓啊,但其背后的基本思想是拍攝圖像,提取其對(duì)象及其零件封豪,定義其坐標(biāo)系并創(chuàng)建圖像的模塊化結(jié)構(gòu)谴轮。
膠囊網(wǎng)絡(luò)仍在研發(fā)中,自2017年推出以來(lái)吹埠,它們經(jīng)歷了多次迭代第步。但是疮装,如果欣頓和他的同事們成功地使他們發(fā)揮作用,我們將更接近復(fù)制人類的視野粘都。