本文首次發(fā)表于譯言網(wǎng),翻譯自Technet.com涵亏,為[機(jī)器學(xué)習(xí)]系列文章之一。
發(fā)表地址:http://article.yeeyan.org/view/243697/442652
本文由英國(guó)劍橋和微軟研究院的Jamie Shotton锚烦,Antonio Criminisi和Sebastian Nowozin合著掸犬。
在上一篇文章中,我們向你介紹了計(jì)算機(jī)視覺(jué)領(lǐng)域通殃,并討論了使用決策森林的像素分類這個(gè)非常強(qiáng)大的手段度液,它在醫(yī)學(xué)成像和Kinect中都得到了廣泛的應(yīng)用。在本文中画舌,我們將看一些最近圍繞深度神經(jīng)網(wǎng)絡(luò)的熱點(diǎn)以及它們?cè)谟?jì)算機(jī)視覺(jué)上的成功堕担,然后對(duì)計(jì)算機(jī)視覺(jué)與機(jī)器學(xué)習(xí)的未來(lái)予以展望。
深度神經(jīng)網(wǎng)絡(luò)
近幾年曲聂,我們作為視覺(jué)研究者可使用的訓(xùn)練數(shù)據(jù)集霹购,在質(zhì)與量上的迅猛發(fā)展,都是有目共睹的句葵。這些改善很大程度源于眾包模式(群外眾包)的采用厕鹃,使我們能夠?qū)⑽覀兊臄?shù)據(jù)集擴(kuò)至百萬(wàn)級(jí)的標(biāo)記圖像兢仰。一個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集ImageNet(一個(gè)圖片數(shù)據(jù)庫(kù))乍丈,包含了在數(shù)以萬(wàn)計(jì)的類別中無(wú)數(shù)以圖像級(jí)標(biāo)簽標(biāo)記的圖像。
在經(jīng)過(guò)ImageNet數(shù)據(jù)集社區(qū)內(nèi)幾年緩慢的發(fā)展后把将,在2012年Krizhevsky et al.的出現(xiàn)在該領(lǐng)域引起轟動(dòng)轻专。他們展示了與一些看似細(xì)微的算法變化結(jié)合后,通用的GPU(圖形處理器)計(jì)算是如何被用于比之前更深入地訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)察蹲。在ImageNet 1000個(gè)類別的圖像分類測(cè)試中请垛,這個(gè)結(jié)果的準(zhǔn)確度得到了顯著的階躍變化催训。這也獲得了大眾媒體的廣泛關(guān)注,甚至產(chǎn)生了幾樁對(duì)創(chuàng)業(yè)公司較大的收購(gòu)案宗收。隨著近期論文向目標(biāo)定位漫拭、人臉識(shí)別和人體姿態(tài)估計(jì)方面的研究拓展,“深度學(xué)習(xí)”從那時(shí)起混稽,便在計(jì)算機(jī)視覺(jué)領(lǐng)域成為熱門(mén)話題采驻。
未來(lái)
既然深度卷積神經(jīng)網(wǎng)絡(luò)如此強(qiáng)大,那它會(huì)是計(jì)算機(jī)視覺(jué)技術(shù)發(fā)展的終點(diǎn)嗎匈勋?我們可以確定的是礼旅,未來(lái)幾年它們將繼續(xù)流行并推出更尖端的技術(shù),但我們認(rèn)為還會(huì)有另外一兩個(gè)階躍變化出現(xiàn)洽洁。雖然我們只能猜測(cè)這些變化會(huì)是什么痘系,但我們可以通過(guò)突出一些我們所見(jiàn)機(jī)遇的曝光度來(lái)完成此事。
表述:這些網(wǎng)絡(luò)學(xué)習(xí)去預(yù)測(cè)圖像內(nèi)容的一個(gè)相對(duì)簡(jiǎn)單的表述饿自。而對(duì)圖像中單個(gè)對(duì)象的存在位置汰翠、它們和另一個(gè)對(duì)象或是我們生活中的特定對(duì)象的關(guān)聯(lián)方式,并沒(méi)有深度理解(例如昭雌,我們無(wú)法輕易地把一個(gè)人的頭發(fā)看起來(lái)有些光澤這個(gè)線索和他們正拿著吹風(fēng)機(jī)這個(gè)實(shí)際情況結(jié)合在一起奴璃,來(lái)給出他們的頭發(fā)是濕的這個(gè)能讓自己信服的判斷)。如Microsoft CoCo的新數(shù)據(jù)集城豁,通過(guò)提供“非標(biāo)志性”圖像(即有超過(guò)一個(gè)對(duì)象且不位于前端中央的圖像)之中單個(gè)對(duì)象分割的詳細(xì)標(biāo)記苟穆,可能有助于推動(dòng)這項(xiàng)工作—。
效率:雖然用一個(gè)測(cè)試圖像對(duì)深度網(wǎng)絡(luò)的評(píng)估過(guò)程唱星,即使平行運(yùn)作也能相對(duì)快速地完成雳旅,但神經(jīng)網(wǎng)絡(luò)不具有我們?cè)谏弦黄恼轮兴庥龅臈l件計(jì)算的概念:每一個(gè)測(cè)試樣本都要遍歷完該網(wǎng)絡(luò)中 的每一個(gè)單個(gè)節(jié)點(diǎn)來(lái)輸出其結(jié)果。此外间聊,訓(xùn)練一個(gè)網(wǎng)絡(luò)攒盈,甚至使用高速的GPU,也得耗費(fèi)數(shù)日或數(shù)周哎榴,而這正限制了迅速進(jìn)行的能力型豁。
結(jié)構(gòu)學(xué)習(xí):深度卷積網(wǎng)絡(luò)目前擁有一個(gè)人工精心設(shè)計(jì)的剛性結(jié)構(gòu),并由數(shù)年的研究演化而來(lái)尚蝌。換句話說(shuō)迎变,一個(gè)特定層的大小或?qū)訑?shù)對(duì)預(yù)測(cè)器質(zhì)量可以產(chǎn)生不利影響。除了僅僅用蠻力掃描參數(shù)來(lái)優(yōu)化網(wǎng)絡(luò)形式之外飘言,我們希望有機(jī)會(huì)來(lái)直接從數(shù)據(jù)當(dāng)中學(xué)習(xí)一個(gè)更靈活的網(wǎng)絡(luò)結(jié)構(gòu)衣形。
最近,我們已經(jīng)朝探索這些機(jī)遇姿鸿,尤其是后兩個(gè)的方向上前進(jìn)了幾小步谆吴。我們?yōu)槲覀兘谠跊Q策叢林上的工作感到尤為興奮:有根的決策有向無(wú)環(huán)圖(DAG)的集合體倒源。你可以把一個(gè)決策有向無(wú)環(huán)圖視作一個(gè)決策樹(shù),其子節(jié)點(diǎn)被合并在一起以便使節(jié)點(diǎn)允許擁有多個(gè)雙親節(jié)點(diǎn)句狼。相較于決策樹(shù)笋熬,我們已經(jīng)證實(shí)他們能夠減少一個(gè)數(shù)量級(jí)的內(nèi)存消耗,同時(shí)還大幅度提升概括能力腻菇。一個(gè)有向無(wú)環(huán)圖初看還像一個(gè)神經(jīng)網(wǎng)絡(luò)突诬,但這里有兩處重要差異:首先,該結(jié)構(gòu)與其模型的參數(shù)會(huì)被共同學(xué)習(xí)芜繁;其次旺隙,有向無(wú)環(huán)圖保留了來(lái)自高效條件計(jì)算的決策樹(shù)的理念:一個(gè)單獨(dú)的測(cè)試樣本遵循著一個(gè)貫穿有向無(wú)環(huán)圖的單獨(dú)的路徑,而不是神經(jīng)網(wǎng)絡(luò)那樣遍歷所有節(jié)點(diǎn)的情況骏令。我們正積極地調(diào)研蔬捷,決策叢林或與包括堆疊和糾纏技術(shù)的深度學(xué)習(xí)的其它形式一同協(xié)力,是否能夠?qū)ι疃壬窠?jīng)網(wǎng)絡(luò)提供一個(gè)高效的替代選項(xiàng)榔袋。
如果你有興趣試著用決策叢林解決你的問(wèn)題周拐,Azure ML(Azure 機(jī)器學(xué)習(xí))的Gemini功能模塊將令你的研究更為深入。
總之凰兑,前途光明的計(jì)算機(jī)視覺(jué)很大程度上歸功于機(jī)器學(xué)習(xí)妥粟。視覺(jué)領(lǐng)域近期的迅猛發(fā)展已經(jīng)很出色,但我們相信計(jì)算機(jī)視覺(jué)研究的未來(lái)仍然是一本令人振奮的攤開(kāi)之書(shū)吏够。
Jamie, Antonio和Sebastian