原文:http://blog.csdn.net/u013087984/article/details/52027532
深度學(xué)習(xí)是近十年來人工智能領(lǐng)域取得的最重要的突破之一卓缰。它在語音識別藕夫、自然語言處理鸦致、計算機視覺、圖像與視頻分析之景、多媒體等諸多領(lǐng)域都取得了巨大成功憋沿。本文將重點介紹深度學(xué)習(xí)在物體識別逛揩、物體檢測跷跪、視頻分析的最新研究進展馋嗜,并探討其發(fā)展趨勢。
現(xiàn)有的深度學(xué)習(xí)模型屬于神經(jīng)網(wǎng)絡(luò)吵瞻。神經(jīng)網(wǎng)絡(luò)的歷史可追述到上世紀四十年代葛菇,曾經(jīng)在八九十年代流行。神經(jīng)網(wǎng)絡(luò)試圖通過模擬大腦認知的機理橡羞,解決各種機器學(xué)習(xí)的問題眯停。1986 年Rumelhart,Hinton 和Williams 在《自然》發(fā)表了著名的反向傳播算法用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)[1]尉姨,直到今天仍被廣泛應(yīng)用庵朝。
但是后來由于種種原因吗冤,大多數(shù)學(xué)者在相當長的一段的時間內(nèi)放棄了神經(jīng)網(wǎng)絡(luò)又厉。神經(jīng)網(wǎng)絡(luò)有大量的參數(shù),經(jīng)常發(fā)生過擬合問題椎瘟,即往往在訓(xùn)練集上準確率很高覆致,而在測試集上效果差。這部分歸因于當時的訓(xùn)練數(shù)據(jù)集規(guī)模都較小肺蔚。而且計算資源有限煌妈,即便是訓(xùn)練一個較小的網(wǎng)絡(luò)也需要很長的時間⌒颍總體而言璧诵,神經(jīng)網(wǎng)絡(luò)與其它模型相比并未在識別的準確率上體現(xiàn)出明顯的優(yōu)勢,而且難于訓(xùn)練仇冯。
因此更多的學(xué)者開始采用諸如支持向量機之宿、Boosting、最近鄰等分類器苛坚。這些分類器可以用具有一個或兩個隱含層的神經(jīng)網(wǎng)絡(luò)模擬比被,因此被稱作淺層機器學(xué)習(xí)模型。它們不再模擬大腦的認知機理泼舱;相反等缀,針對不同的任務(wù)設(shè)計不同的系統(tǒng),并采用不同的手工設(shè)計的特征娇昙。例如語音識別采用高斯混合模型和隱馬爾可夫模型尺迂,物體識別采用SIFT 特征,人臉識別采用LBP 特征,行人檢測采用HOG特征枪狂。
2006 年危喉,Geoffrey Hinton 提出了深度學(xué)習(xí)。之后深度學(xué)習(xí)在諸多領(lǐng)域取得了巨大成功州疾,受到廣泛關(guān)注辜限。神經(jīng)網(wǎng)絡(luò)能夠重新煥發(fā)青春的原因有幾個方面。首先是大數(shù)據(jù)的出現(xiàn)在很大程度上緩解了訓(xùn)練過擬合的問題严蓖。例如ImageNet[2]訓(xùn)練集擁有上百萬有標注的圖像薄嫡。計算機硬件的飛速發(fā)展提供了強大的計算能力,使得訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò)成為可能颗胡。一片GPU 可以集成上千個核毫深。此外神經(jīng)網(wǎng)絡(luò)的模型設(shè)計和訓(xùn)練方法都取得了長足的進步。例如毒姨,為了改進神經(jīng)網(wǎng)絡(luò)的訓(xùn)練哑蔫,學(xué)者提出了非監(jiān)督和逐層的預(yù)訓(xùn)練。它使得在利用反向傳播對網(wǎng)絡(luò)進行全局優(yōu)化之前弧呐,網(wǎng)絡(luò)參數(shù)能達到一個好的起始點闸迷,從而訓(xùn)練完成時能達到一個較好的局部極小點。
深度學(xué)習(xí)在計算機視覺領(lǐng)域最具影響力的突破發(fā)生在2012 年俘枫,Hinton 的研究小組采用深度學(xué)習(xí)贏得了ImageNet [2] 圖像分類的比賽[3]腥沽。ImageNet 是當今計算機視覺領(lǐng)域最具影響力的比賽之一。它的訓(xùn)練和測試樣本都來自于互聯(lián)網(wǎng)圖片鸠蚪。訓(xùn)練樣本超過百萬今阳,任務(wù)是將測試樣本分成1000 類。自2009 年茅信,包括工業(yè)界在內(nèi)的很多計算機視覺小組都參加了每年一度的比賽盾舌,各個小組的方法逐漸趨同。在2012 年的比賽中蘸鲸,排名2 到4 位的小組都采用的是傳統(tǒng)的計算機視覺方法妖谴,手工設(shè)計的特征,他們準確率的差別不超過1%棚贾。Hinton 的研究小組是首次參加比賽窖维,深度學(xué)習(xí)比第二名超出了10%以上。這個結(jié)果在計算機視覺領(lǐng)域產(chǎn)生了極大的震動妙痹,掀起了深度學(xué)習(xí)的熱潮铸史。
計算機視覺領(lǐng)域另一個重要的挑戰(zhàn)是人臉識別。Labeled Faces in the Wild (LFW) [4] 是當今最著名的人臉識別測試集怯伊,創(chuàng)建于2007 年琳轿。在此之前,人臉識別測試集大多采集于實驗室可控的條件下。LFW 從互聯(lián)網(wǎng)收集了五千多個名人的人臉照片崭篡,用于評估人臉識別算法在非可控條件下的性能挪哄。這些照片往往具有復(fù)雜的光線、表情琉闪、姿態(tài)迹炼、年齡和遮擋等方面的變化。LFW的測試集包含了6000 對人臉圖像颠毙。其中3000 對是正樣本斯入,每對的兩張圖像屬于同一個人;剩下3000 對是負樣本蛀蜜,每對的兩張圖像屬于不同的人刻两。隨機猜的準確率是50%。有研究表明[5]滴某,如果只把不包括頭發(fā)在內(nèi)的人臉的中心區(qū)域給人看磅摹,人眼在LFW 測試集上的識別率是97.53%。如果把整張圖像霎奢,包括背景和頭發(fā)給人看户誓,人眼的識別率是99.15%。經(jīng)典的人臉識別算法Eigenface [6] 在這個測試集上只有60%的識別率椰憋。在非深度學(xué)習(xí)的算法中厅克,最好的識別率是96.33% [7]赔退。目前深度學(xué)習(xí)可以達到99.47%的識別率[8]橙依。
在學(xué)術(shù)界收到廣泛關(guān)注的同時,深度學(xué)習(xí)也在工業(yè)界產(chǎn)生了巨大的影響硕旗。在Hinton 的科研小組贏得ImageNet 比賽之后6 個月窗骑,谷歌和百度發(fā)都布了新的基于圖像內(nèi)容的搜索引擎。他們沿用了Hinton 在ImageNet 競賽中用的深度學(xué)習(xí)模型漆枚,應(yīng)用在各自的數(shù)據(jù)上创译,發(fā)現(xiàn)圖像搜索的準確率得到了大幅度的提高。百度在2012 年就成立了深度學(xué)習(xí)研究院墙基,于2014 年五月又在美國硅谷成立了新的深度學(xué)習(xí)實驗室软族,聘請斯坦福著名教授吳恩達擔(dān)任首席科學(xué)家。Facebook 于2013 年12 月在紐約成立了新的人工智能實驗室残制,聘請深度學(xué)習(xí)領(lǐng)域的著名學(xué)者立砸,卷積網(wǎng)路的發(fā)明人YannLeCun 作為首席科學(xué)家。2014 年1 月初茶,谷歌四億美金收購了一家深度學(xué)習(xí)的創(chuàng)業(yè)公司颗祝,DeepMind。鑒于深度學(xué)習(xí)在學(xué)術(shù)和工業(yè)界的巨大影響力,2013 年MIT Technology Review將其列為世界十大技術(shù)突破之首螺戳。
許多人會問,深度學(xué)習(xí)和其它機器學(xué)習(xí)方法相比有哪些關(guān)鍵的不同點倔幼,它成功的秘密在哪里盖腿?我們下面將對這此從幾個方面作簡要的闡述。
深度學(xué)習(xí)與傳統(tǒng)模式識別方法的最大不同在于它是從大數(shù)據(jù)中自動學(xué)習(xí)特征损同,而非采用手工設(shè)計的特征奸忽。好的特征可以極大提高模式識別系統(tǒng)的性能。在過去幾十年模式識別的各種應(yīng)用中揖庄,手工設(shè)計的特征處于同統(tǒng)治地位栗菜。它主要依靠設(shè)計者的先驗知識,很難利用大數(shù)據(jù)的優(yōu)勢蹄梢。由于依賴手工調(diào)參數(shù)疙筹,特征的設(shè)計中只允許出現(xiàn)少量的參數(shù)。深度學(xué)習(xí)可以從大數(shù)據(jù)中自動學(xué)習(xí)特征的表示禁炒,其中可以包含成千上萬的參數(shù)而咆。手工設(shè)計出有效的特征是一個相當漫長的過程∧桓ぃ回顧計算機視覺發(fā)展的歷史暴备,往往需要五到十年才能出現(xiàn)一個受到廣泛認可的好的特征。而深度學(xué)習(xí)可以針對新的應(yīng)用從訓(xùn)練數(shù)據(jù)中很快學(xué)習(xí)得到新的有效的特征表示们豌。
一個模式識別系統(tǒng)包括特征和分類器兩個主要的組成部分涯捻,二者關(guān)系密切,而在傳統(tǒng)的方法中它們的優(yōu)化是分開的望迎。在神經(jīng)網(wǎng)絡(luò)的框架下障癌,特征表示和分類器是聯(lián)合優(yōu)化的,可以最大程度發(fā)揮二者聯(lián)合協(xié)作的性能辩尊。以2012 年Hinton 參加ImageNet 比賽所采用的卷積網(wǎng)絡(luò)模型[9]為例涛浙,這是他們首次參加ImageNet 圖像分類比賽,因此沒有太多的先驗知識摄欲。模型的特征表示包含了6 千萬個參數(shù)轿亮,從上百萬樣本中學(xué)習(xí)得到。令人驚訝的是胸墙,從ImageNet 上學(xué)習(xí)得到的特征表示具有非常強的泛化能力我注,可以成功地應(yīng)用到其它的數(shù)據(jù)集和任務(wù),例如物體檢測劳秋、跟蹤和檢索等等仓手。在計算機視覺領(lǐng)域另外一個著名的競賽是PSACAL VOC胖齐。但是它的訓(xùn)練集規(guī)模較小,不適合訓(xùn)練深度學(xué)習(xí)模型嗽冒。有學(xué)者將ImageNet 上學(xué)習(xí)得到的特征表示用于PSACALVOC 上的物體檢測呀伙,將檢測率提高了20%[10]。
既然特征學(xué)習(xí)如此重要添坊,什么是好的特征呢剿另?一幅圖像中,各種復(fù)雜的因素往往以非線性的方式結(jié)合在一起贬蛙。例如人臉圖像中就包含了身份雨女、姿態(tài)、年齡阳准、表情和光線等各種信息氛堕。深度學(xué)習(xí)的關(guān)鍵就是通過多層非線性映射將這些因素成功的分開,例如在深度模型的最后一個隱含層野蝇,不同的神經(jīng)元代表了不同的因素讼稚。如果將這個隱含層當作特征表示,人臉識別绕沈、姿態(tài)估計锐想、表情識別、年齡估計就會變得非常簡單乍狐,因為各個因素之間變成了簡單的線性關(guān)系赠摇,不再彼此干擾。
深度學(xué)習(xí)模型意味著神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)深浅蚪,由很多層組成藕帜。而支持向量機和Boosting 等其它常用的機器學(xué)習(xí)模型都是淺層結(jié)構(gòu)。有理論證明掘鄙,三層神經(jīng)網(wǎng)絡(luò)模型(包括輸入層耘戚、輸出層和一個隱含層)可以近似任何分類函數(shù)嗡髓。既然如此操漠,為什么需要深層模型呢?
理論研究表明,針對特定的任務(wù),如果模型的深度不夠活合,其所需要的計算單元會呈指數(shù)增加戒祠。這意味著雖然淺層模型可以表達相同的分類函數(shù),其需要的參數(shù)和訓(xùn)練樣本要多得多乏德。淺層模型提供的是局部表達。它將高維圖像空間分成若干局部區(qū)域,每個局部區(qū)域存儲至少一個從訓(xùn)練數(shù)據(jù)中獲得的模板哑子。淺層模型將一個測試樣本和這些模板逐一匹配舅列,根據(jù)匹配的結(jié)果預(yù)測其類別。例如在支持向量機模型中卧蜓,這些模板就是支持向量帐要;在最近鄰分類器中,這些模板是所有的訓(xùn)練樣本弥奸。隨著分類問題復(fù)雜度的增加榨惠,圖像空間需要被劃分成越來越多的局部區(qū)域,因而需要越來越多的參數(shù)和訓(xùn)練樣本盛霎。
深度模型能夠減少參數(shù)的關(guān)鍵在于重復(fù)利用中間層的計算單元赠橙。例如,它可以學(xué)習(xí)針對人臉圖像的分層特征表達愤炸。最底層可以從原始像素學(xué)習(xí)濾波器期揪,刻畫局部的邊緣和紋理特征;通過對各種邊緣濾波器進行組合规个,中層濾波器可以描述不同類型的人臉器官横侦;最高層描述的是整個人臉的全局特征。深度學(xué)習(xí)提供的是分布式的特征表示绰姻。在最高的隱含層枉侧,每個神經(jīng)元代表了一個屬性分類器,例如男女狂芋、人種和頭發(fā)顏色等等榨馁。每個神經(jīng)元將圖像空間一分為二,N 個神經(jīng)元的組合就可以表達2N 個局部區(qū)域帜矾,而用淺層模型表達這些區(qū)域的劃分至少需要個2N 模板翼虫。由此我們可以看到深度模型的表達能力更強,更有效率屡萤。
深度模型具有強大的學(xué)習(xí)能力珍剑,高效的特征表達能力,從像素級原始數(shù)據(jù)到抽象的語義概念逐層提取信息死陆。這使得它在提取圖像的全局特征和上下文信息方面具有突出的優(yōu)勢招拙。這為解決一些傳統(tǒng)的計算機視覺問題,如圖像分割和關(guān)鍵點檢測措译,帶來了新的思路别凤。以人臉的圖像分割為例。為了預(yù)測每個像素屬于哪個臉部器官(眼睛领虹、鼻子规哪、嘴、頭發(fā))塌衰,通常的作法是在該像素周圍取一個小的區(qū)域诉稍,提取紋理特征(例如局部二值模式)蝠嘉,再基于該特征利用支持向量機等淺層模型分類。因為局部區(qū)域包含信息量有限杯巨,往往產(chǎn)生分類錯誤是晨,因此要對分割后的圖像加入平滑和形狀先驗等約束。事實上即使存在局部遮擋的情況下舔箭,人眼也可以根據(jù)臉部其它區(qū)域的信息估計被遮擋處的標注罩缴。這意味著全局和上下文的信息對于局部的判斷是非常重要的,而這些信息在基于局部特征的方法中從最開始階段就丟失了层扶。
理想的情況下箫章,模型應(yīng)該將整幅圖像作為輸入,直接預(yù)測整幅分割圖镜会。圖像分割可以被當作一個高維數(shù)據(jù)轉(zhuǎn)換的問題來解決檬寂。這樣不但利用到了上下文信息,模型在高維數(shù)據(jù)轉(zhuǎn)換過程中也隱式地加入了形狀先驗戳表。但是由于整幅圖像內(nèi)容過于復(fù)雜桶至,淺層模型很難有效地捕捉全局特征。深度學(xué)習(xí)的出現(xiàn)使這一思路成為可能匾旭,在人臉分割[11]镣屹、人體分割[12]、人臉圖像配準[13]和人體姿態(tài)估計等各個方面都取得了成功[14]价涝。
一些計算機視覺學(xué)者將深度學(xué)習(xí)模型視為黑盒子女蜈,這種看法是不全面的。事實上我們可以發(fā)現(xiàn)傳統(tǒng)計算機視覺系統(tǒng)和深度學(xué)習(xí)模型存在著密切的聯(lián)系色瘩,而且可以利用這種聯(lián)系提出新的深度模型和新的訓(xùn)練方法伪窖。這方面一個成功的例子是用于行人檢測的聯(lián)合深度學(xué)習(xí)[15]。一個計算機視覺系統(tǒng)包含了若干關(guān)鍵的組成模塊居兆。例如一個行人檢測器就包括了特征提取覆山、部件檢測器、部件幾何形變建模泥栖、部件遮擋推理簇宽、分類器等等。在聯(lián)合深度學(xué)習(xí)中[15]聊倔,深度模型的各個層和視覺系統(tǒng)的各個模塊可以建立起對應(yīng)關(guān)系晦毙。如果視覺系統(tǒng)中一些有效的關(guān)鍵模塊在現(xiàn)有深度學(xué)習(xí)的模型中沒有與之對應(yīng)的層,它們可以啟發(fā)我們提出新的深度模型耙蔑。例如大量物體檢測的研究工作證明對物體部件的幾何形變建模可以有效地提高檢測率孤荣,但是在常用的深度模型中沒有與之相對應(yīng)的層甸陌。于是聯(lián)合深度學(xué)習(xí)[15]及其后續(xù)的工作[16]都提出了新的形變層和形變池化層實現(xiàn)這一功能须揣。
從訓(xùn)練方式上看,計算機視覺系統(tǒng)的各個模塊是逐一訓(xùn)練或手工設(shè)計的钱豁;在深度模型的預(yù)訓(xùn)練階段耻卡,各個層也是逐一訓(xùn)練的。如果我們能夠建立起計算機視覺系統(tǒng)和深度模型之間的對應(yīng)關(guān)系牲尺,在視覺研究中積累的經(jīng)驗可以對深度模型的預(yù)訓(xùn)練提供指導(dǎo)卵酪。這樣預(yù)訓(xùn)練后得到的模型至少可以達到與傳統(tǒng)計算機視覺系統(tǒng)可比的結(jié)果。在此基礎(chǔ)上谤碳,深度學(xué)習(xí)還會利用反向傳播對所有的層進行聯(lián)合優(yōu)化溃卡,使它們之間的相互協(xié)作達到最優(yōu),從而使整個網(wǎng)絡(luò)的性能得到重大提升蜒简。
3. 深度學(xué)習(xí)在物體識別中的應(yīng)用
深度學(xué)習(xí)在物體識別中最重要的進展體現(xiàn)在ImageNet ILSVRC 挑戰(zhàn)中的圖像分類任務(wù)瘸羡。傳統(tǒng)計算機視覺方法在這個測試集上最低的top5 錯誤率是26.172%。2012 年Hinton 的研究小組利用卷積網(wǎng)絡(luò)在這個測試集上把錯誤率大幅降到15.315%搓茬。這個網(wǎng)絡(luò)的結(jié)構(gòu)被稱作Alex Net [3]犹赖。與傳統(tǒng)的卷積網(wǎng)絡(luò)相比,它有三點比較重要的不同卷仑。首先是采用了dropout 的訓(xùn)練策略峻村,在訓(xùn)練過程中將一些輸入層和中間層的神經(jīng)元隨機置零。這模擬了由于噪音和對輸入數(shù)據(jù)的各種干擾锡凝,從而使一些神經(jīng)元對一些視覺模式產(chǎn)生漏檢的情況雀哨。Dropout使訓(xùn)練過程收斂更慢,但得到的網(wǎng)絡(luò)模型更加魯棒私爷。其次雾棺,它采用整流線型單元作為非線性的激發(fā)函數(shù)。這不僅大大降低了計算的復(fù)雜度衬浑,而且使神經(jīng)元的輸出具有稀疏的性質(zhì)捌浩。稀疏的特征表示對各種干擾更加魯棒。第三工秩,它通過對訓(xùn)練樣本鏡像映射尸饺,和加入隨機平移擾動產(chǎn)生了更多的訓(xùn)練樣本,以減少過擬合助币。
ImageNet ILSVRC2013 比賽中浪听,排名前20 的小組使用的都是深度學(xué)習(xí),其影響力可見一斑眉菱。獲勝者是來則紐約大學(xué)Rob Fergus 的研究小組迹栓,所采用的深度模型還是卷積網(wǎng)絡(luò),對網(wǎng)絡(luò)結(jié)構(gòu)作了進一步優(yōu)化俭缓。Top5 錯誤率降到11.197%克伊,其模型稱作Clarifai[17]酥郭。
2014 年深度學(xué)習(xí)又取得了重要進展, 在ILSVRC2014 比賽中愿吹,獲勝者GooLeNet[18]將top5 錯誤率降到6.656%不从。它突出的特點是大大增加了卷積網(wǎng)絡(luò)的深度,超過20 層犁跪,這在之前是不可想象的椿息。很深的網(wǎng)絡(luò)結(jié)構(gòu)給預(yù)測誤差的反向傳播帶了困難。因為預(yù)測誤差是從最頂層傳到底層的坷衍,傳到底層的誤差很小寝优,難以驅(qū)動底層參數(shù)的更新。GooLeNet 采取的策略是將監(jiān)督信號直接加到多個中間層惫叛,這意味著中間和低層的特征表示也需要能夠準確對訓(xùn)練數(shù)據(jù)分類倡勇。如何有效地訓(xùn)練很深的網(wǎng)絡(luò)模型仍是未來研究的一個重要課題。雖然深度學(xué)習(xí)在ImageNet 上取得了巨大成功嘉涌,但是一個現(xiàn)實的問題是妻熊,很多應(yīng)用的訓(xùn)練集是較小的,如何在這種情況下應(yīng)用深度學(xué)習(xí)呢仑最?有三種方法可供讀者參考扔役。(1)可以將ImageNet 上訓(xùn)練得到的模型做為起點,利用目標訓(xùn)練集和反向傳播對其進行繼續(xù)訓(xùn)練警医,將模型適應(yīng)到特定的應(yīng)用[10]亿胸。ImageNet 起到預(yù)訓(xùn)練的作用。(2)如果目標訓(xùn)練集不夠大 预皇,也可以將低層的網(wǎng)絡(luò)參數(shù)固定侈玄,沿用ImageNet 上的訓(xùn)練集結(jié)果,只對上層進行更新吟温。這是因為底層的網(wǎng)絡(luò)參數(shù)是最難更新的序仙,而從ImageNet 學(xué)習(xí)得到的底層濾波器往往描述了各種不同的局部邊緣和紋理信息,而這些濾波器對一般的圖像有較好的普適性鲁豪。(3)直接采用ImageNet 上訓(xùn)練得到的模型潘悼,把最高的隱含層的輸出作為特征表達,代替常用的手工設(shè)計的特征[19][20]爬橡。
深度學(xué)習(xí)在物體識別上了另一個重要突破是人臉識別治唤。人臉識別的最大挑戰(zhàn)是如何區(qū)分由于光線、姿態(tài)和表情等因素引起的類內(nèi)變化和由于身份不同產(chǎn)生的類間變化糙申。這兩種變化分布是非線性的且極為復(fù)雜宾添,傳統(tǒng)的線性模型無法將它們有效區(qū)分開。深度學(xué)習(xí)的目的是通過多層的非線性變換得到新的特征表示。該特征須要盡可能多地去掉類內(nèi)變化辞槐,而保留類間變化掷漱。
人臉識別有兩種任務(wù)粘室,人臉確認和人臉辨識榄檬。人臉確認的任務(wù)是判斷兩張人臉照片是否屬于同一個人,屬二分類問題衔统,隨機猜的正確率是50%鹿榜。人臉辨識的任務(wù)是將一張人臉圖像分為N 個類別之一,類別是由人臉的身份定義的锦爵。這是個多分類問題舱殿,更具挑戰(zhàn)性,其難度隨著類別數(shù)的增多而增大险掀,隨機猜的正確率是1/N沪袭。兩個任務(wù)都可以用來通過深度模型學(xué)習(xí)人臉的特征表達。
2013 年樟氢,[21]采用人臉確認任務(wù)作為監(jiān)督信號冈绊,利用卷積網(wǎng)絡(luò)學(xué)習(xí) 人臉特征,在LFW 上取得了92.52%的識別率埠啃。這一結(jié)果雖然與后續(xù)的深度學(xué)習(xí)方法相比較低死宣,但也超過了大多數(shù)非深度學(xué)習(xí)的算法。由于人臉確認是一個二分類的問題碴开,用它學(xué)習(xí)人臉特征效率比較低。這個問題可以從幾個方面理解潦牛。深度學(xué)習(xí)面臨的一個主要問題是過擬合眶掌。作為一個二分類問題,人臉確認任務(wù)相對簡單巴碗,容易在訓(xùn)練集上發(fā)生過擬合朴爬。與之不同,人臉辨識是一個更具 挑戰(zhàn)性的多分類問題良价,不容易發(fā)生過擬合寝殴,更適合通過深度模型學(xué)習(xí)人臉特征。另一方面明垢,在人臉確認中蚣常,每一對訓(xùn)練樣本被人工標注成兩類之一,所含信息量較少痊银。而在人臉辨識中抵蚊,每個訓(xùn)練樣本都被人工標注成N 類之一,信息量要大的多。
2014 年CVPR贞绳,DeepID[22]和DeepFace[23] 都采用人臉辨識作為監(jiān)督信號谷醉,在LFW 上取得了97.45%和97.35%的識別率。他們利用卷積網(wǎng)絡(luò)預(yù)測N 維標注向量冈闭,將最高的隱含層作為人臉特征俱尼。這一層在訓(xùn)練過程中要區(qū)分大量的人臉類別(例如在DeepID 中要區(qū)分1000類人臉),因此包含了豐富的類間變化的信息萎攒,而且有很強的泛化能力遇八。雖然訓(xùn)練中采用的是人臉辨識任務(wù),得到特征可以應(yīng)用到人臉確認任務(wù)耍休,以及識別訓(xùn)練集中沒有新人刃永。
例如LFW 上用于測試的任務(wù)是人臉確認任務(wù),不同于訓(xùn)練中采用的人臉辨識任務(wù)羊精;DeepID[22]和DeepFace[23]的訓(xùn)練集與LFW 測試集的人物身份是不重合的斯够。
通過人臉辨識任務(wù)學(xué)習(xí)得到的人臉特征包含了較多的類內(nèi)變化。DeepID2[24]聯(lián)合使用人臉確認和人臉辨識作為監(jiān)督信號喧锦,得到的人臉特征在保持類間變化的同時最小化類內(nèi)變化读规,從而將LFW 上的人臉識別率提高到99.15%。利用Titan GPU裸违,DeepID2 提取一幅人臉圖像的特征只需要35 毫秒掖桦,而且可以離線進行。經(jīng)過PCA 壓縮最終得到80 維的特征向量供汛,可以用于快速人臉在線比對枪汪。在后續(xù)的工作中,DeepID2+[25]對DeepID2 通過加大網(wǎng)絡(luò)結(jié)構(gòu)怔昨,增加訓(xùn)練數(shù)據(jù)雀久,以及在每一層都加入監(jiān)督信息進行了進一步改進,在LFW 達到了99.47%的識別率趁舀。
一些人認為深度學(xué)習(xí)的成功在于用具有大量參數(shù)的復(fù)雜模型去擬合數(shù)據(jù)集赖捌。這個看法也是不全面的。事實上矮烹,進一步的研究[25]表明DeepID2+的特征有很多重要有趣的性質(zhì)越庇。例如,它最上層的神經(jīng)元響應(yīng)是中度稀疏的奉狈,對人臉身份和各種人臉屬性具有很強的選擇性卤唉,對局部遮擋有很強的魯棒性。以往的研究中仁期,為了得到這些屬性桑驱,我們往往需要對模型加入各種顯示的約束竭恬。而DeepID2+通過大規(guī)模學(xué)習(xí)自動擁有了這些引人注目的屬性,其背后的理論分析值得未來進一步研究熬的。
4. 深度學(xué)習(xí)在物體檢測中的應(yīng)用
深度學(xué)習(xí)也對圖像中的物體檢測帶來了巨大提升痊硕。物體檢測是比物體識別更難的任務(wù)。一幅圖像中可能包含屬于不同類別的多個物體押框,物體檢測需要確定每個物體的位置和類別岔绸。深度學(xué)習(xí)在物體檢測中的進展也體現(xiàn)在ImageNet ILSVRC 挑戰(zhàn)中。2013 年比賽的組織者增加了物體檢測的任務(wù)强戴,需要在四萬張互聯(lián)網(wǎng)圖片中檢測200 類物體亭螟。當年的比賽中贏得物體檢測任務(wù)的方法使用的依然是手動設(shè)計的特征挡鞍,平均物體檢測率骑歹,即meanAveraged Precision (mAP),只有22.581%墨微。在ILSVRC2014 中道媚,深度學(xué)習(xí)將mAP 大幅提高到43.933%。較有影響力的工作包括 RCNN[10]翘县,Overfeat[26]最域,GoogLeNet[18],DeepID‐Net[27]锈麸,network in network[28]镀脂,VGG[29],和spatialpyramid pooling in deep CNN[30]忘伞。被廣泛采用的基于深度學(xué)習(xí)的物體檢測流程是在RCNN[10]中提出的薄翅。首先采用非深度學(xué)習(xí)的方法(例如selective search[31])提出候選區(qū)域,利用深度卷積網(wǎng)絡(luò)從候選區(qū)域提取特征氓奈,然后利用支持向量機等線性分類器基于特征將區(qū)域分為物體和背景翘魄。DeepID‐Net[27]將這一流程進行了進一步的完善使得檢測率有了大幅提升,并且對每一個環(huán)節(jié)的貢獻做了詳細的實驗分析舀奶。此外深度卷積網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計也至關(guān)重要暑竟。如果一個網(wǎng)絡(luò)結(jié)構(gòu)提高提高
圖像分類任務(wù)的準確性,通常也能使物體檢測器的性能顯著提升育勺。
深度學(xué)習(xí)的成功還體現(xiàn)在行人檢測上但荤。在最大的行人檢測測試集(Caltech[32])上,被廣泛采用的HOG 特征和可變形部件模型[33]平均誤檢率是68%涧至。目前基于深度學(xué)習(xí)最好的結(jié)果是20.86%[34]腹躁。在最新的研究進展中,很多在物體檢測中已經(jīng)被證明行之有效的思路都有其在深度學(xué)習(xí)中的實現(xiàn)化借。例如潜慎,聯(lián)合深度學(xué)習(xí)[15]提出了形變層,對物體部件間的幾何形變進行建模;多階段深度學(xué)習(xí)[35]可以模擬在物體檢測中常用的級聯(lián)分類器铐炫;可切換深度網(wǎng)絡(luò)[36]可以表達物體各個部件的混合模型垒手;[37]通過遷移學(xué)習(xí)將一個深度模型行人檢測器自適應(yīng)到一個目標場景。
深度學(xué)習(xí)在視頻分類上的應(yīng)用總體而言還處于起步階段倒信,未來還有很多工作要做科贬。描述視頻的靜態(tài)圖像特征, 可以采用用從ImageNet 上學(xué)習(xí)得到的深度模型鳖悠;難點是如何描述動態(tài)特征榜掌。以往的視覺方法中,對動態(tài)特征的描述往往依賴于光流估計乘综,對關(guān)鍵點的跟蹤憎账,和動態(tài)紋理。如何將這些信息體現(xiàn)在深度模型中是個難點卡辰。最直接的做法是將視頻視為三維圖像胞皱,直接應(yīng)用卷積網(wǎng)絡(luò)[38],在每一層學(xué)習(xí)三維濾波器九妈。但是這一思路顯然沒有考慮到時間維和空間維的差異性反砌。另外一種簡單但更加有效的思路是通過預(yù)處理計算光流場,作為卷積網(wǎng)絡(luò)的一個輸入通道[39]萌朱。也有研究工作利用深度編碼器(deep autoencoder)以非線性的方式提取動態(tài)紋理[40]宴树,而傳統(tǒng)的方法大多采用線性動態(tài)系統(tǒng)建模。在一些最新的研究工作中[41]晶疼,長短記憶網(wǎng)絡(luò)(LSTM)正在受到廣泛關(guān)注酒贬,它可以捕捉長期依賴性,對視頻中復(fù)雜的動態(tài)建模冒晰。
深度學(xué)習(xí)在圖像識別中的發(fā)展方興未艾同衣,未來有著巨大的空間。本節(jié)對幾個可能的方向進行探討壶运。在物體識別和物體檢測中正趨向使用更大更深的網(wǎng)絡(luò)結(jié)構(gòu)耐齐。ILSVRC2012 中Alex Net 只包含了5 個卷積層和兩個全連接層。而ILSVRC2014 中 GooLeNet 和 VGG 使用的網(wǎng)絡(luò)結(jié)構(gòu)都超過了20 層蒋情。更深的網(wǎng)絡(luò)結(jié)構(gòu)使得反向傳播更加困難埠况。與此同時訓(xùn)練數(shù)據(jù)的規(guī)模也在迅速增加。這迫切需要研究新的算法和開發(fā)新的并行計算系統(tǒng)更加有效的利用大數(shù)據(jù)訓(xùn)練更大更深的模型棵癣。
與圖像識別相比辕翰,深度學(xué)習(xí)在視頻分類中的應(yīng)用還遠未成熟。從ImageNet 訓(xùn)練得到的圖像特征可以直接有效地應(yīng)用到各種與圖像相關(guān)的識別任務(wù)(例如圖像分類狈谊、圖像檢索喜命、物體檢測和圖像分割等等)沟沙,和其它不同的圖像測試集,具有良好的泛化性能壁榕。但是深度學(xué)習(xí)至今還沒有得到類似的可用于視頻分析的特征矛紫。要達到這個目的,不但要建立大規(guī)模的訓(xùn)練數(shù)據(jù)集([42]最新建立了包含一百萬YouTube 視頻的數(shù)據(jù)庫)牌里,還需要研究適用于視頻分析的新的深度模型颊咬。此外訓(xùn)練用于視頻分析的深度模型的計算量也會大大增加。
在與圖像和視頻相關(guān)的應(yīng)用中牡辽,深度模型的輸出預(yù)測(例如分割圖或物體檢測框)往往具有空間和時間上的相關(guān)性喳篇。因此研究具有結(jié)構(gòu)性輸出的深度模型也是一個重點。雖然神經(jīng)網(wǎng)絡(luò)的目的在于解決一般意義的機器學(xué)習(xí)問題态辛,領(lǐng)域知識對于深度模型的設(shè)計也起著重要的作用麸澜。在與圖像和視頻相關(guān)的應(yīng)用中,最成功的是深度卷積網(wǎng)絡(luò)因妙,它正是利用了與圖像的特殊結(jié)構(gòu)痰憎。其中最重要的兩個操作,卷積和池化(pooling)都來自于與圖像相關(guān)的領(lǐng)域知識攀涵。如何通過研究領(lǐng)域知識,在深度模型中引入新的有效的操作和層洽沟,對于提高圖像識別的性能有著重要意義以故。例如池化層帶來了局部的平移不變性,[27]中提出的形變池化層在此基礎(chǔ)上更好的描述了物體各個部分的幾何形變裆操。在未來的研究中怒详,可以將其進一步擴展,從而取得旋轉(zhuǎn)不變性踪区、尺度不變性昆烁、和對遮擋的魯棒性。
通過研究深度模型和傳統(tǒng)計算機視覺系統(tǒng)之間的關(guān)系缎岗,不但可以幫助我們理解深度學(xué)習(xí)成功的原因静尼,還可以啟發(fā)新的模型和訓(xùn)練方法。聯(lián)合深度學(xué)習(xí)[15]和多階段深度學(xué)習(xí)[35]是兩個例子传泊,未來這方面還可以有更多的工作鼠渺。最然深度學(xué)習(xí)在實踐中取得了巨大成功,通過大數(shù)據(jù)訓(xùn)練得到的深度模型體現(xiàn)出的特性(例如稀疏性眷细、選擇性拦盹、和對遮擋的魯棒性[22])引人注目,其背后的理論分析還有許多工作需要在未來完成溪椎。例如普舆,何時收斂恬口,如何取得較好的局部極小點,每一層變換取得了那些對識別有益的不變性沼侣,又損失了那些信息等等楷兽。最近Mallat 利用小波對深層網(wǎng)絡(luò)結(jié)構(gòu)進行了量化分析[43],是在這一個方向上的重要探索华临。
深度學(xué)習(xí)在圖像識別上的巨大成功芯杀,必將對于多媒體相關(guān)的各種應(yīng)用產(chǎn)生重大影響。我們期待著更多的學(xué)者在不久的將來研究如何利用深度學(xué)習(xí)得到的圖像特征雅潭,推動各種應(yīng)用的快速進步揭厚。
2012 年以來,深度學(xué)習(xí)極大的推動了圖像識別的研究進展扶供,突出體現(xiàn)在ImageNet ILSVRC 和人臉識別筛圆,而且正在快速推廣到與圖像識別相關(guān)的各個問題。深度學(xué)習(xí)的本質(zhì)是通過多層非線性變換椿浓,從大數(shù)據(jù)中自動學(xué)習(xí)特征太援,從而替代手工設(shè)計的特征。深層的結(jié)構(gòu)使其具有極強的表達能力和學(xué)習(xí)能力扳碍,尤其擅長提取復(fù)雜的全局特征和上下文信息提岔,而這是淺層模型難以做到的。一幅圖像中笋敞,各種隱含的因素往往以復(fù)雜的非線性的方式關(guān)聯(lián)在一起碱蒙,而深度學(xué)習(xí)可以使這些因素分級開,在其最高隱含層不同神經(jīng)元代表了不同的因素夯巷,從而使分類變得簡單赛惩。
深度模型并非黑盒子,它與傳統(tǒng)的計算機視覺體統(tǒng)有著密切的聯(lián)系趁餐,但是它使得這個系統(tǒng)的各個模塊(即神經(jīng)網(wǎng)絡(luò)的各個層)可以通過聯(lián)合學(xué)習(xí)喷兼,整體優(yōu)化,從而性能得到大幅提升后雷。與圖像識別相關(guān)的各種應(yīng)用也在推動深度學(xué)習(xí)在網(wǎng)絡(luò)結(jié)構(gòu)季惯、層的設(shè)計和訓(xùn)練方法各個方面的的快速發(fā)展。我們可以預(yù)見在未來的數(shù)年內(nèi)喷面,深度學(xué)習(xí)將會在理論星瘾、算法、和應(yīng)用各方面進入高速發(fā)展的時期惧辈,期待著愈來愈多精彩的工作對學(xué)術(shù)和工業(yè)界產(chǎn)生深遠的影響琳状。
王曉剛 香港中文大學(xué) 原文PDF下載
參考文獻:
[1] D. E. Rumelhart, G. E. Hinton, and R. J. Williams. Learning internal representations by error propagation. Nature, 323(99):533–536, 1986.
[2] J. Deng, W. Dong, R. Socher, L. Li, K. Li, and L. Fei‐Fei. Imagenet: A large‐scale hierarchical image database. In IEEE Int’l Conf. Computer Vision and Pattern Recognition,2009.
[3] A. Krizhevsky, L. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Proc.Neural Information Processing Systems,2012.
[4] G. B. Huang, M. Ramesh, T. Berg, and E.Learned‐Miler. Labeled faces in the wild: A database for studying face recognition in unconstrained environments. Technical report, University of Massachusetts, Amherst, 2007.
[5] N. Kumar, A. C. Berg, P. N. Belhumeur, and S. K. Nayar. Attribute and simile classifiers for face verification. In IEEE Int’l Conf. Computer Vision, 2009.
[6] M. Turk and A. Pentland. Eigenfaces for recognition. Journal of Cognitive Neuroscience, 3(1):71–86, 1991.
[7] D. Chen, X. Cao, F. Wen, and J. Sun. Blessing of dimensionality: Highdimensional feature and its efficient compression for face verification. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition,2013.
[8] Y. Sun, X. Wang, and X. Tang. Deeply learned face representations are sparse, selective, and robust. arXiv:1412.1265, 2014.
[9] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient‐based learning applied todocument recognition. Proceedings of the IEEE, 86:2278– 2324, 1998.
[10] R. Girshick, J. Donahue, T. Darrell, and J.Malik. Rich feature hierarchies for accurate object detection and semantic
segmentation. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.
[11] P. Luo, X. Wang, and X. Tang. Hierarchical face parsing via deep learning. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2012.
[12] P. Luo, X. Wang, and X. Tang. Pedestrian parsing via deep decompositional network. In Proc. IEEE Int’l Conf. Computer Vision, 2013.
[13] Y. Sun, X. Wang, and X. Tang. Deep convolutional network cascade for facial point detection. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition,2013.
[14] A. Toshev and C. Szegedy. Deeppose: Human pose estimation via deep neural networks. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.
[15] W. Ouyang and X. Wang. Joint deep learning for pedestrian detection. In Proc. IEEE Int’l Conf. Computer Vision, 2013.
[16] W. Ouyang, P. Luo, X. Zeng, S. Qiu, Y. Tian, H. Li, S. Yang, Z. Wang, C. Qian, Z. Zhu, R. Wang, C. Loy, X. Wang, and X. Tang. Deepidnet: multi‐stage and deformable deep convolutional neural networks for object detection. arXiv:1409.3505, 2014.
[18] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. arXiv:1409.4842, 2014.
[19] A. S. Razavian, H. Azizpour, J. Sullivan, and S. Carlsson. Cnn features off‐the‐shelf: an astounding baseline for recognition. arXiv:1403.6382, 2014.
[20] Y. Gong, L. Wang, R. Guo, and S. Lazebnik.Multi‐scale orderless pooling of deepconvolutional activation features. arXiv:1403.1840, 2014.
[21] Y. Sun, X. Wang, and X. Tang. Hybrid deeplearning for computing face similarities. In Proc. IEEE Int’l Conf. Computer Vision, 2013.
[22] Y. Sun, X. Wang, and X. Tang. Deep learningface representation from predicting 10,000classes. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.
[23] Y. Taigman, M. Yang, M. Ranzato, and L.Wolf. Deepface: Closing the gap to humanlevelperformance in face verification. In Proc. IEEE Int’l Conf. Computer Vision andPattern Recognition, 2014.
[24] Y. Sun, X. Wang, and X. Tang. Deep learningface representation by joint identificationverification.In Proc. Neural Information Processing Systems, 2014.
[25] Y. Sun, X. Wang, and X. Tang. Deeplylearned face representations are sparse,selective, and robust. arXiv:1412.1265, 2014.
[26] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu,R. Fergus, and Y. Le‐ Cun. Overfeat:Integrated recognition, localization and detection using convolutional networks. InProc. Int’l Conf. Learning Representations,2014.
[27] W. Ouyang, P. Luo, X. Zeng, S. Qiu, Y. Tian, H.Li, S. Yang, Z. Wang, C. Qian, Z. Zhu, R. Wang, C. Loy, X. Wang, and X. Tang. Deepidnet:multi‐stage and deformable deepconvolutional neural networks for object detection. arXiv:1409.3505, 2014.
[28] M. Lin, Q.. Chen, and S. Yan. Network innetwork. arXiv:1312.4400v3, 2013.
[29] K. Simonyan and A. Zisserman. Very deepconvolutional networks for large‐scaleimage recognition. arXiv:1409.1556, 2014, 2014.
[30] K. He, X. Zhang, S. Ren, and J. Sun. Spatialpyramid pooling in deep convolutionalnetworks for visual recognition. arXiv:1406.4729, 2014.
[31] J. R. R. Uijlings, K. E. A. Van de Sande, T.Gevers, and W. M. Smeulders. Selectivesearch for object recognition. InternationalJournal of Computer Vision, 104:154–171,2013.
[32] P. Dollar, C. Wojek, B. Schiele, and P. Perona.Pedestrian detection: A benchmark. In Proc.IEEE Int’l Conf. Computer Vision and PatternRecognition, 2009.
[33] P. Felzenszwalb, R. B. Grishick, D.McAllister,and D. Ramanan. Object detection with discriminatively trained part based models.IEEE Trans. PAMI, 32:1627–1645, 2010.
[34] Y. Tian, P. Luo, X. Wang, and X. Tang,“Pedestrian Detection aided by DeepLearning Semantic Tasks,” arXiv 2014.
[35] X. Zeng, W. Ouyang, and X. Wang. Multistagecontextual deep learning forpedestrian detection. In Proc. IEEE Int’l Conf. Computer Vision, 2013.
[36] P. Luo, Y. Tian, X. Wang, and X. Tang.Switchable deep network for pedestrian detection. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.
[37] X. Zeng, W. Ouyang, and X. Wang. Deep learning of scene‐specific classifier for pedestrian detection. In Proc. European Conf. Computer Vision, 2014.
[38] S. Ji, W. Xu, M. Yang, and K. Yu. 3d convolutional neural networks for human action recognition. IEEE Trans. on Pattern Analysis and Machine Intelligence, 35(1):221–231, 2013.
[39] K. Simonyan and A. Zisserman. Two‐Stream Convolutional Networks for Action Recognition in Videos. arXiv:1406.2199, 2014.
[40] X. Yan, H. Chang, S. Shan, and X. Chen, Modeling Video Dynamics with Deep Dynencoder. In Proc. European Conf. Computer Vision, 2015.
[41] J. Donahue, L. A. Hendricks, S. Guadarrama, M. Rohrbach, S. Venugopalan, K. Saenko, and T. Darrell. Long‐term recurrent convolutional networks for visual recognition and description.arXiv:1411.4389, 2014.
[42] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei‐Fei. Large‐scalevideo classification with convolutional neural networks. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.
[43] J. Bruna and S. Mallat. Invariant scattering convolution networks. IEEE Trans. on Pattern Analysis and Machine Intelligence, 35(8):1872 – 1886, 2013.
作者:mogu醬
鏈接:http://www.reibang.com/p/e6df644c4cf0
來源:簡書
簡書著作權(quán)歸作者所有,任何形式的轉(zhuǎn)載都請聯(lián)系作者獲得授權(quán)并注明出處盒齿。