論文翻譯PDF地址:鏈接:https://pan.baidu.com/s/1vddg6cNOTVfA4YoiJlUV5w 提取碼:vlu6镜悉。本文內(nèi)容也摘自論文翻譯最后總結(jié)的值得關(guān)注的點相赁,翻譯作者未知,若有任何侵權(quán)刊愚,請及時通知刪除。
本論文是對用于一般目標(biāo)檢測的深度學(xué)習(xí)的全面概述彻坛,凸顯了近些年取得的成就旁仿,并根據(jù)這些方法在檢測中的作用而提供了一個結(jié)構(gòu)化的分類,匯總了已有的常用數(shù)據(jù)集和評估指標(biāo)嫡秕,并還討論了大多數(shù)代表性方法的表現(xiàn)渴语。盡管過去幾年取得了巨大的成功(比如檢測準(zhǔn)確度從 ILSVRC2013 的 23%顯著提升至了 ILSVRC2017 的 73%),但當(dāng)前最佳方法的表現(xiàn)與人類水平仍有巨大差距昆咽,尤其是在開放世界學(xué)習(xí)任務(wù)上驾凶。還有很多研究工作有待完成,我們可以看到研究者的關(guān)注重點主要集中在以下八個領(lǐng)域:
1掷酗、開放世界學(xué)習(xí)(Open World Learning)
一般性目標(biāo)檢測的最終目標(biāo)是開發(fā)出能夠準(zhǔn)確调违,高效地識別和定位所有開放世界場景中所有對象類別(數(shù)千或更多對象類)實例的檢測系統(tǒng),與人類視覺系統(tǒng)達(dá)到相當(dāng)?shù)乃叫汉洹W罱哪繕?biāo)檢測算法是利用有限的數(shù)據(jù)集學(xué)習(xí)的技肩,目的是識別和定位數(shù)據(jù)集中包含的對象類別,但是無法識別數(shù)據(jù)集之外的其他對象類別浮声,盡管理想情況下強大的檢測系統(tǒng)應(yīng)該能夠認(rèn)識新穎的對象類別虚婿。當(dāng)前的檢測數(shù)據(jù)集僅包含數(shù)十個到數(shù)百個類別旋奢,這明顯小于人類可以識別的類別。為了實現(xiàn)這一目標(biāo)然痊,需要開發(fā)具有更多一般目標(biāo)檢測類別的新的大規(guī)模標(biāo)記數(shù)據(jù)集至朗,因為CNN 的良好性能需要大量數(shù)據(jù)來進(jìn)行良好的訓(xùn)練。然而玷过,收集如此大量的數(shù)據(jù)爽丹,特別是用于對象檢測的邊界框標(biāo)簽筑煮,是非常昂貴的辛蚊,尤其是對于數(shù)十萬個類別。
2真仲、更好更高效的檢測框架(Better and More Efficient Detection Frameworks)
一般性目標(biāo)檢測取得巨大成功的因素之一是開發(fā)了更好的檢測框架袋马,基于區(qū)域(RCNN, Fast RCNN秸应, Faster RCNN虑凛, Mask RCNN) 和一步檢測器(YOLO、SSD)软啼∩5基于區(qū)域的探測器具有最高的精度,但對于嵌入式或?qū)崟r系統(tǒng)來說計算量太大祸挪。一級探測器有可能更快更簡單锣披,但尚未達(dá)到基于區(qū)域的探測器的準(zhǔn)確性。一個可能的限制是贿条,現(xiàn)有技術(shù)的對象檢測器嚴(yán)重依賴于底層骨干網(wǎng)絡(luò)雹仿,該骨干網(wǎng)絡(luò)最初已經(jīng)針對圖像分類進(jìn)行了優(yōu)化,由于分類和檢測之間的差異而導(dǎo)致了學(xué)習(xí)偏差整以,因此一種潛在的策略是 從頭開始學(xué)習(xí)物體探測器胧辽,如 DSOD 探測器。
3公黑、緊湊高效的深度 CNN 特征(Compact and Efficient Deep CNN Features)
在一般性目標(biāo)檢測方面取得長足進(jìn)步的另一個重要因素是強大的深層 CNN 的發(fā)展邑商,從幾層(例如, AlexNet)到數(shù)百層(例如 Res)凡蚜,其深度顯著增加人断。這些網(wǎng)絡(luò)擁有數(shù)百萬到數(shù)億個參數(shù),需要大量數(shù)據(jù)和耗電的 GPU 進(jìn)行培訓(xùn)番刊,這些都對其在實時/嵌入式應(yīng)用中產(chǎn)生了限制含鳞。因此,人們越來越關(guān)注緊湊和輕量級網(wǎng)絡(luò)芹务,網(wǎng)絡(luò)壓縮和加速以及網(wǎng)絡(luò)解釋和理解蝉绷。
4鸭廷、穩(wěn)健的目標(biāo)表征(Robust Object Representations)
使物體識別問題如此具有挑戰(zhàn)性的一個重要因素是真實世界圖像的巨大變化,包括視點和光照變化熔吗,物體尺度辆床,物體姿態(tài),物體部分變形桅狠,背景雜波讼载,遮擋,外觀變化中跌,圖像模糊咨堤, 年齡分辨率,噪音漩符,相機限制和扭曲一喘。盡管深度網(wǎng)絡(luò)取得了巨大的進(jìn)步,它們?nèi)匀皇艿竭@些許多變化缺乏魯棒性的限制嗜暴,這顯然限制了實際應(yīng)用的可用性凸克。
5、形境推理(Context Reasoning)
真實世界的對象通常與其他對象和環(huán)境共存闷沥。 已經(jīng)認(rèn)識到萎战,語境信息(對象關(guān)系,全局場景統(tǒng)計)有助于物體檢測和識別舆逃,特別是在小物體或遮擋物體的情況下或圖像質(zhì)量差的情況下蚂维。在深度學(xué)習(xí)之前有大量的工作,但是自從深度學(xué)習(xí)時代以來颖侄,在利用語境信息方面只取得了非常有限的進(jìn)展鸟雏。如何有效和有效地結(jié)合上下文信息仍有待探索,理想情況是由人類如何快速引導(dǎo)他們的注意力引導(dǎo)自然景觀中的感興趣對象引導(dǎo)览祖。
6孝鹊、目標(biāo)實例分割(Object Instance Segmentation)
一般性目標(biāo)檢測繼續(xù)朝著更豐富和更詳細(xì)的理解圖像內(nèi)容的趨勢發(fā)展(例如,從圖像分類到單個對象定位到對象檢測)展蒂,下一個挑戰(zhàn)是解決像素級對象實例分割又活,因為對象實例分割可以在許多需要單個實例的精確邊界的潛在應(yīng)用程序中發(fā)揮重要作用。
7锰悼、弱監(jiān)督或無監(jiān)督學(xué)習(xí)(Weakly Supervised or Unsupervised Learning)
當(dāng)前狀態(tài)的檢測器采用從帶有對象邊界框或分割掩模的標(biāo)記數(shù)據(jù)中學(xué)習(xí)的全監(jiān)督模型柳骄,然而這種完全監(jiān)督的學(xué)習(xí)具有嚴(yán)重的局限性,其中邊界框注釋的假設(shè)可能成為問題箕般,尤其是當(dāng)對象的類別數(shù)量很大時耐薯。在沒有完全標(biāo)記的訓(xùn)練數(shù)據(jù)的情況下,完全監(jiān)督學(xué)習(xí)是不可擴展的,因此研究如何在弱監(jiān)督或無監(jiān)督檢測中利用 CNN 的功效是有價值的曲初。
8体谒、三維目標(biāo)檢測(3D Object Detection)
深度相機的進(jìn)展可以以 RGB-Dimages 或 3D 點云的形式獲取深度信息。 深度模態(tài)可用于幫助對象檢測和識別臼婆,但是在方向上會是一個比較受限的問題抒痒,但是可能促使利用大量高質(zhì)量 CAD 模型的優(yōu)勢。