Single Shot MultiBox Detector論文翻譯——中文版

文章作者:Tyan
博客:noahsnail.com ?|? CSDN ?|? 簡書 | ? 云+社區(qū)

聲明:作者翻譯論文僅為學(xué)習(xí),如有侵權(quán)請聯(lián)系作者刪除博文犯眠,謝謝!

翻譯論文匯總:https://github.com/SnailTyan/deep-learning-papers-translation

SSD: Single Shot MultiBox Detector

摘要

我們提出了一種使用單個(gè)深度神經(jīng)網(wǎng)絡(luò)來檢測圖像中的目標(biāo)的方法症革。我們的方法命名為SSD筐咧,將邊界框的輸出空間離散化為不同長寬比的一組默認(rèn)框和并縮放每個(gè)特征映射的位置。在預(yù)測時(shí)噪矛,網(wǎng)絡(luò)會(huì)在每個(gè)默認(rèn)框中為每個(gè)目標(biāo)類別的出現(xiàn)生成分?jǐn)?shù)量蕊,并對框進(jìn)行調(diào)整以更好地匹配目標(biāo)形狀。此外艇挨,網(wǎng)絡(luò)還結(jié)合了不同分辨率的多個(gè)特征映射的預(yù)測残炮,自然地處理各種尺寸的目標(biāo)。相對于需要目標(biāo)提出的方法缩滨,SSD非常簡單势就,因?yàn)樗耆颂岢錾珊碗S后的像素或特征重新采樣階段辞居,并將所有計(jì)算封裝到單個(gè)網(wǎng)絡(luò)中。這使得SSD易于訓(xùn)練和直接集成到需要檢測組件的系統(tǒng)中蛋勺。PASCAL VOC瓦灶,COCO和ILSVRC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證實(shí),SSD對于利用額外的目標(biāo)提出步驟的方法具有競爭性的準(zhǔn)確性抱完,并且速度更快贼陶,同時(shí)為訓(xùn)練和推斷提供了統(tǒng)一的框架。對于300×300的輸入巧娱,SSD在VOC2007測試中以59FPS的速度在Nvidia Titan X上達(dá)到$74.3%$的mAP碉怔,對于512×512的輸入,SSD達(dá)到了$76.9%$的mAP禁添,優(yōu)于參照的最先進(jìn)的Faster R-CNN模型撮胧。與其他單階段方法相比,即使輸入圖像尺寸較小老翘,SSD也具有更高的精度芹啥。代碼獲取:https://github.com/weiliu89/caffe/tree/ssd铺峭。

1. 引言

目前最先進(jìn)的目標(biāo)檢測系統(tǒng)是以下方法的變種:假設(shè)邊界框墓怀,每個(gè)框重采樣像素或特征,并應(yīng)用一個(gè)高質(zhì)量的分類器卫键。自從選擇性搜索[1]通過在PASCAL VOC傀履,COCO和ILSVRC上所有基于Faster R-CNN[2]的檢測都取得了當(dāng)前領(lǐng)先的結(jié)果(盡管具有更深的特征如[3]),這種流程在檢測基準(zhǔn)數(shù)據(jù)上流行開來莉炉。盡管這些方法準(zhǔn)確钓账,但對于嵌入式系統(tǒng)而言,這些方法的計(jì)算量過大絮宁,即使是高端硬件梆暮,對于實(shí)時(shí)應(yīng)用而言也太慢。通常羞福,這些方法的檢測速度是以每幀秒(SPF)度量惕蹄,甚至最快的高精度檢測器,F(xiàn)aster R-CNN治专,僅以每秒7幀(FPS)的速度運(yùn)行卖陵。已經(jīng)有很多嘗試通過處理檢測流程中的每個(gè)階段來構(gòu)建更快的檢測器(參見第4節(jié)中的相關(guān)工作),但是到目前為止张峰,顯著提高的速度僅以顯著降低的檢測精度為代價(jià)泪蔫。

本文提出了第一個(gè)基于深度網(wǎng)絡(luò)的目標(biāo)檢測器,它不對邊界框假設(shè)的像素或特征進(jìn)行重采樣喘批,并且與其它方法有一樣精確度撩荣。這對高精度檢測在速度上有顯著提高(在VOC2007測試中铣揉,59FPS和$74.3%$的mAP,與Faster R-CNN 7FPS和$73.2%$的mAP或者YOLO 45 FPS和$63.4%$的mAP相比)餐曹。速度的根本改進(jìn)來自消除邊界框提出和隨后的像素或特征重采樣階段逛拱。我們并不是第一個(gè)這樣做的人(查閱[4,5]),但是通過增加一系列改進(jìn)台猴,我們設(shè)法比以前的嘗試顯著提高了準(zhǔn)確性朽合。我們的改進(jìn)包括使用小型卷積濾波器來預(yù)測邊界框位置中的目標(biāo)類別和偏移量,使用不同長寬比檢測的單獨(dú)預(yù)測器(濾波器)饱狂,并將這些濾波器應(yīng)用于網(wǎng)絡(luò)后期的多個(gè)特征映射中曹步,以執(zhí)行多尺度檢測。通過這些修改——特別是使用多層進(jìn)行不同尺度的預(yù)測——我們可以使用相對較低的分辨率輸入實(shí)現(xiàn)高精度休讳,進(jìn)一步提高檢測速度讲婚。雖然這些貢獻(xiàn)可能單獨(dú)看起來很小,但是我們注意到由此產(chǎn)生的系統(tǒng)將PASCAL VOC實(shí)時(shí)檢測的準(zhǔn)確度從YOLO的$63.4%$的mAP提高到我們的SSD的$74.3%$的mAP俊柔。相比于最近備受矚目的殘差網(wǎng)絡(luò)方面的工作[3]筹麸,在檢測精度上這是相對更大的提高。而且婆咸,顯著提高的高質(zhì)量檢測速度可以擴(kuò)大計(jì)算機(jī)視覺使用的設(shè)置范圍竹捉。

我們總結(jié)我們的貢獻(xiàn)如下:

  • 我們引入了SSD,這是一種針對多個(gè)類別的單次檢測器尚骄,比先前的先進(jìn)的單次檢測器(YOLO)更快,并且準(zhǔn)確得多侵续,事實(shí)上倔丈,與執(zhí)行顯式區(qū)域提出和池化的更慢的技術(shù)具有相同的精度(包括Faster R-CNN)。

  • SSD的核心是預(yù)測固定的一系列默認(rèn)邊界框的類別分?jǐn)?shù)和邊界框偏移状蜗,使用更小的卷積濾波器應(yīng)用到特征映射上需五。

  • 為了實(shí)現(xiàn)高檢測精度,我們根據(jù)不同尺度的特征映射生成不同尺度的預(yù)測轧坎,并通過縱橫比明確分開預(yù)測宏邮。

  • 這些設(shè)計(jì)功能使得即使在低分辨率輸入圖像上也能實(shí)現(xiàn)簡單的端到端訓(xùn)練和高精度,從而進(jìn)一步提高速度與精度之間的權(quán)衡缸血。

  • 實(shí)驗(yàn)包括在PASCAL VOC蜜氨,COCO和ILSVRC上評估具有不同輸入大小的模型的時(shí)間和精度分析,并與最近的一系列最新方法進(jìn)行比較捎泻。

2. 單次檢測器(SSD)

本節(jié)描述我們提出的SSD檢測框架(2.1節(jié))和相關(guān)的訓(xùn)練方法(2.2節(jié))飒炎。之后,2.3節(jié)介紹了數(shù)據(jù)集特有的模型細(xì)節(jié)和實(shí)驗(yàn)結(jié)果笆豁。

2.1 模型

SSD方法基于前饋卷積網(wǎng)絡(luò)郎汪,該網(wǎng)絡(luò)產(chǎn)生固定大小的邊界框集合赤赊,并對這些邊界框中存在的目標(biāo)類別實(shí)例進(jìn)行評分,然后進(jìn)行非極大值抑制步驟來產(chǎn)生最終的檢測結(jié)果煞赢。早期的網(wǎng)絡(luò)層基于用于高質(zhì)量圖像分類的標(biāo)準(zhǔn)架構(gòu)(在任何分類層之前被截?cái)啵┡准疲覀儗⑵浞Q為基礎(chǔ)網(wǎng)絡(luò)。然后照筑,我們將輔助結(jié)構(gòu)添加到網(wǎng)絡(luò)中以產(chǎn)生具有以下關(guān)鍵特征的檢測:

用于檢測的多尺度特征映射爷辱。我們將卷積特征層添加到截取的基礎(chǔ)網(wǎng)絡(luò)的末端。這些層在尺寸上逐漸減小朦肘,并允許在多個(gè)尺度上對檢測結(jié)果進(jìn)行預(yù)測饭弓。用于預(yù)測檢測的卷積模型對于每個(gè)特征層都是不同的(查閱Overfeat[4]和YOLO[5]在單尺度特征映射上的操作)。

用于檢測的卷積預(yù)測器媒抠。每個(gè)添加的特征層(或者任選的來自基礎(chǔ)網(wǎng)絡(luò)的現(xiàn)有特征層)可以使用一組卷積濾波器產(chǎn)生固定的檢測預(yù)測集合弟断。這些在圖2中的SSD網(wǎng)絡(luò)架構(gòu)的上部指出。對于具有$p$通道的大小為$m \times n$的特征層趴生,潛在檢測的預(yù)測參數(shù)的基本元素是$3 \times 3 \times p$的小核得到某個(gè)類別的分?jǐn)?shù)阀趴,或者相對于默認(rèn)框坐標(biāo)的形狀偏移。在應(yīng)用卷積核的$m \times n$的每個(gè)位置苍匆,它會(huì)產(chǎn)生一個(gè)輸出值刘急。邊界框偏移輸出值是相對每個(gè)特征映射位置的相對默認(rèn)框位置來度量的(查閱YOLO[5]的架構(gòu),該步驟使用中間全連接層而不是卷積濾波器)浸踩。

Figure 2

圖2:兩個(gè)單次檢測模型的比較:SSD和YOLO[5]叔汁。我們的SSD模型在基礎(chǔ)網(wǎng)絡(luò)的末端添加了幾個(gè)特征層,它預(yù)測了不同尺度和長寬比的默認(rèn)邊界框的偏移量及其相關(guān)的置信度检碗。300×300輸入尺寸的SSD在VOC2007 test上的準(zhǔn)確度上明顯優(yōu)于448×448的YOLO的準(zhǔn)確度据块,同時(shí)也提高了速度。

默認(rèn)邊界框和長寬比折剃。對于網(wǎng)絡(luò)頂部的多個(gè)特征映射另假,我們將一組默認(rèn)邊界框與每個(gè)特征映射單元相關(guān)聯(lián)。默認(rèn)邊界框以卷積的方式平鋪特征映射怕犁,以便每個(gè)邊界框相對于其對應(yīng)單元的位置是固定的边篮。在每個(gè)特征映射單元中,我們預(yù)測單元中相對于默認(rèn)邊界框形狀的偏移量奏甫,以及指出每個(gè)邊界框中存在的每個(gè)類別實(shí)例的類別分?jǐn)?shù)戈轿。具體而言,對于給定位置處的$k$個(gè)邊界框中的每一個(gè)扶檐,我們計(jì)算$c$個(gè)類別分?jǐn)?shù)和相對于原始默認(rèn)邊界框形狀的$4$個(gè)偏移量凶杖。這導(dǎo)致在特征映射中的每個(gè)位置周圍應(yīng)用總共$(c+4)k$個(gè)濾波器,對于$m\times n$的特征映射取得$(c+4)kmn$個(gè)輸出款筑。有關(guān)默認(rèn)邊界框的說明智蝠,請參見圖1腾么。我們的默認(rèn)邊界框與Faster R-CNN[2]中使用的錨邊界框相似,但是我們將它們應(yīng)用到不同分辨率的幾個(gè)特征映射上杈湾。在幾個(gè)特征映射中允許不同的默認(rèn)邊界框形狀讓我們有效地離散可能的輸出框形狀的空間解虱。

Figure 1

圖1:SSD框架。(a)在訓(xùn)練期間漆撞,SSD僅需要每個(gè)目標(biāo)的輸入圖像和真實(shí)邊界框殴泰。以卷積方式,我們評估具有不同尺度(例如(b)和(c)中的8×8和4×4)的幾個(gè)特征映射中每個(gè)位置處不同長寬比的默認(rèn)框的小集合(例如4個(gè))浮驳。對于每個(gè)默認(rèn)邊界框悍汛,我們預(yù)測所有目標(biāo)類別($(c_1, c_2, \dots, c_p)$)的形狀偏移量和置信度。在訓(xùn)練時(shí)至会,我們首先將這些默認(rèn)邊界框與實(shí)際的邊界框進(jìn)行匹配离咐。例如,我們已經(jīng)與貓匹配兩個(gè)默認(rèn)邊界框奉件,與狗匹配了一個(gè)宵蛀,這被視為積極的,其余的是消極的县貌。模型損失是定位損失(例如术陶,Smooth L1[6])和置信度損失(例如Softmax)之間的加權(quán)和。

2.2 訓(xùn)練

訓(xùn)練SSD和訓(xùn)練使用區(qū)域提出的典型檢測器之間的關(guān)鍵區(qū)別在于煤痕,需要將真實(shí)信息分配給固定的檢測器輸出集合中的特定輸出梧宫。在YOLO[5]的訓(xùn)練中、Faster R-CNN[2]和MultiBox[7]的區(qū)域提出階段杭攻,一些版本也需要這樣的操作祟敛。一旦確定了這個(gè)分配,損失函數(shù)和反向傳播就可以應(yīng)用端到端了兆解。訓(xùn)練也涉及選擇默認(rèn)邊界框集合和縮放進(jìn)行檢測,以及難例挖掘和數(shù)據(jù)增強(qiáng)策略跑揉。

匹配策略锅睛。在訓(xùn)練過程中,我們需要確定哪些默認(rèn)邊界框?qū)?yīng)實(shí)際邊界框的檢測历谍,并相應(yīng)地訓(xùn)練網(wǎng)絡(luò)现拒。對于每個(gè)實(shí)際邊界框,我們從默認(rèn)邊界框中選擇望侈,這些框會(huì)在位置印蔬,長寬比和尺度上變化。我們首先將每個(gè)實(shí)際邊界框與具有最好的Jaccard重疊(如MultiBox[7])的邊界框相匹配脱衙。與MultiBox不同的是侥猬,我們將默認(rèn)邊界框匹配到Jaccard重疊高于閾值(0.5)的任何實(shí)際邊界框例驹。這簡化了學(xué)習(xí)問題,允許網(wǎng)絡(luò)為多個(gè)重疊的默認(rèn)邊界框預(yù)測高分退唠,而不是要求它只挑選具有最大重疊的一個(gè)邊界框鹃锈。

訓(xùn)練目標(biāo)函數(shù)。SSD訓(xùn)練目標(biāo)函數(shù)來自于MultiBox目標(biāo)[7,8]瞧预,但擴(kuò)展到處理多個(gè)目標(biāo)類別屎债。設(shè)$x_{ij}^p = \lbrace 1,0 \rbrace$是第$i$個(gè)默認(rèn)邊界框匹配到類別$p$的第$j$個(gè)實(shí)際邊界框的指示器。在上面的匹配策略中垢油,我們有$\sum_i x_{ij}^p \geq 1$盆驹。總體目標(biāo)損失函數(shù)是定位損失(loc)和置信度損失(conf)的加權(quán)和:$$L(x, c, l, g) = \frac{1}{N}(L_{conf}(x, c) + \alpha L_{loc}(x, l, g)) \tag{1}$$其中N是匹配的默認(rèn)邊界框的數(shù)量滩愁。如果$N=0$躯喇,則將損失設(shè)為0。定位損失是預(yù)測框($l$)與真實(shí)框($g$)參數(shù)之間的Smooth L1損失[6]惊楼。類似于Faster R-CNN[2]玖瘸,我們回歸默認(rèn)邊界框($d$)的中心偏移量($cx, cy$)和其寬度($w$)、高度($h$)的偏移量檀咙。$$
L_{loc}(x,l,g) = \sum_{i \in Pos}^N \sum_{m \in \lbrace cx, cy, w, h \rbrace} x_{ij}^k \mathtt{smooth}_{L1}(l_{i}^m - \hat{g}_j^m) \\
\hat{g}_j^{cx} = (g_j^{cx} - d_i^{cx}) / d_i^w \quad \quad
\hat{g}_j^{cy} = (g_j^{cy} - d_i^{cy}) / d_i^h \\
\hat{g}_j^{w} = \log\Big(\frac{g_j{w}}{d_iw}\Big) \quad \quad
\hat{g}_j^{h} = \log\Big(\frac{g_j{h}}{d_ih}\Big)
\tag{2}
$$置信度損失是在多類別置信度($c$)上的softmax損失雅倒。
$$
L_{conf}(x, c) = - \sum_{i\in Pos}^N x_{ij}^p log(\hat{c}_i^p) - \sum_{i\in Neg} log(\hat{c}_i^0)\quad \mathtt{where}\quad\hat{c}_i^p = \frac{\exp(c_i^p)}{\sum_p \exp(c_i^p)}
\tag{3}
$$
通過交叉驗(yàn)證權(quán)重項(xiàng)$\alpha$設(shè)為1。

為默認(rèn)邊界框選擇尺度和長寬比弧可。為了處理不同的目標(biāo)尺度蔑匣,一些方法[4,9]建議處理不同尺寸的圖像,然后將結(jié)果合并棕诵。然而裁良,通過利用單個(gè)網(wǎng)絡(luò)中幾個(gè)不同層的特征映射進(jìn)行預(yù)測,我們可以模擬相同的效果校套,同時(shí)還可以跨所有目標(biāo)尺度共享參數(shù)价脾。以前的工作[10,11]已經(jīng)表明,使用低層的特征映射可以提高語義分割的質(zhì)量笛匙,因?yàn)榈蛯訒?huì)捕獲輸入目標(biāo)的更多細(xì)節(jié)侨把。同樣,[12]表明妹孙,從特征映射上添加全局上下文池化可以有助于平滑分割結(jié)果秋柄。受這些方法的啟發(fā),我們使用較低和較高的特征映射進(jìn)行檢測蠢正。圖1顯示了框架中使用的兩個(gè)示例性特征映射(8×8和4×4)骇笔。在實(shí)踐中,我們可以使用更多的具有很少計(jì)算開支的特征映射。

已知網(wǎng)絡(luò)中不同層的特征映射具有不同的(經(jīng)驗(yàn)的)感受野大小[13]笨触。幸運(yùn)的是懦傍,在SSD框架內(nèi),默認(rèn)邊界框不需要對應(yīng)于每層的實(shí)際感受野旭旭。我們設(shè)計(jì)平鋪默認(rèn)邊界框谎脯,以便特定的特征映射學(xué)習(xí)響應(yīng)目標(biāo)的特定尺度。假設(shè)我們要使用$m$個(gè)特征映射進(jìn)行預(yù)測持寄。每個(gè)特征映射默認(rèn)邊界框的尺度計(jì)算如下:$$s_k = s_\text{min} + \frac{s_\text{max} - s_\text{min}}{m - 1} (k - 1),\quad k\in [1, m]$$其中$s_\text{min}$為0.2源梭,$s_\text{max}$為0.9,意味著最低層具有0.2的尺度稍味,最高層具有0.9的尺度废麻,并且在它們之間的所有層是規(guī)則間隔的。我們?yōu)槟J(rèn)邊界框添加不同的長寬比模庐,并將它們表示為$a_r \in {1, 2, 3, \frac{1}{2}, \frac{1}{3}}$烛愧。我們可以計(jì)算每個(gè)邊界框的寬度($w_k^a = s_k\sqrt{a_r}$)和高度($h_k^a = s_k / \sqrt{a_r}$)。對于長寬比為1掂碱,我們還添加了一個(gè)默認(rèn)邊界框怜姿,其尺度為$s'_k = \sqrt{s_k s_{k+1}}$,在每個(gè)特征映射位置得到6個(gè)默認(rèn)邊界框疼燥。我們將每個(gè)默認(rèn)邊界框的中心設(shè)置為$(\frac{i+0.5}{|f_k|}, \frac{j+0.5}{|f_k|})$沧卢,其中$|f_k|$是第$k$個(gè)平方特征映射的大小,$i, j\in [0, |f_k|)$醉者。在實(shí)踐中但狭,也可以設(shè)計(jì)默認(rèn)邊界框的分布以最適合特定的數(shù)據(jù)集。如何設(shè)計(jì)最佳平鋪也是一個(gè)懸而未決的問題撬即。

通過將所有默認(rèn)邊界框的預(yù)測與許多特征映射所有位置的不同尺度和高寬比相結(jié)合立磁,我們有不同的預(yù)測集合,涵蓋各種輸入目標(biāo)大小和形狀剥槐。例如唱歧,在圖1中,狗被匹配到4×4特征映射中的默認(rèn)邊界框粒竖,而不是8×8特征映射中的任何默認(rèn)框迈喉。這是因?yàn)槟切┻吔缈蛴胁煌某叨龋黄ヅ涔返倪吔缈蛭略玻虼嗽谟?xùn)練期間被認(rèn)為是負(fù)例。

難例挖掘孩革。在匹配步驟之后岁歉,大多數(shù)默認(rèn)邊界框?yàn)樨?fù)例,尤其是當(dāng)可能的默認(rèn)邊界框數(shù)量較多時(shí)。這在正的訓(xùn)練實(shí)例和負(fù)的訓(xùn)練實(shí)例之間引入了顯著的不平衡锅移。我們不使用所有負(fù)例熔掺,而是使用每個(gè)默認(rèn)邊界框的最高置信度損失來排序它們,并挑選最高的置信度非剃,以便負(fù)例和正例之間的比例至多為3:1置逻。我們發(fā)現(xiàn)這會(huì)導(dǎo)致更快的優(yōu)化和更穩(wěn)定的訓(xùn)練。

數(shù)據(jù)增強(qiáng)备绽。為了使模型對各種輸入目標(biāo)大小和形狀更魯棒,每張訓(xùn)練圖像都是通過以下選項(xiàng)之一進(jìn)行隨機(jī)采樣的:

  • 使用整個(gè)原始輸入圖像。
  • 采樣一個(gè)圖像塊着茸,使得與目標(biāo)之間的最小Jaccard重疊為0.1型奥,0.3,0.5倍靡,0.7或0.9猴伶。
  • 隨機(jī)采樣一個(gè)圖像塊。

每個(gè)采樣圖像塊的大小是原始圖像大小的[0.1塌西,1]他挎,長寬比在$\frac {1} {2}$和2之間。如果實(shí)際邊界框的中心在采用的圖像塊中捡需,我們保留實(shí)際邊界框與采樣圖像塊的重疊部分办桨。在上述采樣步驟之后,除了應(yīng)用類似于文獻(xiàn)[14]中描述的一些光度變形之外栖忠,將每個(gè)采樣圖像塊調(diào)整到固定尺寸并以0.5的概率進(jìn)行水平翻轉(zhuǎn)崔挖。

3. 實(shí)驗(yàn)結(jié)果

基礎(chǔ)網(wǎng)絡(luò)。我們的實(shí)驗(yàn)全部基于VGG16[15]庵寞,它是在ILSVRC CLS-LOC數(shù)據(jù)集[16]上預(yù)先訓(xùn)練的狸相。類似于DeepLab-LargeFOV[17],我們將fc6fc7轉(zhuǎn)換為卷積層捐川,從fc6和fc7中重采樣參數(shù)脓鹃,將pool5從$2\times 2-s2$更改為$3\times 3-s1$,并使用空洞算法[18]來填補(bǔ)這個(gè)“小洞”古沥。我們刪除所有的丟棄層和fc8層瘸右。我們使用SGD對得到的模型進(jìn)行微調(diào),初始學(xué)習(xí)率為$10^{-3}$岩齿,動(dòng)量為0.9太颤,權(quán)重衰減為0.0005,批數(shù)據(jù)大小為32盹沈。每個(gè)數(shù)據(jù)集的學(xué)習(xí)速率衰減策略略有不同龄章,我們將在后面詳細(xì)描述。完整的訓(xùn)練和測試代碼建立在Caffe[19]上并開源:[https://github.com/weiliu89/caffe/tree/ssd](https://github.com/weiliu89/caffe/tree/ SSD)。

3.1 PASCAL VOC2007

在這個(gè)數(shù)據(jù)集上做裙,我們在VOC2007 test(4952張圖像)上比較了Fast R-CNN[6]和FAST R-CNN[2]岗憋。所有的方法都在相同的預(yù)訓(xùn)練好的VGG16網(wǎng)絡(luò)上進(jìn)行微調(diào)。

圖2顯示了SSD300模型的架構(gòu)細(xì)節(jié)锚贱。我們使用conv4_3仔戈,conv7(fc7),conv8_2拧廊,conv9_2监徘,conv10_2和conv11_2來預(yù)測位置和置信度。我們在conv4_3上設(shè)置了尺度為0.1的默認(rèn)邊界框卦绣。我們使用“xavier”方法[20]初始化所有新添加的卷積層的參數(shù)耐量。對于conv4_3,conv10_2和conv11_2滤港,我們只在每個(gè)特征映射位置上關(guān)聯(lián)了4個(gè)默認(rèn)邊界框——忽略$\frac {1} {3} $和3的長寬比廊蜒。對于所有其它層,我們像2.2節(jié)描述的那樣放置了6個(gè)默認(rèn)邊界框溅漾。如[12]所指出的山叮,與其它層相比,由于conv4_3具有不同的特征尺度添履,所以我們使用[12]中引入的L2正則化技術(shù)將特征映射中每個(gè)位置的特征標(biāo)準(zhǔn)縮放到20屁倔,在反向傳播過程中學(xué)習(xí)尺度。對于40k次迭代暮胧,我們使用$10{-3}$的學(xué)習(xí)率锐借,然后繼續(xù)用$10{-4}$和$10^{-5}$的學(xué)習(xí)率訓(xùn)練10k迭代。當(dāng)對VOC2007 $\texttt{trainval}$進(jìn)行訓(xùn)練時(shí)往衷,表1顯示了我們的低分辨率SSD300模型已經(jīng)比Fast R-CNN更準(zhǔn)確钞翔。當(dāng)我們用更大的$512\times 512$輸入圖像上訓(xùn)練SSD時(shí),它更加準(zhǔn)確席舍,超過了Faster R-CNN $1.7%$的mAP布轿。如果我們用更多的(即07+12)數(shù)據(jù)來訓(xùn)練SSD,我們看到SSD300已經(jīng)比Faster R-CNN好$1.1%$来颤,SSD512比Faster R-CNN好$3.6%$汰扭。如果我們將SSD512用3.4節(jié)描述的COCO $\texttt{trainval35k}$來訓(xùn)練模型并在07+12數(shù)據(jù)集上進(jìn)行微調(diào),我們獲得了最好的結(jié)果:$81.6%$的mAP福铅。

Table 1

表1:PASCAL VOC2007 test檢測結(jié)果萝毛。Fast和Faster R-CNN都使用最小維度為600的輸入圖像。兩個(gè)SSD模型使用完全相同的設(shè)置除了它們有不同的輸入大小(300×300和512×512)滑黔。很明顯更大的輸入尺寸會(huì)導(dǎo)致更好的結(jié)果珊泳,并且更大的數(shù)據(jù)同樣有幫助鲁冯。數(shù)據(jù):“07”:VOC2007 trainval,“07+12”:VOC2007和VOC2012 trainval的聯(lián)合色查。“07+12+COCO”:首先在COCO trainval35k上訓(xùn)練然后在07+12上微調(diào)撞芍。

為了更詳細(xì)地了解我們兩個(gè)SSD模型的性能秧了,我們使用了[21]中的檢測分析工具。圖3顯示了SSD可以檢測到高質(zhì)量(大白色區(qū)域)的各種目標(biāo)類別序无。它大部分的確信檢測是正確的验毡。召回約為$85-90%$,而“弱”(0.1 Jaccard重疊)標(biāo)準(zhǔn)則要高得多帝嗡。與R-CNN[22]相比晶通,SSD具有更小的定位誤差,表明SSD可以更好地定位目標(biāo)哟玷,因?yàn)樗苯訉W(xué)習(xí)回歸目標(biāo)形狀和分類目標(biāo)類別狮辽,而不是使用兩個(gè)解耦步驟。然而巢寡,SSD對類似的目標(biāo)類別(特別是對于動(dòng)物)有更多的混淆喉脖,部分原因是我們共享多個(gè)類別的位置。圖4顯示SSD對邊界框大小非常敏感抑月。換句話說树叽,它在較小目標(biāo)上比在較大目標(biāo)上的性能要差得多。這并不奇怪谦絮,因?yàn)檫@些小目標(biāo)甚至可能在頂層沒有任何信息题诵。增加輸入尺寸(例如從300×300到512×512)可以幫助改進(jìn)檢測小目標(biāo),但仍然有很大的改進(jìn)空間层皱。積極的一面性锭,我們可以清楚地看到SSD在大型目標(biāo)上的表現(xiàn)非常好。而且對于不同長寬比的目標(biāo)奶甘,它是非常魯棒的篷店,因?yàn)槲覀兪褂妹總€(gè)特征映射位置的各種長寬比的默認(rèn)框。

Figure 3

圖3:SSD512在VOC2007 test中的動(dòng)物臭家,車輛和家具上的性能可視化疲陕。第一行顯示由于定位不佳(Loc),與相似類別(Sim)混淆钉赁,與其它(Oth)或背景(BG)相關(guān)的正確檢測(Cor)或假陽性的累積分?jǐn)?shù)蹄殃。紅色的實(shí)線表示隨著檢測次數(shù)的增加,強(qiáng)標(biāo)準(zhǔn)(0.5 Jaccard重疊)下的召回變化你踩。紅色虛線是使用弱標(biāo)準(zhǔn)(0.1 Jaccard重疊)诅岩。最下面一行顯示了排名靠前的假陽性類型的分布讳苦。

Figure 4

圖4:使用[21]在VOC2007 test設(shè)置上不同目標(biāo)特性的靈敏度和影響。左邊的圖顯示了BBox面積對每個(gè)類別的影響吩谦,右邊的圖顯示了長寬比的影響鸳谜。關(guān)鍵:BBox區(qū)域:XS=超小式廷;S=懈琅ぁ;M=中等滑废;L=大蝗肪;XL=超大。長寬比:XT=超高/窄蠕趁;T=高薛闪;M=中等;W=寬俺陋;XW =超寬豁延。

3.2 模型分析

為了更好地了解SSD,我們進(jìn)行了控制實(shí)驗(yàn)倔韭,以檢查每個(gè)組件如何影響性能术浪。對于所有的實(shí)驗(yàn),我們使用相同的設(shè)置和輸入大惺僮谩(300×300)胰苏,除了指定的設(shè)置或組件的更改。

數(shù)據(jù)增強(qiáng)至關(guān)重要醇疼。Fast和Faster R-CNN使用原始圖像和水平翻轉(zhuǎn)來訓(xùn)練硕并。我們使用更廣泛的抽樣策略,類似于YOLO[5]秧荆。從表2可以看出倔毙,采樣策略可以提高$8.8%$的mAP。我們不知道我們的采樣策略將會(huì)使Fast和Faster R-CNN受益多少乙濒,但是他們可能從中受益較少陕赃,因?yàn)樗麄冊诜诸愡^程中使用了一個(gè)特征池化步驟,這對通過設(shè)計(jì)的目標(biāo)變換來說相對魯棒颁股。

Table 2

表2:各種設(shè)計(jì)選擇和組件對SSD性能的影響么库。

更多的默認(rèn)邊界框形狀會(huì)更好。如2.2節(jié)所述甘有,默認(rèn)情況下诉儒,我們每個(gè)位置使用6個(gè)默認(rèn)邊界框。如果我們刪除長寬比為$\frac {1} {3}$和3的邊界框亏掀,性能下降了$0.6%$忱反。通過進(jìn)一步去除$\frac {1} {2}$和2長寬比的盒子泛释,性能再下降$2.1%$。使用各種默認(rèn)邊界框形狀似乎使網(wǎng)絡(luò)預(yù)測邊界框的任務(wù)更容易温算。

Atrous更快怜校。如第3節(jié)所述,我們根據(jù)DeepLab-LargeFOV[17]使用子采樣的VGG16的空洞版本米者。如果我們使用完整的VGG16韭畸,保持pool5為2×2-s2,并且不從fc6和fc7中子采樣參數(shù)蔓搞,并添加conv5_3進(jìn)行預(yù)測,結(jié)果大致相同随橘,而速度慢了大約$20%$喂分。

多個(gè)不同分辨率的輸出層更好。SSD的主要貢獻(xiàn)是在不同的輸出層上使用不同尺度的默認(rèn)邊界框机蔗。為了衡量所獲得的優(yōu)勢蒲祈,我們逐步刪除層并比較結(jié)果。為了公平比較萝嘁,每次我們刪除一層梆掸,我們調(diào)整默認(rèn)邊界框平鋪,以保持類似于最初的邊界框的總數(shù)(8732)牙言。這是通過在剩余層上堆疊更多尺度的盒子并根據(jù)需要調(diào)整邊界框的尺度來完成的酸钦。我們沒有詳盡地優(yōu)化每個(gè)設(shè)置的平鋪。表3顯示層數(shù)較少咱枉,精度降低卑硫,從74.3單調(diào)遞減至62.4。當(dāng)我們在一層上堆疊多尺度的邊界框時(shí)蚕断,很多邊界框在圖像邊界上需要小心處理欢伏。我們嘗試了在Faster R-CNN[2]中使用這個(gè)策略,忽略在邊界上的邊界框亿乳。我們觀察到了一些有趣的趨勢硝拧。例如,如果我們使用非常粗糙的特征映射(例如conv11_2(1×1)或conv10_2(3×3))葛假,它會(huì)大大傷害性能障陶。原因可能是修剪后我們沒有足夠大的邊界框來覆蓋大的目標(biāo)。當(dāng)我們主要使用更高分辨率的特征映射時(shí)桐款,性能開始再次上升咸这,因?yàn)榧词乖谛藜糁笕匀挥凶銐驍?shù)量的大邊界框。如果我們只使用conv7進(jìn)行預(yù)測魔眨,那么性能是最糟糕的媳维,這就強(qiáng)化了在不同層上擴(kuò)展不同尺度的邊界框是非常關(guān)鍵的信息酿雪。此外,由于我們的預(yù)測不像[6]那樣依賴于ROI池化侄刽,所以我們在低分辨率特征映射中沒有折疊組塊的問題[23]指黎。SSD架構(gòu)將來自各種分辨率的特征映射的預(yù)測結(jié)合起來,以達(dá)到與Faster R-CNN相當(dāng)?shù)木_度州丹,同時(shí)使用較低分辨率的輸入圖像醋安。

Table 3

表3:使用多個(gè)輸出層的影響。

3.3 PASCAL VOC2012

除了我們使用VOC2012 trainval和VOC2007 trainval墓毒,test(21503張圖像)進(jìn)行訓(xùn)練吓揪,以及在VOC2012 test(10991張圖像)上進(jìn)行測試之外,我們使用與上述基本的VOC2007實(shí)驗(yàn)相同的設(shè)置所计。我們用$10{?3}$的學(xué)習(xí)率對模型進(jìn)行60k次的迭代訓(xùn)練柠辞,然后使用$10{?4}$的學(xué)習(xí)率進(jìn)行20k次迭代訓(xùn)練。表4顯示了我們的SSD300和SSD512模型的結(jié)果主胧。我們看到了與我們在VOC2007 test中觀察到的相同的性能趨勢叭首。我們的SSD300比Fast/Faster R-CNN提高了準(zhǔn)確性。通過將訓(xùn)練和測試圖像大小增加到512×512踪栋,我們比Faster R-CNN的準(zhǔn)確率提高了$4.5%$焙格。與YOLO相比,SSD更精確夷都,可能是由于使用了來自多個(gè)特征映射的卷積默認(rèn)邊界框和我們在訓(xùn)練期間的匹配策略眷唉。當(dāng)對從COCO上訓(xùn)練的模型進(jìn)行微調(diào)后,我們的SSD512達(dá)到了$80.0%$的mAP损肛,比Faster R-CNN高了$4.1%$厢破。

Table 4

表4: PASCAL VOC2012 test上的檢測結(jié)果. Fast和Faster R-CNN使用最小維度為600的圖像,而YOLO的圖像大小為448× 48治拿。數(shù)據(jù):“07++12”:VOC2007 trainval摩泪,test和VOC2012 trainval〗倭拢“07++12+COCO”:先在COCO trainval135k上訓(xùn)練然后在07++12上微調(diào)见坑。

3.4 COCO

為了進(jìn)一步驗(yàn)證SSD框架,我們在COCO數(shù)據(jù)集上對SSD300和SSD512架構(gòu)進(jìn)行了訓(xùn)練捏检。由于COCO中的目標(biāo)往往比PASCAL VOC中的更小荞驴,因此我們對所有層使用較小的默認(rèn)邊界框。我們遵循2.2節(jié)中提到的策略贯城,但是現(xiàn)在我們最小的默認(rèn)邊界框尺度是0.15而不是0.2熊楼,并且conv4_3上的默認(rèn)邊界框尺度是0.07(例如,300×300圖像中的21個(gè)像素)能犯。

我們使用trainval35k[24]進(jìn)行訓(xùn)練鲫骗。我們首先用$10{?3}$的學(xué)習(xí)率對模型進(jìn)行訓(xùn)練犬耻,進(jìn)行160k次迭代,然后繼續(xù)以$10{?4}$和$10^{?5}$的學(xué)習(xí)率各進(jìn)行40k次迭代执泰。表5顯示了test-dev2015的結(jié)果枕磁。與我們在PASCAL VOC數(shù)據(jù)集中觀察到的結(jié)果類似,SSD300在mAP@0.5和mAP@[0.5:0.95]中都優(yōu)于Fast R-CNN术吝。SSD300與ION 24]和Faster R-CNN[25]具有相似的mAP@0.75计济,但是mAP@0.5更差。通過將圖像尺寸增加到512×512排苍,我們的SSD512在這兩個(gè)標(biāo)準(zhǔn)中都優(yōu)于Faster R-CNN[25]沦寂。有趣的是,我們觀察到SSD512在mAP@0.75中要好$5.3%$淘衙,但是在mAP@0.5中只好$1.2%$凑队。我們也觀察到,對于大型目標(biāo)幔翰,AP($4.8%$)和AR($4.6%$)的效果要好得多,但對于小目標(biāo)西壮,AP($1.3%$)和AR($2.0%$)有相對更少的改進(jìn)遗增。與ION相比,大型和小型目標(biāo)的AR改進(jìn)更為相似($5.4%$和$3.9%$)款青。我們推測Faster R-CNN在較小的目標(biāo)上比SSD更具競爭力做修,因?yàn)樗赗PN部分和Fast R-CNN部分都執(zhí)行了兩個(gè)邊界框細(xì)化步驟。在圖5中抡草,我們展示了SSD512模型在COCO test-dev上的一些檢測實(shí)例饰及。

Table 5

表5:COCO test-dev2015檢測結(jié)果

Figure 5

圖5:SSD512模型在COCO test-dev上的檢測實(shí)例康震。我們展示了分?jǐn)?shù)高于0.6的檢測燎含。每種顏色對應(yīng)一種目標(biāo)類別。

3.5 初步的ILSVRC結(jié)果

我們將在COCO上應(yīng)用的相同網(wǎng)絡(luò)架構(gòu)應(yīng)用于ILSVRC DET數(shù)據(jù)集[16]腿短。我們使用[22]中使用的ILSVRC2014 DETtrainval1來訓(xùn)練SSD300模型屏箍。我們首先用$10{?3}$的學(xué)習(xí)率對模型進(jìn)行訓(xùn)練,進(jìn)行了320k次的迭代橘忱,然后以$10{?4}$繼續(xù)迭代80k次赴魁,以$10^{?5}$迭代40k次。我們可以在val2數(shù)據(jù)集上[22]實(shí)現(xiàn)43.4 mAP钝诚。再一次證明了SSD是用于高質(zhì)量實(shí)時(shí)檢測的通用框架颖御。

3.6 為小目標(biāo)準(zhǔn)確率進(jìn)行數(shù)據(jù)增強(qiáng)

SSD沒有如Faster R-CNN中后續(xù)的特征重采樣步驟,小目標(biāo)的分類任務(wù)對SSD來說相對困難凝颇,正如我們的分析(見圖4)所示潘拱。2.2描述的數(shù)據(jù)增強(qiáng)有助于顯著提高性能疹鳄,特別是在PASCAL VOC等小數(shù)據(jù)集上。策略產(chǎn)生的隨機(jī)裁剪可以被認(rèn)為是“放大”操作泽铛,并且可以產(chǎn)生許多更大的訓(xùn)練樣本尚辑。為了實(shí)現(xiàn)創(chuàng)建更多小型訓(xùn)練樣本的“縮小”操作,我們首先將圖像隨機(jī)放置在填充了平均值的原始圖像大小為16x的畫布上盔腔,然后再進(jìn)行任意的隨機(jī)裁剪操作杠茬。因?yàn)橥ㄟ^引入這個(gè)新的“擴(kuò)展”數(shù)據(jù)增強(qiáng)技巧,我們有更多的訓(xùn)練圖像弛随,所以我們必須將訓(xùn)練迭代次數(shù)加倍瓢喉。我們已經(jīng)在多個(gè)數(shù)據(jù)集上看到了一致的$2%-3%$的mAP增長,如表6所示舀透。具體來說栓票,圖6顯示新的增強(qiáng)技巧顯著提高了模型在小目標(biāo)上的性能。這個(gè)結(jié)果強(qiáng)調(diào)了數(shù)據(jù)增強(qiáng)策略對最終模型精度的重要性愕够。

Table 6

表6:我們使用圖像擴(kuò)展數(shù)據(jù)增強(qiáng)技巧在多個(gè)數(shù)據(jù)集上的結(jié)果走贪。$SSD300{*}$和$SSD512{*}$是用新的數(shù)據(jù)增強(qiáng)訓(xùn)練的模型。

Figure 6

圖6:具有新的數(shù)據(jù)增強(qiáng)的目標(biāo)尺寸在[21]中使用的VOC2007test數(shù)據(jù)集上靈敏度及影響惑芭。最上一行顯示了原始SSD300和SSD512模型上每個(gè)類別的BBox面積的影響坠狡,最下面一行對應(yīng)使用新的數(shù)據(jù)增強(qiáng)訓(xùn)練技巧的$SSD300{*}$和$SSD512{*}$模型。新的數(shù)據(jù)增強(qiáng)技巧顯然有助于顯著檢測小目標(biāo)遂跟。

改進(jìn)SSD的另一種方法是設(shè)計(jì)一個(gè)更好的默認(rèn)邊界框平鋪逃沿,使其位置和尺度與特征映射上每個(gè)位置的感受野更好地對齊。我們將這個(gè)留給未來工作幻锁。

3.7 推斷時(shí)間

考慮到我們的方法產(chǎn)生大量邊界框凯亮,在推斷期間執(zhí)行非最大值抑制(nms)是必要的。通過使用0.01的置信度閾值哄尔,我們可以過濾大部分邊界框假消。然后,我們應(yīng)用nms究飞,每個(gè)類別0.45的Jaccard重疊置谦,并保留每張圖像的前200個(gè)檢測。對于SSD300和20個(gè)VOC類別亿傅,這個(gè)步驟每張圖像花費(fèi)大約1.7毫秒媒峡,接近在所有新增層上花費(fèi)的總時(shí)間(2.4毫秒)。我們使用Titan X葵擎、cuDNN v4谅阿、Intel Xeon E5-2667v3@3.20GHz以及批大小為8來測量速度。

表7顯示了SSD,F(xiàn)aster R-CNN[2]和YOLO[5]之間的比較签餐。我們的SSD300和SSD512的速度和精度均優(yōu)于Faster R-CNN寓涨。雖然Fast YOLO[5]可以以155FPS的速度運(yùn)行,但其準(zhǔn)確性卻降低了近$22%$的mAP氯檐。就我們所知戒良,SSD300是第一個(gè)實(shí)現(xiàn)$70%$以上mAP的實(shí)時(shí)方法。請注意冠摄,大約$80%$前饋時(shí)間花費(fèi)在基礎(chǔ)網(wǎng)絡(luò)上(本例中為VGG16)糯崎。因此,使用更快的基礎(chǔ)網(wǎng)絡(luò)可以進(jìn)一步提高速度河泳,這也可能使SSD512模型達(dá)到實(shí)時(shí)沃呢。

Figure 7

表7:Pascal VOC2007 test上的結(jié)果。SSD300是唯一可以取得$70%$以上mAP的實(shí)現(xiàn)檢測方法拆挥。通過使用更大的輸入圖像薄霜,SSD512在精度上超過了所有方法同時(shí)保持近似實(shí)時(shí)的速度。

4. 相關(guān)工作

在圖像中有兩種建立的用于目標(biāo)檢測的方法纸兔,一種基于滑動(dòng)窗口惰瓜,另一種基于區(qū)域提出分類。在卷積神經(jīng)網(wǎng)絡(luò)出現(xiàn)之前汉矿,這兩種方法的最新技術(shù)——可變形部件模型(DPM)[26]和選擇性搜索[1]——具有相當(dāng)?shù)男阅芡沂臁H欢赗-CNN[22]結(jié)合選擇性搜索區(qū)域提出和基于后分類的卷積網(wǎng)絡(luò)帶來的顯著改進(jìn)后负甸,區(qū)域提出目標(biāo)檢測方法變得流行。

最初的R-CNN方法已經(jīng)以各種方式進(jìn)行了改進(jìn)痹届。第一套方法提高了后分類的質(zhì)量和速度,因?yàn)樗枰獙Τ汕先f的裁剪圖像進(jìn)行分類队腐,這是昂貴和耗時(shí)的蚕捉。SPPnet[9]顯著加快了原有的R-CNN方法。它引入了一個(gè)空間金字塔池化層柴淘,該層對區(qū)域大小和尺度更魯棒迫淹,并允許分類層重用多個(gè)圖像分辨率下生成的特征映射上計(jì)算的特征。Fast R-CNN[6]擴(kuò)展了SPPnet为严,使得它可以通過最小化置信度和邊界框回歸的損失來對所有層進(jìn)行端到端的微調(diào)敛熬,最初在MultiBox[7]中引入用于學(xué)習(xí)目標(biāo)。

第二套方法使用深度神經(jīng)網(wǎng)絡(luò)提高了提出生成的質(zhì)量第股。在最近的工作MultiBox[7,8]中应民,基于低級圖像特征的選擇性搜索區(qū)域提出直接被單獨(dú)的深度神經(jīng)網(wǎng)絡(luò)生成的提出所取代。這進(jìn)一步提高了檢測精度,但是導(dǎo)致了一些復(fù)雜的設(shè)置诲锹,需要訓(xùn)練兩個(gè)具有依賴關(guān)系的神經(jīng)網(wǎng)絡(luò)繁仁。Faster R-CNN[2]將選擇性搜索提出替換為區(qū)域提出網(wǎng)絡(luò)(RPN)學(xué)習(xí)到的區(qū)域提出,并引入了一種方法归园,通過交替兩個(gè)網(wǎng)絡(luò)之間的微調(diào)共享卷積層和預(yù)測層將RPN和Fast R-CNN結(jié)合在一起黄虱。通過這種方式,使用區(qū)域提出池化中級特征庸诱,并且最后的分類步驟比較便宜捻浦。我們的SSD與Faster R-CNN中的區(qū)域提出網(wǎng)絡(luò)(RPN)非常相似,因?yàn)槲覀円彩褂靡唤M固定的(默認(rèn))邊界框進(jìn)行預(yù)測偶翅,類似于RPN中的錨邊界框默勾。但是,我們不是使用這些來池化特征并評估另一個(gè)分類器聚谁,而是為每個(gè)目標(biāo)類別在每個(gè)邊界框中同時(shí)生成一個(gè)分?jǐn)?shù)母剥。因此,我們的方法避免了將RPN與Fast R-CNN合并的復(fù)雜性形导,并且更容易訓(xùn)練环疼,更快且更直接地集成到其它任務(wù)中。

與我們的方法直接相關(guān)的另一組方法朵耕,完全跳過提出步驟炫隶,直接預(yù)測多個(gè)類別的邊界框和置信度。OverFeat[4]是滑動(dòng)窗口方法的深度版本阎曹,在知道了底層目標(biāo)類別的置信度之后伪阶,直接從最頂層的特征映射的每個(gè)位置預(yù)測邊界框。YOLO[5]使用整個(gè)最頂層的特征映射來預(yù)測多個(gè)類別和邊界框(這些類別共享)的置信度处嫌。我們的SSD方法屬于這一類栅贴,因?yàn)槲覀儧]有提出步驟,但使用默認(rèn)邊界框熏迹。然而檐薯,我們的方法比現(xiàn)有方法更靈活,因?yàn)槲覀兛梢栽诓煌叨鹊亩鄠€(gè)特征映射的每個(gè)特征位置上使用不同長寬比的默認(rèn)邊界框注暗。如果我們只從最頂層的特征映射的每個(gè)位置使用一個(gè)默認(rèn)框坛缕,我們的SSD將具有與OverFeat[4]相似的架構(gòu);如果我們使用整個(gè)最頂層的特征映射捆昏,并添加一個(gè)全連接層進(jìn)行預(yù)測來代替我們的卷積預(yù)測器赚楚,并且沒有明確地考慮多個(gè)長寬比,我們可以近似地再現(xiàn)YOLO[5]骗卜。

5. 結(jié)論

本文介紹了SSD直晨,一種快速的單次多類別目標(biāo)檢測器搀军。我們模型的一個(gè)關(guān)鍵特性是使用網(wǎng)絡(luò)頂部多個(gè)特征映射的多尺度卷積邊界框輸出。這種表示使我們能夠高效地建挠禄剩可能的邊界框形狀空間罩句。我們通過實(shí)驗(yàn)驗(yàn)證,在給定合適訓(xùn)練策略的情況下敛摘,大量仔細(xì)選擇的默認(rèn)邊界框會(huì)提高性能门烂。我們構(gòu)建的SSD模型比現(xiàn)有的方法至少要多一個(gè)數(shù)量級的邊界框預(yù)測采樣位置,尺度和長寬比[5,7]兄淫。我們證明了給定相同的VGG-16基礎(chǔ)架構(gòu)屯远,SSD在準(zhǔn)確性和速度方面與其對應(yīng)的最先進(jìn)的目標(biāo)檢測器相比毫不遜色。在PASCAL VOC和COCO上捕虽,我們的SSD512模型的性能明顯優(yōu)于最先進(jìn)的Faster R-CNN[2]慨丐,而速度提高了3倍。我們的實(shí)時(shí)SSD300模型運(yùn)行速度為59FPS泄私,比目前的實(shí)時(shí)YOLO[5]更快房揭,同時(shí)顯著提高了檢測精度。

除了單獨(dú)使用之外晌端,我們相信我們的整體和相對簡單的SSD模型為采用目標(biāo)檢測組件的大型系統(tǒng)提供了有用的構(gòu)建模塊捅暴。一個(gè)有前景的未來方向是探索它作為系統(tǒng)的一部分,使用循環(huán)神經(jīng)網(wǎng)絡(luò)來同時(shí)檢測和跟蹤視頻中的目標(biāo)咧纠。

6. 致謝

這項(xiàng)工作是在谷歌的一個(gè)實(shí)習(xí)項(xiàng)目開始的蓬痒,并在UNC繼續(xù)。我們要感謝Alex Toshev進(jìn)行有益的討論漆羔,并感謝Google的Image Understanding和DistBelief團(tuán)隊(duì)梧奢。我們也感謝Philip Ammirato和Patrick Poirson提供有用的意見。我們感謝NVIDIA提供的GPU演痒,并對NSF 1452851,1446631,1526367,1533771的支持表示感謝粹断。

References

  1. Uijlings, J.R., van de Sande, K.E., Gevers, T., Smeulders, A.W.: Selective search for object recognition. IJCV (2013)

  2. Ren, S., He, K., Girshick, R., Sun, J.: Faster R-CNN: Towards real-time object detection with region proposal networks. In: NIPS. (2015)

  3. He, K., Zhang, X., Ren, S., Sun, J.:Deep residual learning for image recognition. In:CVPR. (2016)

  4. Sermanet, P., Eigen, D., Zhang, X., Mathieu, M., Fergus, R., LeCun, Y.: Overfeat:Integrated recognition, localization and detection using convolutional networks. In: ICLR. (2014)

  5. Redmon, J., Divvala, S., Girshick, R., Farhadi, A.: You only look once: Unified, real-time object detection. In: CVPR. (2016)

  6. Girshick, R.: Fast R-CNN. In: ICCV. (2015)

  7. Erhan, D., Szegedy, C., Toshev, A., Anguelov, D.: Scalable object detection using deep neural networks. In: CVPR. (2014)

  8. Szegedy, C., Reed, S., Erhan, D., Anguelov, D.: Scalable, high-quality object detection. arXiv preprint arXiv:1412.1441 v3 (2015)

  9. He, K., Zhang, X., Ren, S., Sun, J.: Spatial pyramid pooling in deep convolutional networks for visual recognition. In: ECCV. (2014)

  10. Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation. In: CVPR. (2015)

  11. Hariharan, B., Arbela?ez, P., Girshick, R., Malik, J.: Hypercolumns for object segmentation and fine-grained localization. In: CVPR. (2015)

  12. Liu, W., Rabinovich, A., Berg, A.C.: ParseNet: Looking wider to see better.In:ILCR.(2016)

  13. Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., Torralba, A.: Object detector semerge in deep scene cnns. In: ICLR. (2015)

  14. Howard, A.G.: Some improvements on deep convolutional neural network based image classification. arXiv preprint arXiv:1312.5402 (2013)

  15. Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. In: NIPS. (2015)

  16. Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Berg, A.C., Fei-Fei, L.: Imagenet large scale visual recognition challenge. IJCV (2015)

  17. Chen, L.C., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A.L.: Semantic image segmentation with deep convolutional nets and fully connected crfs. In: ICLR. (2015)

  18. Holschneider, M., Kronland-Martinet, R., Morlet, J., Tchamitchian, P.: Areal-time algorithm for signal analysis with the help of the wavelet transform. In: Wavelets. Springer (1990) 286–297

  19. Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadarrama, S., Darrell, T.: Caffe: Convolutional architecture for fast feature embedding. In: MM. (2014)

  20. Glorot, X., Bengio, Y.: Understanding the difficulty of training deep feedforward neural networks. In: AISTATS. (2010)

  21. Hoiem, D., Chodpathumwan, Y., Dai, Q.: Diagnosing error in object detectors. In: ECCV 2012. (2012)

  22. Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation. In: CVPR. (2014)

  23. Zhang, L., Lin, L., Liang, X., He, K.: Is faster r-cnn doing well for pedestrian detection. In: ECCV. (2016)

  24. Bell, S., Zitnick, C.L., Bala, K., Girshick, R.: Inside-outside net:Detecting objects in context with skip pooling and recurrent neural networks. In: CVPR. (2016)

  25. COCO: Common Objects in Context. http://mscoco.org/dataset/#detections-leaderboard (2016) [Online; accessed 25-July-2016].

  26. Felzenszwalb, P., McAllester, D., Ramanan, D.: A discriminatively trained, multiscale, deformable part model. In: CVPR. (2008)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市嫡霞,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌希柿,老刑警劉巖诊沪,帶你破解...
    沈念sama閱讀 216,544評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異曾撤,居然都是意外死亡端姚,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,430評論 3 392
  • 文/潘曉璐 我一進(jìn)店門挤悉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來渐裸,“玉大人,你說我怎么就攤上這事』杈椋” “怎么了尚氛?”我有些...
    開封第一講書人閱讀 162,764評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長洞渤。 經(jīng)常有香客問我阅嘶,道長,這世上最難降的妖魔是什么载迄? 我笑而不...
    開封第一講書人閱讀 58,193評論 1 292
  • 正文 為了忘掉前任讯柔,我火速辦了婚禮,結(jié)果婚禮上护昧,老公的妹妹穿的比我還像新娘魂迄。我一直安慰自己,他們只是感情好惋耙,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,216評論 6 388
  • 文/花漫 我一把揭開白布捣炬。 她就那樣靜靜地躺著,像睡著了一般怠晴。 火紅的嫁衣襯著肌膚如雪遥金。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,182評論 1 299
  • 那天蒜田,我揣著相機(jī)與錄音稿械,去河邊找鬼。 笑死冲粤,一個(gè)胖子當(dāng)著我的面吹牛美莫,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播梯捕,決...
    沈念sama閱讀 40,063評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼厢呵,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了傀顾?” 一聲冷哼從身側(cè)響起襟铭,我...
    開封第一講書人閱讀 38,917評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎短曾,沒想到半個(gè)月后寒砖,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,329評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡嫉拐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,543評論 2 332
  • 正文 我和宋清朗相戀三年哩都,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片婉徘。...
    茶點(diǎn)故事閱讀 39,722評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡漠嵌,死狀恐怖咐汞,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情儒鹿,我是刑警寧澤化撕,帶...
    沈念sama閱讀 35,425評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站挺身,受9級特大地震影響侯谁,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜章钾,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,019評論 3 326
  • 文/蒙蒙 一墙贱、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧贱傀,春花似錦惨撇、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,671評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至株搔,卻和暖如春剖淀,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背纤房。 一陣腳步聲響...
    開封第一講書人閱讀 32,825評論 1 269
  • 我被黑心中介騙來泰國打工纵隔, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人炮姨。 一個(gè)月前我還...
    沈念sama閱讀 47,729評論 2 368
  • 正文 我出身青樓捌刮,卻偏偏與公主長得像获黔,于是被迫代替她去往敵國和親箱玷。 傳聞我的和親對象是個(gè)殘疾皇子玄呛,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,614評論 2 353

推薦閱讀更多精彩內(nèi)容