Deformable Convolutional Networks論文翻譯——中文版

文章作者:Tyan
博客:noahsnail.com ?|? CSDN ?|? 簡書

聲明:作者翻譯論文僅為學(xué)習(xí)宰衙,如有侵權(quán)請聯(lián)系作者刪除博文,謝謝顺又!

翻譯論文匯總:https://github.com/SnailTyan/deep-learning-papers-translation

Deformable Convolutional Networks

摘要

卷積神經(jīng)網(wǎng)絡(luò)(CNN)由于其構(gòu)建模塊固定的幾何結(jié)構(gòu)天然地局限于建模幾何變換。在這項工作中少梁,我們引入了兩個新的模塊來提高CNN的轉(zhuǎn)換建模能力洛口,即可變形卷積和可變形RoI池化。兩者都基于這樣的想法:增加模塊中的空間采樣位置以及額外的偏移量凯沪,并且從目標(biāo)任務(wù)中學(xué)習(xí)偏移量第焰,而不需要額外的監(jiān)督。新模塊可以很容易地替換現(xiàn)有CNN中的普通模塊妨马,并且可以通過標(biāo)準(zhǔn)的反向傳播便易地進(jìn)行端對端訓(xùn)練挺举,從而產(chǎn)生可變形卷積網(wǎng)絡(luò)。大量的實驗驗證了我們方法的性能烘跺。我們首次證明了在深度CNN中學(xué)習(xí)密集空間變換對于復(fù)雜的視覺任務(wù)(如目標(biāo)檢測和語義分割)是有效的湘纵。代碼發(fā)布在https://github.com/msracver/Deformable-ConvNets

1. 引言

視覺識別中的一個關(guān)鍵挑戰(zhàn)是如何在目標(biāo)尺度滤淳,姿態(tài)梧喷,視點和部件變形中適應(yīng)幾何變化或建模幾何變換。一般來說脖咐,有兩種方法铺敌。首先是建立具有足夠期望變化的訓(xùn)練數(shù)據(jù)集。這通常通過增加現(xiàn)有的數(shù)據(jù)樣本來實現(xiàn)屁擅,例如通過仿射變換偿凭。魯棒的表示可以從數(shù)據(jù)中學(xué)習(xí),但是通常以昂貴的訓(xùn)練和復(fù)雜的模型參數(shù)為代價派歌。其次是使用變換不變的特征和算法弯囊。這一類包含了許多眾所周知的技術(shù),如SIFT(尺度不變特征變換)[42]和基于滑動窗口的目標(biāo)檢測范例硝皂。

上述方法有兩個缺點常挚。首先,幾何變換被假定是固定并且已知的稽物。這樣的先驗知識被用來擴(kuò)充數(shù)據(jù)奄毡,并設(shè)計特征和算法。這個假設(shè)阻止了對具有未知幾何變換的新任務(wù)的泛化能力贝或,這些新任務(wù)沒有被正確地建模吼过。其次,手工設(shè)計的不變特征和算法對于過于復(fù)雜的變換可能是困難的或不可行的咪奖,即使在已知復(fù)雜變化的情況下盗忱。

最近,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)[35]在圖像分類[31]羊赵,語義分割[41]和目標(biāo)檢測[16]等視覺識別任務(wù)中取得了顯著的成功趟佃。不過扇谣,他們?nèi)匀挥猩鲜鰞蓚€缺點。它們對幾何變換建模的能力主要來自大量的數(shù)據(jù)增強(qiáng)闲昭,大的模型容量以及一些簡單的手工設(shè)計模塊(例如罐寨,對小的平移具有不變性的最大池化[1])。

簡而言之序矩,CNN本質(zhì)上局限于建模大型鸯绿,未知的轉(zhuǎn)換。該限制源于CNN模塊的固定幾何結(jié)構(gòu):卷積單元在固定位置對輸入特征圖進(jìn)行采樣簸淀;池化層以一個固定的比例降低空間分辨率瓶蝴;一個RoI(感興趣區(qū)域)池化層把RoI分成固定的空間組塊等等。缺乏處理幾何變換的內(nèi)部機(jī)制租幕。這會導(dǎo)致明顯的問題舷手。舉一個例子,同一CNN層中所有激活單元的感受野大小是相同的令蛉。對于在空間位置上編碼語義的高級CNN層來說聚霜,這是不可取的狡恬。由于不同的位置可能對應(yīng)不同尺度或形變的目標(biāo)珠叔,所以對于具有精細(xì)定位的視覺識別來說,例如使用全卷積網(wǎng)絡(luò)的語義分割[41]弟劲,尺度或感受野大小的自適應(yīng)確定是理想的情況祷安。又如,盡管最近目標(biāo)檢測已經(jīng)取得了顯著而迅速的進(jìn)展[16,52,15,47,46,40,7]兔乞,但所有方法仍然依賴于基于特征提取的粗糙邊界框汇鞭。這顯然是次優(yōu)的,特別是對于非剛性目標(biāo)庸追。

在這項工作中霍骄,我們引入了兩個新的模塊,大大提高了CNN建模幾何變換的能力淡溯。首先是可變形卷積读整。它將2D偏移添加到標(biāo)準(zhǔn)卷積中的常規(guī)網(wǎng)格采樣位置上。它可以使采樣網(wǎng)格自由形變咱娶。如圖1所示米间。偏移量通過附加的卷積層從前面的特征圖中學(xué)習(xí)。因此膘侮,變形以局部的屈糊,密集的和自適應(yīng)的方式受到輸入特征的限制。

Figure 1

圖1:3×3標(biāo)準(zhǔn)卷積和可變形卷積中采樣位置的示意圖琼了。(a)標(biāo)準(zhǔn)卷積的定期采樣網(wǎng)格(綠點)逻锐。(b)變形的采樣位置(深藍(lán)色點)和可變形卷積中增大的偏移量(淺藍(lán)色箭頭)。(c)(d)是(b)的特例,表明可變形卷積泛化到了各種尺度(各向異性)昧诱、長寬比和旋轉(zhuǎn)的變換慷丽。

第二個是可變形的RoI池化。它為前面的RoI池化的常規(guī)bin分區(qū)中的每個bin位置添加一個偏移量[15,7]鳄哭。類似地要糊,從前面的特征映射和RoI中學(xué)習(xí)偏移量,使得具有不同形狀的目標(biāo)能夠自適應(yīng)的進(jìn)行部件定位妆丘。

兩個模塊都輕量的锄俄。它們?yōu)槠茖W(xué)習(xí)增加了少量的參數(shù)和計算。他們可以很容易地取代深層CNN中簡單的對應(yīng)部分勺拣,并且可以很容易地通過標(biāo)準(zhǔn)的反向傳播進(jìn)行端對端的訓(xùn)練奶赠。所得到的CNN被稱為可變形卷積網(wǎng)絡(luò),或可變形ConvNets药有。

我們的方法與空間變換網(wǎng)絡(luò)[26]和可變形部件模型[11]具有類似的高層精神毅戈。它們都有內(nèi)部的轉(zhuǎn)換參數(shù),純粹從數(shù)據(jù)中學(xué)習(xí)這些參數(shù)愤惰∥可變形ConvNets的一個關(guān)鍵區(qū)別在于它們以簡單,高效宦言,深入和端到端的方式處理密集的空間變換扇单。在3.1節(jié)中,我們詳細(xì)討論了我們的工作與以前的工作的關(guān)系奠旺,并分析了可變形ConvNets的優(yōu)越性蜘澜。

2. 可變形卷積網(wǎng)絡(luò)

CNN中的特征映射和卷積是3D的∠炀危可變形卷積和RoI池化模塊都在2D空間域上運行鄙信。在整個通道維度上的操作保持不變。在不喪失普遍性的情況下忿晕,為了符號清晰装诡,這些模塊在2D中描述。擴(kuò)展到3D很簡單杏糙。

2.1. 可變形卷積

2D卷積包含兩步:1)用規(guī)則的網(wǎng)格$\mathcal{R}$在輸入特征映射$\mathbf{x}$上采樣慎王;2)對$\mathbf{w}$加權(quán)的采樣值求和。網(wǎng)格$\mathcal{R}$定義了感受野的大小和擴(kuò)張宏侍。例如赖淤,$$\mathcal{R}=\lbrace (-1, -1), (-1, 0), \ldots, (0,1), (1, 1)\rbrace$$定義了一個擴(kuò)張大小為$1$的$3 \times 3$卷積核。

對于輸出特征映射$\mathbf{y}$上的每個位置$\mathbf{p}_0$谅河,我們有$$\mathbf{y}(\mathbf{p}_0)=\sum_{\mathbf{p}_n\in\mathcal{R}}\mathbf{w}(\mathbf{p}_n)\cdot \mathbf{x}(\mathbf{p}_0+\mathbf{p}_n) \tag{1}$$其中$\mathbf{p}_n$枚舉了$\mathcal{R}$中的位置咱旱。

在可變形卷積中确丢,規(guī)則的網(wǎng)格$\mathcal{R}$通過偏移$\lbrace \Delta \mathbf{p}_n|n=1,...,N\rbrace$增大,其中$N=|\mathcal{R}|$吐限。方程(1)變?yōu)?$\mathbf{y}(\mathbf{p}_0)=\sum_{\mathbf{p}_n\in\mathcal{R}}\mathbf{w}(\mathbf{p}_n)\cdot \mathbf{x}(\mathbf{p}_0+\mathbf{p}_n+\Delta \mathbf{p}_n).\tag{2}$$

現(xiàn)在鲜侥,采樣是在不規(guī)則且有偏移的位置$\mathbf{p}_n + \Delta \mathbf{p}_n$上。由于偏移$\Delta \mathbf{p}_n$通常是小數(shù)诸典,方程(2)可以通過雙線性插值實現(xiàn)$$\mathbf{x}(\mathbf{p})=\sum_\mathbf{q} G(\mathbf{q},\mathbf{p})\cdot \mathbf{x}(\mathbf{q}), \tag{3} $$其中$\mathbf{p}$表示任意(小數(shù))位置(公式(2)中$\mathbf{p}=\mathbf{p}_0+\mathbf{p}_n+\Delta \mathbf{p}_n$)描函,$\mathbf{q}$枚舉了特征映射$\mathbf{x}$中所有整體空間位置,$G(\cdot,\cdot)$是雙線性插值的核狐粱。注意$G$是二維的舀寓。它被分為兩個一維核$$ G(\mathbf{q},\mathbf{p})=g(q_x,p_x)\cdot g(q_y,p_y), \tag{4}$$其中$g(a,b)=max(0,1-|a-b|)$。方程(3)可以快速計算因為$G(\mathbf{q},\mathbf{p})$僅對于一些$\mathbf{q}$是非零的肌蜻。

如圖2所示互墓,通過在相同的輸入特征映射上應(yīng)用卷積層來獲得偏移。卷積核具有與當(dāng)前卷積層相同的空間分辨率和擴(kuò)張(例如蒋搜,在圖2中也具有擴(kuò)張為1的$3\times 3$)篡撵。輸出偏移域與輸入特征映射具有相同的空間分辨率。通道維度$2N$對應(yīng)于$N$個2D偏移量豆挽。在訓(xùn)練過程中育谬,同時學(xué)習(xí)用于生成輸出特征的卷積核和偏移量。為了學(xué)習(xí)偏移量祷杈,梯度通過方程(3)和(4)中的雙線性運算進(jìn)行反向傳播斑司。詳見附錄A。

Figure 2

圖2:3×3可變形卷積的說明但汞。

2.2. 可變形RoI池化

在所有基于區(qū)域提出的目標(biāo)檢測方法中都使用了RoI池化[16,15,47,7]。它將任意大小的輸入矩形區(qū)域轉(zhuǎn)換為固定大小的特征互站。

RoI池化[15]私蕾。給定輸入特征映射$\mathbf{x}$、RoI的大小$w\times h$和左上角$\mathbf{p}_0$胡桃,RoI池化將ROI分到$k\times k$($k$是一個自由參數(shù))個組塊(bin)中踩叭,并輸出$k\times k$的特征映射$\mathbf{y}$。對于第$(i,j)$個組塊($0\le i,j < k$)翠胰,我們有$$\mathbf{y}(i,j)=\sum_{\mathbf{p}\in bin(i,j)} \mathbf{x}(\mathbf{p}_0+\mathbf{p})/n_{ij},\tag{5}$$其中$n_{ij}$是組塊中的像素數(shù)量容贝。第$(i,j)$個組塊的跨度為$\lfloor i \frac{w}{k} \rfloor \le p_x < \lceil (i+1)\frac{w}{k}\rceil$和$\lfloor j \frac{h}{k}\rfloor \le p_y < \lceil (j+1)\frac{h}{k} \rceil$。

類似于方程(2)之景,在可變形RoI池化中斤富,將偏移${\Delta \mathbf{p}_{ij}|0\le i,j < k}$加到空間組塊的位置上。方程(5)變?yōu)?$\mathbf{y}(i,j)=\sum_{\mathbf{p}\in bin(i,j)} \mathbf{x}(\mathbf{p}_0+\mathbf{p}+\Delta \mathbf{p}_{ij})/n_{ij}. \tag{6}$$通常锻狗,$\Delta \mathbf{p}_{ij}$是小數(shù)满力。方程(6)通過雙線性插值方程(3)和(4)來實現(xiàn)焕参。

圖3說明了如何獲得偏移量。首先油额,RoI池化(方程(5))生成池化后的特征映射叠纷。從特征映射中,一個fc層產(chǎn)生歸一化偏移量$\Delta \widehat{\mathbf{p}}_{ij}$潦嘶,然后通過與RoI的寬和高進(jìn)行逐元素的相乘將其轉(zhuǎn)換為方程(6)中的偏移量$\Delta \mathbf{p}_{ij}$涩嚣,如:$\Delta \mathbf{p}_{ij} = \gamma \cdot \Delta \widehat{\mathbf{p}}_{ij} \circ (w, h)$。這里$\gamma$是一個預(yù)定義的標(biāo)量來調(diào)節(jié)偏移的大小掂僵。它經(jīng)驗地設(shè)定為$\gamma=0.1$缓艳。為了使偏移學(xué)習(xí)對RoI大小具有不變性,偏移歸一化是必要的看峻。fc層是通過反向傳播學(xué)習(xí)阶淘,詳見附錄A。

Figure 3

圖3:闡述3×3的可變形RoI池化互妓。

位置敏感(PS)的RoI池化[7]溪窒。它是全卷積的,不同于RoI池化冯勉。通過一個卷積層澈蚌,所有的輸入特征映射首先被轉(zhuǎn)換為每個目標(biāo)類的$k^2$個分?jǐn)?shù)映射(對于$C$個目標(biāo)類,總共$C+1$個)灼狰,如圖4的底部分支所示宛瞄。不需要區(qū)分類,這樣的分?jǐn)?shù)映射被表示為$\lbrace \mathbf{x}_{i,j}\rbrace$交胚,其中$(i,j)$枚舉所有的組塊份汗。池化是在這些分?jǐn)?shù)映射上進(jìn)行的。第$(i,j)$個組塊的輸出值是通過對分?jǐn)?shù)映射$\mathbf{x}_{i,j}$對應(yīng)的組塊求和得到的蝴簇。簡而言之杯活,與方程(5)中RoI池化的區(qū)別在于,通用特征映射$\mathbf{x}$被特定的位置敏感的分?jǐn)?shù)映射$\mathbf{x}_{i,j}$所取代熬词。

Figure 4

圖4:闡述3×3的可變形PS RoI池化旁钧。

在可變形PS RoI池化中,方程(6)中唯一的變化是$\mathbf{x}$也被修改為$\mathbf{x}_{i,j}$互拾。但是歪今,偏移學(xué)習(xí)是不同的。它遵循[7]中的“全卷積”精神颜矿,如圖4所示寄猩。在頂部分支中,一個卷積層生成完整空間分辨率的偏移量字段或衡。對于每個RoI(也對于每個類)焦影,在這些字段上應(yīng)用PS RoI池化以獲得歸一化偏移量$\Delta \widehat{\mathbf{p}}_{ij}$车遂,然后以上面可變形RoI池化中描述的相同方式將其轉(zhuǎn)換為實數(shù)偏移量$\Delta \mathbf{p}_{ij}$。

2.3. 可變形卷積網(wǎng)絡(luò)

可變形卷積和RoI池化模塊都具有與普通版本相同的輸入和輸出斯辰。因此舶担,它們可以很容易地取代現(xiàn)有CNN中的普通版本。在訓(xùn)練中彬呻,這些添加的用于偏移學(xué)習(xí)的conv和fc層的權(quán)重被初始化為零衣陶。它們的學(xué)習(xí)率設(shè)置為現(xiàn)有層學(xué)習(xí)速率的$\beta$倍(默認(rèn)$\beta=1$,F(xiàn)aster R-CNN中的fc層為$\beta=0.01$)闸氮。它們通過方程(3)和方程(4)中雙線性插值運算的反向傳播進(jìn)行訓(xùn)練剪况。由此產(chǎn)生的CNN稱為可變形ConvNets

為了將可變形的ConvNets與最先進(jìn)的CNN架構(gòu)集成蒲跨,我們注意到這些架構(gòu)由兩個階段組成译断。首先,深度全卷積網(wǎng)絡(luò)在整個輸入圖像上生成特征映射或悲。其次孙咪,淺層任務(wù)專用網(wǎng)絡(luò)從特征映射上生成結(jié)果。我們詳細(xì)說明下面兩個步驟巡语。

特征提取的可變形卷積翎蹈。我們采用兩種最先進(jìn)的架構(gòu)進(jìn)行特征提取:ResNet-101[22]和Inception-ResNet[51]的修改版本男公。兩者都在ImageNet[8]分類數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練荤堪。

最初的Inception-ResNet是為圖像識別而設(shè)計的。它有一個特征不對齊的問題枢赔,對于密集的預(yù)測任務(wù)是有問題的澄阳。它被修改來解決對齊問題[20]。修改后的版本被稱為“Aligned-Inception-ResNet”糠爬,詳見附錄B.

兩種模型都由幾個卷積塊組成寇荧,平均池化和用于ImageNet分類的1000類全連接層。平均池化和全連接層被移除执隧。最后加入隨機(jī)初始化的1×1卷積,以將通道維數(shù)減少到1024户侥。與通常的做法[4,7]一樣镀琉,最后一個卷積塊的有效步長從32個像素減少到16個像素,以增加特征映射的分辨率蕊唐。具體來說屋摔,在最后一個塊的開始,步長從2變?yōu)?(ResNet-101和Aligned-Inception-ResNet的“conv5”)替梨。為了進(jìn)行補償钓试,將該塊(核大小>1)中的所有卷積濾波器的擴(kuò)張從1改變?yōu)?装黑。

可選地,可變形卷積應(yīng)用于最后的幾個卷積層(核大小>1)弓熏。我們嘗試了不同數(shù)量的這樣的層恋谭,發(fā)現(xiàn)3是不同任務(wù)的一個很好的權(quán)衡,如表1所示挽鞠。

Table 1

表1:在ResNet-101特征提取網(wǎng)絡(luò)中的最后1個疚颊,2個,3個和6個卷積層上(3×3濾波器)應(yīng)用可變形卷積的結(jié)果信认。對于class-aware RPN,F(xiàn)aster R-CNN和R-FCN,我們報告了在VOC 2007測試集上的結(jié)果吉嫩。

分割和檢測網(wǎng)絡(luò)脖隶。根據(jù)上述特征提取網(wǎng)絡(luò)的輸出特征映射構(gòu)建特定任務(wù)的網(wǎng)絡(luò)。

在下面潦蝇,$C$表示目標(biāo)類別的數(shù)量款熬。

DeepLab[5]是最先進(jìn)的語義分割方法。它在特征映射上添加1×1卷積層以生成表示每個像素分類分?jǐn)?shù)的(C+1)個映射护蝶。然后隨后的softmax層輸出每個像素的概率华烟。

除了用(C+1)類卷積分類器代替2類(目標(biāo)或非目標(biāo))卷積分類器外,Category-Aware RPN與[47]中的區(qū)域提出網(wǎng)絡(luò)幾乎是相同的持灰。它可以被認(rèn)為是SSD的簡化版本[40]盔夜。

Faster R-CNN[47]是最先進(jìn)的檢測器。在我們的實現(xiàn)中堤魁,RPN分支被添加在conv4塊的頂部喂链,遵循[47]。在以前的實踐中[22,24]妥泉,在ResNet-101的conv4和conv5塊之間插入了RoI池化層椭微,每個RoI留下了10層。這個設(shè)計實現(xiàn)了很好的精確度盲链,但是具有很高的per-RoI計算蝇率。相反,我們采用[38]中的簡化設(shè)計刽沾。RoI池化層在最后添加本慕。在池化的RoI特征之上,添加了兩個1024維的全連接層侧漓,接著是邊界框回歸和分類分支锅尘。雖然這樣的簡化(從10層conv5塊到2個全連接層)會稍微降低精確度,但它仍然具有足夠強(qiáng)的基準(zhǔn)布蔗,在這項工作中不再關(guān)心藤违。

可選地浪腐,可以將RoI池化層更改為可變形的RoI池化。

R-FCN[7]是另一種最先進(jìn)的檢測器顿乒。它的每個RoI計算成本可以忽略不計议街。我們遵循原來的實現(xiàn)∠危可選地傍睹,其RoI池化層可以改變?yōu)?em>可變形的位置敏感的RoI池化。

3. 理解可變形卷積網(wǎng)絡(luò)

這項工作以用額外的偏移量在卷積和RoI池中增加空間采樣位置犹菱,并從目標(biāo)任務(wù)中學(xué)習(xí)偏移量的想法為基礎(chǔ)拾稳。

當(dāng)可變形卷積疊加時,復(fù)合變形的影響是深遠(yuǎn)的腊脱。這在圖5中舉例說明访得。標(biāo)準(zhǔn)卷積中的感受野和采樣位置在頂部特征映射上是固定的(左)。它們在可變形卷積中(右)根據(jù)目標(biāo)的尺寸和形狀進(jìn)行自適應(yīng)調(diào)整陕凹。圖6中顯示了更多的例子悍抑。表2提供了這種自適應(yīng)變形的量化證據(jù)。

Figure 5

圖5:標(biāo)準(zhǔn)卷積(a)中的固定感受野和可變形卷積(b)中的自適應(yīng)感受野的圖示杜耙,使用兩層搜骡。頂部:頂部特征映射上的兩個激活單元,在兩個不同尺度和形狀的目標(biāo)上佑女。激活來自3×3濾波器记靡。中間:前一個特征映射上3×3濾波器的采樣位置。另外兩個激活單元突出顯示团驱。底部:前一個特征映射上兩個3×3濾波器級別的采樣位置摸吠。突出顯示兩組位置,對應(yīng)于上面突出顯示的單元嚎花。

Figure 6

圖6:每個圖像三元組在三級3×3可變形濾波器(參見圖5作為參考)中顯示了三個激活單元(綠色點)分別在背景(左)寸痢、小目標(biāo)(中)和大目標(biāo)(右)上的采樣位置(每張圖像中的$9^3 = 729$個紅色點)。

Table 2

表2:可變形卷積濾波器在三個卷積層和四個類別上的有效擴(kuò)張值的統(tǒng)計紊选。與在COCO[39]中類似啼止,我們根據(jù)邊界框區(qū)域?qū)⒛繕?biāo)平均分為三類。斜铡:面積<$962$個像素族壳;中等:$962$<面積<$224^2$; 大:面積>$224^2$趣些。

可變形RoI池化的效果是類似的,如圖7所示贰您。標(biāo)準(zhǔn)RoI池化中網(wǎng)格結(jié)構(gòu)的規(guī)律不再成立坏平。相反拢操,部分偏離RoI組塊并移動到附近的目標(biāo)前景區(qū)域。定位能力得到增強(qiáng)舶替,特別是對于非剛性物體令境。

Figure 7

圖7:R-FCN[7]中可變形(正敏感)RoI池化的偏移部分的示意圖和輸入RoI(黃色)的3x3個組塊(紅色)。請注意部件如何偏移以覆蓋非剛性物體顾瞪。

3.1. 相關(guān)工作的背景

我們的工作與以前的工作在不同的方面有聯(lián)系舔庶。我們詳細(xì)討論聯(lián)系和差異。

空間變換網(wǎng)絡(luò)(STN)[26]陈醒。這是在深度學(xué)習(xí)框架下從數(shù)據(jù)中學(xué)習(xí)空間變換的第一個工作惕橙。它通過全局參數(shù)變換扭曲特征映射,例如仿射變換钉跷。這種扭曲是昂貴的弥鹦,學(xué)習(xí)變換參數(shù)是困難的。STN在小規(guī)模圖像分類問題上取得了成功爷辙。反STN方法[37]通過有效的變換參數(shù)傳播來代替昂貴的特征扭曲彬坏。

可變形卷積中的偏移學(xué)習(xí)可以被認(rèn)為是STN中極輕的空間變換器[26]。然而膝晾,可變形卷積不采用全局參數(shù)變換和特征扭曲栓始。相反,它以局部密集的方式對特征映射進(jìn)行采樣血当。為了生成新的特征映射幻赚,它有加權(quán)求和步驟,STN中不存在歹颓。

可變形卷積很容易集成到任何CNN架構(gòu)中坯屿。它的訓(xùn)練很簡單。對于要求密集(例如語義分割)或半密集(例如目標(biāo)檢測)預(yù)測的復(fù)雜視覺任務(wù)來說巍扛,它是有效的领跛。這些任務(wù)對于STN來說是困難的(如果不是不可行的話)[26,37]。

主動卷積[27]撤奸。這項工作是當(dāng)代的吠昭。它還通過偏移來增加卷積中的采樣位置,并通過端到端的反向傳播學(xué)習(xí)偏移量胧瓜。它對于圖像分類任務(wù)是有效的矢棚。

與可變形卷積的兩個關(guān)鍵區(qū)別使得這個工作不那么一般和適應(yīng)。首先府喳,它在所有不同的空間位置上共享偏移量蒲肋。其次,偏移量是每個任務(wù)或每次訓(xùn)練都要學(xué)習(xí)的靜態(tài)模型參數(shù)。相反兜粘,可變形卷積中的偏移是每個圖像位置變化的動態(tài)模型輸出申窘。他們對圖像中的密集空間變換進(jìn)行建模,對于(半)密集的預(yù)測任務(wù)(如目標(biāo)檢測和語義分割)是有效的孔轴。

有效的感受野[43]剃法。它發(fā)現(xiàn),并不是感受野中的所有像素都貢獻(xiàn)平等的輸出響應(yīng)路鹰。中心附近的像素影響更大贷洲。有效感受野只占據(jù)理論感受野的一小部分,并具有高斯分布晋柱。雖然理論上的感受野大小隨卷積層數(shù)量線性增加优构,但令人驚訝的結(jié)果是,有效感受野大小隨著數(shù)量的平方根線性增加趣斤,因此俩块,感受野大小以比我們期待的更低的速率增加。

這一發(fā)現(xiàn)表明浓领,即使是深層CNN的頂層單元也可能沒有足夠大的感受野玉凯。這部分解釋了為什么空洞卷積[23]被廣泛用于視覺任務(wù)(見下文)。它表明了自適應(yīng)感受野學(xué)習(xí)的必要联贩。

空洞卷積[23]漫仆。它將正常濾波器的步長增加到大于1,并保持稀疏采樣位置的原始權(quán)重泪幌。這增加了感受野的大小盲厌,并保持了相同的參數(shù)和計算復(fù)雜性。它已被廣泛用于語義分割[41,5,54](在[54]中也稱擴(kuò)張卷積)祸泪,目標(biāo)檢測[7]和圖像分類[55]吗浩。

可變形卷積是空洞卷積的推廣,如圖1(c)所示没隘。表3給出了大量的與空洞卷積的比較懂扼。

Table 3

表3:我們的可變形模塊與空洞卷積的評估,使用ResNet-101右蒲。

可變形部件模型(DPM)[11]阀湿。可變形RoI池化與DPM類似瑰妄,因為兩種方法都可以學(xué)習(xí)目標(biāo)部件的空間變形陷嘴,以最大化分類得分。由于不考慮部件之間的空間關(guān)系间坐,所以可變形RoI池化更簡單灾挨。

DPM是一個淺層模型邑退,其建模變形能力有限。雖然其推理算法可以通過將距離變換視為一個特殊的池化操作轉(zhuǎn)換為CNN[17]涨醋,但是它的訓(xùn)練不是端到端的瓜饥,而是涉及啟發(fā)式選擇,例如選擇組件和部件尺寸浴骂。相比之下,可變形ConvNets是深層的并進(jìn)行端到端的訓(xùn)練宪潮。當(dāng)多個可變形模塊堆疊時溯警,建模變形的能力變得更強(qiáng)。

DeepID-Net[44]狡相。它引入了一個變形約束池化層梯轻,它也考慮了目標(biāo)檢測的部分變形。因此尽棕,它與可變形RoI池化共享類似的精神喳挑,但是要復(fù)雜得多。這項工作是高度工程化并基于RCNN的[16]滔悉。目前尚不清楚如何以端對端的方式將其應(yīng)用于最近的最先進(jìn)目標(biāo)檢測方法[47,7]伊诵。

RoI池化中的空間操作』毓伲空間金字塔池化[34]在尺度上使用手工設(shè)計的池化區(qū)域曹宴。它是計算機(jī)視覺中的主要方法,也用于基于深度學(xué)習(xí)的目標(biāo)檢測[21,15]歉提。

很少有學(xué)習(xí)池化區(qū)域空間布局的研究笛坦。[28]中的工作從一個大型的超完備集合中學(xué)習(xí)了池化區(qū)域一個稀疏子集。大數(shù)據(jù)集是手工設(shè)計的并且學(xué)習(xí)不是端到端的苔巨。

可變形RoI池化第一個在CNN中端到端地學(xué)習(xí)池化區(qū)域版扩。雖然目前這些區(qū)域的規(guī)模相同,但像空間金字塔池化[34]那樣擴(kuò)展到多種尺度很簡單侄泽。

變換不變特征及其學(xué)習(xí)礁芦。在設(shè)計變換不變特征方面已經(jīng)進(jìn)行了巨大的努力。值得注意的例子包括尺度不變特征變換(SIFT)[42]和ORB[49](O為方向)蔬顾。在CNN的背景下有大量這樣的工作宴偿。CNN表示對圖像變換的不變性和等價性在[36]中被研究。一些工作學(xué)習(xí)關(guān)于不同類型的變換(如[50]诀豁,散射網(wǎng)絡(luò)[3]窄刘,卷積森林[32]和TI池化[33])的不變CNN表示。有些工作專門用于對稱性[13,9]舷胜,尺度[29]和旋轉(zhuǎn)[53]等特定轉(zhuǎn)換娩践。

如第一部分分析的那樣活翩,在這些工作中,轉(zhuǎn)換是先驗的翻伺。使用知識(比如參數(shù)化)來手工設(shè)計特征提取算法的結(jié)構(gòu)材泄,或者是像SIFT那樣固定的,或者用學(xué)習(xí)的參數(shù)吨岭,如基于CNN的那些拉宗。它們無法處理新任務(wù)中的未知變換。

相反辣辫,我們的可變形模塊概括了各種轉(zhuǎn)換(見圖1)旦事。從目標(biāo)任務(wù)中學(xué)習(xí)變換的不變性。

動態(tài)濾波器[2]急灭。與可變形卷積類似姐浮,動態(tài)濾波器也是依據(jù)輸入特征并在采樣上變化。不同的是葬馋,只學(xué)習(xí)濾波器權(quán)重卖鲤,而不是像我們這樣采樣位置。這項工作適用于視頻和立體聲預(yù)測畴嘶。

低級濾波器的組合蛋逾。高斯濾波器及其平滑導(dǎo)數(shù)[30]被廣泛用于提取低級圖像結(jié)構(gòu),如角點掠廓,邊緣换怖,T形接點等。在某些條件下蟀瞧,這些濾波器形成一組基沉颂,并且它們的線性組合在同一組幾何變換中形成新的濾波器,例如Steerable Filters[12]中的多個方向和[45]中多尺度悦污。我們注意到盡管[45]中使用了可變形內(nèi)核這個術(shù)語铸屉,但它的含義與我們在本文中的含義不同。

大多數(shù)CNN從零開始學(xué)習(xí)所有的卷積濾波器切端。最近的工作[25]表明彻坛,這可能是沒必要的。它通過低階濾波器(高斯導(dǎo)數(shù)達(dá)4階)的加權(quán)組合來代替自由形式的濾波器踏枣,并學(xué)習(xí)權(quán)重系數(shù)昌屉。通過對濾波函數(shù)空間的正則化,可以提高訓(xùn)練小數(shù)據(jù)量時的泛化能力茵瀑。

上面的工作與我們有關(guān)间驮,當(dāng)多個濾波器,尤其是不同尺度的濾波器組合時马昨,所得到的濾波器可能具有復(fù)雜的權(quán)重竞帽,并且與我們的可變形卷積濾波器相似扛施。但是,可變形卷積學(xué)習(xí)采樣位置而不是濾波器權(quán)重屹篓。

4. 實驗

4.1. 實驗設(shè)置和實現(xiàn)

語義分割疙渣。我們使用PASCAL VOC[10]和CityScapes[6]。對于PASCAL VOC堆巧,有20個語義類別妄荔。遵循[19,41,4]中的協(xié)議,我們使用VOC 2012數(shù)據(jù)集和[18]中的附加掩模注釋恳邀。訓(xùn)練集包含10,582張圖像懦冰。評估在驗證集中的1,449張圖像上進(jìn)行。對于CityScapes谣沸,按照[5]中的協(xié)議,對火車數(shù)據(jù)集中的2,975張圖像和驗證集中的500張圖像分別進(jìn)行訓(xùn)練和評估笋颤。有19個語義類別加上一個背景類別乳附。

為了評估,我們使用在圖像像素上定義的平均交集(mIoU)度量伴澄,遵循標(biāo)準(zhǔn)協(xié)議[10赋除,6]。我們在PASCAl VOC和Cityscapes上分別使用mIoU@V和mIoU@C非凌。

在訓(xùn)練和推斷中举农,PASCAL VOC中圖像的大小調(diào)整為較短邊有$360$個像素,Cityscapes較短邊有$1,024$個像素敞嗡。在SGD訓(xùn)練中颁糟,每個小批次數(shù)據(jù)中每張圖像進(jìn)行隨機(jī)采樣。分別對PASCAL VOC和Cityscapes進(jìn)行30k和45k迭代喉悴,有8個GPU每個GPU上處理一個小批次數(shù)據(jù)棱貌。前$\frac {2} {3}$次迭代的學(xué)習(xí)率為$10{-3}$,最后$\frac{1}{3}$次迭代學(xué)習(xí)率為$10{-4}$箕肃。

目標(biāo)檢測婚脱。我們使用PASCAL VOC和COCO[39]數(shù)據(jù)集。對于PASCAL VOC勺像,按照[15]中的協(xié)議障贸,對VOC 2007 trainval和VOC 2012 trainval的并集進(jìn)行培訓(xùn)。評估是在VOC 2007測試集上吟宦。對于COCO篮洁,遵循標(biāo)準(zhǔn)協(xié)議[39],分別對trainval中的120k張圖像和test-dev中的20k張圖像進(jìn)行訓(xùn)練和評估督函。

為了評估嘀粱,我們使用標(biāo)準(zhǔn)的平均精度均值(MAP)得分[10,39]激挪。對于PASCAL VOC,我們使用0.5和0.7的IoU閾值報告mAP分?jǐn)?shù)锋叨。對于COCO垄分,我們使用mAP@[0.5:0.95]的標(biāo)準(zhǔn)COCO度量,以及mAP@0.5娃磺。

在訓(xùn)練和推斷中薄湿,圖像被調(diào)整為較短邊具有600像素。在SGD訓(xùn)練中偷卧,每個小批次中隨機(jī)抽取一張圖片豺瘤。對于class-aware RPN,從圖像中采樣256個RoI听诸。對于Faster R-CNNR-FCN坐求,對區(qū)域提出和目標(biāo)檢測網(wǎng)絡(luò)分別采樣256個和128個RoI。在ROI池化中采用$7\times 7$的組塊晌梨。為了促進(jìn)VOC的消融實驗桥嗤,我們遵循[38],并且利用預(yù)訓(xùn)練的和固定的RPN提出來訓(xùn)練Faster R-CNN和R-FCN仔蝌,而區(qū)域提出和目標(biāo)檢測網(wǎng)絡(luò)之間沒有特征共享泛领。RPN網(wǎng)絡(luò)是在[47]中過程的第一階段單獨訓(xùn)練的。對于COCO敛惊,執(zhí)行[48]中的聯(lián)合訓(xùn)練渊鞋,并且訓(xùn)練可以進(jìn)行特征共享。在8個GPU上分別對PASCAL VOC和COCO執(zhí)行30k次和240k次迭代瞧挤。前$\frac {2} {3}$次迭代和后$\frac{1}{3}$次迭代的學(xué)習(xí)率分別設(shè)為$10{-3}$锡宋,$10{-4}$。

4.2. 消融研究

我們進(jìn)行了廣泛的消融研究來驗證我們方法的功效性和有效性皿伺。

可變形卷積员辩。表1使用ResNet-101特征提取網(wǎng)絡(luò)評估可變形卷積的影響。當(dāng)使用更多可變形卷積層時鸵鸥,精度穩(wěn)步提高奠滑,特別是DeepLabclass-aware RPN。當(dāng)DeepLab使用3個可變形層時妒穴,改進(jìn)飽和宋税,其它的使用6個。在其余的實驗中讼油,我們在特征提取網(wǎng)絡(luò)中使用3個杰赛。

我們經(jīng)驗地觀察到,可變形卷積層中學(xué)習(xí)到的偏移量對圖像內(nèi)容具有高度的自適應(yīng)性矮台,如圖5和圖6所示乏屯。為了更好地理解可變形卷積的機(jī)制根时,我們?yōu)榭勺冃尉矸e濾波器定義了一個稱為有效擴(kuò)張的度量。它是濾波器中所有采樣位置的相鄰對之間距離的平均值辰晕。這是對濾波器的感受野大小的粗略測量蛤迎。

我們在VOC 2007測試圖像上應(yīng)用R-FCN網(wǎng)絡(luò),具有3個可變形層(如表1所示)含友。根據(jù)真實邊界框標(biāo)注和濾波器中心的位置替裆,我們將可變形卷積濾波器分為四類:小,中窘问,大和背景辆童。表2報告了有效擴(kuò)張值的統(tǒng)計(平均值和標(biāo)準(zhǔn)差)。它清楚地表明:1)可變形濾波器的感受野大小與目標(biāo)大小相關(guān)惠赫,表明變形是從圖像內(nèi)容中有效學(xué)習(xí)到的把鉴; 2)背景區(qū)域上的濾波器大小介于中,大目標(biāo)的濾波器之間儿咱,表明一個相對較大的感受野是識別背景區(qū)域所必需的纸镊。這些觀察結(jié)果在不同層上是一致的。

默認(rèn)的ResNet-101模型在最后的3個3×3卷積層使用擴(kuò)張為的2空洞卷積(見2.3節(jié))概疆。我們進(jìn)一步嘗試了擴(kuò)張值4,6和8峰搪,并在表3中報告了結(jié)果岔冀。它表明:1)當(dāng)使用較大的擴(kuò)張值時,所有任務(wù)的準(zhǔn)確度都會增加概耻,表明默認(rèn)網(wǎng)絡(luò)的感受野太惺固住;* 2)對于不同的任務(wù)鞠柄,最佳擴(kuò)張值是不同的侦高,例如,6用于DeepLab厌杜,4用于Faster R-CNN奉呛; 3)可變形卷積具有最好的精度。這些觀察結(jié)果證明了濾波器變形的自適應(yīng)學(xué)習(xí)是有效和必要的夯尽。

可變形RoI池化瞧壮。它適用于Faster R-CNN和R-FCN。如表3所示匙握,單獨使用它已經(jīng)產(chǎn)生了顯著的性能收益咆槽,特別是在嚴(yán)格的mAP@0.7度量標(biāo)準(zhǔn)下。當(dāng)同時使用可變形卷積和RoI池化時圈纺,會獲得顯著準(zhǔn)確性改進(jìn)秦忿。

模型復(fù)雜性和運行時間麦射。表4報告了所提出的可變形ConvNets及其普通版本的模型復(fù)雜度和運行時間〉埔ィ可變形ConvNets僅增加了很小的模型參數(shù)和計算量潜秋。這表明顯著的性能改進(jìn)來自于建模幾何變換的能力,而不是增加模型參數(shù)酬屉。

Table 4

表4:使用ResNet-101的可變形ConvNets和對應(yīng)普通版本的模型復(fù)雜性和運行時比較半等。最后一列中的整體運行時間包括圖像大小調(diào)整,網(wǎng)絡(luò)前饋傳播和后處理(例如呐萨,用于目標(biāo)檢測的NMS)杀饵。運行時間計算是在一臺配備了Intel E5-2650 v2 CPU和Nvidia K40 GPU的工作站上。

4.3. COCO的目標(biāo)檢測

在表5中谬擦,我們在COCO test-dev數(shù)據(jù)集上對用于目標(biāo)檢測的可變形ConvNets和普通ConvNets進(jìn)行了廣泛的比較切距。我們首先使用ResNet-101模型進(jìn)行實驗。class-aware RPN惨远,F(xiàn)aster CNN和R-FCN的可變形版本分別獲得了$25.8%$谜悟,$33.1%$和$34.5%$的mAP@[0.5:0.95]分?jǐn)?shù),分別比它們對應(yīng)的普通ConvNets相對高了$11%$北秽,$13%$和$12%$葡幸。通過在Faster R-CNN和R-FCN中用Aligned-Inception-ResNet取代ResNet-101,由于更強(qiáng)大的特征表示贺氓,它們的普通ConvNet基線都得到了提高蔚叨。而可變形ConvNets帶來的有效性能收益也是成立的。通過在多個圖像尺度上(圖像較短邊在[480,576,688,864,1200,1400]內(nèi))的進(jìn)一步測試辙培,并執(zhí)行迭代邊界框平均[14]蔑水,對于R-FCN的可變形版本,mAP@[0.5:0.95]分?jǐn)?shù)增加到了37.5%扬蕊。請注意搀别,可變形ConvNets的性能增益是對這些附加功能的補充。

Table 5

表5:可變形ConvNets和普通ConvNets在COCO test-dev數(shù)據(jù)集上的目標(biāo)檢測結(jié)果尾抑。在表中M表示多尺度測試歇父,B表示迭代邊界框平均值。

5. 結(jié)論

本文提出了可變形ConvNets蛮穿,它是一個簡單庶骄,高效,深度践磅,端到端的建模密集空間變換的解決方案单刁。我們首次證明了在CNN中學(xué)習(xí)高級視覺任務(wù)(如目標(biāo)檢測和語義分割)中的密集空間變換是可行和有效的。

致謝

Aligned-Inception-ResNet模型由Kaiming He,Xiangyu Zhang羔飞,Shaoqing Ren和Jian Sun在未發(fā)表的工作中進(jìn)行了研究和訓(xùn)練肺樟。

References

[1] Y.-L. Boureau, J. Ponce, and Y. LeCun. A theoretical analysis of feature pooling in visual recognition. In ICML, 2010. 1

[2] B. D. Brabandere, X. Jia, T. Tuytelaars, and L. V. Gool. Dynamic filter networks. In NIPS, 2016. 6

[3] J. Bruna and S. Mallat. Invariant scattering convolution networks. TPAMI, 2013. 6

[4] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. Semantic image segmentation with deep convolutional nets and fully connected crfs. In ICLR, 2015. 4, 7

[5] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. arXiv preprint arXiv:1606.00915, 2016. 4, 6, 7

[6] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele. The cityscapes dataset for semantic urban scene understanding. In CVPR, 2016. 7

[7] J. Dai, Y. Li, K. He, and J. Sun. R-fcn: Object detection via region-based fully convolutional networks. In NIPS, 2016. 1, 2, 3, 4, 5, 6

[8] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. Imagenet: A large-scale hierarchical image database. In CVPR, 2009. 4, 10

[9] S. Dieleman, J. D. Fauw, and K. Kavukcuoglu. Exploiting cyclic symmetry in convolutional neural networks. arXiv preprint arXiv:1602.02660, 2016. 6

[10] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman. The PASCAL Visual Object Classes (VOC) Challenge. IJCV, 2010. 7

[11] P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained part-based models. TPAMI, 2010. 2, 6

[12] W. T. Freeman and E. H. Adelson. The design and use of steerable filters. TPAMI, 1991. 6

[13] R. Gens and P. M. Domingos. Deep symmetry networks. In NIPS, 2014. 6

[14] S. Gidaris and N. Komodakis. Object detection via a multiregion & semantic segmentation-aware cnn model. In ICCV, 2015. 9

[15] R. Girshick. Fast R-CNN. In ICCV, 2015. 1, 2, 3, 6, 7

[16] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014. 1, 3, 6

[17] R. Girshick, F. Iandola, T. Darrell, and J. Malik. Deformable part models are convolutional neural networks.

[20] K. He, X. Zhang, S. Ren, and J. Sun. Aligned-inceptionresnet model, unpublished work. 4, 10

[21] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV, 2014. 6

[22] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016. 4, 10

[23] M. Holschneider, R. Kronland-Martinet, J. Morlet, and P. Tchamitchian. A real-time algorithm for signal analysis with the help of the wavelet transform. Wavelets: Time-Frequency Methods and Phase Space, page 289297, 1989. 6

[24] J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara, A. Fathi, I. Fischer, Z. Wojna, Y. Song, S. Guadarrama, and K. Murphy. Speed/accuracy trade-offs for modern convolutional object detectors. arXiv preprint arXiv:1611.10012, 2016. 4

[25] J.-H. Jacobsen, J. van Gemert, Z. Lou, and A. W.M.Smeulders. Structured receptive fields in cnns. In CVPR, 2016. 6

[26] M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu. Spatial transformer networks. In NIPS, 2015. 2, 5

[27] Y. Jeon and J. Kim. Active convolution: Learning the shape of convolution for image classification. In CVPR, 2017. 5

[28] Y. Jia, C. Huang, and T. Darrell. Beyond spatial pyramids: Receptive field learning for pooled image features. In CVPR, 2012. 6

[29] A. Kanazawa, A. Sharma, and D. Jacobs. Locally scale-invariant convolutional neural networks. In NIPS, 2014. 6

[30] J. J. Koenderink and A. J. van Doom. Representation of local geometry in the visual system. Biological Cybernetics, 55(6):367–375, Mar. 1987. 6

[31] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012. 1

[32] D. Laptev and J. M. Buhmann. Transformation-invariantcon-volutional jungles. In CVPR, 2015. 6

[33] D. Laptev, N. Savinov, J. M. Buhmann, and M. Pollefeys. Ti-pooling: transformation-invariant pooling for feature learning in convolutional neural networks. arXiv preprint arXiv:1604.06318, 2016. 6

[34] S. Lazebnik, C. Schmid, and J. Ponce. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In CVPR, 2006. 6

[35] Y. LeCun and Y. Bengio. Convolutional networks for images, speech, and time series. The handbook of brain theory and neural networks, 1995. 1

[36] K. Lenc and A. Vedaldi. Understanding image representations by measuring their equivariance and equivalence. In CVPR, 2015. 6

[37] C.-H. Lin and S. Lucey. Inverse compositional spatial transformer networks. arXiv preprint arXiv:1612.03897, 2016. arXiv preprint arXiv:1409.5403, 2014. 6

[18] B. Hariharan, P. Arbela?ez, L. Bourdev, S. Maji, and J. Malik. 5 Semantic contours from inverse detectors. In ICCV, 2011. 7 [19] B. Hariharan, P. Arbela?ez, R. Girshick, and J. Malik. Simultaneous detection and segmentation. In ECCV. 2014. 7

[38] T.-Y. Lin, P. Dolla?r, R. Girshick, K. He, B. Hariharan, and S. Belongie. Feature pyramid networks for object detection. In CVPR, 2017. 4, 7

[39] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dolla?r, and C. L. Zitnick. Microsoft COCO: Common objects in context. In ECCV. 2014. 7

[40] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, and S. Reed. Ssd: Single shot multibox detector. In ECCV, 2016. 1, 4

[41] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015. 1, 6, 7

[42] D. G. Lowe. Object recognition from local scale-invariant features. In ICCV, 1999. 1, 6

[43] W. Luo, Y. Li, R. Urtasun, and R. Zemel. Understanding the effective receptive field in deep convolutional neural networks. arXiv preprint arXiv:1701.04128, 2017. 6

[44] W. Ouyang, X. Wang, X. Zeng, S. Qiu, P. Luo, Y. Tian, H. Li, S. Yang, Z. Wang, C.-C. Loy, and X. Tang. Deepid-net: Deformable deep convolutional neural networks for object detection. In CVPR, 2015. 6

[45] P. Perona. Deformable kernels for early vision. TPAMI, 1995. 6

[46] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. You only look once: Unified, real-time object detection. In CVPR, 2016. 1

[47] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015. 1, 3, 4, 6, 7

[48] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. TPAMI, 2016. 7

[49] E. Rublee, V. Rabaud, K. Konolige, and G. Bradski. Orb: an efficient alternative to sift or surf. In ICCV, 2011. 6

[50] K. Sohn and H. Lee. Learning invariant representations with local transformations. In ICML, 2012. 6

[51] C. Szegedy, S. Ioffe, V. Vanhoucke, and A. Alemi. Inception-v4, inception-resnet and the impact of residual connections on learning. arXiv preprint arXiv:1602.07261, 2016. 4, 10

[52] C. Szegedy, S. Reed, D. Erhan, and D. Anguelov. Scalable, high-quality object detection. arXiv:1412.1441v2, 2014. 1

[53] D. E. Worrall, S. J. Garbin, D. Turmukhambetov, and G. J. Brostow. Harmonic networks: Deep translation and rotation equivariance. arXiv preprint arXiv:1612.04642, 2016. 6

[54] F. Yu and V. Koltun. Multi-scale context aggregation by dilated convolutions. In ICLR, 2016. 6

[55] F. Yu, V. Koltun, and T. Funkhouser. Dilated residual networks. In CVPR, 2017. 6

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市逻淌,隨后出現(xiàn)的幾起案子么伯,更是在濱河造成了極大的恐慌,老刑警劉巖卡儒,帶你破解...
    沈念sama閱讀 221,548評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件田柔,死亡現(xiàn)場離奇詭異,居然都是意外死亡骨望,警方通過查閱死者的電腦和手機(jī)硬爆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來擎鸠,“玉大人缀磕,你說我怎么就攤上這事×庸猓” “怎么了袜蚕?”我有些...
    開封第一講書人閱讀 167,990評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長绢涡。 經(jīng)常有香客問我牲剃,道長,這世上最難降的妖魔是什么雄可? 我笑而不...
    開封第一講書人閱讀 59,618評論 1 296
  • 正文 為了忘掉前任颠黎,我火速辦了婚禮,結(jié)果婚禮上滞项,老公的妹妹穿的比我還像新娘。我一直安慰自己夭坪,他們只是感情好文判,可當(dāng)我...
    茶點故事閱讀 68,618評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著室梅,像睡著了一般戏仓。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上亡鼠,一...
    開封第一講書人閱讀 52,246評論 1 308
  • 那天赏殃,我揣著相機(jī)與錄音,去河邊找鬼间涵。 笑死仁热,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的勾哩。 我是一名探鬼主播抗蠢,決...
    沈念sama閱讀 40,819評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼举哟,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了迅矛?” 一聲冷哼從身側(cè)響起妨猩,我...
    開封第一講書人閱讀 39,725評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎秽褒,沒想到半個月后壶硅,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,268評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡销斟,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,356評論 3 340
  • 正文 我和宋清朗相戀三年庐椒,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片票堵。...
    茶點故事閱讀 40,488評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡扼睬,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出悴势,到底是詐尸還是另有隱情窗宇,我是刑警寧澤,帶...
    沈念sama閱讀 36,181評論 5 350
  • 正文 年R本政府宣布特纤,位于F島的核電站军俊,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏捧存。R本人自食惡果不足惜粪躬,卻給世界環(huán)境...
    茶點故事閱讀 41,862評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望昔穴。 院中可真熱鬧镰官,春花似錦、人聲如沸吗货。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽宙搬。三九已至笨腥,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間勇垛,已是汗流浹背脖母。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留闲孤,地道東北人谆级。 一個月前我還...
    沈念sama閱讀 48,897評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親哨苛。 傳聞我的和親對象是個殘疾皇子鸽凶,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,500評論 2 359

推薦閱讀更多精彩內(nèi)容