摘要
??目標檢測是計算機視覺任務(wù)中一個具有挑戰(zhàn)性的方向最域。盡管在過去十年中目標檢測在自然場景中有了重大突破莽囤,但是在航拍圖像的進展是十分緩慢的五嫂,這不僅是因為地球表面相同類別物體的規(guī)模、方向和形狀有著巨大的差異袖牙,而且還因為缺少航拍影像中目標對象的標注信息侧巨。為了推進“Earth Vision”(也稱為“地球觀測和遙感”)中目標檢測的研究,我們提出了用于航拍影像中用于目標檢測的大規(guī)模數(shù)據(jù)集(DOTA)贼陶。我們從不同的傳感器和平臺收集了2806個航拍影像刃泡,每張圖像的大小約為4000*4000像素巧娱,并包含了各種不同比例碉怔、方向和形狀的目標對象烘贴。航拍圖像專家將這些DOTA數(shù)據(jù)集圖像中常見的15種對象類別進行標注。完全注釋之后的DOTA數(shù)據(jù)集圖像包含188282個實例撮胧,每個實例都由四點確定的任意四邊形(8 d.o.f.)標記桨踪。為了建立地球視覺中目標檢測的基準,我們評估了DOTA上最新的目標檢測算法芹啥。實驗表明锻离,DOTA能夠代表真實的地球視覺應(yīng)用,并具有一定的挑戰(zhàn)性墓怀。
1. 引言
??Earth Vision中的目標檢測是指在將地球表面感興趣的物體(例如車輛汽纠、飛機場)定位并預(yù)測他們的類別。與傳統(tǒng)的目標檢測數(shù)據(jù)集相反傀履,在傳統(tǒng)的目標檢測數(shù)據(jù)集中虱朵,物體的位置通常由于重力而以一種向上的姿態(tài)出現(xiàn),航拍圖像中物體的實例通常以任意狀態(tài)出現(xiàn)钓账,如圖1所示碴犬,這取決于航拍視角的關(guān)系。
??由于計算機視覺領(lǐng)域的最新進展以及Earth Vision應(yīng)用的高要求梆暮,有大量的研究者已經(jīng)開始圍繞航拍影像中的目標檢測開展研究服协,這些方法中的大多數(shù)嘗試將原有的目標檢測算法應(yīng)用在航拍影像中。最近啦粹,在基于深度學(xué)習(xí)的目標檢測算法取得巨大成功的鼓舞下偿荷,Earth Vision的研究者們基于大規(guī)模數(shù)據(jù)集(ImageNet和MSCOCO數(shù)據(jù)集)預(yù)訓(xùn)練模型上進行微調(diào)網(wǎng)絡(luò)的方法,使之在航拍數(shù)據(jù)集檢測中有所改善唠椭。
??盡管這種基于微調(diào)的方法是可行的遭顶,但是如圖1所示,航拍圖像中的目標檢測與常規(guī)的目標檢測有著以下方面的區(qū)別:
- 航拍影像中實例對象的比例變化大泪蔫。這不僅僅因為傳感器的空間分辨率棒旗,還因為同一種類別中不同的物體大小也存在變化。
- 如圖1所示撩荣,許多小物體實例在航拍圖像上是聚集在一起的铣揉,比如海港中的船只和停車場里的車輛。此外餐曹,航拍圖像中物體出現(xiàn)的頻率是十分不平衡的逛拱,例如有些小尺寸的圖像(比如1000
1000px)中包含了1900個實例,而一些大尺寸的圖像(比如4000
4000px)中可能僅包含少量的小實例台猴。
- 航拍影像中的物體常常以各種姿態(tài)出現(xiàn)朽合,也有一些橫縱比非常大的實例俱两,比如橋梁。
??除了這些明顯的困難以外曹步,在Earth Vision中目標檢測的研究還存在眾所周知的數(shù)據(jù)集偏差問題的挑戰(zhàn)宪彩,即整個數(shù)據(jù)集的推廣性很低。為了減輕這種偏差讲婚,對數(shù)據(jù)集進行標注時應(yīng)注意實際應(yīng)用情況尿孔。
??因此,自然場景中學(xué)習(xí)到的目標檢測器并不適用于航拍影像也就不足為奇了筹麸。但是活合,現(xiàn)有的用于航拍影像中的目標檢測的帶注釋框的數(shù)據(jù)集(例如UCAS-AOD和NWPU VHR-10數(shù)據(jù)集)嘗試在理想條件(清晰的背景以及不存在密集分布的實例)下使用數(shù)據(jù)集,這樣并不能充分反映復(fù)雜問題物赶。
??為了推進Earth Vision中目標檢測的研究白指,本文提出了一種用于航拍影像中目標檢測的大型數(shù)據(jù)集(DOTA)。我們從不同的傳感器和平臺收集了2806個航拍圖像酵紫,每個圖像的大小約為40004000px告嘲,其中包含不同比例、方向和形狀的對象憨闰。這些DOTA數(shù)據(jù)集中的圖像由航空圖像解釋專家針對15種常見的目標進行注釋状蜗,完全注釋完的DOTA數(shù)據(jù)集包含188282個實例,每個實例都由一個定向的邊界框標記鹉动,而不是像傳統(tǒng)的目標檢測常用的對象注釋的軸對齊的邊界框一樣轧坎。這項工作的主要貢獻是:
- 我們認為,DOTA是Earth Vision種最大的多類別帶標注信息的目標檢測數(shù)據(jù)集泽示,它可以用于評價航拍圖像的目標檢測器缸血。我們將會在規(guī)模和范圍上繼續(xù)更新DOTA數(shù)據(jù)集,來適應(yīng)不斷變化的現(xiàn)實世界條件械筛。
-
我們在DOTA數(shù)據(jù)集上使用最先進的目標檢測算法進行了實驗捎泻,可以作為未來算法改進的基準。
圖一:DOTA數(shù)據(jù)集中的一個例子.(a)DOTA數(shù)據(jù)集中一個典型的例子:一張圖片中含有多個類別的不同實例.(b)圖中存在各種各樣大小以及方向的實例.(c)(d)分別展示了稀疏的實例以及聚集的實例埋哟,在這里笆豁,我們展示了DOTA數(shù)據(jù)集15種類別中的4種。從原圖像a種裁剪b,c,d圖中所示的示例赤赊。直方圖(e)(f)表示出DOTA數(shù)據(jù)集中實例大小和位置的分布情況
??為了推進Earth Vision上目標檢測的研究闯狱,DOTA也將會在計算機視覺領(lǐng)域中傳統(tǒng)的目標檢測提出感興趣的算法問題。
2. 需求動機
??近年來抛计,在一些較為依賴數(shù)據(jù)的研究中哄孤,數(shù)據(jù)集扮演著十分重要的角色,像MSCOCO這樣的大型數(shù)據(jù)集在促進目標檢測和圖像捕捉研究方面發(fā)揮了重要的作用吹截。當(dāng)涉及到分類任務(wù)和場景識別任務(wù)時瘦陈,ImageNet以及Places也很重要凝危。
??但是,在航拍目標檢測中晨逝,缺少像MSCOCO和ImageNet這樣在圖像數(shù)量和詳細注釋方面的數(shù)據(jù)集蛾默,特別是對于開發(fā)基于深度學(xué)習(xí)的算法時,這是Earth Vision研究的主要障礙之一咏花。航拍目標檢測對于車輛計數(shù)趴生,遠程目標跟蹤和無人駕駛領(lǐng)域非常有用阀趴。因此昏翰,創(chuàng)建一個能實際應(yīng)用的大規(guī)模數(shù)據(jù)集并提出富有挑戰(zhàn)性的航拍目標檢測基準對于促進該領(lǐng)域的研究十分必要。
??我們認為刘急,一個好的航拍影像數(shù)據(jù)集應(yīng)該具有以下四個屬性:
1)大量的圖片棚菊;2)每個類別都有很多實例;3)合適角度的目標注釋框叔汁;4)許多不同類別的對象统求,這使得數(shù)據(jù)集能夠應(yīng)用到實際中。然而目前所公開的航拍數(shù)據(jù)集存在以下缺點:圖像數(shù)據(jù)和類別不足据块,缺少更精細的注釋以及分辨率過低码邻。而且,它們?nèi)鄙購?fù)雜性并不能足以應(yīng)用再實際現(xiàn)實世界中另假。
數(shù)據(jù)集 | 注釋方式 | 主要類別 | 實例個數(shù) | 圖片數(shù)量 | 圖片大小 |
---|---|---|---|---|---|
NWPU VHR-10 | 水平注釋框 | 10 | 3651 | 800 | ~1000 |
SZTAKI-INRIA | 定向注釋框 | 1 | 665 | 9 | ~800 |
TAS | 水平注釋框 | 1 | 1399 | 30 | 792 |
COWC | 中心點注釋 | 1 | 32716 | 53 | 2000~19,000 |
VEDAI | 定向注釋框 | 3 | 2950 | 1268 | 512, 1024 |
UCAS-AOD | 定向注釋框 | 2 | 14596 | 1510 | ~1000 |
HRSC2016 | 定向注釋框 | 1 | 2976 | 1061 | ~1100 |
3K Vehicle Detection | 定向注釋框 | 2 | 14235 | 20 | 5616 |
DOTA | oriented BB | 14 | 188,282 | 2806 | 800~4000 |
表1:航空圖像中DOTA數(shù)據(jù)集和其他目標檢測數(shù)據(jù)集的比較像屋。BB是邊界框的縮寫。One-dot是指只注釋所提供實例的中心坐標边篮。更細分的類別則不考慮在內(nèi)己莺。例如,DOTA由15個不同的類別組成戈轿,但實際上只有14類凌受,因為大型車輛和小型車輛都屬于車輛目錄下的子目錄。
??像TAS思杯,VEDAI胜蛉,COWC等數(shù)據(jù)集只關(guān)注車輛,UCAS-AOD包含汽車和飛機色乾,HRSC2016只包含船只誊册,雖然有標注細致的分類信息。但所有這些數(shù)據(jù)集在類別的數(shù)量上都是少的杈湾,這對它們在復(fù)雜場景的泛化適應(yīng)上有所約束解虱。作為對比,NWPU VHR-10數(shù)據(jù)集由10種類型的物體組成漆撞,而它的總實例數(shù)大概只有3000殴泰。關(guān)于這些已存在的數(shù)據(jù)集的具體比較細節(jié)在表1中給出于宙。我們在第四部分可以看到,對比這些航拍數(shù)據(jù)集悍汛,DOTA具有更龐大的目標實例數(shù)目捞魁、隨意但是均勻的方向,多樣性的分類目錄和復(fù)雜的航拍場景离咐。此外谱俭,DOTA數(shù)據(jù)集中的場景與真實場景更加一致,所以DOTA數(shù)據(jù)集對于真實世界應(yīng)用開發(fā)來說是更有幫助的宵蛀。
??當(dāng)涉及到普通對象數(shù)據(jù)集時昆著,ImageNet和MSCOCO因其具有大量的圖像、更多的類別和詳細的注釋而被大多數(shù)研究人員所選擇术陶。在所有對象檢測數(shù)據(jù)集中凑懂,ImageNet的圖像數(shù)量最多。但是每個圖像的平均實例數(shù)遠少于MSCOCO和我們的DOTA數(shù)據(jù)集梧宫,而且必須擁有干凈的背景和精心選擇的場景帶來了局限性接谨,DOTA數(shù)據(jù)集中的圖像包含大量的對象實例,其中一些圖片具有1000多個實例塘匣。 PASCAL VOC數(shù)據(jù)集在每個圖像和場景的實例上與ImageNet相似脓豪,但是圖像數(shù)量不足使得它不適合處理大多數(shù)檢測需求。我們的DOTA數(shù)據(jù)集在實例編號和場景類型方面類似于MSCOCO忌卤,但是DOTA的類別不如MSCOCO那樣多扫夜,因為可以在航拍影像中能清晰看到的對象時非常有限的。
??此外埠巨,在上文提到的大規(guī)模普遍目標檢測基準中DOTA數(shù)據(jù)集的特別之處在于使用OBB方法注釋历谍,OBB可以很好的區(qū)分目標物體的離散與聚集,在第三部分詳細描述了使用OBB注釋目標物體的好處辣垒。在表2中對DOTA,PASCAL VOC,ImageNet and MSCOCO等數(shù)據(jù)集的比較中給出不同點望侈。
數(shù)據(jù)集 | 類別數(shù) | 圖像數(shù)量 | BBox數(shù)量 | 平均邊界框數(shù)量 |
---|---|---|---|---|
PASCAL VOC(07++12) | 20 | 21503 | 62199 | 2.89 |
MSCOCO(2014 trainval) | 80 | 123287 | 886266 | 7.19 |
ImageNet(2017train) | 200 | 349319 | 478806 | 1.37 |
DOTA | 15 | 2806 | 188282 | 67.10 |
表2:DOTA數(shù)據(jù)集與其他一般目標檢測數(shù)據(jù)集的比較。Bbox是邊界框的縮寫勋桶,Avg.BBox quantity表示每個圖像的平均邊界框數(shù)量脱衙。可以看到在DOTA中例驹,每個圖像的平均實例數(shù)捐韩,DOTA極大地超越了其他數(shù)據(jù)集。
3. DOTA數(shù)據(jù)集注釋
3.1 圖像的收集
??在航拍數(shù)據(jù)集中由于存在多種多樣的傳感器被使用的情況鹃锈,導(dǎo)致數(shù)據(jù)集產(chǎn)生偏差荤胁。為了消除這些偏差,我們數(shù)據(jù)集中的圖片是由多分辨率多傳感器和多平臺收集而來的屎债,如谷歌地球仅政。為了提高數(shù)據(jù)的多樣性垢油,我們收集的圖片的城市是由圖像判讀方面的專家來挑選的。在挑選過程中圆丹,會記錄下精確的地理坐標滩愁,來捕捉圖片使得確保沒有重復(fù)的圖像。
3.2 分類
??我們的DOTA數(shù)據(jù)集注釋選擇了15種類別辫封,包括飛機硝枉、船只、儲蓄罐倦微、棒球內(nèi)場妻味、網(wǎng)球場、籃球場璃诀、田徑場弧可、海港蔑匣、橋劣欢、大型車輛、小型車輛裁良、直升飛機凿将、英式足球場、環(huán)狀交叉路口价脾、游泳池牧抵。
??標注類別是由圖像判讀方面的莊家根據(jù)目標物體的普遍性和現(xiàn)實世界中存在的價值來挑選的,前十個類別在已有的數(shù)據(jù)集中很普遍侨把,我們保留了下來犀变,除了將交通工具的汽車分為大型和小型,因為兩種類型的汽車在航拍圖像上區(qū)別很大秋柄。其他的類別主要是由于現(xiàn)實場景的應(yīng)用获枝。我們選擇直升機是考慮到航拍圖像中運動物體具有重要的意義,環(huán)狀交叉路口被選中是因為它在巷道分析中具有重要意義骇笔。
??要不要把“stuff”作為一類是值得探討的省店,在SUN數(shù)據(jù)集中,一般說來沒有明確的定義說明什么是stuff一類笨触,比如海港懦傍、機場、停車場芦劣。但是粗俱,它們提供的語義信息是對檢測有幫助的。我們只采納了海港分類虚吟,因為它的邊界容易定義寸认,并且在我們的圖片源信息中有豐富的實例娱俺。最后拓展的分類是足球場。
??在表2我們比較了DOTA和NWPU VHR_10废麻,后者在先前存在的航拍圖像目標檢測數(shù)據(jù)集中有更多的分類數(shù)荠卷。而且DOTA在目錄分類數(shù)目和每一類下的實例數(shù)目都遠超過了NWPU VHR-10。
3.3 注釋方法
??我們考慮了許多不同的注釋方法烛愧。在計算機視覺領(lǐng)域闺阱,許多視覺概念(比如區(qū)域說明躬翁,目標,屬性,關(guān)系)都可以被一個注釋邊框說明鸥拧,對邊框的一個普遍描述一般采用,其中
表示位置讥脐,
是邊框的寬和高度嫩实。
??沒有一定方向的物體可以采用這種注釋方式充分注釋。然而但狭,在航拍影像中的文本和物體以這種方式標記的邊界框不能精確或緊湊地貼合物體的輪廓披诗。如圖3(c)所示的極端但實際的普遍存在情況和圖(d)比起來,兩個邊界框之間的重疊是如此之大以至于最先進的對象檢測方法也不能區(qū)分它們立磁。為了解決這一問題呈队,我們需要一種其他更適合面向這種有一定方向物體的注釋方法。
??一個可選選項是采用基于的邊界框唱歧,它被應(yīng)用于一些文本檢測基準宪摧,即
,其中
表示從邊界框與水平方向的夾角度颅崩。但這種方法的缺點是依舊不能貼合圍繞住那些不同部分之間可能有較大變形的物體几于。考慮到航拍圖像中物體的復(fù)雜場景和物體的各種方位沿后,我們需要放棄這種方法選擇其他更靈活易懂的方式沿彭。一種可供選擇的方法是使用任意四邊形邊界框,它可以被描述為:
得运,其中
表示圖像中定向邊界框的頂點的位置膝蜈,頂點按順時針順序排列,這種方法在定向場景的文本檢測中廣泛使用熔掺。我們受到這些研究的啟發(fā)饱搏,在注釋物體時使用這種任意四邊形邊界框的方式。
??為了進行更具體的注釋置逻,如圖3所示推沸,我們強調(diào)了第一點的重要性,該點通常表示對象的“首部”。對于直升機鬓催,大型車輛肺素,小型車輛,港口宇驾,棒球鉆石倍靡,輪船和飛機等類別,我們選擇與之豐富的潛在用途有關(guān)的點作為起始點课舍。對于足球場塌西,游泳池,橋梁筝尾,地面田徑場捡需,籃球場和網(wǎng)球場類別來說,沒有視覺上的線索來確定第一個點筹淫,因此我們通常選擇左上角的點作為起點站辉。
??我們在圖4中展示了DOTA數(shù)據(jù)集中一些已經(jīng)注釋過的例子(不是全部的初始圖像)
??值得注意的是,Papadopoulos等人探索了一種可選擇的注釋方法并驗證了它的效率和魯棒性瘸右。我們確信娇跟,只要有更多精心設(shè)計的注釋方法,這種方法可以變得更加準確更具魯棒性太颤。并且苞俘,可選擇的注釋協(xié)議多也會促進有效圖像注釋眾包活動。
3.4 數(shù)據(jù)集拆分
??為了確保訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分布大致相同做裙,我們隨機選擇原始圖像的一半作為訓(xùn)練集岗憋,將1/6作為驗證集,將1/3作為測試集锚贱。 我們將為訓(xùn)練集和驗證集公開提供所有帶有原始事實的原始圖像仔戈,但不會為測試集提供。 為了進行測試,我們目前正在構(gòu)建評估服務(wù)监徘。
4. DOTA數(shù)據(jù)集的性質(zhì)
4.1 圖片大小
??與其他圖像數(shù)據(jù)集相比晋修,航拍圖像一般尺寸很大。我們的數(shù)據(jù)集中圖像的原始大小約為800×800到4000×4000之間不等凰盔,而常規(guī)數(shù)據(jù)集中的大多數(shù)圖像(例如PASCAL-VOC和MSCOCO)則不超過1000×1000墓卦。我們在原始完整圖像上進標注,而不將其分割成塊户敬,以避免將單個實例分割成不同碎片的情況趴拧。
4.2 實例的不同方向
??如圖1(f)所示,我們的數(shù)據(jù)集在不同方向的實例中達到了比較好的平衡山叮,這對于網(wǎng)絡(luò)檢測器的魯棒性提升有很大幫助著榴。此外,我們的數(shù)據(jù)集更接近真實場景屁倔,因為在現(xiàn)實世界中通常會看到各種方向的對象脑又。
4.3 空間分辨率
??我們還為數(shù)據(jù)集中的每幅圖像提供了空間分辨率,這可以推斷出實例的實際大小锐借∥属铮空間分辨率對檢測任務(wù)的重要性有兩個方面。首先钞翔,它使模型對于相同類別的各種對象更具適應(yīng)性和魯棒性严卖。眾所周知,從遠處看物體會顯得更小布轿。具有不同大小的同一對象會給模型造成麻煩并損害分類哮笆。但是,通過提供分辨率信息而不是對象的大小汰扭,模型可以更加關(guān)注形狀稠肘。其次,可以進行進行更精細的分類萝毛。例如项阴,將一艘小船與一艘大型軍艦區(qū)分開是很簡單的。
??空間分辨率還可以用于過濾數(shù)據(jù)集中標記錯誤的離群值笆包,因為大多數(shù)類別的類內(nèi)實際大小變化是有限的环揽。在較小的空間分辨率范圍內(nèi),選擇與同類物體尺寸相差較大的物體庵佣,可以發(fā)現(xiàn)離群值(Outliers)歉胶。
4.4 類別的各種像素大小
??按照[33]中的規(guī)定衡创,我們將水平邊框的高度(簡稱為像素大械畚恕)稱為實例大小的度量。我們根據(jù)水平邊界框的高度將數(shù)據(jù)集中的所有實例分為三個部分:較小的范圍為10到50璃氢,中間的范圍為50到300哟玷,較大的范圍為300以上。圖3說明了不同數(shù)據(jù)集中的三個實例拆分的百分比一也。顯然巢寡,PASCAL VOC數(shù)據(jù)集,NWPU VHR-10數(shù)據(jù)集和DLR 3K Munich Vehicle數(shù)據(jù)集分別由中間實例椰苟,中間實例和較小實例主導(dǎo)抑月。但是,我們在小實例和中間實例之間實現(xiàn)了良好的平衡舆蝴,這與現(xiàn)實世界場景更加相似谦絮,因此有助于在實際應(yīng)用中更好地捕獲不同大小的對象。
??值得注意的是洁仗,像素大小在不同類別中有所不同层皱。例如,車輛可能小到30像素赠潦,但是橋梁可能大到1200像素叫胖,比車輛大40倍。不同類別實例之間的巨大差異使檢測任務(wù)更具挑戰(zhàn)性她奥,因為模型必須足夠靈活以處理極小的物體瓮增。
Dataset | 10-50 pixel | 50-300 pixel | above 300 pixel |
---|---|---|---|
PASCAL VOC | 0.14 | 0.61 | 0.25 |
MSCOCO | 0.43 | 0.49 | 0.08 |
NWPU VHR-10 | 0.15 | 0.83 | 0.02 |
DLR 3K Munich Vehicle | 0.93 | 0.07 | 0 |
DOTA | 0.57 | 0.41 | 0.02 |
表3:航拍圖像和自然圖像中某些數(shù)據(jù)集的實例大小分布比較
4.5 實例的各種縱橫比
??對于基于錨的模型,例如Faster RCNN和YOLO V2方淤,長寬比是至關(guān)重要的因素钉赁。我們對數(shù)據(jù)集中所有實例的兩種長寬比進行計數(shù),以提供更好的模型設(shè)計參考:1)最低程度受限于水平邊界框的橫縱携茂、2)原始四邊形邊框的長寬比。圖5說明了我們數(shù)據(jù)集中實例的兩種縱橫比分布類型诅岩,我們可以看到實例的縱橫比差異很大讳苦。此外,DOTA數(shù)據(jù)集中有許多橫縱比較大的實例吩谦。
4.6 圖像中各種實例密度
??航拍圖像中常常包括數(shù)以千計的實例鸳谜,它們完全與自然場景圖像不同。例如IMANEET數(shù)據(jù)集中每張圖像平均包含2個類別和2個實例式廷,MSCCO共有3.5個類別咐扭、7.7個實例。如圖5所示我們的DOTA數(shù)據(jù)集更豐富,每個圖像的實例可以高達2000個蝗肪。
??在一幅圖像中有如此多的實例袜爪,不可避免地會看到很密集的實例聚集在某個區(qū)域。在COCO數(shù)據(jù)集中薛闪,實例并不是逐個注釋的辛馆,因為圖像中的遮擋使之難以將實例與其相鄰實例區(qū)分開來。在這些情況下豁延,實例組被標記為一個屬性名為“crowd”的片段昙篙。然而,這種情況不會在航拍圖像下出現(xiàn)诱咏,因為從航拍視角來看苔可,很少有遮擋物。因此袋狞,我們可以在擁擠的實例場景中將實例一個個分別標注焚辅。圖4展示了聚集著很多實例的一個例子。在這種情況下檢測物體對現(xiàn)有的檢測方法提出了巨大的挑戰(zhàn)硕并。
5. 評價
??我們在DOTA上評估了最新的物體檢測方法法焰。對于水平物體檢測,我們謹慎地選擇Faster R-CNN倔毙,R-FCN埃仪,YOLO V2和SSD作為我們的基準測試算法,因為它們在一般物體檢測中具有出色的性能陕赃。對于定向?qū)ο髾z測卵蛉,我們修改了原始的Faster R-CNN算法,以便可以預(yù)測正確定向的邊界框么库,表示為傻丝。
??值得注意的是,R-FCN和Faster R-CNN的骨干網(wǎng)絡(luò)分別ResNet-101诉儒,用于SSD的是Inception V2葡缰,YOLO V2用的是GoogLeNet 。
5.1 任務(wù)
??為了全面評估基于深度學(xué)習(xí)的DOTA檢測方法的現(xiàn)狀忱反,我們提出了兩個任務(wù)泛释,即在水平邊界框(簡稱HBB)上進行檢測以及在定向邊界框(簡稱OBB)上進行檢測。更具體地說温算,無論采用何種方法訓(xùn)練怜校,我們都根據(jù)兩種不同的基礎(chǔ)事實(HBB或OBB)評估這些方法。
5.2 評估原型
??DOTA的圖像太大注竿,無法直接發(fā)送到基于CNN的探測器茄茁。因此魂贬,我們將原始圖像裁剪為一系列1024*1024的面片,步幅設(shè)置為512裙顽。注意在裁剪過程中付燥,完整的物體可能會被切成兩部分。為了方便起見锦庸,我們將原始對象的面積為机蔗,劃分部分
的面積為
然后計算:
??最終我們將U<0.7的部分標記為“difficult”,其他的標記和原始注釋一樣甘萧。對于那些新生成的部分的頂點我們需要保證它們可以被一個具有4個順時針排列頂點的定向邊界框用一種合適的方法來描述萝嘁。
??在測試階段,我們首先將裁剪后的面片送到一個臨時的結(jié)果中扬卷,然后將結(jié)果合并在一起牙言,來重構(gòu)原始圖像的檢測,最后我們對預(yù)測結(jié)果使用NMS(非極大值抑制算法)怪得。我們設(shè)置NMS的參數(shù)閾值對于水平邊界框(簡稱HBB)將閾值設(shè)置為0.3咱枉,定向的邊界框閾值設(shè)置為0.1。通過使用這種方式徒恋,我們在基于CNN的模型上訓(xùn)練和測試了DOTA數(shù)據(jù)集蚕断。
??對于評價的度量,我們使用和PSASCAL VOC一樣的mAP計算方式入挣。
? | YOLO V2 | R-FCN | FR-H | SSD |
---|---|---|---|---|
飛機 | 76.9 | 81.01 | 80.32 | 57.85 |
棒球棱形 | 33.87 | 58.96 | 77.55 | 32.79 |
橋 | 22.733 | 1.6 | 32.86 | 16.14 |
地面跑道 | 34.88 | 58.97 | 68.13 | 18.67 |
小型車輛 | 38.73 | 49.77 | 53.66 | 0.05 |
大型車輛 | 32.02 | 45.04 | 52.49 | 36.93 |
輪船 | 52.37 | 49.29 | 50.04 | 24.74 |
網(wǎng)球場 | 61.65 | 68.99 | 90.41 | 81.16 |
籃球場 | 48.54 | 52.07 | 75.05 | 25.1 |
集裝箱 | 33.91 | 67.42 | 59.59 | 47.47 |
足球場 | 29.27 | 41.83 | 57 | 11.22 |
環(huán)狀交叉路口 | 36.83 | 51.44 | 49.81 | 31.53 |
海港 | 36.44 | 45.15 | 61.69 | 14.12 |
游泳池 | 38.26 | 53.3 | 56.46 | 9.09 |
直升機 | 11.61 | 33.89 | 41.85 | 0 |
平均 | 39.2 | 52.58 | 60.46 | 29.86 |
表4:用HBB基本事實評估的基線模型的數(shù)值結(jié)果(AP)亿乳。FR-H表示在水平邊界框上訓(xùn)練的Faster R-CNN 。 FR-O表示在定向邊界框上訓(xùn)練的Faster R-CNN 径筏。
? | YOLO V2 | R-FCN | FR-H | SSD | FR-O |
---|---|---|---|---|---|
飛機 | 52.75 | 39.57 | 41.06 | 49.74 | 79.42 |
棒球棱形 | 24.24 | 46.13 | 24.31 | 64.22 | 77.13 |
橋 | 10.6 | 3.03 | 4.55 | 9.38 | 17.7 |
地面跑道 | 35.5 | 38.46 | 17.1 | 56.66 | 64.05 |
小型車輛 | 14.36 | 9.1 | 15.93 | 19.18 | 35.3 |
大型車輛 | 2.41 | 3.66 | 7.72 | 14.17 | 38.02 |
輪船 | 7.37 | 7.45 | 13.21 | 9.51 | 37.16 |
網(wǎng)球場 | 51.79 | 41.97 | 39.96 | 61.61 | 89.41 |
籃球場 | 43.98 | 50.43 | 12.05 | 65.47 | 69.64 |
集裝箱 | 31.35 | 66.98 | 46.88 | 57.52 | 59.28 |
足球場 | 22.3 | 40.34 | 9.09 | 51.36 | 50.3 |
環(huán)狀交叉路口 | 36.68 | 51.28 | 30.82 | 49.41 | 52.91 |
海港 | 14.61 | 11.14 | 1.36 | 20.8 | 47.89 |
游泳池 | 22.55 | 35.59 | 3.5 | 45.84 | 47.4 |
直升機 | 11.89 | 17.45 | 0 | 24.38 | 46.3 |
平均 | 25.492 | 30.84 | 17.84 | 39.95 | 54.13 |
表5:用OBB真實值評估的基線模型的數(shù)值結(jié)果(AP)葛假。短名稱的定義與“選項卡”中描述的相同。如表4所示只有FR-O 采用OBB訓(xùn)練滋恬。
5.3 水平邊界框的基線
??HBB實驗的ground truth 是通過在原始的已標注的邊界框上計算軸對稱邊界框產(chǎn)生的聊训,為了公平起見,我們將實驗的配置以及超參數(shù)設(shè)置為與文章[4,16,25,26]一致恢氯。
??在表4中給出了HBB實驗的預(yù)測結(jié)果带斑,我們注意到SSD上的結(jié)果比其他模型低很多。我們懷疑可能是因為SSD數(shù)據(jù)集數(shù)據(jù)增長策略中的隨意裁剪操作勋拟,這種操作在普通的目標檢測中有用遏暴,但是在航拍圖像目標檢測的大規(guī)模小實例上作用有所降低。實驗結(jié)果也進一步表明了航拍圖像和普通目標圖像檢測在實例大小上的巨大差別指黎。
5.4 定向邊界框的基線
??OBB的預(yù)測比較困難,因為現(xiàn)有的目標檢測方法并非針對定向?qū)ο蠖O(shè)計州丹。因此醋安,我們依據(jù)準確性和效率選擇Faster R-CNN作為基礎(chǔ)框架杂彭,然后對其進行修改使之能預(yù)測定向的邊界框。
??由RPN(候選區(qū)域生成網(wǎng)絡(luò))產(chǎn)生的RoIs(興趣區(qū)域)是可以被表示為的矩形框吓揪,更為詳盡的解釋是
亲怠。在R-CNN程序中,每個RoI都附加有一個ground truth定向邊界框?qū)懽?
柠辞,然后R-CNN的輸出目標
由以下等式計算:
其中团秽。
??其他配置和超參數(shù)設(shè)置保持與Faster R-CNN中所述相同。數(shù)值結(jié)果顯示在表5中叭首。為了與我們?yōu)镺BB實施的Faster R-CNN進行比較习勤,我們評估了OBB地面實況在HBB上訓(xùn)練的YOLO V2,R-FCN焙格,SSD和Faster R-CNN图毕。如表5所示,在HBB上訓(xùn)練的那些方法的結(jié)果比在OBB上訓(xùn)練的Faster R-CNN的結(jié)果低得多眷唉,這表明對于空中場景中的定向目標檢測予颤,相應(yīng)地調(diào)整這些方法可能會得到更好的結(jié)果。
5.5 實驗分析
??當(dāng)我們分析表4中呈現(xiàn)的數(shù)據(jù)結(jié)果時冬阳,小型汽車蛤虐,大型汽車,船只的分類結(jié)果不盡人意肝陪,因為它們的尺寸較小驳庭,并且在航拍圖像中位置十分密集。然而大型的離散物體如飛機见坑,游泳池嚷掠、網(wǎng)球場等,表現(xiàn)出的效果較好荞驴。
??在圖6中我們比較了HBB和OBB兩種檢測方式的結(jié)果不皆。在圖6(a)和6(b)中表示的緊密圖像中,HBB實驗的定位精度要比OBB實驗差的多熊楼,并且許多結(jié)果受到先前工作的限制霹娄。所以O(shè)BB回歸是定向物體檢測的一個正確方式,并且可以被真正在實際中應(yīng)用鲫骗。在圖6(c)中犬耻,使用OBB來標注縱橫比較大的物體(比如橋和海港),對于現(xiàn)在的檢測器來說很難做回歸执泰。但是在HBB方法中枕磁,這些物體通常有著較為普通的縱橫比,因此結(jié)果如圖6(d)看起來比OBB好很多术吝。但是在一些極度擁擠的場景下计济,比如圖6(e)和6(f)茸苇,HBB和OBB的結(jié)果并不盡如人意,表明了現(xiàn)階段檢測器具有一定的缺陷沦寂。
6. 數(shù)據(jù)集交叉驗證
??交叉數(shù)據(jù)集驗證是數(shù)據(jù)集泛化能力的一個評價方式传藏。我們選擇UCAS-AOD數(shù)據(jù)集來做交叉數(shù)據(jù)集泛化腻暮,因為它與其他航空物體檢測數(shù)據(jù)集相比有著更大的數(shù)據(jù)量。因為沒有UCAS-AOD數(shù)據(jù)集的官方劃分方式毯侦,于是我們隨機選擇1110個進行訓(xùn)練和400個進行測試哭靖。選擇YOLO V2作為所有測試實驗的檢測器,并且將所有的ground truth使用HBB標注叫惊。將UCAS-AOD數(shù)據(jù)集中原始圖片大小改為960*544作為輸入的圖片大小款青,其余的配置不改變。
??結(jié)果顯示在表6中霍狰,對于YOLOv2-A模型而言兩個數(shù)據(jù)集之間的性能差異分別為35.8和15.6抡草。這表明DOTA極大地覆蓋了UCAS-AOD,并且具有更多的模式和特性蔗坯,而UCAS-AOD則不具備這種特性康震。兩種模型在DOTA上的結(jié)果都很低,這表明DOTA更具挑戰(zhàn)性宾濒。
7. 結(jié)論
??我們建立了一個大型數(shù)據(jù)集橘忱,用于航拍圖像中進行定向物體檢測,這個數(shù)據(jù)集比這個領(lǐng)域中所有現(xiàn)有的數(shù)據(jù)集都要大卸奉。 與一般對象檢測基準相反钝诚,我們使用定向邊界框標注大量分布良好的定向物體。 我們猜測這個數(shù)據(jù)集是具有挑戰(zhàn)性的榄棵,并且非常類似于自然的航拍場景凝颇,更適合實際應(yīng)用。我們還為航拍圖像物體檢測建立了基準疹鳄,并展示了通過修改主流檢測算法生成定向邊界框的可行性拧略。
??這個數(shù)據(jù)集在大圖片中檢測密集排列的小實例和具有任意方向的超大實例都將特別有意義且具有挑戰(zhàn)性。我們相信DOTA不僅會推動Earth Vision中物體檢測算法的發(fā)展瘪弓,而且還會對計算機視覺中的一般物體檢測提出有趣的問題垫蛆。