DOTA V1.5數(shù)據(jù)集：基于航空圖像的大規(guī)模目標檢測數(shù)據(jù)集

摘要

??目標檢測是計算機視覺任務(wù)中一個具有挑戰(zhàn)性的方向最域。盡管在過去十年中目標檢測在自然場景中有了重大突破莽囤，但是在航拍圖像的進展是十分緩慢的五嫂，這不僅是因為地球表面相同類別物體的規(guī)模、方向和形狀有著巨大的差異袖牙，而且還因為缺少航拍影像中目標對象的標注信息侧巨。為了推進“Earth Vision”（也稱為“地球觀測和遙感”）中目標檢測的研究，我們提出了用于航拍影像中用于目標檢測的大規(guī)模數(shù)據(jù)集（DOTA）贼陶。我們從不同的傳感器和平臺收集了2806個航拍影像刃泡，每張圖像的大小約為4000*4000像素巧娱，并包含了各種不同比例碉怔、方向和形狀的目標對象烘贴。航拍圖像專家將這些DOTA數(shù)據(jù)集圖像中常見的15種對象類別進行標注。完全注釋之后的DOTA數(shù)據(jù)集圖像包含188282個實例撮胧，每個實例都由四點確定的任意四邊形（8 d.o.f.）標記桨踪。為了建立地球視覺中目標檢測的基準，我們評估了DOTA上最新的目標檢測算法芹啥。實驗表明锻离，DOTA能夠代表真實的地球視覺應(yīng)用，并具有一定的挑戰(zhàn)性墓怀。

1. 引言

??Earth Vision中的目標檢測是指在將地球表面感興趣的物體（例如車輛汽纠、飛機場）定位并預(yù)測他們的類別。與傳統(tǒng)的目標檢測數(shù)據(jù)集相反傀履，在傳統(tǒng)的目標檢測數(shù)據(jù)集中虱朵，物體的位置通常由于重力而以一種向上的姿態(tài)出現(xiàn)，航拍圖像中物體的實例通常以任意狀態(tài)出現(xiàn)钓账，如圖1所示碴犬，這取決于航拍視角的關(guān)系。
??由于計算機視覺領(lǐng)域的最新進展以及Earth Vision應(yīng)用的高要求梆暮，有大量的研究者已經(jīng)開始圍繞航拍影像中的目標檢測開展研究服协，這些方法中的大多數(shù)嘗試將原有的目標檢測算法應(yīng)用在航拍影像中。最近啦粹，在基于深度學(xué)習(xí)的目標檢測算法取得巨大成功的鼓舞下偿荷，Earth Vision的研究者們基于大規(guī)模數(shù)據(jù)集（ImageNet和MSCOCO數(shù)據(jù)集）預(yù)訓(xùn)練模型上進行微調(diào)網(wǎng)絡(luò)的方法，使之在航拍數(shù)據(jù)集檢測中有所改善唠椭。
??盡管這種基于微調(diào)的方法是可行的遭顶，但是如圖1所示，航拍圖像中的目標檢測與常規(guī)的目標檢測有著以下方面的區(qū)別：

航拍影像中實例對象的比例變化大泪蔫。這不僅僅因為傳感器的空間分辨率棒旗，還因為同一種類別中不同的物體大小也存在變化。
如圖1所示撩荣，許多小物體實例在航拍圖像上是聚集在一起的铣揉，比如海港中的船只和停車場里的車輛。此外餐曹，航拍圖像中物體出現(xiàn)的頻率是十分不平衡的逛拱，例如有些小尺寸的圖像（比如1000 $\times$ 1000px）中包含了1900個實例，而一些大尺寸的圖像（比如4000 $\times$ 4000px）中可能僅包含少量的小實例台猴。
航拍影像中的物體常常以各種姿態(tài)出現(xiàn)朽合，也有一些橫縱比非常大的實例俱两，比如橋梁。
??除了這些明顯的困難以外曹步，在Earth Vision中目標檢測的研究還存在眾所周知的數(shù)據(jù)集偏差問題的挑戰(zhàn)宪彩，即整個數(shù)據(jù)集的推廣性很低。為了減輕這種偏差讲婚，對數(shù)據(jù)集進行標注時應(yīng)注意實際應(yīng)用情況尿孔。
??因此，自然場景中學(xué)習(xí)到的目標檢測器并不適用于航拍影像也就不足為奇了筹麸。但是活合，現(xiàn)有的用于航拍影像中的目標檢測的帶注釋框的數(shù)據(jù)集（例如UCAS-AOD和NWPU VHR-10數(shù)據(jù)集）嘗試在理想條件（清晰的背景以及不存在密集分布的實例）下使用數(shù)據(jù)集，這樣并不能充分反映復(fù)雜問題物赶。
??為了推進Earth Vision中目標檢測的研究白指，本文提出了一種用于航拍影像中目標檢測的大型數(shù)據(jù)集（DOTA）。我們從不同的傳感器和平臺收集了2806個航拍圖像酵紫，每個圖像的大小約為4000 $\times$ 4000px告嘲，其中包含不同比例、方向和形狀的對象憨闰。這些DOTA數(shù)據(jù)集中的圖像由航空圖像解釋專家針對15種常見的目標進行注釋状蜗，完全注釋完的DOTA數(shù)據(jù)集包含188282個實例，每個實例都由一個定向的邊界框標記鹉动，而不是像傳統(tǒng)的目標檢測常用的對象注釋的軸對齊的邊界框一樣轧坎。這項工作的主要貢獻是：
我們認為，DOTA是Earth Vision種最大的多類別帶標注信息的目標檢測數(shù)據(jù)集泽示，它可以用于評價航拍圖像的目標檢測器缸血。我們將會在規(guī)模和范圍上繼續(xù)更新DOTA數(shù)據(jù)集，來適應(yīng)不斷變化的現(xiàn)實世界條件械筛。
我們在DOTA數(shù)據(jù)集上使用最先進的目標檢測算法進行了實驗捎泻，可以作為未來算法改進的基準。

圖一：DOTA數(shù)據(jù)集中的一個例子.（a）DOTA數(shù)據(jù)集中一個典型的例子:一張圖片中含有多個類別的不同實例.（b）圖中存在各種各樣大小以及方向的實例.（c）（d）分別展示了稀疏的實例以及聚集的實例埋哟，在這里笆豁，我們展示了DOTA數(shù)據(jù)集15種類別中的4種。從原圖像a種裁剪b,c,d圖中所示的示例赤赊。直方圖（e）（f）表示出DOTA數(shù)據(jù)集中實例大小和位置的分布情況

??為了推進Earth Vision上目標檢測的研究闯狱，DOTA也將會在計算機視覺領(lǐng)域中傳統(tǒng)的目標檢測提出感興趣的算法問題。

2. 需求動機

??近年來抛计，在一些較為依賴數(shù)據(jù)的研究中哄孤，數(shù)據(jù)集扮演著十分重要的角色，像MSCOCO這樣的大型數(shù)據(jù)集在促進目標檢測和圖像捕捉研究方面發(fā)揮了重要的作用吹截。當(dāng)涉及到分類任務(wù)和場景識別任務(wù)時瘦陈，ImageNet以及Places也很重要凝危。
??但是，在航拍目標檢測中晨逝，缺少像MSCOCO和ImageNet這樣在圖像數(shù)量和詳細注釋方面的數(shù)據(jù)集蛾默，特別是對于開發(fā)基于深度學(xué)習(xí)的算法時，這是Earth Vision研究的主要障礙之一咏花。航拍目標檢測對于車輛計數(shù)趴生，遠程目標跟蹤和無人駕駛領(lǐng)域非常有用阀趴。因此昏翰，創(chuàng)建一個能實際應(yīng)用的大規(guī)模數(shù)據(jù)集并提出富有挑戰(zhàn)性的航拍目標檢測基準對于促進該領(lǐng)域的研究十分必要。
??我們認為刘急，一個好的航拍影像數(shù)據(jù)集應(yīng)該具有以下四個屬性：
1）大量的圖片棚菊；2）每個類別都有很多實例；3）合適角度的目標注釋框叔汁；4）許多不同類別的對象统求，這使得數(shù)據(jù)集能夠應(yīng)用到實際中。然而目前所公開的航拍數(shù)據(jù)集存在以下缺點：圖像數(shù)據(jù)和類別不足据块，缺少更精細的注釋以及分辨率過低码邻。而且，它們?nèi)鄙購?fù)雜性并不能足以應(yīng)用再實際現(xiàn)實世界中另假。

數(shù)據(jù)集	注釋方式	主要類別	實例個數(shù)	圖片數(shù)量	圖片大小
NWPU VHR-10	水平注釋框	10	3651	800	~1000
SZTAKI-INRIA	定向注釋框	1	665	9	~800
TAS	水平注釋框	1	1399	30	792
COWC	中心點注釋	1	32716	53	2000～19,000
VEDAI	定向注釋框	3	2950	1268	512, 1024
UCAS-AOD	定向注釋框	2	14596	1510	～1000
HRSC2016	定向注釋框	1	2976	1061	～1100
3K Vehicle Detection	定向注釋框	2	14235	20	5616
DOTA	oriented BB	14	188,282	2806	800～4000

表1：航空圖像中DOTA數(shù)據(jù)集和其他目標檢測數(shù)據(jù)集的比較像屋。BB是邊界框的縮寫。One-dot是指只注釋所提供實例的中心坐標边篮。更細分的類別則不考慮在內(nèi)己莺。例如，DOTA由15個不同的類別組成戈轿，但實際上只有14類凌受，因為大型車輛和小型車輛都屬于車輛目錄下的子目錄。

??像TAS思杯，VEDAI胜蛉，COWC等數(shù)據(jù)集只關(guān)注車輛，UCAS-AOD包含汽車和飛機色乾，HRSC2016只包含船只誊册，雖然有標注細致的分類信息。但所有這些數(shù)據(jù)集在類別的數(shù)量上都是少的杈湾，這對它們在復(fù)雜場景的泛化適應(yīng)上有所約束解虱。作為對比，NWPU VHR-10數(shù)據(jù)集由10種類型的物體組成漆撞，而它的總實例數(shù)大概只有3000殴泰。關(guān)于這些已存在的數(shù)據(jù)集的具體比較細節(jié)在表1中給出于宙。我們在第四部分可以看到，對比這些航拍數(shù)據(jù)集悍汛，DOTA具有更龐大的目標實例數(shù)目捞魁、隨意但是均勻的方向，多樣性的分類目錄和復(fù)雜的航拍場景离咐。此外谱俭，DOTA數(shù)據(jù)集中的場景與真實場景更加一致，所以DOTA數(shù)據(jù)集對于真實世界應(yīng)用開發(fā)來說是更有幫助的宵蛀。
??當(dāng)涉及到普通對象數(shù)據(jù)集時昆著，ImageNet和MSCOCO因其具有大量的圖像、更多的類別和詳細的注釋而被大多數(shù)研究人員所選擇术陶。在所有對象檢測數(shù)據(jù)集中凑懂，ImageNet的圖像數(shù)量最多。但是每個圖像的平均實例數(shù)遠少于MSCOCO和我們的DOTA數(shù)據(jù)集梧宫，而且必須擁有干凈的背景和精心選擇的場景帶來了局限性接谨，DOTA數(shù)據(jù)集中的圖像包含大量的對象實例，其中一些圖片具有1000多個實例塘匣。 PASCAL VOC數(shù)據(jù)集在每個圖像和場景的實例上與ImageNet相似脓豪，但是圖像數(shù)量不足使得它不適合處理大多數(shù)檢測需求。我們的DOTA數(shù)據(jù)集在實例編號和場景類型方面類似于MSCOCO忌卤，但是DOTA的類別不如MSCOCO那樣多扫夜，因為可以在航拍影像中能清晰看到的對象時非常有限的。
??此外埠巨，在上文提到的大規(guī)模普遍目標檢測基準中DOTA數(shù)據(jù)集的特別之處在于使用OBB方法注釋历谍，OBB可以很好的區(qū)分目標物體的離散與聚集，在第三部分詳細描述了使用OBB注釋目標物體的好處辣垒。在表2中對DOTA,PASCAL VOC,ImageNet and MSCOCO等數(shù)據(jù)集的比較中給出不同點望侈。

數(shù)據(jù)集	類別數(shù)	圖像數(shù)量	BBox數(shù)量	平均邊界框數(shù)量
PASCAL VOC(07++12)	20	21503	62199	2.89
MSCOCO(2014 trainval)	80	123287	886266	7.19
ImageNet(2017train)	200	349319	478806	1.37
DOTA	15	2806	188282	67.10

表2：DOTA數(shù)據(jù)集與其他一般目標檢測數(shù)據(jù)集的比較。Bbox是邊界框的縮寫勋桶，Avg.BBox quantity表示每個圖像的平均邊界框數(shù)量脱衙。可以看到在DOTA中例驹，每個圖像的平均實例數(shù)捐韩，DOTA極大地超越了其他數(shù)據(jù)集。

3. DOTA數(shù)據(jù)集注釋

3.1 圖像的收集

??在航拍數(shù)據(jù)集中由于存在多種多樣的傳感器被使用的情況鹃锈，導(dǎo)致數(shù)據(jù)集產(chǎn)生偏差荤胁。為了消除這些偏差，我們數(shù)據(jù)集中的圖片是由多分辨率多傳感器和多平臺收集而來的屎债，如谷歌地球仅政。為了提高數(shù)據(jù)的多樣性垢油，我們收集的圖片的城市是由圖像判讀方面的專家來挑選的。在挑選過程中圆丹，會記錄下精確的地理坐標滩愁，來捕捉圖片使得確保沒有重復(fù)的圖像。

3.2 分類

??我們的DOTA數(shù)據(jù)集注釋選擇了15種類別辫封，包括飛機硝枉、船只、儲蓄罐倦微、棒球內(nèi)場妻味、網(wǎng)球場、籃球場璃诀、田徑場弧可、海港蔑匣、橋劣欢、大型車輛、小型車輛裁良、直升飛機凿将、英式足球場、環(huán)狀交叉路口价脾、游泳池牧抵。
??標注類別是由圖像判讀方面的莊家根據(jù)目標物體的普遍性和現(xiàn)實世界中存在的價值來挑選的，前十個類別在已有的數(shù)據(jù)集中很普遍侨把，我們保留了下來犀变，除了將交通工具的汽車分為大型和小型，因為兩種類型的汽車在航拍圖像上區(qū)別很大秋柄。其他的類別主要是由于現(xiàn)實場景的應(yīng)用获枝。我們選擇直升機是考慮到航拍圖像中運動物體具有重要的意義，環(huán)狀交叉路口被選中是因為它在巷道分析中具有重要意義骇笔。
??要不要把“stuff”作為一類是值得探討的省店，在SUN數(shù)據(jù)集中，一般說來沒有明確的定義說明什么是stuff一類笨触，比如海港懦傍、機場、停車場芦劣。但是粗俱，它們提供的語義信息是對檢測有幫助的。我們只采納了海港分類虚吟，因為它的邊界容易定義寸认，并且在我們的圖片源信息中有豐富的實例娱俺。最后拓展的分類是足球場。
??在表2我們比較了DOTA和NWPU VHR_10废麻，后者在先前存在的航拍圖像目標檢測數(shù)據(jù)集中有更多的分類數(shù)荠卷。而且DOTA在目錄分類數(shù)目和每一類下的實例數(shù)目都遠超過了NWPU VHR-10。

3.3 注釋方法

??我們考慮了許多不同的注釋方法烛愧。在計算機視覺領(lǐng)域闺阱，許多視覺概念（比如區(qū)域說明躬翁，目標，屬性，關(guān)系）都可以被一個注釋邊框說明鸥拧，對邊框的一個普遍描述一般采用 $(x,y,w,h)$ ，其中 $(x,y)$ 表示位置讥脐， $(w,h)$ 是邊框的寬和高度嫩实。
??沒有一定方向的物體可以采用這種注釋方式充分注釋。然而但狭，在航拍影像中的文本和物體以這種方式標記的邊界框不能精確或緊湊地貼合物體的輪廓披诗。如圖3（c）所示的極端但實際的普遍存在情況和圖（d）比起來，兩個邊界框之間的重疊是如此之大以至于最先進的對象檢測方法也不能區(qū)分它們立磁。為了解決這一問題呈队，我們需要一種其他更適合面向這種有一定方向物體的注釋方法。
??一個可選選項是采用基于 $\theta$ 的邊界框唱歧，它被應(yīng)用于一些文本檢測基準宪摧，即 $(x,y,w,h,\theta)$ ，其中 $\theta$ 表示從邊界框與水平方向的夾角度颅崩。但這種方法的缺點是依舊不能貼合圍繞住那些不同部分之間可能有較大變形的物體几于。考慮到航拍圖像中物體的復(fù)雜場景和物體的各種方位沿后，我們需要放棄這種方法選擇其他更靈活易懂的方式沿彭。一種可供選擇的方法是使用任意四邊形邊界框，它可以被描述為： $\{(x_i,y_i),i=1,2,3,4\}$ 得运，其中 $(x_i,y_i)$ 表示圖像中定向邊界框的頂點的位置膝蜈，頂點按順時針順序排列，這種方法在定向場景的文本檢測中廣泛使用熔掺。我們受到這些研究的啟發(fā)饱搏，在注釋物體時使用這種任意四邊形邊界框的方式。

圖 2：DOTA與NWPU VHR-10數(shù)據(jù)集的類別和相應(yīng)實例數(shù)量的比較

??為了進行更具體的注釋置逻，如圖3所示推沸，我們強調(diào)了第一點 $(x_1,y_1)$ 的重要性，該點通常表示對象的“首部”。對于直升機鬓催，大型車輛肺素，小型車輛，港口宇驾，棒球鉆石倍靡，輪船和飛機等類別，我們選擇與之豐富的潛在用途有關(guān)的點作為起始點课舍。對于足球場塌西，游泳池，橋梁筝尾，地面田徑場捡需，籃球場和網(wǎng)球場類別來說，沒有視覺上的線索來確定第一個點筹淫，因此我們通常選擇左上角的點作為起點站辉。
??我們在圖4中展示了DOTA數(shù)據(jù)集中一些已經(jīng)注釋過的例子(不是全部的初始圖像)

圖3：將注釋方法可視化如下所示，黃點表示起點损姜，指的是:（a）飛機的左上角饰剥，（b）扇形棒球菱形的中心，（c）大型車輛的左上角薛匪，（d）是水平矩形注釋的失敗案例捐川，與（c）相比，它的標注框重疊度太高逸尖。

??值得注意的是，Papadopoulos等人探索了一種可選擇的注釋方法并驗證了它的效率和魯棒性瘸右。我們確信娇跟，只要有更多精心設(shè)計的注釋方法，這種方法可以變得更加準確更具魯棒性太颤。并且苞俘，可選擇的注釋協(xié)議多也會促進有效圖像注釋眾包活動。

圖4：DOTA中帶注釋的圖像的樣本龄章。每個類別我們顯示了三個樣本吃谣，大型車輛除外。

3.4 數(shù)據(jù)集拆分

??為了確保訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分布大致相同做裙，我們隨機選擇原始圖像的一半作為訓(xùn)練集岗憋，將1/6作為驗證集，將1/3作為測試集锚贱。我們將為訓(xùn)練集和驗證集公開提供所有帶有原始事實的原始圖像仔戈，但不會為測試集提供。為了進行測試，我們目前正在構(gòu)建評估服務(wù)监徘。

4. DOTA數(shù)據(jù)集的性質(zhì)

4.1 圖片大小

??與其他圖像數(shù)據(jù)集相比晋修，航拍圖像一般尺寸很大。我們的數(shù)據(jù)集中圖像的原始大小約為800×800到4000×4000之間不等凰盔，而常規(guī)數(shù)據(jù)集中的大多數(shù)圖像（例如PASCAL-VOC和MSCOCO）則不超過1000×1000墓卦。我們在原始完整圖像上進標注，而不將其分割成塊户敬，以避免將單個實例分割成不同碎片的情況趴拧。

4.2 實例的不同方向

??如圖1（f）所示，我們的數(shù)據(jù)集在不同方向的實例中達到了比較好的平衡山叮，這對于網(wǎng)絡(luò)檢測器的魯棒性提升有很大幫助著榴。此外，我們的數(shù)據(jù)集更接近真實場景屁倔，因為在現(xiàn)實世界中通常會看到各種方向的對象脑又。

4.3 空間分辨率

??我們還為數(shù)據(jù)集中的每幅圖像提供了空間分辨率，這可以推斷出實例的實際大小锐借∥属铮空間分辨率對檢測任務(wù)的重要性有兩個方面。首先钞翔，它使模型對于相同類別的各種對象更具適應(yīng)性和魯棒性严卖。眾所周知，從遠處看物體會顯得更小布轿。具有不同大小的同一對象會給模型造成麻煩并損害分類哮笆。但是，通過提供分辨率信息而不是對象的大小汰扭，模型可以更加關(guān)注形狀稠肘。其次，可以進行進行更精細的分類萝毛。例如项阴，將一艘小船與一艘大型軍艦區(qū)分開是很簡單的。
??空間分辨率還可以用于過濾數(shù)據(jù)集中標記錯誤的離群值笆包，因為大多數(shù)類別的類內(nèi)實際大小變化是有限的环揽。在較小的空間分辨率范圍內(nèi)，選擇與同類物體尺寸相差較大的物體庵佣，可以發(fā)現(xiàn)離群值(Outliers)歉胶。

圖5：DOTA中實例的統(tǒng)計信息。 AR表示縱橫比秧了。（a）水平邊框的AR跨扮。（b）定向包圍盒的AR。（c）每個圖像的注釋實例數(shù)的直方圖。

4.4 類別的各種像素大小

??按照[33]中的規(guī)定衡创，我們將水平邊框的高度（簡稱為像素大械畚恕）稱為實例大小的度量。我們根據(jù)水平邊界框的高度將數(shù)據(jù)集中的所有實例分為三個部分：較小的范圍為10到50璃氢，中間的范圍為50到300哟玷，較大的范圍為300以上。圖3說明了不同數(shù)據(jù)集中的三個實例拆分的百分比一也。顯然巢寡，PASCAL VOC數(shù)據(jù)集，NWPU VHR-10數(shù)據(jù)集和DLR 3K Munich Vehicle數(shù)據(jù)集分別由中間實例椰苟，中間實例和較小實例主導(dǎo)抑月。但是，我們在小實例和中間實例之間實現(xiàn)了良好的平衡舆蝴，這與現(xiàn)實世界場景更加相似谦絮，因此有助于在實際應(yīng)用中更好地捕獲不同大小的對象。
??值得注意的是洁仗，像素大小在不同類別中有所不同层皱。例如，車輛可能小到30像素赠潦，但是橋梁可能大到1200像素叫胖，比車輛大40倍。不同類別實例之間的巨大差異使檢測任務(wù)更具挑戰(zhàn)性她奥，因為模型必須足夠靈活以處理極小的物體瓮增。

Dataset	10-50 pixel	50-300 pixel	above 300 pixel
PASCAL VOC	0.14	0.61	0.25
MSCOCO	0.43	0.49	0.08
NWPU VHR-10	0.15	0.83	0.02
DLR 3K Munich Vehicle	0.93	0.07	0
DOTA	0.57	0.41	0.02

表3：航拍圖像和自然圖像中某些數(shù)據(jù)集的實例大小分布比較

4.5 實例的各種縱橫比

??對于基于錨的模型，例如Faster RCNN和YOLO V2方淤，長寬比是至關(guān)重要的因素钉赁。我們對數(shù)據(jù)集中所有實例的兩種長寬比進行計數(shù)，以提供更好的模型設(shè)計參考：1）最低程度受限于水平邊界框的橫縱携茂、2）原始四邊形邊框的長寬比。圖5說明了我們數(shù)據(jù)集中實例的兩種縱橫比分布類型诅岩，我們可以看到實例的縱橫比差異很大讳苦。此外，DOTA數(shù)據(jù)集中有許多橫縱比較大的實例吩谦。

4.6 圖像中各種實例密度

??航拍圖像中常常包括數(shù)以千計的實例鸳谜，它們完全與自然場景圖像不同。例如IMANEET數(shù)據(jù)集中每張圖像平均包含2個類別和2個實例式廷，MSCCO共有3.5個類別咐扭、7.7個實例。如圖5所示我們的DOTA數(shù)據(jù)集更豐富，每個圖像的實例可以高達2000個蝗肪。
??在一幅圖像中有如此多的實例袜爪，不可避免地會看到很密集的實例聚集在某個區(qū)域。在COCO數(shù)據(jù)集中薛闪，實例并不是逐個注釋的辛馆，因為圖像中的遮擋使之難以將實例與其相鄰實例區(qū)分開來。在這些情況下豁延，實例組被標記為一個屬性名為“crowd”的片段昙篙。然而，這種情況不會在航拍圖像下出現(xiàn)诱咏，因為從航拍視角來看苔可，很少有遮擋物。因此袋狞，我們可以在擁擠的實例場景中將實例一個個分別標注焚辅。圖4展示了聚集著很多實例的一個例子。在這種情況下檢測物體對現(xiàn)有的檢測方法提出了巨大的挑戰(zhàn)硕并。

5. 評價

??我們在DOTA上評估了最新的物體檢測方法法焰。對于水平物體檢測，我們謹慎地選擇Faster R-CNN倔毙，R-FCN埃仪，YOLO V2和SSD作為我們的基準測試算法，因為它們在一般物體檢測中具有出色的性能陕赃。對于定向?qū)ο髾z測卵蛉，我們修改了原始的Faster R-CNN算法，以便可以預(yù)測正確定向的邊界框么库，表示為 $\{(x_i,y_i),i=1,2,3,4\}$ 傻丝。
??值得注意的是，R-FCN和Faster R-CNN的骨干網(wǎng)絡(luò)分別ResNet-101诉儒，用于SSD的是Inception V2葡缰，YOLO V2用的是GoogLeNet 。

5.1 任務(wù)

??為了全面評估基于深度學(xué)習(xí)的DOTA檢測方法的現(xiàn)狀忱反，我們提出了兩個任務(wù)泛释，即在水平邊界框（簡稱HBB）上進行檢測以及在定向邊界框（簡稱OBB）上進行檢測。更具體地說温算，無論采用何種方法訓(xùn)練怜校，我們都根據(jù)兩種不同的基礎(chǔ)事實（HBB或OBB）評估這些方法。

5.2 評估原型

??DOTA的圖像太大注竿，無法直接發(fā)送到基于CNN的探測器茄茁。因此魂贬，我們將原始圖像裁剪為一系列1024*1024的面片，步幅設(shè)置為512裙顽。注意在裁剪過程中付燥，完整的物體可能會被切成兩部分。為了方便起見锦庸，我們將原始對象的面積為 $A_0$ 机蔗，劃分部分 $P_i$ 的面積為 $a_i (i=1,2)$ 然后計算： $U_i=\frac{a_i}{A_O}$
??最終我們將U<0.7的部分標記為“difficult”，其他的標記和原始注釋一樣甘萧。對于那些新生成的部分的頂點我們需要保證它們可以被一個具有4個順時針排列頂點的定向邊界框用一種合適的方法來描述萝嘁。
??在測試階段，我們首先將裁剪后的面片送到一個臨時的結(jié)果中扬卷，然后將結(jié)果合并在一起牙言，來重構(gòu)原始圖像的檢測，最后我們對預(yù)測結(jié)果使用NMS(非極大值抑制算法)怪得。我們設(shè)置NMS的參數(shù)閾值對于水平邊界框（簡稱HBB）將閾值設(shè)置為0.3咱枉，定向的邊界框閾值設(shè)置為0.1。通過使用這種方式徒恋，我們在基于CNN的模型上訓(xùn)練和測試了DOTA數(shù)據(jù)集蚕断。
??對于評價的度量，我們使用和PSASCAL VOC一樣的mAP計算方式入挣。

?	YOLO V2	R-FCN	FR-H	SSD
飛機	76.9	81.01	80.32	57.85
棒球棱形	33.87	58.96	77.55	32.79
橋	22.733	1.6	32.86	16.14
地面跑道	34.88	58.97	68.13	18.67
小型車輛	38.73	49.77	53.66	0.05
大型車輛	32.02	45.04	52.49	36.93
輪船	52.37	49.29	50.04	24.74
網(wǎng)球場	61.65	68.99	90.41	81.16
籃球場	48.54	52.07	75.05	25.1
集裝箱	33.91	67.42	59.59	47.47
足球場	29.27	41.83	57	11.22
環(huán)狀交叉路口	36.83	51.44	49.81	31.53
海港	36.44	45.15	61.69	14.12
游泳池	38.26	53.3	56.46	9.09
直升機	11.61	33.89	41.85	0
平均	39.2	52.58	60.46	29.86

表4：用HBB基本事實評估的基線模型的數(shù)值結(jié)果（AP）亿乳。FR-H表示在水平邊界框上訓(xùn)練的Faster R-CNN 。 FR-O表示在定向邊界框上訓(xùn)練的Faster R-CNN 径筏。

?	YOLO V2	R-FCN	FR-H	SSD	FR-O
飛機	52.75	39.57	41.06	49.74	79.42
棒球棱形	24.24	46.13	24.31	64.22	77.13
橋	10.6	3.03	4.55	9.38	17.7
地面跑道	35.5	38.46	17.1	56.66	64.05
小型車輛	14.36	9.1	15.93	19.18	35.3
大型車輛	2.41	3.66	7.72	14.17	38.02
輪船	7.37	7.45	13.21	9.51	37.16
網(wǎng)球場	51.79	41.97	39.96	61.61	89.41
籃球場	43.98	50.43	12.05	65.47	69.64
集裝箱	31.35	66.98	46.88	57.52	59.28
足球場	22.3	40.34	9.09	51.36	50.3
環(huán)狀交叉路口	36.68	51.28	30.82	49.41	52.91
海港	14.61	11.14	1.36	20.8	47.89
游泳池	22.55	35.59	3.5	45.84	47.4
直升機	11.89	17.45	0	24.38	46.3
平均	25.492	30.84	17.84	39.95	54.13

表5：用OBB真實值評估的基線模型的數(shù)值結(jié)果（AP）葛假。短名稱的定義與“選項卡”中描述的相同。如表4所示只有FR-O 采用OBB訓(xùn)練滋恬。

5.3 水平邊界框的基線

??HBB實驗的ground truth 是通過在原始的已標注的邊界框上計算軸對稱邊界框產(chǎn)生的聊训，為了公平起見，我們將實驗的配置以及超參數(shù)設(shè)置為與文章[4,16,25,26]一致恢氯。
??在表4中給出了HBB實驗的預(yù)測結(jié)果带斑，我們注意到SSD上的結(jié)果比其他模型低很多。我們懷疑可能是因為SSD數(shù)據(jù)集數(shù)據(jù)增長策略中的隨意裁剪操作勋拟，這種操作在普通的目標檢測中有用遏暴，但是在航拍圖像目標檢測的大規(guī)模小實例上作用有所降低。實驗結(jié)果也進一步表明了航拍圖像和普通目標圖像檢測在實例大小上的巨大差別指黎。

5.4 定向邊界框的基線

??OBB的預(yù)測比較困難，因為現(xiàn)有的目標檢測方法并非針對定向?qū)ο蠖O(shè)計州丹。因此醋安，我們依據(jù)準確性和效率選擇Faster R-CNN作為基礎(chǔ)框架杂彭，然后對其進行修改使之能預(yù)測定向的邊界框。
??由RPN（候選區(qū)域生成網(wǎng)絡(luò)）產(chǎn)生的RoIs（興趣區(qū)域）是可以被表示為 $R=(x_{min},y_{min},x_{max},y_{max})$ 的矩形框吓揪，更為詳盡的解釋是 $R=\{(x_i,y_i).i=1,2,3,4\},x_1=x_4=x_{min},x_2=x_3=x_{max},y_1=y_2=y_{min},y_3=y_4=y_{max}$ 亲怠。在R-CNN程序中，每個RoI都附加有一個ground truth定向邊界框?qū)懽? $G =\{(g_{xi}, g_{yi}),i=1,2,3,4\}$ 柠辞，然后R-CNN的輸出目標 $T=\{(t_{xi},t_{yi}),i=1,2,3,4\}$ 由以下等式計算:
$t_{xi}=(g_{xi}? xi)/w, (1)$
$tyi= (g_{yi}? yi)/h, (2)$
其中 $i=1,2,3,4,w= x_{max}?x_{min},h=y_{max}?y_{min}$ 团秽。
??其他配置和超參數(shù)設(shè)置保持與Faster R-CNN中所述相同。數(shù)值結(jié)果顯示在表5中叭首。為了與我們?yōu)镺BB實施的Faster R-CNN進行比較习勤，我們評估了OBB地面實況在HBB上訓(xùn)練的YOLO V2，R-FCN焙格，SSD和Faster R-CNN图毕。如表5所示，在HBB上訓(xùn)練的那些方法的結(jié)果比在OBB上訓(xùn)練的Faster R-CNN的結(jié)果低得多眷唉，這表明對于空中場景中的定向目標檢測予颤，相應(yīng)地調(diào)整這些方法可能會得到更好的結(jié)果。

5.5 實驗分析

??當(dāng)我們分析表4中呈現(xiàn)的數(shù)據(jù)結(jié)果時冬阳，小型汽車蛤虐，大型汽車，船只的分類結(jié)果不盡人意肝陪，因為它們的尺寸較小驳庭，并且在航拍圖像中位置十分密集。然而大型的離散物體如飛機见坑，游泳池嚷掠、網(wǎng)球場等，表現(xiàn)出的效果較好荞驴。
??在圖6中我們比較了HBB和OBB兩種檢測方式的結(jié)果不皆。在圖6(a)和6(b)中表示的緊密圖像中，HBB實驗的定位精度要比OBB實驗差的多熊楼，并且許多結(jié)果受到先前工作的限制霹娄。所以O(shè)BB回歸是定向物體檢測的一個正確方式，并且可以被真正在實際中應(yīng)用鲫骗。在圖6(c)中犬耻，使用OBB來標注縱橫比較大的物體（比如橋和海港），對于現(xiàn)在的檢測器來說很難做回歸执泰。但是在HBB方法中枕磁，這些物體通常有著較為普通的縱橫比，因此結(jié)果如圖6(d)看起來比OBB好很多术吝。但是在一些極度擁擠的場景下计济，比如圖6(e)和6(f)茸苇，HBB和OBB的結(jié)果并不盡如人意，表明了現(xiàn)階段檢測器具有一定的缺陷沦寂。

圖6：使用訓(xùn)練有素的Faster R-CNN在DOTA上進行測試的可視化結(jié)果学密。TOP和Bottom分別說明了大縱橫比和密度情況下HBB和OBB的結(jié)果。

6. 數(shù)據(jù)集交叉驗證

??交叉數(shù)據(jù)集驗證是數(shù)據(jù)集泛化能力的一個評價方式传藏。我們選擇UCAS-AOD數(shù)據(jù)集來做交叉數(shù)據(jù)集泛化腻暮，因為它與其他航空物體檢測數(shù)據(jù)集相比有著更大的數(shù)據(jù)量。因為沒有UCAS-AOD數(shù)據(jù)集的官方劃分方式毯侦，于是我們隨機選擇1110個進行訓(xùn)練和400個進行測試哭靖。選擇YOLO V2作為所有測試實驗的檢測器，并且將所有的ground truth使用HBB標注叫惊。將UCAS-AOD數(shù)據(jù)集中原始圖片大小改為960*544作為輸入的圖片大小款青，其余的配置不改變。
??結(jié)果顯示在表6中霍狰，對于YOLOv2-A模型而言兩個數(shù)據(jù)集之間的性能差異分別為35.8和15.6抡草。這表明DOTA極大地覆蓋了UCAS-AOD，并且具有更多的模式和特性蔗坯，而UCAS-AOD則不具備這種特性康震。兩種模型在DOTA上的結(jié)果都很低，這表明DOTA更具挑戰(zhàn)性宾濒。

表6：交叉數(shù)據(jù)集泛化的結(jié)果腿短。上半部分：在UCAS-AOD數(shù)據(jù)集上評估檢測性能下半部分：在DOTA上評估檢測性能。 YOLOv2-A和YOLOv2-D都是分別被UCAS-AOD和DOTA訓(xùn)練集訓(xùn)練的绘梦。

7. 結(jié)論

??我們建立了一個大型數(shù)據(jù)集橘忱，用于航拍圖像中進行定向物體檢測，這個數(shù)據(jù)集比這個領(lǐng)域中所有現(xiàn)有的數(shù)據(jù)集都要大卸奉。與一般對象檢測基準相反钝诚，我們使用定向邊界框標注大量分布良好的定向物體。我們猜測這個數(shù)據(jù)集是具有挑戰(zhàn)性的榄棵，并且非常類似于自然的航拍場景凝颇，更適合實際應(yīng)用。我們還為航拍圖像物體檢測建立了基準疹鳄，并展示了通過修改主流檢測算法生成定向邊界框的可行性拧略。
??這個數(shù)據(jù)集在大圖片中檢測密集排列的小實例和具有任意方向的超大實例都將特別有意義且具有挑戰(zhàn)性。我們相信DOTA不僅會推動Earth Vision中物體檢測算法的發(fā)展瘪弓，而且還會對計算機視覺中的一般物體檢測提出有趣的問題垫蛆。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子月褥，更是在濱河造成了極大的恐慌弛随，老刑警劉巖，帶你破解...
沈念sama閱讀 218,451評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件宁赤，死亡現(xiàn)場離奇詭異，居然都是意外死亡栓票，警方通過查閱死者的電腦和手機决左，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,172評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來走贪，“玉大人佛猛，你說我怎么就攤上這事∽菇疲” “怎么了继找？”我有些...
開封第一講書人閱讀 164,782評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長逃沿。經(jīng)常有香客問我婴渡，道長，這世上最難降的妖魔是什么凯亮？我笑而不...
開封第一講書人閱讀 58,709評論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任边臼，我火速辦了婚禮，結(jié)果婚禮上假消，老公的妹妹穿的比我還像新娘柠并。我一直安慰自己，他們只是感情好富拗，可當(dāng)我...
茶點故事閱讀 67,733評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布臼予。她就那樣靜靜地躺著，像睡著了一般啃沪。火紅的嫁衣襯著肌膚如雪粘拾。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,578評論 1贊 305
城市分裂傳說
那天谅阿，我揣著相機與錄音半哟，去河邊找鬼。笑死签餐，一個胖子當(dāng)著我的面吹牛寓涨，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播氯檐，決...
沈念sama閱讀 40,320評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼戒良，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了冠摄？” 一聲冷哼從身側(cè)響起糯崎，我...
開封第一講書人閱讀 39,241評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤几缭，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后沃呢，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體年栓，經(jīng)...
沈念sama閱讀 45,686評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,878評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年薄霜，在試婚紗的時候發(fā)現(xiàn)自己被綠了某抓。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,992評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡惰瓜，死狀恐怖否副，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情崎坊，我是刑警寧澤备禀，帶...
沈念sama閱讀 35,715評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站奈揍，受9級特大地震影響曲尸，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜打月，卻給世界環(huán)境...
茶點故事閱讀 41,336評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一队腐、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧奏篙，春花似錦柴淘、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,912評論 0贊 22
一樁弒父案为严，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至肺稀，卻和暖如春第股，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背话原。一陣腳步聲響...
開封第一講書人閱讀 33,040評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工夕吻，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人繁仁。一個月前我還...
沈念sama閱讀 48,173評論 3贊 370
代替公主和親
正文我出身青樓涉馅，卻偏偏與公主長得像，于是被迫代替她去往敵國和親黄虱。傳聞我的和親對象是個殘疾皇子稚矿，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,947評論 2贊 355