論文｜ ECCV24: Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector

1 寫在前面

論文解讀系列斷更很久了，感覺自己還是挺喜歡文字的，這次先從介紹我們自己發(fā)表在ECCV24工作開始恢復一下～

主要信息

文章：https://arxiv.org/pdf/2402.03094
任務：跨域小樣本物體檢測（Cross-Domain Few-Shot Object Detection曹傀，簡稱CD-FSOD）
標題：Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector

這篇文章主要是針對目前大多數跨域小樣本學習方法均集中于研究分類任務而忽略了目標檢測呵扛，因而提出了研究跨域小樣本物體檢測任務唆姐，文章中提出了一個用于算法評測的CD-FSOD數據集及用于衡量領域差異的style、ICV陷寝、IB數據集指標，對現有目標檢測算法進行了廣泛實驗評估其馏，以及基于優(yōu)化一個在經典FSOD上達到SOTA的開放域物體檢測器得到的CD-ViTO新方法凤跑。

2 Motivation

首先介紹一個跨域小樣本學習任務（Cross-Domain Few-Shot Learning，CD-FSL）叛复， CD-FSL解決的是源域與目標域存在領域差異情況下的小樣本學習任務仔引，即集合了小樣本學習與跨域兩個任務的難點問題：1）源域S與目標域T類別集合完全不同鹏控，且目標域T中的類別僅存在少量標注樣本，例如1shot肤寝，5shot当辐；2）S與T屬于兩個不同領域，例如從自然圖像遷移到醫(yī)療圖像鲤看。

大多數的現有方法均集中于研究分類問題缘揪，即Cross-Domain Few-Shot Classification，但是同樣很重要的物體檢測任務（Object Detection义桂，OD）卻很少被研究找筝，這促使了我們想要探究OD問題在跨域小樣本的情況下是否也會遭遇挑戰(zhàn)，以及是否會存在跟分類任務表現出不同的特性慷吊。

與CD-FSL是FSL在跨域下的分支類似袖裕，跨域小樣本物體檢測（Cross-Domain Few-Shot Object Detection，CD-FSOD）同樣也可以堪稱是FSOD在跨域下的分支任務溉瓶，所以我們先從經典的FSOD開始分析：大多數的FSOD方法都可以被粗略地劃分為1）meta-learning based急鳄，典型方法包括Meta-RCNN；2）finetuning based堰酿，例如TFA疾宏，FSCE施绎，DeFRCN壮啊，然而近期一個名為DE-ViT的開放域方法通過基于DINOv2構建物體檢測器同時在FSOD以及開放域物體檢測（OVD）上都達到了SOTA的效果，性能明顯高于其他的FSOD方法能颁，因此這引發(fā)了我們思考：

1. 現有的FSOD方法哼绑，尤其是SOTA的DE-ViT open-set detector能不能在跨域的情況下仍表現優(yōu)異岩馍？
2. 如果不能，什么是難點問題抖韩，以及我們是否有辦法能夠提升open-set detector的性能蛀恩？

我們先用以下的圖來揭示一下兩個問題的答案：

左圖： 哪怕是SOTA的open-set detector DE-ViT (綠色星形) 在跨域泛化的情況下性能也會出現急劇下降；
左圖： 我們基于DE-ViT搭建的CD-ViTO方法 (橙色星形) 能夠使原本性能下降的模型得以進一步提升帽蝶。
右圖：相比于in-domain的小樣本物體檢測赦肋，跨域小樣本物體檢測通常會面臨三個問題：1）目標域T的類間距離（ICV）通常較少；2）目標域的圖像可能會出現前景與背景邊界模糊（Indifinable Boundary励稳，IB）佃乘；3）目標域T得圖像相交于源域S而言視覺風格（style）發(fā)生變化。

ICV驹尼、IB趣避、Style也成為了我們用于衡量不同數據集在跨域下的特性。

3 Contribution

首先總結一下我們在解答兩個問題的過程中的主要工作及貢獻：

3.1 benchmark, metrics, and extensive study：

為了回答問題1新翎，即研究現有的物體檢測器能不能泛化至跨域小樣本物體檢測任務中程帕，

我們研究了CD-FSOD任務下的三個影響跨域的數據集特性：Style, ICV, IB住练；
我們提出了一個CD-FSOD算法評測數據集，該數據集包含多樣的style愁拭，ICV讲逛，IB；
我們對現有物體檢測器進行了廣泛研究岭埠，揭示了 CD-FSOD 帶來的挑戰(zhàn)盏混。

3.2 new CD-ViTO method:

為了回答問題2，即進一步提升基礎DE-ViT在CD-FSOD下的性能惜论，我們提出了一個新的CD-ViTO方法许赃，該方法提出三個新的模塊以解決跨域下的small ICV, indefinable boundary, 以及changing styles問題。

Learnable Instance Features:通過將初始固定的圖像特征與目標類別之間進行對齊馆类，通過增強特征可分辨程度來解決目標域ICV距離小的問題混聊。
Instance Reweighting Module: 通過給不同的圖像設置不同的權重，使得嚴具有輕微 IB 的高質量實例分配更高的重要性乾巧，從而緩解顯著的 IB 問題句喜；
Domain Prompter： 通過合成虛擬領域而不改變語義內容來鼓勵模型提升對不同style的魯棒性。

4 CD-FSOD數據集 & Extensive Study

4.1 CD-FSOD數據集

如下圖所示為我們構建的CD-FSOD數據集卧抗，該數據集以MS-COCO作為源域S藤滥，以ArTaxOr、Clipart1K社裆，DIOR，DeepFish向图，NEU-DET泳秀，UODD作為六個不同的目標域T；

我們也分析并在圖中標注了每個數據集的Style榄攀，ICV嗜傅，IB特征，每個數據與數據之間也展現了不同的數據集特性檩赢。

所有的數據集都整理成了統(tǒng)一的格式吕嘀，并提供1shot、5shot贞瞒、10shot用于模型測評偶房。

數據集更多的介紹，比如數據類別數军浆，樣本數等可以在論文中找到細節(jié)棕洋。

4.2 Extensive Study

我們對現有的四類目標檢測器進行了實驗，包括：
1） 典型的FSOD方法： Meta-RCNN乒融、TFA掰盘、FSCE摄悯、DeFRCN
2） 現有的CD-FSOD方法： Distill-cdfsod
3） 基于ViT的方法：ViTDeT-FT
4） 開放域方法： Detic（-FT）， DE-ViT（-FT） (其中DE-ViT是僅依靠視覺信息愧捕，Deti則依賴視覺-文本相似性）

其中“-FT”表示我們用目標域T的少量樣本對方法進行了微調奢驯。

我們結合實驗結果對這個任務以及相關方法展開了詳細的分析，主要有以下這幾點結論：

現有FSOD方法可以泛化到跨域問題嗎次绘？ A：不能
基于ViT的方法會比基于ResNet的方法好嗎叨橱？A：看情況
開放域方法能夠直接用于應對CD-FSOD問題？A：不能
開放域方法的性能可以進一步得到提升嗎断盛？A：可以
不同的開放域方法是否呈現不同的特性罗洗？ A：是的
Style，ICV钢猛，IB是如何影響domain gap的伙菜？A：在分類里影響巨大的style對于OD任務而言影響相對較少；ICV有較大影響但是可以被有效緩解命迈；IB是這三者中最具挑戰(zhàn)的贩绕。

（詳細的分析就不在這里展開了，感興趣的朋友可以去看看文章

5 CD-ViTO 方法 & 主要實驗

我們方法的整體框架結構圖如下所示：

整體來看壶愤，我們的方法是基于DE-ViT搭建的（圖中藍色塊）淑倾，我們首先將DE-ViT方法簡化為圖中所示的幾個模塊主要包括Pretrained DINOv2 ViT， RPN征椒，ROI Align娇哆， Instance Features， Dection Head勃救，One-vs-Rest Classification Head碍讨。DE-ViT的核心想法是利用DINOv2提取出來的視覺特征對query image boxes與support images中所構建出來的類別prototypes進行比較，從來進行分類和定位蒙秒。

基于DE-ViT方法勃黍，我們提出了三個新的模塊（圖中黃色塊）以及finetune（圖中火苗）以搭建我們的CD-ViTO。如contribution章節(jié)所描述晕讲，每個模塊都各自對應解決CD-FSOD下存在的一個挑戰(zhàn)覆获。

5.1 Learnable Instance Features

原本的DE-ViT首先利用DINOv2獲取instance features，然后簡單對同類特征求和的方式得到support的class prototypes瓢省。然而在面對目標域類別之間可能很相似的情況弄息，直接使用這種預訓練的模型所提取出的特征會導致難以區(qū)分不同類別。

因此我們提出將原本固定的特征設置為可學習參數净捅，并通過結合finetune方法將其顯式地映射到目標域類別中疑枯，以此增加不同類之間的特征差異程度，緩解ICV問題蛔六。

我們對比了使用該模塊前后的類間cosine相似性荆永，結果說明我們的模塊可以降低類間相似度废亭，從而提升ICV。

5.2 Instance Reweighting Module

圖像模糊邊界的問題本身很難得到解決具钥，這個模塊的主要想法是通過學習可調整的權重給不同質量的樣本賦不同的權重豆村，使得嚴重IB的圖像被抑制，沒有或者輕微IB地圖像被鼓勵骂删。

模塊的設計如框架圖右上所示掌动，主要包含一個可學習的MLP。同樣的宁玫，我們也對該模塊做了可視化分析粗恢，我們按照所分配到的權重從高到低給圖像排序，得到如下結果欧瘪。從圖中可見眷射，前后景邊緣模糊的圖像得到的權重要低于邊緣清晰的圖像。

5.3 Domain Prompter

Domain Prompter的設計主要是希望方法能夠對不同的domain魯棒佛掖，如框架圖右下所示妖碉，在原有object prototype的基礎上，我們額外引入數量為 $N_{dom}$ 維度為D（等于prototype維度）的虛擬domains變量作為可學習參數芥被。通過學習和利用這些domains欧宜，我們希望最終達到：
1） 不同domain之間相互遠離，增加多樣性 （domain diversity loss）
2） 添加不同domain至同一類別prototype所生成得到的兩個變種仍為正樣本拴魄，添加不同domain至不同類別prototype生成得到的兩個變種為負樣本 （prototype consistency loss）

兩個loss與finetuning所產生的loss疊加使用進行網絡的整體訓練冗茸。

Finetuning：
作為簡單但有效的遷移學習方法，我們也采用了在目標域T上對模型進行微調的思路羹铅，文章附錄部分有提供不同finetune策略的不同性能表現蚀狰，我們主方法里采用的是僅微調兩個頭部。

5.4 主要實驗

我們在1/5/10shot上與其他方法進行了對比實驗职员，實驗說明經過優(yōu)化后的CD-ViTO方法在大多數情況下都優(yōu)于其他的對比方法，達到了對基本DE-ViT的有效提升跛溉，構建了這個任務的新SOTA焊切。

6 寫在最后

陸陸續(xù)續(xù)終于寫完了，博客盡量覆蓋了文章的主要內容芳室，但還是會有覆蓋不到的地方专肪，對我們這個工作感興趣的朋友們歡迎后續(xù)通過郵件等方式聯系。

這篇文章里的所有數據集堪侯、代碼嚎尤、以及相關資源都已開源：

code：https://github.com/lovelyqian/CDFSOD-benchmark
project page：http://yuqianfu.com/CDFSOD-benchmark/
中文講解視頻： https://www.bilibili.com/video/BV11etbenET7/?spm_id_from=333.999.0.0
英文講解視頻：https://www.bilibili.com/video/BV17v4UetEdF/?vd_source=668a0bb77d7d7b855bde68ecea1232e7#reply113142138936707

最后感謝大家關注。

最后編輯于：2024.09.27 18:48:56

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末伍宦，一起剝皮案震驚了整個濱河市芽死，隨后出現的幾起案子乏梁，更是在濱河造成了極大的恐慌，老刑警劉巖关贵，帶你破解...
沈念sama閱讀 206,126評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件遇骑，死亡現場離奇詭異，居然都是意外死亡揖曾，警方通過查閱死者的電腦和手機落萎，發(fā)現死者居然都...
沈念sama閱讀 88,254評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來炭剪，“玉大人练链，你說我怎么就攤上這事∨梗” “怎么了媒鼓？”我有些...
開封第一講書人閱讀 152,445評論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長粱坤。經常有香客問我隶糕，道長，這世上最難降的妖魔是什么站玄？我笑而不...
開封第一講書人閱讀 55,185評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任枚驻，我火速辦了婚禮，結果婚禮上株旷，老公的妹妹穿的比我還像新娘再登。我一直安慰自己，他們只是感情好晾剖，可當我...
茶點故事閱讀 64,178評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布锉矢。她就那樣靜靜地躺著，像睡著了一般齿尽。火紅的嫁衣襯著肌膚如雪沽损。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 48,970評論 1贊 284
城市分裂傳說
那天循头，我揣著相機與錄音绵估，去河邊找鬼。笑死卡骂，一個胖子當著我的面吹牛国裳，可吹牛的內容都是我干的。我是一名探鬼主播全跨，決...
沈念sama閱讀 38,276評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼缝左，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起渺杉，我...
開封第一講書人閱讀 36,927評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤蛇数，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后少办，有當地人在樹林里發(fā)現了一具尸體苞慢，經...
沈念sama閱讀 43,400評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 35,883評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年英妓，在試婚紗的時候發(fā)現自己被綠了挽放。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 37,997評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡蔓纠，死狀恐怖辑畦，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情腿倚，我是刑警寧澤纯出，帶...
沈念sama閱讀 33,646評論 4贊 322
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站敷燎，受9級特大地震影響暂筝，放射性物質發(fā)生泄漏。R本人自食惡果不足惜硬贯，卻給世界環(huán)境...
茶點故事閱讀 39,213評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一焕襟、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧饭豹，春花似錦鸵赖、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評論 0贊 19
一樁弒父案它褪，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至翘悉，卻和暖如春茫打，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背妖混。一陣腳步聲響...
開封第一講書人閱讀 31,423評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工包吝，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人源葫。一個月前我還...
沈念sama閱讀 45,423評論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長得像砖瞧，于是被迫代替她去往敵國和親息堂。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 42,722評論 2贊 345

論文 ｜ ECCV24: Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector