1 寫在前面
論文解讀系列斷更很久了,感覺自己還是挺喜歡文字的,這次先從介紹我們自己發(fā)表在ECCV24工作開始恢復一下~
主要信息
- 文章:https://arxiv.org/pdf/2402.03094
- 任務:跨域小樣本物體檢測(Cross-Domain Few-Shot Object Detection曹傀,簡稱CD-FSOD)
- 標題:Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector
這篇文章主要是針對目前大多數跨域小樣本學習方法均集中于研究分類任務而忽略了目標檢測呵扛,因而提出了研究跨域小樣本物體檢測任務唆姐, 文章中提出了一個用于算法評測的CD-FSOD數據集及用于衡量領域差異的style、ICV陷寝、IB數據集指標,對現有目標檢測算法進行了廣泛實驗評估其馏,以及基于優(yōu)化一個在經典FSOD上達到SOTA的開放域物體檢測器得到的CD-ViTO新方法凤跑。
2 Motivation
首先介紹一個跨域小樣本學習任務(Cross-Domain Few-Shot Learning,CD-FSL)叛复, CD-FSL解決的是源域與目標域存在領域差異情況下的小樣本學習任務仔引,即集合了小樣本學習與跨域兩個任務的難點問題:1)源域S與目標域T類別集合完全不同鹏控,且目標域T中的類別僅存在少量標注樣本,例如1shot肤寝,5shot当辐;2)S與T屬于兩個不同領域,例如從自然圖像遷移到醫(yī)療圖像鲤看。
大多數的現有方法均集中于研究分類問題缘揪,即Cross-Domain Few-Shot Classification, 但是同樣很重要的物體檢測任務(Object Detection义桂,OD)卻很少被研究找筝,這促使了我們想要探究OD問題在跨域小樣本的情況下是否也會遭遇挑戰(zhàn),以及是否會存在跟分類任務表現出不同的特性慷吊。
與CD-FSL是FSL在跨域下的分支類似袖裕,跨域小樣本物體檢測(Cross-Domain Few-Shot Object Detection,CD-FSOD)同樣也可以堪稱是FSOD在跨域下的分支任務溉瓶,所以我們先從經典的FSOD開始分析: 大多數的FSOD方法都可以被粗略地劃分為1)meta-learning based急鳄,典型方法包括Meta-RCNN;2)finetuning based堰酿,例如TFA疾宏,FSCE施绎,DeFRCN壮啊,然而近期一個名為DE-ViT的開放域方法通過基于DINOv2構建物體檢測器同時在FSOD以及開放域物體檢測(OVD)上都達到了SOTA的效果,性能明顯高于其他的FSOD方法能颁,因此這引發(fā)了我們思考:
1. 現有的FSOD方法哼绑,尤其是SOTA的DE-ViT open-set detector能不能在跨域的情況下仍表現優(yōu)異岩馍?
2. 如果不能,什么是難點問題抖韩,以及我們是否有辦法能夠提升open-set detector的性能蛀恩?
我們先用以下的圖來揭示一下兩個問題的答案:
- 左圖: 哪怕是SOTA的open-set detector DE-ViT (綠色星形) 在跨域泛化的情況下性能也會出現急劇下降;
- 左圖: 我們基于DE-ViT搭建的CD-ViTO方法 (橙色星形) 能夠使原本性能下降的模型得以進一步提升帽蝶。
- 右圖:相比于in-domain的小樣本物體檢測赦肋,跨域小樣本物體檢測通常會面臨三個問題:1)目標域T的類間距離(ICV)通常較少;2)目標域的圖像可能會出現前景與背景邊界模糊(Indifinable Boundary励稳,IB)佃乘;3)目標域T得圖像相交于源域S而言視覺風格(style)發(fā)生變化。
ICV驹尼、IB趣避、Style也成為了我們用于衡量不同數據集在跨域下的特性。
3 Contribution
首先總結一下我們在解答兩個問題的過程中的主要工作及貢獻:
3.1 benchmark, metrics, and extensive study:
為了回答問題1新翎,即研究現有的物體檢測器能不能泛化至跨域小樣本物體檢測任務中程帕,
- 我們研究了CD-FSOD任務下的三個影響跨域的數據集特性:Style, ICV, IB住练;
- 我們提出了一個CD-FSOD算法評測數據集,該數據集包含多樣的style愁拭,ICV讲逛,IB;
- 我們對現有物體檢測器進行了廣泛研究岭埠,揭示了 CD-FSOD 帶來的挑戰(zhàn)盏混。
3.2 new CD-ViTO method:
為了回答問題2,即進一步提升基礎DE-ViT在CD-FSOD下的性能惜论,我們提出了一個新的CD-ViTO方法许赃,該方法提出三個新的模塊以解決跨域下的small ICV, indefinable boundary, 以及changing styles問題。
- Learnable Instance Features:通過將初始固定的圖像特征與目標類別之間進行對齊馆类,通過增強特征可分辨程度來解決目標域ICV距離小的問題 混聊。
- Instance Reweighting Module: 通過給不同的圖像設置不同的權重,使得嚴具有輕微 IB 的高質量實例分配更高的重要性乾巧,從而緩解顯著的 IB 問題句喜;
- Domain Prompter: 通過合成虛擬領域而不改變語義內容來鼓勵模型提升對不同style的魯棒性。
4 CD-FSOD數據集 & Extensive Study
4.1 CD-FSOD數據集
如下圖所示為我們構建的CD-FSOD數據集卧抗,該數據集以MS-COCO作為源域S藤滥,以ArTaxOr、Clipart1K社裆,DIOR,DeepFish向图,NEU-DET泳秀,UODD作為六個不同的目標域T;
我們也分析并在圖中標注了每個數據集的Style榄攀,ICV嗜傅,IB特征,每個數據與數據之間也展現了不同的數據集特性檩赢。
所有的數據集都整理成了統(tǒng)一的格式吕嘀,并提供1shot、5shot贞瞒、10shot用于模型測評偶房。
數據集更多的介紹,比如數據類別數军浆,樣本數等可以在論文中找到細節(jié)棕洋。
4.2 Extensive Study
我們對現有的四類目標檢測器進行了實驗,包括:
1) 典型的FSOD方法: Meta-RCNN乒融、TFA掰盘、FSCE摄悯、DeFRCN
2) 現有的CD-FSOD方法: Distill-cdfsod
3) 基于ViT的方法:ViTDeT-FT
4) 開放域方法: Detic(-FT), DE-ViT(-FT) (其中DE-ViT是僅依靠視覺信息愧捕,Deti則依賴視覺-文本相似性)
其中“-FT”表示我們用目標域T的少量樣本對方法進行了微調奢驯。
我們結合實驗結果對這個任務以及相關方法展開了詳細的分析,主要有以下這幾點結論:
- 現有FSOD方法可以泛化到跨域問題嗎次绘? A:不能
- 基于ViT的方法會比基于ResNet的方法好嗎叨橱?A:看情況
- 開放域方法能夠直接用于應對CD-FSOD問題?A:不能
- 開放域方法的性能可以進一步得到提升嗎断盛?A:可以
- 不同的開放域方法是否呈現不同的特性罗洗? A:是的
- Style,ICV钢猛,IB是如何影響domain gap的伙菜?A:在分類里影響巨大的style對于OD任務而言影響相對較少;ICV有較大影響但是可以被有效緩解命迈;IB是這三者中最具挑戰(zhàn)的贩绕。
(詳細的分析就不在這里展開了,感興趣的朋友可以去看看文章
5 CD-ViTO 方法 & 主要實驗
我們方法的整體框架結構圖如下所示:
整體來看壶愤,我們的方法是基于DE-ViT搭建的(圖中藍色塊)淑倾, 我們首先將DE-ViT方法簡化為圖中所示的幾個模塊主要包括Pretrained DINOv2 ViT, RPN征椒,ROI Align娇哆, Instance Features, Dection Head勃救,One-vs-Rest Classification Head碍讨。DE-ViT的核心想法是利用DINOv2提取出來的視覺特征對query image boxes與support images中所構建出來的類別prototypes進行比較,從來進行分類和定位蒙秒。
基于DE-ViT方法勃黍,我們提出了三個新的模塊(圖中黃色塊)以及finetune(圖中火苗)以搭建我們的CD-ViTO。如contribution章節(jié)所描述晕讲,每個模塊都各自對應解決CD-FSOD下存在的一個挑戰(zhàn)覆获。
5.1 Learnable Instance Features
原本的DE-ViT首先利用DINOv2獲取instance features,然后簡單對同類特征求和的方式得到support的class prototypes瓢省。 然而在面對目標域類別之間可能很相似的情況弄息,直接使用這種預訓練的模型所提取出的特征會導致難以區(qū)分不同類別。
因此我們提出將原本固定的特征設置為可學習參數净捅,并通過結合finetune方法將其顯式地映射到目標域類別中疑枯,以此增加不同類之間的特征差異程度,緩解ICV問題蛔六。
我們對比了使用該模塊前后的類間cosine相似性荆永,結果說明我們的模塊可以降低類間相似度废亭,從而提升ICV。
5.2 Instance Reweighting Module
圖像模糊邊界的問題本身很難得到解決具钥,這個模塊的主要想法是通過學習可調整的權重給不同質量的樣本賦不同的權重豆村,使得嚴重IB的圖像被抑制,沒有或者輕微IB地圖像被鼓勵骂删。
模塊的設計如框架圖右上所示掌动,主要包含一個可學習的MLP。同樣的宁玫,我們也對該模塊做了可視化分析粗恢,我們按照所分配到的權重從高到低給圖像排序,得到如下結果欧瘪。從圖中可見眷射,前后景邊緣模糊的圖像得到的權重要低于邊緣清晰的圖像。
5.3 Domain Prompter
Domain Prompter的設計主要是希望方法能夠對不同的domain魯棒佛掖,如框架圖右下所示妖碉,在原有object prototype的基礎上,我們額外引入數量為維度為D(等于prototype維度)的虛擬domains變量作為可學習參數芥被。 通過學習和利用這些domains欧宜,我們希望最終達到:
1) 不同domain之間相互遠離,增加多樣性 (domain diversity loss)
2) 添加不同domain至同一類別prototype所生成得到的兩個變種仍為正樣本拴魄,添加不同domain至不同類別prototype生成得到的兩個變種為負樣本 (prototype consistency loss)
兩個loss與finetuning所產生的loss疊加使用進行網絡的整體訓練冗茸。
Finetuning:
作為簡單但有效的遷移學習方法,我們也采用了在目標域T上對模型進行微調的思路羹铅,文章附錄部分有提供不同finetune策略的不同性能表現蚀狰,我們主方法里采用的是僅微調兩個頭部。
5.4 主要實驗
我們在1/5/10shot上與其他方法進行了對比實驗职员,實驗說明經過優(yōu)化后的CD-ViTO方法在大多數情況下都優(yōu)于其他的對比方法,達到了對基本DE-ViT的有效提升跛溉,構建了這個任務的新SOTA焊切。
6 寫在最后
陸陸續(xù)續(xù)終于寫完了,博客盡量覆蓋了文章的主要內容芳室,但還是會有覆蓋不到的地方专肪,對我們這個工作感興趣的朋友們歡迎后續(xù)通過郵件等方式聯系。
這篇文章里的所有數據集堪侯、代碼嚎尤、以及相關資源都已開源:
- code:https://github.com/lovelyqian/CDFSOD-benchmark
- project page:http://yuqianfu.com/CDFSOD-benchmark/
- 中文講解視頻: https://www.bilibili.com/video/BV11etbenET7/?spm_id_from=333.999.0.0
- 英文講解視頻:https://www.bilibili.com/video/BV17v4UetEdF/?vd_source=668a0bb77d7d7b855bde68ecea1232e7#reply113142138936707
最后感謝大家關注。