論文鏈接:http://export.arxiv.org/pdf/2307.12612
代碼鏈接:https://github.com/huawei-noah/noah-research
1.動機
本文主要針對的是DETR類方法過高的計算復(fù)雜度問題鸳吸,具體而言是encoder中所有的位置都作為key帶來的高計算代價。針對該問題倦卖,目前已經(jīng)有像sparse detr一類的方法纹磺,通過不同的稀疏策略選擇小部分更具有信息量的token參與計算,從而降低計算復(fù)雜度鸟辅。但作者認為這類方法過于依賴不可靠的模型統(tǒng)計結(jié)果,且簡單的減少token的數(shù)目會很大程度影響檢測的精度横浑。
這么評價sparse detr 是否有失偏頗呢剔桨?
sparse detr
Sparse detr的動機是注意到在deformable detr方法中,即使encoder中只有部分token被更新徙融,也不會導(dǎo)致指標出現(xiàn)明顯掉點,因此sparse detr選擇在encoder中只更新那些在decoder中更可能被訪問到的token瑰谜,從而降低計算量欺冀。
Sparse detr的結(jié)構(gòu)如下:
從sparse detr的結(jié)構(gòu)上來看树绩,scoring network的監(jiān)督gt來自于decoder輸出,雖然保證了和最終decoder的顯式關(guān)聯(lián)隐轩,但在訓(xùn)練初期沒有收斂的情況下確實會出現(xiàn)DAM不穩(wěn)定的情況饺饭。
2. 方法
針對于sparse detr scoring network 監(jiān)督不夠穩(wěn)定的問題,自然而然的選擇了更直接的gt方式职车,其結(jié)構(gòu)如下:
其中top-down score modulation瘫俊,是利用高語義層提供區(qū)域權(quán)重輔助低語義層更好的區(qū)分前背景。該模塊根據(jù)尺度信息將gt分配給不同層的token監(jiān)督悴灵。
除此之外扛芽,作者還在encoder中額外引入了一個類別置信度預(yù)測模塊,其動機是認為細粒度的類別信息能夠進一步篩選更強的細粒度token积瞒。(這部分好像沒有監(jiān)督)
整個encoder的計算流程如下, 監(jiān)督loss右圖所示川尖,這里使用了denoising loss,文中沒有提到這部分茫孔,應(yīng)該和dino類似的方式叮喳,作用在decoder中。
關(guān)于計算復(fù)雜度分析有點亂缰贝,主要結(jié)論就是說 細粒度token增強過程引入的額外計算開銷微乎其微馍悟。
3. 結(jié)果
3.1 訓(xùn)練
ImageNet 上預(yù)訓(xùn)練的ResNet-50作為backbone
AdamW 優(yōu)化器,backbone 初始學習率1e-5, transformer 學習率1e-4剩晴, wd 1e-4. bs=16
3.2 消融實驗
Foreground token selection過程锣咒,監(jiān)督提升1個點,自頂向下置信度調(diào)制能再增加0.4個點
Cascade 表示encoder layer 送進去的fore ground逐層遞減李破,目的是在開始的時候可以有更大的容錯率宠哄;
作者認為dual attention能引入語義信息?
還對比了foreground token 的裁剪率的影響嗤攻,從實驗選擇的參數(shù)來看毛嫉,保留的越多整體指標越高
3.3 對比實驗
-
思考
- 這一系列其實還是在強化顯著特征,通過encoder中不斷更新decoder ref_pts需要訪問的區(qū)域妇菱,使模型模型更好承粤,在e2e 中因為ref_pts 是由第一階段確定的,其實可以類似的強化ref_pts 周圍特征的鑒別性闯团。