<p>
</p><p>
</p><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-873733f890606a75.jpeg" img-data="{"format":"jpeg","size":80477,"height":668,"width":982}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div><p>
</p><h1><span style="font-size:16px">本篇分享 ECCV 2022 論文</span><span style="font-size:16px"><strong>『OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers』</strong></span><span style="font-size:16px">渤昌,華科Ð提出首個(gè)用于偽裝實(shí)例分割的一階段Transformer的框架OSFormer!代碼已開(kāi)源传透!</span></h1><span style="font-size:16px">
</span><p><span style="font-size:16px">詳細(xì)信息如下:
</span></p><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-b2a55550673cf4a6.jpeg" img-data="{"format":"jpeg","size":65905,"height":441,"width":1080}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div><p>
</p><ol><li><p style="text-indent:0px"><span style="font-size:15px">論文地址:https://arxiv.org/abs/2207.02255[1]</span></p></li><li><p style="text-indent:0px"><span style="font-size:15px">代碼地址:https://github.com/PJLallen/OSFormer[2]</span></p></li></ol><h1>
</h1>
<p><span><strong> </strong></span><span style="font-size:19px"><strong>01 </strong></span><span><strong> </strong></span></p><strong><span style="font-size:18px">摘要</span></strong><span style="font-size:16px">
</span><span style="font-size:16px">在本文中耘沼,作者提出了OSFormer,這是第一個(gè)用于偽裝實(shí)例分割(CIS)的一階段Transformer框架朱盐。OSFormer基于兩個(gè)關(guān)鍵設(shè)計(jì)群嗤。</span><span style="font-size:16px">
</span><span style="font-size:16px">首先,通過(guò)引入位置引導(dǎo)查詢和混合卷積前饋網(wǎng)絡(luò)兵琳,作者設(shè)計(jì)了一個(gè)</span><span style="font-size:16px"><strong>位置感知Transformer(LST)</strong></span><span style="font-size:16px">來(lái)獲取位置標(biāo)簽和實(shí)例感知參數(shù)狂秘。</span>
<span style="font-size:16px">其次,作者開(kāi)發(fā)了一種</span><span style="font-size:16px"><strong>從粗到精的融合(CFF)</strong></span><span style="font-size:16px">躯肌,以合并來(lái)自LST編碼器和CNN主干的不同上下文信息者春。耦合這兩個(gè)組件使OSFormer能夠有效地混合局部特征和長(zhǎng)期上下文依賴,以預(yù)測(cè)偽裝實(shí)例清女。</span><span style="font-size:16px">
與兩階段框架相比钱烟,本文的OSFormer在不需要大量訓(xùn)練數(shù)據(jù)的情況下達(dá)到了41%的AP,并實(shí)現(xiàn)了良好的收斂效率。</span><span style="font-size:16px">
</span><span style="font-size:16px">
</span><p><span><strong> </strong></span><span style="font-size:19px"><strong>02 </strong></span><span><strong> </strong></span></p><strong><span style="font-size:18px">Motivation</span></strong>
<span style="font-size:16px">
</span><span style="font-size:16px">偽裝是一種強(qiáng)大且廣泛的手段拴袭,可以避免來(lái)自生物學(xué)的檢測(cè)或識(shí)別读第。在自然界中,偽裝對(duì)象已經(jīng)進(jìn)化出一套隱藏策略來(lái)欺騙獵物或捕食者的感知和認(rèn)知機(jī)制拥刻,例如背景匹配怜瞒、自陰影隱藏、擦除陰影般哼、破壞性著色等吴汪。與一般的目標(biāo)檢測(cè)相比,這些防御行為使得偽裝目標(biāo)檢測(cè)(COD)成為一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)蒸眠。COD的目標(biāo)是區(qū)分與背景具有高度內(nèi)在相似性的偽裝物體漾橙。</span><span style="font-size:16px">
</span><span style="font-size:16px">由于COD10K、CAMO黔宛、CAMO++和NC4K等大規(guī)模標(biāo)準(zhǔn)基準(zhǔn)的建立近刘,COD的性能得到了顯著的提高。然而臀晃,COD僅將偽裝物體從場(chǎng)景中以對(duì)象的級(jí)別進(jìn)行分離觉渴,而忽略進(jìn)一步的實(shí)例級(jí)別標(biāo)識(shí)。最近徽惋,研究者提出了一個(gè)新的偽裝實(shí)例分割(CIS)基準(zhǔn)和CFL框架案淋。捕獲偽裝實(shí)例可以在真實(shí)場(chǎng)景中提供更多線索(例如語(yǔ)義類別、對(duì)象數(shù)量)险绘,因此CIS更具挑戰(zhàn)性踢京。</span><span style="font-size:16px">
</span><span style="font-size:16px">與通用實(shí)例分割相比苏携,CIS需要在更復(fù)雜的場(chǎng)景中執(zhí)行鹉究,具有較高的特征相似性,并產(chǎn)生類別不可知mask某残。此外代咸,各種實(shí)例可能在場(chǎng)景中顯示不同的偽裝策略蹈丸,并且將它們結(jié)合起來(lái)可能形成相互偽裝。這些衍生的整體偽裝使CIS任務(wù)更加艱巨呐芥。當(dāng)人類注視著一個(gè)偽裝得很深的場(chǎng)景時(shí)逻杖,視覺(jué)系統(tǒng)會(huì)本能地掃描整個(gè)場(chǎng)景中的一系列局部范圍,以尋找有價(jià)值的線索思瘟。受這種視覺(jué)機(jī)制的啟發(fā)荸百,作者提出了一種新的位置感知CIS方法,該方法從全局角度仔細(xì)捕獲所有位置(即局部上下文)的關(guān)鍵信息滨攻,并直接生成偽裝實(shí)例掩碼(即一階段模型)够话。</span><span style="font-size:16px">
</span><span style="font-size:16px">由于transformer在視覺(jué)領(lǐng)域的興起蓝翰,可以利用自注意力和交叉注意力來(lái)捕捉長(zhǎng)期依賴關(guān)系,并構(gòu)建全局內(nèi)容感知交互更鲁。盡管transformer模型在一些密集預(yù)測(cè)任務(wù)上表現(xiàn)出了強(qiáng)大的性能霎箍,但它需要包含大規(guī)模的訓(xùn)練數(shù)據(jù)和更長(zhǎng)的訓(xùn)練周期。然而澡为,作為一項(xiàng)全新的下游任務(wù),目前只有有限的實(shí)例級(jí)訓(xùn)練數(shù)據(jù)可用景埃。</span><span style="font-size:16px">
為此媒至,作者提出了一種基于的位置感知Transformer(LST),以在更少的訓(xùn)練樣本下實(shí)現(xiàn)更快的收斂和更高的性能谷徙。為了動(dòng)態(tài)生成每個(gè)輸入圖像的位置引導(dǎo)查詢拒啰,作者將LST編碼器輸出的多尺度全局特征網(wǎng)格化為一組具有不同局部信息的特征塊。與vanilla DETR中的零初始化對(duì)象查詢相比完慧,提出的位置引導(dǎo)查詢可以專注于位置特定的特征谋旦,并通過(guò)交叉注意與全局特征交互,以獲得實(shí)例感知嵌入屈尼。</span><span style="font-size:16px">
</span><span style="font-size:16px">該設(shè)計(jì)有效地加快了收斂速度册着,顯著提高了偽裝實(shí)例的檢測(cè)。為了增強(qiáng)局部感知和相鄰token之間的相關(guān)性脾歧,作者將卷積運(yùn)算引入標(biāo)準(zhǔn)前饋網(wǎng)絡(luò)甲捏,將其稱為混合卷積前饋網(wǎng)絡(luò)(BC-FFN)。因此鞭执,本文基于LST的模型可以無(wú)縫集成局部和全局上下文信息司顿,并有效地提供位置敏感特征來(lái)分割偽裝實(shí)例。</span><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-658ec1f286c1c1a9.jpeg" img-data="{"format":"jpeg","size":44159,"height":331,"width":1080}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div><span style="font-size:16px">
</span><span style="font-size:16px">此外兄纺,作者設(shè)計(jì)了一種從粗到精的融合(CFF)來(lái)集成從ResNet和LST相繼產(chǎn)生的多尺度低層次和高層次特征大溜,以產(chǎn)生共享掩碼特征。由于偽裝實(shí)例的邊緣難以捕捉估脆,作者在CFF模塊中嵌入了反向邊緣注意(REA)模塊钦奋,以提高對(duì)邊緣特征的敏感性。</span><span style="font-size:16px">
</span><span style="font-size:16px">最后旁蔼,作者引入了動(dòng)態(tài)偽裝實(shí)例歸一化(DCIN)锨苏,通過(guò)結(jié)合高分辨率掩碼特征和實(shí)例感知嵌入來(lái)生成掩碼」琢模基于上述兩種新設(shè)計(jì)伞租,即LST和CFF,作者提供了一種新的用于偽裝實(shí)例分割的單階段框架OSFormer(如上圖)限佩。OSFormer是第一個(gè)為CIS任務(wù)探索基于transformer的框架的工作葵诈。</span><span style="font-size:16px">
</span><span style="font-size:16px">本文的</span><span style="font-size:16px"><strong>貢獻(xiàn)</strong></span><span style="font-size:16px">如下:</span><ol><li><p><span style="font-size:16px">提出了OSFormer裸弦,這是為偽裝實(shí)例分割任務(wù)設(shè)計(jì)的第一個(gè)基于Transformer的一階段框架。這是一個(gè)靈活的框架作喘,可以端到端的方式進(jìn)行訓(xùn)練理疙。</span></p></li><li><p><span style="font-size:16px">提出了一種位置感知Transformer(LST)來(lái)動(dòng)態(tài)捕捉不同位置的實(shí)例線索。本文的LST包含一個(gè)帶有混合卷積前饋網(wǎng)絡(luò)的編碼器泞坦,用于提取多尺度全局特征窖贤,以及一個(gè)帶有位置引導(dǎo)查詢的解碼器,用于實(shí)現(xiàn)實(shí)例感知嵌入贰锁。所提出的LST結(jié)構(gòu)可以快速收斂到有限的訓(xùn)練數(shù)據(jù)赃梧。</span></p></li><li><p><span style="font-size:16px">提出了一種新的粗到細(xì)融合(CFF)方法,通過(guò)融合主干和LST塊的多尺度低層和高層特征來(lái)獲得高分辨率掩模豌熄。在該模塊中授嘀,嵌入了反向邊緣注意(REA),以突出偽裝實(shí)例的邊緣信息锣险。</span></p></li><li><p><span style="font-size:16px">廣泛的實(shí)驗(yàn)表明蹄皱,OSFormer在具有挑戰(zhàn)性的CIS任務(wù)中表現(xiàn)良好,在很大程度上優(yōu)于11種流行的實(shí)例分割方法芯肤,例如巷折,在COD10K測(cè)試集上</span><span style="font-size:16px"><strong>實(shí)現(xiàn)了8.5% 的AP改進(jìn)</strong></span><span style="font-size:16px">。</span></p></li></ol><h1><span style="font-size:16px">
</span></h1><span style="font-size:16px">
</span><p><span><strong> </strong></span><span style="font-size:19px"><strong>03 </strong></span><span><strong> </strong></span></p><h1><strong><span style="font-size:18px">方法</span></strong></h1><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-504a6ae594a845cf.jpeg" img-data="{"format":"jpeg","size":63927,"height":339,"width":1080}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<span style="font-size:16px">本文提出的OSFormer包括四個(gè)基本組件:(1)用于提取對(duì)象特征表示的CNN主干纷妆,(2)利用全局特征和位置引導(dǎo)查詢生成實(shí)例感知嵌入的</span><span style="font-size:16px"><strong>位置感知Transformer(LST)</strong></span><span style="font-size:16px">盔几。(3) </span><span style="font-size:16px"><strong>粗到細(xì)融合(CFF)</strong></span><span style="font-size:16px">用于集成多尺度低和高級(jí)別特征并產(chǎn)生高分辨率掩碼特征,以及(4)用于預(yù)測(cè)最終實(shí)例掩碼的</span><span style="font-size:16px"><strong>動(dòng)態(tài)偽裝實(shí)例歸一化(DCIN)</strong></span><span style="font-size:16px">掩幢。上圖展示了整個(gè)架構(gòu)逊拍。</span><h2><span><strong><span style="font-size:16px">3.1 CNN Backbone</span></strong></span></h2><span style="font-size:16px">給定輸入圖像<span/>,走著使用來(lái)自CNN主干的多尺度特征<span/>(即ResNet-50)际邻。為了降低計(jì)算成本芯丧,作者直接將最后三個(gè)特征映射(<span/>)展平并連接成一個(gè)256個(gè)通道的序列<span/>作為L(zhǎng)ST編碼器的輸入。對(duì)于<span/>特征世曾,將其作為高分辨率低層特征輸入到CFF模塊中缨恒,以捕獲更多偽裝的實(shí)例線索。</span><h2><span><strong><span style="font-size:16px">3.2 Location-Sensing Transformer</span></strong></span></h2><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-3bf14fc597ee96e1.jpeg" img-data="{"format":"jpeg","size":59696,"height":365,"width":1080}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<p><span style="font-size:16px">雖然transformer可以通過(guò)自注意力層更好地提取全局信息轮听,但它需要大規(guī)模訓(xùn)練樣本和高計(jì)算量骗露。由于CIS的數(shù)據(jù)有限,本文的目標(biāo)是設(shè)計(jì)一種高效的架構(gòu)血巍,可以更快地收斂并實(shí)現(xiàn)有競(jìng)爭(zhēng)力的性能萧锉。在上圖中,作者展示了本文的位置感知Transformer(LST)述寡。</span></p><h3><strong><span style="font-size:16px">LST Encoder</span></strong></h3><span style="font-size:16px">與僅向transformer編碼器輸入單尺度低分辨率特征的DETR不同柿隙,本文的LST編碼器接收多尺度特征<span/>以獲得豐富的信息叶洞。遵循可變形自注意力層,為了更好地捕捉局部信息并增強(qiáng)相鄰token之間的相關(guān)性禀崖,作者將卷積運(yùn)算引入前饋網(wǎng)絡(luò)衩辟,稱為混合卷積前饋網(wǎng)絡(luò)(BC-FFN)。</span><span style="font-size:16px">
</span><span style="font-size:16px">首先波附,根據(jù)<span/>的形狀將特征向量恢復(fù)到空間維度艺晴。然后,執(zhí)行核大小為3×3的卷積層來(lái)學(xué)習(xí)歸納偏置掸屡。最后财饥,作者添加了一個(gè)組歸一化(GN)和一個(gè)GELU激活來(lái)形成前饋網(wǎng)絡(luò)。在3×3卷積層之后折晦,作者將特征展平為序列。與混合FFN相比沾瓦,本文的BC-FFN不包含MLP操作和殘差連接满着。</span><span style="font-size:16px">
</span><span style="font-size:16px">與之前工作在每個(gè)階段開(kāi)始時(shí)設(shè)計(jì)卷積token嵌入并在Transformer塊中采用深度可分離卷積運(yùn)算不同,作者在BC-FFN中只引入了兩個(gè)卷積層贯莺。具體來(lái)說(shuō)风喇,給定輸入特征<span/>,BC-FFN的過(guò)程可以公式化為:</span><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-ca4c5f85c2e4e67a.jpeg" img-data="{"format":"jpeg","size":8515,"height":74,"width":636}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<span style="font-size:16px">其中缕探,<span/>是3×3卷積運(yùn)算魂莫。總的來(lái)說(shuō)爹耗,LST編碼器層描述如下:</span><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-aa3a8aec988e7871.jpeg" img-data="{"format":"jpeg","size":10530,"height":68,"width":898}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<span style="font-size:16px">其中<span/>表示為位置編碼耙考。<span/>和<span/>分別表示多頭可變形自注意力和層歸一化。</span><h3><strong><span style="font-size:16px">Location-Guided Queries</span></strong></h3><span style="font-size:16px">對(duì)象查詢?cè)趖ransformer架構(gòu)中起著關(guān)鍵作用潭兽,transformer架構(gòu)用作解碼器的初始輸入倦始,并通過(guò)解碼器層實(shí)現(xiàn)輸出嵌入。然而山卦,vanilla DETR收斂緩慢的原因之一是對(duì)象查詢是零初始化的鞋邑。為此,作者提出了位置引導(dǎo)查詢账蓉,該查詢具有LST編碼器的多尺度特征映射<span/>的優(yōu)勢(shì)枚碗。</span><span style="font-size:16px">
</span><span style="font-size:16px">值得注意的是,DETR中的每個(gè)查詢都集中在特定的領(lǐng)域铸本。受SOLO的啟發(fā)肮雨,作者首先將恢復(fù)的特征映射<span/>調(diào)整為<span/>的形狀,<span/>归敬。然后酷含,將調(diào)整大小的特征劃分為<span/>特征網(wǎng)格鄙早,并將其展平,以生成位置引導(dǎo)查詢<span/>椅亚。</span><span style="font-size:16px">
</span><span style="font-size:16px">在這種情況下限番,提出的位置引導(dǎo)查詢可以利用不同位置的可學(xué)習(xí)局部特征來(lái)優(yōu)化初始化,并有效地聚合偽裝區(qū)域中的特征呀舔。與零初始化或隨機(jī)初始化相比弥虐,該查詢策略提高了transformer解碼器中查詢更新的效率,并加速了訓(xùn)練收斂媚赖。</span><h3><strong><span style="font-size:16px">LST Decoder</span></strong><span style="font-size:16px"/></h3><span style="font-size:16px">LST解碼器對(duì)于與LST編碼器生成的全局特征和位置引導(dǎo)查詢交互以生成實(shí)例感知嵌入至關(guān)重要霜瘪。空間位置編碼也被添加到本文的位置引導(dǎo)查詢<span/>和編碼器memory<span/>中惧磺。然后颖对,通過(guò)可變形交叉注意力層對(duì)其進(jìn)行融合。</span>
<span style="font-size:16px">與一般transformer解碼器不同磨隘,作者直接使用交叉注意力而不使用自注意力缤底,因?yàn)樘岢龅牟樵円呀?jīng)包含可學(xué)習(xí)的全局特征。與LST編碼器類似番捂,BC-FFN也在可變形注意力操作后使用个唧。給定位置引導(dǎo)查詢<span/>,本文的LST解碼器可以表示為:</span><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-ee9ade1a0b1b21ac.jpeg" img-data="{"format":"jpeg","size":12374,"height":84,"width":1080}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<span style="font-size:16px">其中<span/>表示基于特征網(wǎng)格的位置編碼设预。<span/>表示為多頭可變形交叉注意力操作徙歼。<span/>是實(shí)例感知表示的輸出嵌入。最后鳖枕,恢復(fù)<span/>以送到以下DCIN模塊魄梯,用于預(yù)測(cè)掩碼。</span><h2><span><strong><span style="font-size:16px">3.3 Coarse-to-Fine Fusion</span></strong></span></h2><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-140efb9da044c715.jpeg" img-data="{"format":"jpeg","size":56463,"height":384,"width":1080}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<span style="font-size:16px">作為一種基于自底向上Transformer的模型耕魄,OSFormer利用LST編碼器輸出的多級(jí)全局特征画恰,以產(chǎn)生共享掩碼特征。為了合并不同的上下文信息吸奴,作者還融合了來(lái)自CNN主干的低級(jí)特征<span/>作為補(bǔ)充允扇,以生成統(tǒng)一的高分辨率特征映射<span/>。</span>
<span style="font-size:16px">粗到細(xì)融合(CFF)模塊的詳細(xì)結(jié)構(gòu)如上圖所示则奥。將多級(jí)特征C2考润、T3、T4和T5作為級(jí)聯(lián)融合的輸入读处。從輸入尺度為1/32的T5開(kāi)始糊治,通過(guò)3×3卷積、GN和2×雙線性上采樣罚舱,并添加更高分辨率特征(T4為1/16比例)井辜。</span><span style="font-size:16px">
</span><span style="font-size:16px">將1/4比例的<span/>融合后绎谦,特征繼續(xù)進(jìn)行1×1卷積、GN和RELU操作粥脚,以生成掩碼特征<span/>窃肠。請(qǐng)注意,每個(gè)輸入特征在第一次卷積后將通道從256個(gè)減少到128個(gè)刷允,然后在最終輸出時(shí)增加到256個(gè)通道冤留。</span><span style="font-size:16px">
</span><span style="font-size:16px">考慮到偽裝的邊緣特征更難捕捉,作者設(shè)計(jì)了嵌入CFF的反向邊緣注意(REA)模塊树灶,以在迭代過(guò)程中監(jiān)督邊緣特征纤怒。與之前的反向注意不同,本文的REA對(duì)邊緣特征而不是預(yù)測(cè)的二進(jìn)制掩碼進(jìn)行操作天通。</span><span style="font-size:16px">
</span><span style="font-size:16px">此外泊窘,用于監(jiān)督的邊緣標(biāo)簽是通過(guò)實(shí)例掩碼標(biāo)簽獲得的,無(wú)需任何手動(dòng)標(biāo)記像寒。受卷積塊注意的啟發(fā)州既,輸入特征由平均池化(AvgPool)和最大池(MaxPool)操作。然后萝映,將它們concat并送到7×7卷積和sigmoid函數(shù)。</span>
<span style="font-size:16px">然后阐虚,反轉(zhuǎn)注意力權(quán)重序臂,并將其與融合特征<span/>進(jìn)行元素乘法。最后实束,作者使用3×3卷積來(lái)預(yù)測(cè)邊緣特征奥秆。假設(shè)輸入特征為<span/>,每個(gè)REA模塊的整個(gè)過(guò)程可以公式化如下:</span><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-be1a3c64ab7b8a9e.jpeg" img-data="{"format":"jpeg","size":12220,"height":74,"width":1080}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<span style="font-size:16px">其中咸灿,<span/>表示7×7卷積層构订,<span/>表示通道軸上的concat。所提出的CFF提供了共享掩碼特征F避矢,然后送到DCIN中悼瘾,以預(yù)測(cè)最終的偽裝實(shí)例掩碼。</span><h2><span><strong><span style="font-size:16px">3.4 Dynamic Camouflaged Instance Normalization</span></strong></span></h2><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-ae82ff0995f9eb9f.jpeg" img-data="{"format":"jpeg","size":50940,"height":377,"width":1080}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div><p>
</p><span style="font-size:16px">受樣式遷移域中實(shí)例歸一化操作的啟發(fā)审胸,作者引入了一種動(dòng)態(tài)偽裝實(shí)例歸一化(DCIN)來(lái)預(yù)測(cè)最終掩碼亥宿。當(dāng)DCIN接收從LST解碼器到輸出嵌入<span/>時(shí),采用全連接層(FC)來(lái)獲得位置標(biāo)簽砂沛。</span><span style="font-size:16px">
</span><p><span style="font-size:16px">并行地烫扼,使用多層感知器(MLP)獲得大小為D(即256)的實(shí)例感知參數(shù)。</span><span style="font-size:16px">作者在訓(xùn)練階段</span><span style="font-size:16px">根據(jù)ground truth分配正位置和負(fù)位置碍庵。</span><span style="font-size:16px">應(yīng)用正位置的實(shí)例感知參數(shù)來(lái)生成分割掩碼映企。</span><span style="font-size:16px">在測(cè)試階段悟狱,作者利用位置標(biāo)簽的置信值來(lái)過(guò)濾(如上圖所示)無(wú)效參數(shù)(例如,閾值>0.5)堰氓。</span></p><p><span style="font-size:16px">
</span></p><span style="font-size:16px"/><span style="font-size:16px">隨后挤渐,對(duì)濾波的位置感知參數(shù)操作兩個(gè)線性層,以獲得仿射權(quán)重</span><span style="font-size:16px"/><span style="font-size:16px">和偏差</span><span style="font-size:16px"/><span style="font-size:16px">豆赏。</span><span style="font-size:16px">最后挣菲,它們與共享掩碼特征</span>
<p><span style="font-size:16px">一起使用來(lái)預(yù)測(cè)偽裝實(shí)例,可以描述為:</span></p><p><span style="font-size:16px">
</span></p><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-95794c0d6e24c8d5.jpeg" img-data="{"format":"jpeg","size":3320,"height":60,"width":318}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div><p>
</p><span style="font-size:16px">其中<span/>是預(yù)測(cè)的掩碼掷邦。N是預(yù)測(cè)實(shí)例數(shù)白胀。<span/>是一個(gè)4倍的上采樣操作。最后抚岗,應(yīng)用矩陣NMS得到最終實(shí)例或杠。</span><h2><span><strong><span style="font-size:16px">3.5 Loss Function</span></strong></span></h2><p><span style="font-size:16px">在訓(xùn)練期間,總損失函數(shù)可以寫成:</span></p><p><span style="font-size:16px">
</span></p><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-18ad3a464ba57968.jpeg" img-data="{"format":"jpeg","size":7206,"height":72,"width":724}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<span style="font-size:16px">其中宣蔚,<span/>是邊緣損失向抢,用于監(jiān)督CFF中不同級(jí)別的邊緣。邊緣損失可定義為<span/>胚委,其中j表示用于監(jiān)督的邊緣特征的總級(jí)別挟鸠。<span/>是邊緣損失的權(quán)重,默認(rèn)設(shè)置為1亩冬。</span><span style="font-size:16px">
</span><span style="font-size:16px">由于CIS任務(wù)是類別不可知的艘希,因此作者使用每個(gè)位置中偽裝存在的置信度(<span/>)與實(shí)例分割中的分類置信度進(jìn)行比較。此外硅急,<span/>由Focal Loss實(shí)現(xiàn)覆享,<span/>由Dice損失計(jì)算,用于分割营袜。<span/>和<span/>分別設(shè)置為1和3撒顿,以平衡總損失。</span><span style="font-size:16px">
</span><span style="font-size:16px">
</span><p><span><strong> </strong></span><span style="font-size:19px"><strong>04 </strong></span><span><strong> </strong></span></p><strong><span style="font-size:18px">實(shí)驗(yàn)</span></strong>
<span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-d66c538c7e098347.jpeg" img-data="{"format":"jpeg","size":30628,"height":217,"width":1080}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<p><span style="font-size:16px">Transformer的深度是影響基于Transformer的模型的性能和效率的關(guān)鍵因素荚板。作者在LST中嘗試了不同數(shù)量的編碼器和解碼器層的多種組合凤壁,以優(yōu)化OSFormer的性能。如表所示跪另。如上表所示客扎,三層編碼器不足以使OSFormer的性能最大化。AP最高的情況為編碼器數(shù)量為6罚斗,解碼器數(shù)量為3徙鱼。</span></p><p><span style="font-size:16px">
</span></p><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-6dee3e200adfe833.jpeg" img-data="{"format":"jpeg","size":31054,"height":191,"width":1080}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<p><span style="font-size:16px">作者利用從ResNet-50中提取的多級(jí)特征作為L(zhǎng)ST的輸入。為了更準(zhǔn)確地捕捉不同尺度下的偽裝,同時(shí)保持模型效率袱吆,作者在主干中結(jié)合了不同數(shù)量的特征厌衙,包括C3-C5、C2-C5绞绒、C3-C6和C2-C6婶希。在上表中,可以觀察到C3-C5的組合以最少的參數(shù)和訓(xùn)練顯存實(shí)現(xiàn)了強(qiáng)大的性能蓬衡。</span></p><p><span style="font-size:16px">
</span></p><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-d1a596dd7a0c9649.jpeg" img-data="{"format":"jpeg","size":30074,"height":190,"width":1080}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<p><span style="font-size:16px">對(duì)象查詢?cè)趖ransformer架構(gòu)中對(duì)于密集預(yù)測(cè)任務(wù)至關(guān)重要喻杈。如上表所示,本文的位置引導(dǎo)查詢明顯優(yōu)于其他查詢?cè)O(shè)計(jì)狰晚。這說(shuō)明了在查詢中插入有監(jiān)督的全局特征對(duì)于有效回歸不同偽裝線索和定位實(shí)例至關(guān)重要筒饰。</span></p><p>
</p><p><span style="font-size:16px">此外,作者還比較了三種策略的學(xué)習(xí)能力壁晒〈擅牵可以發(fā)現(xiàn),本文的位置引導(dǎo)查詢方案在早期訓(xùn)練階段具有更快的收斂速度秒咐,并且最終的收斂性也優(yōu)于其他兩種模型谬晕。它還表明,位置引導(dǎo)查詢可以有效地利用全局特征携取,通過(guò)交叉注意機(jī)制在不同位置捕獲偽裝信息攒钳。</span></p><p><span style="font-size:16px">
</span></p><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-5215fb1fe295d202.jpeg" img-data="{"format":"jpeg","size":32447,"height":223,"width":1080}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<p><span style="font-size:16px">在CFF模塊中,多尺度輸入特征直接影響通過(guò)融合操作的掩碼特征F的質(zhì)量雷滋。為了探索ResNet-50和LST編碼器的最佳融合方案夕玩,作者在上表中進(jìn)行了不同的組合。通過(guò)將C2惊豺、T3、T4和T5饋入CFF模塊來(lái)獲得最佳結(jié)果禽作。</span></p><p><span style="font-size:16px">
</span></p><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-b775760141c34690.jpeg" img-data="{"format":"jpeg","size":25598,"height":179,"width":1080}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<p><span style="font-size:16px">作者在上圖中可視化了輸入到CFF模塊的每個(gè)比例的特征和掩碼特征F尸昧。</span></p><p><span style="font-size:16px">
</span></p><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-ec99b81549102039.jpeg" img-data="{"format":"jpeg","size":29972,"height":189,"width":1080}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<p><span style="font-size:16px">上表展示了不同Backbone下的實(shí)驗(yàn)結(jié)果。</span></p><p><span style="font-size:16px">
</span></p><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-2b912430a42263ff.jpeg" img-data="{"format":"jpeg","size":27759,"height":173,"width":1080}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<p><span style="font-size:16px">為了提高OSFormer的應(yīng)用價(jià)值旷偿,作者提供了一個(gè)名為OSFormer-550的實(shí)時(shí)版本烹俗。具體來(lái)說(shuō),作者將輸入短邊調(diào)整為550萍程,同時(shí)將LST編碼器層減少為3層幢妄。如上表所示,盡管AP值下降到36%茫负,但推理時(shí)間增加到25.8fps蕉鸳,參數(shù)和浮點(diǎn)數(shù)也顯著改善。</span></p><p><span style="font-size:16px">
</span></p><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-cc195e90d176f896.jpeg" img-data="{"format":"jpeg","size":29070,"height":219,"width":1080}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<p><span style="font-size:16px">上表展示了本文提出的不同模塊的有效性。</span></p><p><span style="font-size:16px">
</span></p><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-45e928e05bc63755.jpeg" img-data="{"format":"jpeg","size":167563,"height":616,"width":1080}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<p><span style="font-size:16px">如上表所示潮尝,盡管CIS任務(wù)具有挑戰(zhàn)性榕吼,但本文的OSFormer在所有指標(biāo)上仍優(yōu)于其他競(jìng)爭(zhēng)對(duì)手。特別是勉失,OSFormer的AP分?jǐn)?shù)大大高于排名第二的SOLOv2羹蚣。理想的結(jié)果應(yīng)歸因于本文的LST,因?yàn)樗峁┝烁呒?jí)別的全局特征乱凿,并與LST解碼器中不同位置的偽裝線索相互作用顽素。</span></p><p><span style="font-size:16px">
</span></p><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-b7579c7a30e71db2.jpeg" img-data="{"format":"jpeg","size":79849,"height":408,"width":1080}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<p><span style="font-size:16px">為了驗(yàn)證OSFormer的有效性,作者還在上圖中展示了兩個(gè)具有代表性的可視化結(jié)果徒蟆。具體來(lái)說(shuō)胁出,頂部樣本表明,OSFormer可以在多個(gè)實(shí)例中輕松區(qū)分偽裝后专。底部結(jié)果表明划鸽,本文的方法優(yōu)于捕捉細(xì)長(zhǎng)邊界,這可以歸因于本文的REA模塊增強(qiáng)了邊緣特征戚哎÷惴蹋總的來(lái)說(shuō),與其他方法的可視化結(jié)果相比型凳,OSFormer能夠克服更具挑戰(zhàn)性的情況并獲得良好的性能丈冬。</span></p><p><span style="font-size:16px">
</span></p><p><span style="font-size:16px">
</span></p><p><span><strong> </strong></span><span style="font-size:19px"><strong>05 </strong></span><span><strong> </strong></span></p><h1><strong><span style="font-size:18px">總結(jié)</span></strong></h1><p><span style="font-size:16px">
</span></p><p><span style="font-size:16px">本文提出了一種新的位置感知單階段Transformer框架,稱為OSFormer甘畅,用于偽裝實(shí)例分割(CIS)埂蕊。OSFormer包含一個(gè)高效的位置感知Transformer,用于捕捉全局特征并動(dòng)態(tài)回歸偽裝實(shí)例的位置和主體疏唾。作為第一個(gè)一階段自底向上的CIS框架蓄氧,作者進(jìn)一步設(shè)計(jì)了從粗到精的融合,以整合多尺度特征并突出偽裝邊緣以產(chǎn)生全局特征槐脏。</span></p><p><span style="font-size:16px">
</span></p><p><span style="font-size:16px">大量實(shí)驗(yàn)結(jié)果表明喉童,OSFormer的性能優(yōu)于所有其他已知模型。此外顿天,OSFormer只需要約3000張圖像進(jìn)行訓(xùn)練堂氯,并且收斂速度很快。它可以輕松靈活地?cái)U(kuò)展到具有較小訓(xùn)練樣本的其他下游視覺(jué)任務(wù)牌废。</span></p><p><span style="font-size:16px">
</span></p><h3><span><strong><span style="font-size:16px">參考資料</span></strong></span></h3><p><span style="font-size:16px">[1]https://arxiv.org/abs/2207.02255
[2]https://github.com/PJLallen/OSFormer</span></p>
<span><strong>▊ </strong><strong>作者簡(jiǎn)介</strong></span><span style="font-size:16px">研究領(lǐng)域:FightingCV公眾號(hào)運(yùn)營(yíng)者咽白,研究方向?yàn)槎嗄B(tài)內(nèi)容理解,專注于解決視覺(jué)模態(tài)和語(yǔ)言模態(tài)相結(jié)合的任務(wù)鸟缕,促進(jìn)Vision-Language模型的實(shí)地應(yīng)用晶框。</span><span style="font-size:16px">知乎/公眾號(hào):FightingCV</span><p><strong><span style="font-size:17px">已建立深度學(xué)習(xí)公眾號(hào)——</span><span style="font-size:17px"><strong>FightingCV</strong></span><span style="font-size:17px">,歡迎大家關(guān)注!H琛畜埋!</span></strong></p><p><strong><span style="font-size:17px">
</span></strong></p><p><strong>ICCV</strong>、<strong>CVPR畴蒲、NeurIPS悠鞍、ICML</strong>論文解析匯總:<span><strong>https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading</strong></span></p><p><span><strong>
</strong></span></p><p><strong>面向小白</strong>的<strong>Attention</strong>、<strong>重參數(shù)</strong>模燥、<strong>MLP</strong>咖祭、<strong>卷積</strong>核心代碼學(xué)習(xí):<span><strong>https://github.com/xmu-xiaoma666/External-Attention-pytorch</strong></span></p><p>
</p>
華科提出首個(gè)用于偽裝實(shí)例分割的一階段框架OSFormer
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
- 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)溶其,“玉大人骚腥,你說(shuō)我怎么就攤上這事∑刻樱” “怎么了束铭?”我有些...
- 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)厢绝。 經(jīng)常有香客問(wèn)我契沫,道長(zhǎng),這世上最難降的妖魔是什么昔汉? 我笑而不...
- 正文 為了忘掉前任懈万,我火速辦了婚禮,結(jié)果婚禮上挤庇,老公的妹妹穿的比我還像新娘。我一直安慰自己贷掖,他們只是感情好嫡秕,可當(dāng)我...
- 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著苹威,像睡著了一般昆咽。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
- 那天掷酗,我揣著相機(jī)與錄音调违,去河邊找鬼。 笑死泻轰,一個(gè)胖子當(dāng)著我的面吹牛技肩,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播浮声,決...
- 文/蒼蘭香墨 我猛地睜開(kāi)眼虚婿,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了泳挥?” 一聲冷哼從身側(cè)響起然痊,我...
- 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎屉符,沒(méi)想到半個(gè)月后剧浸,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
- 正文 獨(dú)居荒郊野嶺守林人離奇死亡矗钟,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
- 正文 我和宋清朗相戀三年唆香,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片真仲。...
- 正文 年R本政府宣布软啼,位于F島的核電站桑谍,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏祸挪。R本人自食惡果不足惜锣披,卻給世界環(huán)境...
- 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望贿条。 院中可真熱鬧雹仿,春花似錦、人聲如沸整以。這莊子的主人今日做“春日...
- 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)公黑。三九已至邑商,卻和暖如春摄咆,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背人断。 一陣腳步聲響...
- 正文 我出身青樓涩金,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親蝉绷。 傳聞我的和親對(duì)象是個(gè)殘疾皇子鸭廷,可洞房花燭夜當(dāng)晚...
推薦閱讀更多精彩內(nèi)容
- 本篇分享論文 『Distilled Dual-Encoder Model for Vision-Languag...
- 譯者 | 王柯凝 出品 | AI科技大本營(yíng)(公眾號(hào)ID:rgznai100) 【 AI 科技大本營(yíng)導(dǎo)讀】目前,計(jì)算...
- 譯者 | 王柯凝 出品 | AI科技大本營(yíng)(公眾號(hào)ID:rgznai100) 【 AI 科技大本營(yíng)導(dǎo)讀】目前嗜暴,計(jì)算...
- Decoder Denoising Pretraining for Semantic Segmentation h...
- [TOC] 動(dòng)機(jī) 現(xiàn)有的 PTM 有以下缺點(diǎn): 以預(yù)訓(xùn)練的語(yǔ)言模型為例凸克,它們很好地學(xué)習(xí)頻繁詞的語(yǔ)義,但在受長(zhǎng)尾數(shù)據(jù)...