1.Max-DeepLab
https://arxiv.org/abs/2012.00759????http://www.liangchiehchen.com/
extending Axial-DeepLab with a?Mask?Xformer. MaX-DeepLab directly predicts class-labeled masks for panoptic segmentation and sets new state-of-the-art 51.3% PQ on COCO test-dev set.
摘要:我們提出了MaX DeepLab丙曙,第一個(gè)用于全景分割的端到端模型脖岛。我們的方法簡化了目前嚴(yán)重依賴于代理子任務(wù)和手工設(shè)計(jì)的組件的流水線,如盒檢測岗钩、非最大值抑制腥寇、物-物融合等撤逢,雖然這些子任務(wù)由區(qū)域?qū)<襾硖幚硌胀溃珶o法全面解決目標(biāo)任務(wù)晴氨。相比之下茄茁,我們的MaX DeepLab直接用掩模變換器來預(yù)測類標(biāo)記的掩模魂贬,并通過二部匹配以全景質(zhì)量為靈感的損失進(jìn)行訓(xùn)練。我們的掩模轉(zhuǎn)換器采用了雙路徑結(jié)構(gòu)裙顽,除了CNN路徑外付燥,還引入了全局內(nèi)存路徑,允許與任何CNN層直接通信愈犹。因此键科,在具有挑戰(zhàn)性的COCO數(shù)據(jù)集上,MaX DeepLab在無盒狀態(tài)下顯示了7.1%的PQ增益漩怎,首次縮小了基于盒方法和無盒方法之間的差距勋颖。與DETR相比,MaX DeepLab的一個(gè)小變種提高了3.0%的PQ勋锤,參數(shù)和M-Adds相似牙言。此外,MaX DeepLab在不增加測試時(shí)間的情況下怪得,在COCO測試開發(fā)集上實(shí)現(xiàn)了最新的51.3%PQ咱枉。
2.VisTR
https://arxiv.org/abs/2011.14503
End-to end video instance segmentation with transformers
視頻實(shí)例分割(VIS)是一項(xiàng)需要同時(shí)對(duì)視頻中感興趣的對(duì)象實(shí)例進(jìn)行分類、分割和跟蹤的任務(wù)徒恋。最近的方法通常開發(fā)復(fù)雜的管道來處理這個(gè)任務(wù)蚕断。在這里,我們提出了一個(gè)新的基于變壓器的視頻實(shí)例分割框架VisTR入挣,它將VIS任務(wù)看作一個(gè)直接的端到端并行序列解碼/預(yù)測問題亿乳。給定由多個(gè)圖像幀組成的視頻片段作為輸入,VisTR直接按順序輸出視頻中每個(gè)實(shí)例的掩碼序列。其核心是一種新的葛假、有效的實(shí)例序列匹配和分割策略障陶,它從整體上監(jiān)督和分割實(shí)例。VisTR在相似性學(xué)習(xí)的同一視角下對(duì)實(shí)例進(jìn)行分割和跟蹤聊训,從而大大簡化了整個(gè)流程抱究,與現(xiàn)有的方法有很大不同。VisTR在所有現(xiàn)有的VIS模型中實(shí)現(xiàn)了最高的速度带斑,并且在YouTube-VIS數(shù)據(jù)集中使用單個(gè)模型的方法中獲得了最好的結(jié)果鼓寺。第一次,我們展示了一個(gè)更簡單勋磕、更快速的基于變壓器的視頻實(shí)例分割框架妈候,實(shí)現(xiàn)了具有競爭力的準(zhǔn)確性。我們希望VisTR能夠推動(dòng)未來更多的視頻理解任務(wù)的研究挂滓。