- ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias
NeurlPS 2021
背景
當(dāng)前的vision transformer模型往往需要在更大的數(shù)據(jù)集進(jìn)行訓(xùn)練巷蚪,或者需要更長(zhǎng)的訓(xùn)練時(shí)間波闹。
> 他們將圖像建模為一維token序列,這忽略了對(duì)圖像局部相關(guān)性筏勒、目標(biāo)的尺度不變性的建模沐旨,影響收斂速度、模型性能Backbone
顯著提高了transformer的收斂速度和性能
Transformer
- 自注意力機(jī)制:建模長(zhǎng)距離依賴
- mha:模擬cnn的多輸出通道
- 編碼器解碼器架構(gòu)
方法
ViTAE中引入兩種模塊結(jié)構(gòu)設(shè)計(jì),即卷積旁路分支--對(duì)圖像局部相關(guān)性的建模耘斩,和多尺度卷積--提取不同尺度物體的特征,對(duì)物體的尺度不變性的建模桅咆。
對(duì)應(yīng)兩種基礎(chǔ)模塊:
-
reduction cell (RC) 綠 | normal cell (NC) 藍(lán)
同
MHSA Multi-Head Self-Attention括授、a parallel convolutional module、FFN Feed Forward Layer Norm
異
Pyramid Reduction -金字塔縮減: Dilation Rates -擴(kuò)張率 atrous convolutions -空洞卷積(將多尺度上下文嵌入到tokens中)
-
空洞卷積(Dilated/Atrous Convolution) [zhihu] [計(jì)算]
擴(kuò)大感受野,捕獲多尺度上下文信息荚虚。填充個(gè)0薛夜。
網(wǎng)格效應(yīng)(gridding問(wèn)題--稀疏采樣,缺少依賴)
解決方案:增加圖像級(jí)特征版述,使用全局池化獲取圖像全局信息梯澜,而其他部分的卷積為了捕獲多尺度信息,這里的卷積不同于deeplabv2渴析,加了batch normalization晚伙。
[8] Rethinking Atrous Convolution for Semantic Image Segmentation//2017