簡(jiǎn)介
(1):? PVT(Pyramid Vision Transformer:)可以輸出高分辨率特征圖航徙,也可以使用漸進(jìn)式收縮金字塔來(lái)減少計(jì)算赴捞;
(2):? 引入金字塔結(jié)構(gòu)到Transformer中可很,使得它可以像CNN網(wǎng)絡(luò)那樣無(wú)縫接入到各種下游任務(wù)中(如:物體檢測(cè)睛驳,語(yǔ)義分割),同時(shí)也取得了非常不錯(cuò)的效果稿械;
(3):? RetinaNet+PVT 取得40.4 AP 在MS COCO數(shù)據(jù)集选泻,超過(guò)RetinNet+ResNet50 (36.3 AP) 4.1AP;
(4):? 代碼開(kāi)源:https://github.com/whai362/PVT
算法
整體結(jié)構(gòu)就是特征金字塔+Transformer+Attention+堆疊:
(1):? 模型整體包含4個(gè)Stage美莫,每個(gè)Stage包含Patch Embedding和Transformer Encoder页眯;
(2):? Patch Embedding用于編碼圖像信息,Transformer Encoder用于解碼和豐富特征信息厢呵;
(3):? 特征金字塔結(jié)構(gòu)被引入來(lái)降低特征圖分辨率并得到多尺度特征圖窝撵;
(4):? 在Multi-Head Attention中提出Spatical Reduction,將key(K)和value(V)的長(zhǎng)和寬分別縮小到之前的1/Pi襟铭;
(5):? 堆疊對(duì)個(gè)階段的輸出特征圖碌奉,可取代之前盛行的特征提取網(wǎng)絡(luò)(CNN),應(yīng)用于目標(biāo)檢測(cè)寒砖、分割等上游計(jì)算機(jī)視覺(jué)任務(wù)赐劣。
在第一個(gè)階段,給定尺寸為HxWx3的輸入圖像哩都,我們按照如下流程進(jìn)行處理:
(1):? 首先魁兼,將其劃分為塊(這里是為了與ResNet對(duì)標(biāo),最大輸出特征的尺寸為原始分辨率的1/4)漠嵌,每個(gè)塊的大小為4x4x3璃赡;
(2):? 然后,將展開(kāi)后塊送入到線性投影得到尺寸為HW/16xC1的嵌入塊献雅;
(3):? 其次,將前述嵌入塊與位置嵌入信息送入到Transformer的Encoder塌计,其輸出將reshape為H/4xW/4xC1
(4): 后續(xù)采取這樣的方式得到金字塔特征層
代碼
整體部分太多較多挺身,接下來(lái)我們分段描述:
MLP基礎(chǔ)模塊層:包含兩個(gè)線性層
Patch Embedding:編碼圖像塊特征信息,得到特征響應(yīng)圖和當(dāng)前特征圖的長(zhǎng)寬锌仅,對(duì)應(yīng)上圖中Patch Embedding位置(包含Linear和Norm操作)
Attention:對(duì)應(yīng)于上圖中Patch Embedding到Multi-Head Attention之間的操作模塊章钾,其采取自注意機(jī)制(以q墙贱,k和v的形式自關(guān)注)來(lái)增強(qiáng)與豐富目標(biāo)特征。
Block:包含整個(gè)Transformer Encoder的所有內(nèi)容贱傀,兩次融合(原始特征圖與Attention特征圖惨撇、Attention特征圖與MLP特征圖)
至此一個(gè)Stage中的內(nèi)容以全部呈現(xiàn),主體函數(shù)PyramidVisionTransformer就是融合多階段的特征金字塔特征圖府寒,作者模型包含五個(gè)基礎(chǔ)模型:PVT-Tiny, PVT-Small, PVT-Medium, PVT-Large和PVT-Small-F4魁衙,其中前四個(gè)可根據(jù)下圖參數(shù)得到,PVT-Small-F4是僅得到最頂層特征圖的輸出結(jié)果圖株搔。
Pi:第i個(gè)階段中patch個(gè)數(shù)
Ci:第i個(gè)階段中輸出特征圖的通道個(gè)數(shù)
Ri:第i個(gè)階段中Spatical Reduction Attention中長(zhǎng)寬縮短比例
Ni:第i個(gè)階段中Spatical Reduction Attention中Transformer Head個(gè)數(shù)
Ei:第i個(gè)階段中Transformer Encoder的Fead Forward中通道擴(kuò)張比例
結(jié)果
在同一個(gè)基準(zhǔn)模型RetinaNet下剖淀,使用PVT替換ResNet,從下圖可發(fā)現(xiàn)纤房,PVT在保持與ResNet參數(shù)相當(dāng)?shù)臈l件下纵隔,其檢測(cè)準(zhǔn)確率普遍高于基于ResNet的RetinaNet。