Pyramid Vision Transformer論文解讀

簡(jiǎn)介

(1):? PVT(Pyramid Vision Transformer:)可以輸出高分辨率特征圖航徙,也可以使用漸進(jìn)式收縮金字塔來(lái)減少計(jì)算赴捞;

(2):? 引入金字塔結(jié)構(gòu)到Transformer中可很,使得它可以像CNN網(wǎng)絡(luò)那樣無(wú)縫接入到各種下游任務(wù)中(如:物體檢測(cè)睛驳,語(yǔ)義分割),同時(shí)也取得了非常不錯(cuò)的效果稿械;

(3):? RetinaNet+PVT 取得40.4 AP 在MS COCO數(shù)據(jù)集选泻,超過(guò)RetinNet+ResNet50 (36.3 AP) 4.1AP;

(4):? 代碼開(kāi)源:https://github.com/whai362/PVT

算法

PVT整體結(jié)構(gòu)圖

整體結(jié)構(gòu)就是特征金字塔+Transformer+Attention+堆疊:

(1):? 模型整體包含4個(gè)Stage美莫,每個(gè)Stage包含Patch Embedding和Transformer Encoder页眯;

(2):? Patch Embedding用于編碼圖像信息,Transformer Encoder用于解碼和豐富特征信息厢呵;

(3):? 特征金字塔結(jié)構(gòu)被引入來(lái)降低特征圖分辨率并得到多尺度特征圖窝撵;

(4):? 在Multi-Head Attention中提出Spatical Reduction,將key(K)和value(V)的長(zhǎng)和寬分別縮小到之前的1/Pi襟铭;

(5):? 堆疊對(duì)個(gè)階段的輸出特征圖碌奉,可取代之前盛行的特征提取網(wǎng)絡(luò)(CNN),應(yīng)用于目標(biāo)檢測(cè)寒砖、分割等上游計(jì)算機(jī)視覺(jué)任務(wù)赐劣。

在第一個(gè)階段,給定尺寸為HxWx3的輸入圖像哩都,我們按照如下流程進(jìn)行處理:

(1):? 首先魁兼,將其劃分為塊(這里是為了與ResNet對(duì)標(biāo),最大輸出特征的尺寸為原始分辨率的1/4)漠嵌,每個(gè)塊的大小為4x4x3璃赡;

(2):? 然后,將展開(kāi)后塊送入到線性投影得到尺寸為HW/16xC1的嵌入塊献雅;

(3):? 其次,將前述嵌入塊與位置嵌入信息送入到Transformer的Encoder塌计,其輸出將reshape為H/4xW/4xC1

(4): 后續(xù)采取這樣的方式得到金字塔特征層

代碼

整體部分太多較多挺身,接下來(lái)我們分段描述:

MLP基礎(chǔ)模塊層:包含兩個(gè)線性層

MLP基礎(chǔ)模塊層

Patch Embedding:編碼圖像塊特征信息,得到特征響應(yīng)圖和當(dāng)前特征圖的長(zhǎng)寬锌仅,對(duì)應(yīng)上圖中Patch Embedding位置(包含Linear和Norm操作)

Pattch Embedding

Attention:對(duì)應(yīng)于上圖中Patch Embedding到Multi-Head Attention之間的操作模塊章钾,其采取自注意機(jī)制(以q墙贱,k和v的形式自關(guān)注)來(lái)增強(qiáng)與豐富目標(biāo)特征。

Attention

Block:包含整個(gè)Transformer Encoder的所有內(nèi)容贱傀,兩次融合(原始特征圖與Attention特征圖惨撇、Attention特征圖與MLP特征圖)

Block

至此一個(gè)Stage中的內(nèi)容以全部呈現(xiàn),主體函數(shù)PyramidVisionTransformer就是融合多階段的特征金字塔特征圖府寒,作者模型包含五個(gè)基礎(chǔ)模型:PVT-Tiny, PVT-Small, PVT-Medium, PVT-Large和PVT-Small-F4魁衙,其中前四個(gè)可根據(jù)下圖參數(shù)得到,PVT-Small-F4是僅得到最頂層特征圖的輸出結(jié)果圖株搔。

PVT模型參數(shù)

Pi:第i個(gè)階段中patch個(gè)數(shù)

Ci:第i個(gè)階段中輸出特征圖的通道個(gè)數(shù)

Ri:第i個(gè)階段中Spatical Reduction Attention中長(zhǎng)寬縮短比例

Ni:第i個(gè)階段中Spatical Reduction Attention中Transformer Head個(gè)數(shù)

Ei:第i個(gè)階段中Transformer Encoder的Fead Forward中通道擴(kuò)張比例

結(jié)果

在同一個(gè)基準(zhǔn)模型RetinaNet下剖淀,使用PVT替換ResNet,從下圖可發(fā)現(xiàn)纤房,PVT在保持與ResNet參數(shù)相當(dāng)?shù)臈l件下纵隔,其檢測(cè)準(zhǔn)確率普遍高于基于ResNet的RetinaNet。

檢測(cè)結(jié)果在MS COCO 2017驗(yàn)證集??
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
禁止轉(zhuǎn)載炮姨,如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者捌刮。
  • 序言:七十年代末清女,一起剝皮案震驚了整個(gè)濱河市与境,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌豪娜,老刑警劉巖吁津,帶你破解...
    沈念sama閱讀 222,183評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件棚蓄,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡碍脏,警方通過(guò)查閱死者的電腦和手機(jī)梭依,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)典尾,“玉大人役拴,你說(shuō)我怎么就攤上這事〖毓。” “怎么了河闰?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,766評(píng)論 0 361
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)褥紫。 經(jīng)常有香客問(wèn)我姜性,道長(zhǎng),這世上最難降的妖魔是什么髓考? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,854評(píng)論 1 299
  • 正文 為了忘掉前任部念,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘儡炼。我一直安慰自己妓湘,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,871評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布乌询。 她就那樣靜靜地躺著榜贴,像睡著了一般。 火紅的嫁衣襯著肌膚如雪妹田。 梳的紋絲不亂的頭發(fā)上唬党,一...
    開(kāi)封第一講書(shū)人閱讀 52,457評(píng)論 1 311
  • 那天,我揣著相機(jī)與錄音秆麸,去河邊找鬼初嘹。 笑死,一個(gè)胖子當(dāng)著我的面吹牛沮趣,可吹牛的內(nèi)容都是我干的屯烦。 我是一名探鬼主播,決...
    沈念sama閱讀 40,999評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼房铭,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼驻龟!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起缸匪,我...
    開(kāi)封第一講書(shū)人閱讀 39,914評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤翁狐,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后凌蔬,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體露懒,經(jīng)...
    沈念sama閱讀 46,465評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,543評(píng)論 3 342
  • 正文 我和宋清朗相戀三年砂心,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了懈词。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,675評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡辩诞,死狀恐怖坎弯,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情译暂,我是刑警寧澤抠忘,帶...
    沈念sama閱讀 36,354評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站外永,受9級(jí)特大地震影響崎脉,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜伯顶,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,029評(píng)論 3 335
  • 文/蒙蒙 一荧嵌、第九天 我趴在偏房一處隱蔽的房頂上張望呛踊。 院中可真熱鬧,春花似錦啦撮、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,514評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至劫乱,卻和暖如春织中,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背衷戈。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,616評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工狭吼, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人殖妇。 一個(gè)月前我還...
    沈念sama閱讀 49,091評(píng)論 3 378
  • 正文 我出身青樓刁笙,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親谦趣。 傳聞我的和親對(duì)象是個(gè)殘疾皇子疲吸,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,685評(píng)論 2 360

推薦閱讀更多精彩內(nèi)容