Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet論文筆記

核心組件T2T

這篇論文是北深信工 袁粒老師2021年的工作, 收錄在ICCV, 看到的時(shí)候已經(jīng)有421份引用了, 非常厲害.


論文摘要部分:

論文核心工作主要分為兩個(gè)部分:

1. Tokens 2 token模塊(T2T) 用于將被vit硬性割裂的tokens之間的信息進(jìn)行匯集

2. 參考CNN的架構(gòu)學(xué), 經(jīng)驗(yàn)發(fā)現(xiàn)深并且窄的架構(gòu)效果好代價(jià)小(MACs)


論文細(xì)節(jié)

其中T2T主要分為圖片還原和軟劃分, 圖片還原沒什么細(xì)節(jié)就是將token從一維拉到二維, 軟劃分則類似卷積窗口滑動(dòng), 不過stride會(huì)偏大一些, 保證相鄰patch有重疊但是不會(huì)太多, 劃分完后再拉成一維token. 所以從輸入輸出看是從多個(gè)tokens到少量tokens的一個(gè)映射(tokens 2 token).

整個(gè)模型設(shè)計(jì)主要分兩個(gè)部分: 一個(gè)是包含兩層T2T模塊的 T2T module, 另一個(gè)是正常transformer構(gòu)成的T2T-ViT backbone


圖中左右分別是兩個(gè)主要模塊

注意到T2T-ViT backbone 輸入的地方添加了fixed tokens 和 position embedding. 這里是沿用ViT的設(shè)計(jì).


實(shí)驗(yàn)部分:

主實(shí)驗(yàn)部分主要有三組: 一組直接在ImageNet上不做預(yù)訓(xùn)練地與ViT進(jìn)行對(duì)比; 一組和參數(shù)相僅ResNet對(duì)比; 一組和輕量級(jí)MobileNet對(duì)比. 實(shí)驗(yàn)設(shè)計(jì)上比較全面地證明了模型的適應(yīng)性和性能. 后面考察不同CNN架構(gòu)到ViT的效果的部分更側(cè)重說明選擇的deep-narrow架構(gòu)的合理性, 但是感覺這部分工作量很大, 所以作者將其也放在主要實(shí)驗(yàn)內(nèi)(作為主要貢獻(xiàn)).

消融實(shí)驗(yàn)部分則分兩組:?

一組是比較T2T module和CNN, 因?yàn)閳D片還原和軟劃分思路上類似卷積的滑動(dòng)窗口, 兩者都具備共享領(lǐng)域信息的能力. 只不過卷積層的新embedding是用固定kernel做局部乘積求和(卷積)操作, 而T2T是用transformer層做全局匯總(attention)操作, 最后T2T要比卷積好1個(gè)點(diǎn)左右, 作者歸因于transformer能考慮全局信息. 但是換個(gè)角度這也說明CNN+transformer比純transformer性能要好. 并且看到這里我不禁設(shè)想如果全局都采用T2T module 會(huì)不會(huì)效果比用T2T module 和 ViT backbone 混合會(huì)更好呢? 或者如果CNN和transformer做更深層次的混合呢?

另一組則是上面提到的研究T2T-ViT backbone 采用不同CNN架構(gòu)時(shí)的效果好壞. 最終結(jié)論是deep-narrow架構(gòu)又能減少參數(shù)效果又好, 對(duì)比的shallow-wide架構(gòu)會(huì)讓性能下降2.7%.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末厘灼,一起剝皮案震驚了整個(gè)濱河市咽瓷,隨后出現(xiàn)的幾起案子茅姜,更是在濱河造成了極大的恐慌闪朱,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,185評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異奋姿,居然都是意外死亡锄开,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,445評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門称诗,熙熙樓的掌柜王于貴愁眉苦臉地迎上來萍悴,“玉大人,你說我怎么就攤上這事寓免⊙⒂眨” “怎么了?”我有些...
    開封第一講書人閱讀 157,684評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵再榄,是天一觀的道長狡刘。 經(jīng)常有香客問我,道長困鸥,這世上最難降的妖魔是什么嗅蔬? 我笑而不...
    開封第一講書人閱讀 56,564評(píng)論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮疾就,結(jié)果婚禮上澜术,老公的妹妹穿的比我還像新娘。我一直安慰自己猬腰,他們只是感情好鸟废,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,681評(píng)論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著姑荷,像睡著了一般盒延。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上鼠冕,一...
    開封第一講書人閱讀 49,874評(píng)論 1 290
  • 那天添寺,我揣著相機(jī)與錄音,去河邊找鬼懈费。 笑死计露,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的憎乙。 我是一名探鬼主播票罐,決...
    沈念sama閱讀 39,025評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼泞边!你這毒婦竟也來了该押?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,761評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤阵谚,失蹤者是張志新(化名)和其女友劉穎沈善,沒想到半個(gè)月后乡数,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,217評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡闻牡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,545評(píng)論 2 327
  • 正文 我和宋清朗相戀三年净赴,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片罩润。...
    茶點(diǎn)故事閱讀 38,694評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡玖翅,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出割以,到底是詐尸還是另有隱情金度,我是刑警寧澤,帶...
    沈念sama閱讀 34,351評(píng)論 4 332
  • 正文 年R本政府宣布严沥,位于F島的核電站猜极,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏消玄。R本人自食惡果不足惜跟伏,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,988評(píng)論 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望翩瓜。 院中可真熱鬧受扳,春花似錦、人聲如沸兔跌。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,778評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽坟桅。三九已至华望,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間仅乓,已是汗流浹背立美。 一陣腳步聲響...
    開封第一講書人閱讀 32,007評(píng)論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留方灾,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,427評(píng)論 2 360
  • 正文 我出身青樓碌更,卻偏偏與公主長得像裕偿,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子痛单,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,580評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容