DeiT:訓(xùn)練ImageNet僅用4卡不到3天的平民ViT | ICML 2021

論文基于改進訓(xùn)練配置以及一種新穎的蒸餾方式昌简,提出了僅用ImageNet就能訓(xùn)練出來的Transformer網(wǎng)絡(luò)DeiT饲帅。在蒸餾學(xué)習(xí)時,DeiT以卷積網(wǎng)絡(luò)作為teacher甸昏,能夠結(jié)合當(dāng)前主流的數(shù)據(jù)增強和訓(xùn)練策略來進一步提高性能耐薯。從實驗結(jié)果來看舔清,效果很不錯

來源:曉飛的算法工程筆記 公眾號

論文: Training data-efficient image transformers & distillation through attention

[圖片上傳失敗...(image-3e441f-1659936459728)]

Introduction


[圖片上傳失敗...(image-bbabd8-1659936459729)]

? Vision Transformer一般要先在大型計算設(shè)施上預(yù)訓(xùn)練數(shù)以億計的圖片才能有較好的性能,這極大地提高其應(yīng)用門檻曲初。為此体谒,論文基于ViT提出了可在ImageNet上訓(xùn)練的Vision Transformer模型DeiT,僅需要一臺電腦(4卡)訓(xùn)練不到三天(53小時的預(yù)訓(xùn)練和可選的20小時微調(diào))的時間臼婆。在沒有外部數(shù)據(jù)預(yù)訓(xùn)練的情況下抒痒,在ImageNet上達到了83.1% 的最高精度。

? 此外目锭,論文還提出了一種針對Transformer的蒸餾策略评汰,通過一個蒸餾token確保student網(wǎng)絡(luò)通過注意力從teacher網(wǎng)絡(luò)那里進行學(xué)習(xí)。當(dāng)使用卷積網(wǎng)絡(luò)作為teacher網(wǎng)絡(luò)時痢虹,ImageNet上可達到85.2%的準確性被去。

? 總體而言,論文主要有以下貢獻:

  • 通過實驗表明奖唯,在沒有外部數(shù)據(jù)的情況下惨缆,Vision Transformer也可以在ImageNet上達到SOTA的結(jié)果,而且僅需要4卡設(shè)備訓(xùn)練三天。
  • 論文提出了一種基于蒸餾token的新蒸餾方法坯墨,這種用于Transformer的蒸餾方法大幅優(yōu)于一般蒸餾方法寂汇。蒸餾token與class token的作用相同,都參與注意力計算中捣染,只是蒸餾token的訓(xùn)練目的在于復(fù)現(xiàn)teacher網(wǎng)絡(luò)的標簽預(yù)測骄瓣。
  • 有趣的是,論文發(fā)現(xiàn)在使用新蒸餾方法時耍攘,用卷積網(wǎng)絡(luò)作為teacher要比用另一個相同準確率的transformer的作為teacher的效果要好榕栏。
  • 在Imagenet上預(yù)訓(xùn)練的模型可以轉(zhuǎn)移到不同的下游任務(wù)(如細粒度分類),得到很不錯的性能蕾各。

Distillation through attention


Soft distillation

? 一般的蒸餾方法都是Soft distillation扒磁,其核心目標是最小化teacher網(wǎng)絡(luò)和student網(wǎng)絡(luò)的softmax輸出之間的Kullback-Leibler散度。

? 定義Z_t為teacher網(wǎng)絡(luò)的logits輸出(輸入softmax的向量)式曲,Z_s為student網(wǎng)絡(luò)的logits輸出妨托。用\tau表示蒸餾溫度,\lambda表示平衡Kullback-Leibler散度損失(KL)和交叉熵損失(LCE)的權(quán)值吝羞,\psi表示softmax函數(shù)兰伤。定義soft distillation的目標函數(shù)為:

[圖片上傳失敗...(image-2a5c71-1659936459729)]

Hard-label distillation

? 論文提出了一種蒸餾的變體,將teacher網(wǎng)絡(luò)的預(yù)測標簽作為蒸餾的GT標簽钧排。假設(shè)y_t = argmax_c Z_t(c)是teacher網(wǎng)絡(luò)的預(yù)測標簽医清,與之相關(guān)的hard-label distillation目標為:

[圖片上傳失敗...(image-db2c9e-1659936459729)]

? 對于同一張圖片,teacher網(wǎng)絡(luò)預(yù)測的標簽可能隨著特定的數(shù)據(jù)增強而有所變化卖氨。從實驗結(jié)果來看,將預(yù)測標簽作為蒸餾目標的做法比傳統(tǒng)的做法更好负懦,不僅無額外參數(shù)筒捺,概念上還更簡單:teacher網(wǎng)絡(luò)預(yù)測的y_t與真實標簽y是相同的作用。
? 此外纸厉,hard label也可以通過label smoothing轉(zhuǎn)換為軟標簽系吭,其中GT標簽具有1 - \varepsilon的概率,其余類共享\varepsilon概率颗品。在相關(guān)的實驗中肯尺,參數(shù)固定為\varepsilon = 0.1

Distillation token

[圖片上傳失敗...(image-cbeade-1659936459729)]

? 論文提出的蒸餾方案如如圖2所示躯枢,在輸入的token序列中添加一個蒸餾token则吟。蒸餾token與class token類似,通過self-attention與其它token交互并將最后一層中的對應(yīng)輸出作為網(wǎng)絡(luò)輸出锄蹂,其訓(xùn)練目標為損失函數(shù)中的蒸餾損失部分氓仲。蒸餾token使得模型可以像常規(guī)蒸餾一樣從teacher網(wǎng)絡(luò)的輸出中學(xué)習(xí),同時與class token保持互補的關(guān)系。

? 論文發(fā)現(xiàn)敬扛,訓(xùn)練后的輸入層class token和蒸餾token收斂到了完全不同的向量晰洒,平均余弦相似度僅為0.06。但隨著在網(wǎng)絡(luò)的計算啥箭,class和蒸餾token在越深層中的對應(yīng)輸出逐漸變得更加相似谍珊,最后一層達到了較高的相似度(cos=0.93),但沒有完全相同急侥。這是符合預(yù)期的砌滞,因為兩個token的目標就是產(chǎn)生相似但不相同的目標。

? 論文也嘗試替代實驗缆巧,用另一個class token代替teacher網(wǎng)絡(luò)的蒸餾token進行偽蒸餾學(xué)習(xí)布持。但無論如何隨機且獨立地初始化兩個class token,訓(xùn)練后都會收斂到相同的向量(cos=0.999)陕悬,其對應(yīng)的輸出也是準相同的题暖。這表明這個代替的class token不會對分類性能帶來任何影響,相比之下蒸餾token則能帶來顯著的提升捉超。

Fine-tuning with distillation

? 在分辨率增加的fine-tuning階段胧卤,同樣使用真實標簽和teacher網(wǎng)絡(luò)預(yù)測標簽進行訓(xùn)練。此時需要一個具有相同目標分辨率的teacher網(wǎng)絡(luò)拼岳,可通過FixRes的做法從之前的低分辨率teacher網(wǎng)絡(luò)中轉(zhuǎn)換枝誊。論文也嘗試了只用真實標簽進行fine-tuning,但這導(dǎo)致了性能的降低惜纸。

Classification with our approach:joint classifiers

? 在測試時叶撒,網(wǎng)絡(luò)輸出的class token和蒸餾token都用于標簽分類。論文的建議做法是將這兩個token獨立預(yù)測后再融合耐版,即將兩個分類器的softmax輸出相加再進行預(yù)測祠够。

Transformer models


[圖片上傳失敗...(image-fa1509-1659936459729)]

? DeiT的架構(gòu)設(shè)計與ViT相同,唯一的區(qū)別是訓(xùn)練策略和蒸餾token粪牲,訓(xùn)練策略的區(qū)別如表9所示古瓤。此外,在預(yù)訓(xùn)練時不使用MLP腺阳,僅使用線性分類器落君。

? 為避免混淆,用ViT來指代先前工作中的結(jié)果亭引,用DeiT來指代論文的結(jié)果绎速。如果未指定,DeiT指的是DeiT-B痛侍,與ViT-B具有相同的架構(gòu)朝氓。當(dāng)以更大的分辨率fine-tune DeiT時魔市,論文會在名字的最后附加分辨率,例如DeiT-B↑384赵哲。最后待德,當(dāng)使用論文提出的蒸餾方法時,論文會用一個蒸餾符號將其標識為DeiT?.枫夺。

[圖片上傳失敗...(image-88e3e-1659936459729)]

? 如表1所示将宪,DeiT-B的結(jié)構(gòu)與ViT-B完全一樣,參數(shù)固定為D = 768橡庞,h = 12d = D/h = 64较坛。另外,論文設(shè)計了兩個較小的模型:DeiT-S和DeiT-Ti扒最,減少了head的數(shù)量丑勤,d保持不變。

Experiment


[圖片上傳失敗...(image-421243-1659936459729)]

? 不同類型的teacher網(wǎng)絡(luò)的蒸餾效果吧趣。

[圖片上傳失敗...(image-bc687f-1659936459729)]

? 不同蒸餾策略的對比實驗法竞。

[圖片上傳失敗...(image-345c1-1659936459729)]

? 不同網(wǎng)絡(luò)以及蒸餾策略之間的結(jié)果差異,值越小差異越小强挫。

[圖片上傳失敗...(image-b489dc-1659936459729)]

? 蒸餾策略與訓(xùn)練周期的關(guān)系岔霸。

[圖片上傳失敗...(image-5a408b-1659936459729)]

? 整體性能的對比。

[圖片上傳失敗...(image-f38b6e-1659936459729)]

? ImageNet上預(yù)訓(xùn)練模型的在其它訓(xùn)練集上的遷移效果俯渤。

[圖片上傳失敗...(image-7e2511-1659936459729)]

? 不同優(yōu)化器呆细、數(shù)據(jù)增強、正則化的對比八匠,尋找最佳的訓(xùn)練策略和配置絮爷。

[圖片上傳失敗...(image-89e4a2-1659936459729)]

? 224分辨率預(yù)訓(xùn)練的DeiT在不同數(shù)據(jù)集上用不同分辨率fine-tune的效果。

Conclusion


? 論文基于改進訓(xùn)練配置以及一種新穎的蒸餾方式梨树,提出了僅用ImageNet就能訓(xùn)練出來的Transformer網(wǎng)絡(luò)DeiT略水。在蒸餾學(xué)習(xí)時苦酱,DeiT以卷積網(wǎng)絡(luò)作為teacher托启,能夠結(jié)合當(dāng)前主流的數(shù)據(jù)增強和訓(xùn)練策略來進一步提高性能票堵。從實驗結(jié)果來看,效果很不錯床嫌。

?

?
?
?

如果本文對你有幫助,麻煩點個贊或在看唄~
更多內(nèi)容請關(guān)注 微信公眾號【曉飛的算法工程筆記】

work-life balance.
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末胸私,一起剝皮案震驚了整個濱河市厌处,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌岁疼,老刑警劉巖阔涉,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件缆娃,死亡現(xiàn)場離奇詭異,居然都是意外死亡瑰排,警方通過查閱死者的電腦和手機贯要,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來椭住,“玉大人崇渗,你說我怎么就攤上這事【┲#” “怎么了宅广?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長些举。 經(jīng)常有香客問我跟狱,道長,這世上最難降的妖魔是什么户魏? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任驶臊,我火速辦了婚禮,結(jié)果婚禮上绪抛,老公的妹妹穿的比我還像新娘资铡。我一直安慰自己,他們只是感情好幢码,可當(dāng)我...
    茶點故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布笤休。 她就那樣靜靜地躺著,像睡著了一般症副。 火紅的嫁衣襯著肌膚如雪店雅。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天贞铣,我揣著相機與錄音闹啦,去河邊找鬼。 笑死辕坝,一個胖子當(dāng)著我的面吹牛窍奋,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播酱畅,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼琳袄,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了纺酸?” 一聲冷哼從身側(cè)響起窖逗,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎餐蔬,沒想到半個月后碎紊,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體佑附,經(jīng)...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年仗考,在試婚紗的時候發(fā)現(xiàn)自己被綠了音同。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,795評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡痴鳄,死狀恐怖瘟斜,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情痪寻,我是刑警寧澤螺句,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站橡类,受9級特大地震影響蛇尚,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜顾画,卻給世界環(huán)境...
    茶點故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一取劫、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧研侣,春花似錦谱邪、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至末誓,卻和暖如春扯俱,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背喇澡。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工迅栅, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人晴玖。 一個月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓读存,卻偏偏與公主長得像,于是被迫代替她去往敵國和親呕屎。 傳聞我的和親對象是個殘疾皇子宪萄,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,724評論 2 354

推薦閱讀更多精彩內(nèi)容