DINO和DINOv2的注意力

1. DINO

DINO 是 Meta 在2021年提出的一種的自監(jiān)督學習方法搔扁,名稱來源于 knowledge
distillation with no labels嘉蕾,即無標簽知識蒸餾芭概。

DINO結(jié)構(gòu)圖

和其他 inter-view 的自監(jiān)督方法類似,DINO 將輸入圖像 x 的兩種不同的隨機變換 (x_1, x_2) 傳遞給學生和教師網(wǎng)絡(luò)症汹,這兩個網(wǎng)絡(luò)具有相同的結(jié)構(gòu),但參數(shù)不同背镇。教師網(wǎng)絡(luò)的輸出以每個 batch 的平均值為中心。每個網(wǎng)絡(luò)輸出一個 K 維特征瞒斩,用 softmax 進行歸一化。然后最小化交叉熵損失胸囱,也就是提高教師網(wǎng)絡(luò)和學生網(wǎng)絡(luò)參數(shù)的相似性旺矾。梯度僅通過學生傳播,教師參數(shù)使用學生參數(shù)的指數(shù)移動平均值 (ema) 進行更新。

教師網(wǎng)絡(luò)比學生網(wǎng)絡(luò)多了一個 centering 操作铺纽,用于避免模型崩潰,相當于對教師網(wǎng)絡(luò)的參數(shù)加入了一個可以通過 EMA 更新參數(shù)的 bias cg(x) \leftarrow g(x) + c陷寝。

DINO偽代碼

DINO 最驚人的效果是在無監(jiān)督下學習的模型可以將注意力非常好地集中在物體上其馏,多頭注意力中不同的 head 甚至可以關(guān)注到同一物體不同的區(qū)域或者不同的物體。

無監(jiān)督訓練下的自注意力
多頭注意力可視乎

定性結(jié)果表明,最后一個注意力層會關(guān)注圖像中語義一致的部分褐奥,并經(jīng)常產(chǎn)生可解釋的注意力圖。利用這些特性儿倒,建立在 DINO 的基礎(chǔ)之上的物體發(fā)現(xiàn)算法(如 LOST呜笑,Sim′eoni et al.,2021)叫胁,通過收集注意力圖中的信息,在沒有監(jiān)督的情況下檢測物體溉瓶。

2. DINOv2

DINOv2 是在 DINO 基礎(chǔ)上用更多數(shù)據(jù)和更多 tricks 訓練出來的,在很多任務上都取得了很好的表現(xiàn)疾宏。

但值得注意的是論文中并沒有給出像 DINO 論文中一樣的注意力可視化圖触创,而是可視乎了圖像 patch 的 PCA。

PCA 可視乎

原因就在于 DINOv2 的注意力可視化出來并不如 DINO 一樣完美集中在圖像物體上岩馍,而是在某些 token 上會有異常高的值出現(xiàn)抖韩,被稱為”偽影“。

在ViT的注意力圖譜中觀察到的偽影

這些偽影的特點:

  • 高范數(shù)值(high norm token)
  • 在大型模型的訓練過程中會出現(xiàn)
  • 出現(xiàn)在信息冗余的 patch 上
  • 幾乎不包含 local 信息
  • 包含 global 信息

對于這種現(xiàn)象双谆,一種解釋是在 ViT 的訓練過程中 token 的數(shù)量是有限的顽馋,因此模型需要充分利用 token幌羞,將信息冗余位置的 token 用于儲存全局信息。

3. Vison Transformer need registers

模型儲存全局信息是件好事熊痴,但是我們并不希望丟棄局部信息地啰,因為這有可能損害下游任務的表現(xiàn)。

解決方法就是多加幾個 token亏吝,讓模型用于儲存額外的全局信息,這些token被叫做寄存器蔚鸥,具有可學習的參數(shù),在 transformer 的最后一層被丟棄馆类。

加入 register之后的注意力圖

加入 register token 之后弹谁,[CLS] token 可以很到的集中在圖中的主要物體上句喜,而 register 則會關(guān)注到一些不同的區(qū)域咳胃。

加入寄存器機制首次在 Memory Transformers (Burtsev et al., 2020) 中提出旷太,改進了 NLP 中的翻譯任務。使用特殊 token 擴展 Transformer 序列在 BERT 中得到了普及(Devlin et al., 2019)存崖。然而睡毒,大多數(shù)方法添加新 token,要么為網(wǎng)絡(luò)提供新信息违寞,例如 BERT 中的 [SEP] token偶房,要么收集 token 信息军浆,并使用它們的輸出值作為模型的輸出崭闲,例如分類中的 [cls] token。

而 [reg] token 既不提供信息也不直接用于任務矩肩,只是為無處安放的 global 信息提供了一個安放之處愧捕,順便提高了模型的可解釋性申钩。

由于這種”偽影“只在大規(guī)模訓練中出現(xiàn),我的猜想是邮偎,模型有足夠多的參數(shù)和數(shù)據(jù)去學習义黎,會從數(shù)據(jù)中學到很多信息,圖像中天然的包含了很多隱含的信息泻云,比如"咖啡應該在咖啡杯里而不是咖啡杯的托盤里”這種抽象又沒用的知識,對于下游任務可能毫無幫助宠纯,但是對于讓模型更加“智能”是很重要的。也許我們需要更多的評估指標去了解視覺模型究竟從數(shù)據(jù)中學到了什么娇哆。

參考:

[1] Caron M, Touvron H, Misra I, et al. Emerging properties in self-supervised vision transformers[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 9650-9660.

[2] Oquab M, Darcet T, Moutakanni T, et al. Dinov2: Learning robust visual features without supervision[J]. arXiv preprint arXiv:2304.07193, 2023.

[3] Darcet T, Oquab M, Mairal J, et al. Vision transformers need registers[J]. arXiv preprint arXiv:2309.16588, 2023.

[4] 代碼: https://github.com/facebookresearch/dinov2

[5] (這個也是我) https://bigfishtwo.github.io/posts/dinos/

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末碍讨,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子勃黍,更是在濱河造成了極大的恐慌晕讲,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件弄息,死亡現(xiàn)場離奇詭異摹量,居然都是意外死亡馒胆,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門睦尽,熙熙樓的掌柜王于貴愁眉苦臉地迎上來型雳,“玉大人,你說我怎么就攤上這事宁玫「躺梗” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵佛掖,是天一觀的道長。 經(jīng)常有香客問我芥被,道長,這世上最難降的妖魔是什么冗茸? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任匹中,我火速辦了婚禮,結(jié)果婚禮上挂绰,老公的妹妹穿的比我還像新娘。我一直安慰自己葵蒂,他們只是感情好重虑,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著缺厉,像睡著了一般。 火紅的嫁衣襯著肌膚如雪芽死。 梳的紋絲不亂的頭發(fā)上关贵,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天揖曾,我揣著相機與錄音亥啦,去河邊找鬼炭剪。 笑死奴拦,一個胖子當著我的面吹牛届吁,可吹牛的內(nèi)容都是我干的绿鸣。 我是一名探鬼主播暂氯,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼擎厢!你這毒婦竟也來了辣吃?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤沽损,失蹤者是張志新(化名)和其女友劉穎循头,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體国裳,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡全跨,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年浓若,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片挪钓。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡碌上,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出馏予,到底是詐尸還是另有隱情,我是刑警寧澤呢岗,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站暂筝,受9級特大地震影響硬贯,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜饭豹,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望它褪。 院中可真熱鬧翘悉,春花似錦、人聲如沸妖混。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至开财,卻和暖如春误褪,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背兽间。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人传货。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓问裕,卻偏偏與公主長得像,于是被迫代替她去往敵國和親粮宛。 傳聞我的和親對象是個殘疾皇子卖宠,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容