接著上次對(duì)比學(xué)習(xí)的內(nèi)容碎捺,這次主要說(shuō)下基于掩碼的對(duì)比學(xué)習(xí)路鹰。
1 MAE
預(yù)訓(xùn)練流程:input --> patches --> masked --> unmasked patches in encoder --> unmasked + masked 按位置排列 進(jìn) decoder --> decoder 重構(gòu) masked patches 的像素
patches + masked:一張紅色鳥(niǎo)圖片進(jìn)來(lái),切成 patches收厨,masked 塊 (3/4) 是 灰色的悍引。unmasked patches,encoder:沒(méi)有 masked (1 / 4) 的塊 進(jìn)入 encoder (ViT)帽氓,得到每一塊的特征(藍(lán)色)趣斤。encoder 的輸出 和 masked tokens 按照在圖片中的原始位置排列成一長(zhǎng)條向量 (包含位置信息)。長(zhǎng)條向量 進(jìn)入 decoder黎休,解碼器嘗試重構(gòu)缺失的像素信息浓领,還原原始圖片玉凯。這里的encoder 比 decoder 高:計(jì)算量主要來(lái)自于 encoder,對(duì)圖片的像素進(jìn)行編碼联贩。優(yōu)化 encoder by 編碼器只用處理 unmasked patches漫仆,i.e., 一張圖里 1/4 的像素,--> 計(jì)算量降低泪幌,Transformer 模型計(jì)算量特別大盲厌,幾倍加速也很重要
。用 MAE 做一個(gè) CV 的任務(wù)祸泪,只需要用編碼器吗浩。一張圖片進(jìn)來(lái),不需要做掩碼没隘,直接切成 patches 格子塊懂扼,然后得到所有 patches 的特征表示,當(dāng)成是這張圖片的特征表達(dá)右蒲,用來(lái)做 CV 的下游任務(wù)阀湿。 在編碼的部分可以使得模型將圖像信息編碼到語(yǔ)義特征中去。 還有一個(gè)注意事項(xiàng)是解碼器的時(shí)候需要加入位置信息進(jìn)去.
這里使用的目標(biāo)函數(shù)為MSE
損失函數(shù)瑰妄。
該文作者表示說(shuō)通過(guò)隨機(jī)蓋住圖片中的一些塊陷嘴,然后再去重構(gòu)這些被蓋住的像素
(這個(gè)思想也來(lái)自于BERT的帶掩碼的語(yǔ)言模型,但不一樣的是這一個(gè)詞(patches), 它就是一個(gè)image的一個(gè)塊间坐,然后它預(yù)測(cè)的是你這個(gè)塊里的所有的像素)灾挨。下面兩點(diǎn)是文章的貢獻(xiàn):
- 設(shè)計(jì)了一種非對(duì)稱編解碼架構(gòu),其中解碼器僅作用于可見(jiàn)塊(無(wú)需mask信息)眶诈,而解碼器則通過(guò)隱表達(dá)與mask信息進(jìn)行原始圖像重建涨醋;
- 我們發(fā)現(xiàn)對(duì)輸入圖像進(jìn)行高比例mask(比如75%)可以產(chǎn)生一項(xiàng)重要且有意義的自監(jiān)督任務(wù)。
上述兩種設(shè)計(jì)促使我們可以更高效的訓(xùn)練大模型:我們加速訓(xùn)練達(dá)3x甚至更多逝撬,同時(shí)提升模型精度浴骂。所提方案使得所得高精度模型具有很好的泛化性能:僅需ImageNet-1K,ViT-Huge取得了87.8%的top1精度 宪潮。下游任務(wù)的遷移取得了優(yōu)于監(jiān)督訓(xùn)練的性能溯警,證實(shí)了所提方案的可擴(kuò)展能力。
效果
下圖是同一張圖片狡相、masked patches 的不同比例 的還原效果
細(xì)節(jié)
1. 圖片和語(yǔ)言的差別
a word in a sentence
:一個(gè)詞是語(yǔ)義單元梯轻,包含較多語(yǔ)義信息
a patch in an image
:一定的語(yǔ)義信息,但不是一個(gè)語(yǔ)義的 segment
一個(gè) patch 并不含有一個(gè)特定的物體可能是多個(gè)物體的一小塊 or 一個(gè)物體重疊的一塊即使圖片和語(yǔ)言的 masked 的單元包含語(yǔ)義信息不同尽棕,MAE or Transformer 可以學(xué)到一個(gè)隱藏的比較好的語(yǔ)義表達(dá)
2. 文章影響
如果工作出圈喳挑,對(duì)社會(huì)的影響?只用了圖片本身信息學(xué)習(xí)圖片本身有 bias 的話,傾向于某一些圖片 or 有一些不好的圖片伊诵,可能會(huì)有負(fù)面的社會(huì)影響MAE 可以用來(lái)生成不存在的內(nèi)容MAE 是生成模型单绑,生成原始的像素和 GAN 類似,有誤導(dǎo)大家的可能如果要使用這個(gè)工作曹宴,請(qǐng)一定要考慮潛在的影響搂橙。