Scaling Language-Image Pre-training via Masking
原文:https://arxiv.org/abs/2212.00794
作者:Yanghao Li, Haoqi Fan, Ronghang Hu, Christoph Feichtenhofer, Kaiming He
單位:Meta AI, FAIR
我們提出了快速語言圖像預(yù)訓(xùn)練(FLIP)律适,這是一種簡單而有效的訓(xùn)練CLIP的方法优质。我們的方法在訓(xùn)練過程中隨機屏蔽并去除大部分圖像塊杆故。屏蔽允許我們在相同的時鐘時間內(nèi)從更多的圖像-文本對中學(xué)習(xí),并以相似的內(nèi)存占用率對比每次迭代的更多樣本。這在準(zhǔn)確性和訓(xùn)練時間之間產(chǎn)生了有利的權(quán)衡哥蔚。在我們對4億個圖像文本對的實驗中寄雀,F(xiàn)LIP比無屏蔽基線提高了準(zhǔn)確性和速度。在大量的下游任務(wù)上盐肃,F(xiàn)LIP顯著優(yōu)于在相同數(shù)據(jù)上訓(xùn)練的CLIP對手。在加速的推動下权悟,我們探索了增加模型大小砸王、數(shù)據(jù)大小或訓(xùn)練長度的縮放行為,并報告了令人鼓舞的結(jié)果和比較峦阁。我們希望我們的工作將促進未來關(guān)于擴展視覺語言學(xué)習(xí)的研究谦铃。
1.引言
語言監(jiān)督的視覺預(yù)訓(xùn)練,例如CLIP[52]榔昔,已被確立為一種簡單而強大的學(xué)習(xí)表示方法驹闰。經(jīng)過預(yù)訓(xùn)練的CLIP模型因其顯著的多功能性而脫穎而出:它們具有很強的零樣本遷移能力[52];它們在文本到圖像生成中表現(xiàn)出前所未有的質(zhì)量(例如[53撒会,55])嘹朗;預(yù)訓(xùn)練的編碼器可以改善多模態(tài)甚至單模態(tài)視覺任務(wù)。就像十年前監(jiān)督預(yù)訓(xùn)練所扮演的角色一樣[40]诵肛,語言監(jiān)督視覺預(yù)訓(xùn)練是當(dāng)今各種任務(wù)的新燃料屹培。
與具有預(yù)定義標(biāo)簽集的經(jīng)典監(jiān)督學(xué)習(xí)不同,自然語言提供了更豐富的監(jiān)督形式曾掂,例如惫谤,在多個粒度級別上對對象、場景珠洗、動作溜歪、上下文及其關(guān)系進行監(jiān)督。由于視覺加語言的復(fù)雜性许蓖,大規(guī)模訓(xùn)練對于語言監(jiān)督模型的能力至關(guān)重要蝴猪。例如调衰,原始CLIP模型[52]在32個epoch的4億數(shù)據(jù)上進行了訓(xùn)練,總計10000 ImageNet[16]個epoch自阱,需要數(shù)千GPU天[52嚎莉,36]。即使使用高端基礎(chǔ)設(shè)施沛豌,掛鐘訓(xùn)練時間仍然是阻礙擴展視覺語言學(xué)習(xí)探索的主要瓶頸趋箩。
我們提出了快速語言圖像預(yù)訓(xùn)練(FLIP),這是一種有效的CLIP訓(xùn)練的簡單方法加派。受屏蔽自動編碼器(MAE)[29]稀疏計算的啟發(fā)叫确,我們在訓(xùn)練期間隨機移除了大部分圖像塊。這種設(shè)計在“我們?nèi)绾巫屑毜夭榭礃颖緦Α焙汀拔覀兛梢蕴幚矶嗌贅颖緦Α敝g引入了權(quán)衡芍锦。使用屏蔽竹勉,我們可以:(i)在相同的時鐘訓(xùn)練時間下看到更多的樣本對(即,更多的時間段)娄琉,以及(ii)在相似的內(nèi)存占用下比較/對比每個步驟(即次乓,更大的批次)的更多樣本對。根據(jù)經(jīng)驗孽水,處理更多樣本對的好處大大超過了每樣本編碼的退化票腰,從而產(chǎn)生了有利的權(quán)衡。
通過去除訓(xùn)練圖像的50%-75%的patch匈棘,我們的方法將計算量減少2-4倍丧慈;它還允許使用2-4×更大的批次,幾乎沒有額外的內(nèi)存成本主卫,這得益于對比學(xué)習(xí)的行為,提高了準(zhǔn)確性[30鹃愤,11]簇搅。如圖1所示,F(xiàn)LIP訓(xùn)練的掛鐘時間比CLIP訓(xùn)練快3倍以上软吐,以達到與CLIP相似的精度瘩将;在相同epoch數(shù)的情況下,F(xiàn)LIP比CLIP達到了更高的精度凹耙,同時速度仍為2-3倍姿现。
我們表明,F(xiàn)LIP在各種下游任務(wù)上是CLIP的一個有競爭力的替代方案肖抱。在相同的LAION-400M數(shù)據(jù)集上進行預(yù)訓(xùn)練[56]备典,F(xiàn)LIP在大量下游數(shù)據(jù)集和遷移場景上進行評估時,顯著優(yōu)于其CLIP對手(OpenCLIP[36]和我們自己的復(fù)現(xiàn))意述。這些比較表明提佣,F(xiàn)LIP可以很容易地享受更快的訓(xùn)練速度吮蛹,同時仍然提供準(zhǔn)確度增益。
通過更快的訓(xùn)練拌屏,我們探索擴展FLIP預(yù)訓(xùn)練潮针。我們研究了這三個軸:(i)縮放模型大小,(ii)縮放數(shù)據(jù)集大小倚喂,或(iii)縮放訓(xùn)練計劃長度每篷。我們通過仔細控制的實驗來分析縮放行為。我們觀察到端圈,模型縮放和數(shù)據(jù)縮放都可以提高精度雳攘,數(shù)據(jù)縮放可以顯示增益,而無需額外的訓(xùn)練成本枫笛。我們希望我們的方法吨灭、結(jié)果和分析將鼓勵未來對縮放視覺語言學(xué)習(xí)的研究。
2.相關(guān)工作
用屏蔽學(xué)習(xí)刑巧。
十多年前喧兄,使用屏蔽噪聲[64]對自動編碼器[63]進行去噪是一種無監(jiān)督的表示學(xué)習(xí)方法。其最杰出的應(yīng)用之一是以BERT為代表的屏蔽語言建模[18]啊楚。在計算機視覺中吠冤,沿著這個方向的探索包括預(yù)測大的缺失區(qū)域[50]、像素序列[10]恭理、patch[20拯辙、29、71]或預(yù)先計算的特征[6颜价、66]涯保。
屏蔽自動編碼器(MAE)方法[29]進一步利用屏蔽來減少訓(xùn)練時間和內(nèi)存。MAE稀疏地將ViT編碼器[20]應(yīng)用于可見內(nèi)容周伦。它還觀察到夕春,高屏蔽比有利于精度。MAE設(shè)計已應(yīng)用于視頻[61专挪,22]及志、點云[49]、圖形[59寨腔,9速侈,32]、音頻[4迫卢,47倚搬,13,35]靖避、視覺控制[70潭枣,57]比默、視覺語言[23,41盆犁,31命咐,19]和其他模態(tài)[5]。
我們的工作與MAE及其視覺語言擴展相關(guān)[23谐岁,41醋奠,31,19]伊佃。然而窜司,我們的重點是稀疏計算所支持的縮放方面;我們解決了大規(guī)模CLIP訓(xùn)練的挑戰(zhàn)[52]航揉,而之前的工作[23塞祈,41,31帅涂,19]在規(guī)模方面受到限制议薪。我們的方法不執(zhí)行重建,也不是自動編碼的一種形式媳友。[69]中針對自監(jiān)督對比學(xué)習(xí)(例如MoCo[30]或BYOL[27])研究了通過屏蔽來加速訓(xùn)練斯议,但其準(zhǔn)確性可能受到純圖像對比學(xué)習(xí)的縮放行為的限制。
語言監(jiān)督學(xué)習(xí)醇锚。
在過去的幾年中哼御,CLIP[52]和相關(guān)著作(例如[37,51])通過語言監(jiān)督普及了視覺表征的學(xué)習(xí)焊唬。CLIP是通過比較圖像-文本樣本對進行對比學(xué)習(xí)的一種形式[28]恋昼。除了對比學(xué)習(xí)之外,還探索了生成性學(xué)習(xí)方法[17求晶,65焰雕,2,74]芳杏,可選地結(jié)合對比損失[74]。我們的方法側(cè)重于CLIP方法辟宗,而我們希望將來可以將其擴展到生成方法爵赵。
3.方法
簡而言之,我們的方法簡單地屏蔽了CLIP[52]訓(xùn)練中的輸入數(shù)據(jù)泊脐,并減少了計算量空幻。見圖2。在我們的場景中容客,屏蔽的好處在于明智地花費計算秕铛。直觀地說约郁,這導(dǎo)致了我們對樣本的編碼密度與我們作為學(xué)習(xí)信號比較的樣本數(shù)量之間的權(quán)衡。通過引入屏蔽但两,我們可以:(i)在相同的時鐘訓(xùn)練時間下鬓梅,從更多的圖像-文本對中學(xué)習(xí),以及(ii)在相同內(nèi)存約束下谨湘,在更大的批次中具有對比目標(biāo)绽快。我們通過實驗表明,對于這兩個方面紧阔,我們的方法在權(quán)衡中都處于優(yōu)勢坊罢。接下來,我們將介紹我們方法的關(guān)鍵組件擅耽。
圖像屏蔽活孩。
我們采用視覺Transformer(ViT)[20]作為圖像編碼器。首先將圖像劃分為非重疊patch的網(wǎng)格乖仇。我們隨機屏蔽掉大部分(例如憾儒,50%或75%)patch;ViT編碼器僅應(yīng)用于可見patch这敬,如下[29]航夺。使用50%(或75%)的屏蔽比將圖像編碼的時間復(fù)雜度降低到1/2(或1/4);它還允許使用2×(或4×)更大的批次崔涂,具有類似的圖像編碼內(nèi)存成本阳掐。
文本掩碼。
可選地冷蚂,我們以與圖像屏蔽相同的方式執(zhí)行文本屏蔽缭保。我們屏蔽掉一部分文本標(biāo)記,并將編碼器僅應(yīng)用于可見標(biāo)記蝙茶,如[29]所示艺骂。這與BERT[18]不同,BERT[18]將它們替換為學(xué)習(xí)的掩碼令牌隆夯。這種稀疏計算可以降低文本編碼成本钳恕。然而,由于文本編碼器較小[52]蹄衷,加快其速度不會導(dǎo)致更好的總體權(quán)衡忧额。我們只研究消融的文本屏蔽。
客觀的
對圖像/文本編碼器進行訓(xùn)練以最小化對比損失[48]愧口。對比學(xué)習(xí)的負(fù)樣本對由同一批次的其他樣本組成[11]睦番。已經(jīng)觀察到,大量負(fù)樣本對于圖像上的自監(jiān)督對比學(xué)習(xí)至關(guān)重要[30,11]托嚣。這一特性在語言監(jiān)督學(xué)習(xí)中更為突出巩检。與MAE[29]不同,我們不使用重建損失示启。我們發(fā)現(xiàn)兢哭,重建對于零樣本遷移的良好性能是不必要的。放棄解碼器和重建損失會產(chǎn)生更好的加速丑搔。
正在取消屏蔽厦瓢。
雖然編碼器在掩模圖像上進行了預(yù)訓(xùn)練,但它可以直接應(yīng)用于完整圖像啤月,而無需進行更改煮仇,如[29]所示。這種簡單的設(shè)置足以提供有競爭力的結(jié)果谎仲,并將作為消融實驗的基線浙垫。
為了縮小由屏蔽引起的分布差距,我們可以將屏蔽率設(shè)置為0%郑诺,并繼續(xù)進行少量步驟的預(yù)訓(xùn)練夹姥。這種未屏蔽的調(diào)整策略產(chǎn)生了更有利的精度/時間權(quán)衡。
3.1.實施
我們的實現(xiàn)遵循CLIP[52]和OpenCLIP[36]辙诞,我們在下面描述了一些修改辙售。超參數(shù)見附錄。
我們的圖像編碼器遵循ViT論文[20]飞涂。我們在patch嵌入后不使用額外的LayerNorm[3]旦部,像[20],但不像[52]较店。我們在圖像編碼器的末尾使用全局平均池士八。輸入大小為224。
我們的文本編碼器是一種非自回歸Transformer[62]梁呈,它更容易適應(yīng)消融的文本屏蔽婚度。我們使用了如[18]所示的WordPiece標(biāo)記器。我們將序列填充或剪切到固定長度32官卡。我們注意到[52]中的CLIP使用了自回歸文本編碼器蝗茁、BytePairEncoding標(biāo)記器和長度為77。這些設(shè)計使我們在最初的復(fù)現(xiàn)中觀察到的差異很小寻咒。
圖像編碼器和文本編碼器的輸出通過線性層投影到相同維度的嵌入空間评甜。嵌入的余弦相似性由可學(xué)習(xí)的溫度參數(shù)[52]縮放,是InfoNCE損失的輸入[48]仔涩。
在零樣本遷移中,我們遵循代碼[52]中的提示工程粘舟。我們使用他們提供的7個提示模板進行ImageNet零樣本遷移熔脂。
我們的實現(xiàn)基于JAX[8]和t5x庫[54]佩研,用于大規(guī)模分布式訓(xùn)練。我們的訓(xùn)練是在TPU v3基礎(chǔ)設(shè)施上進行的霞揉。
4.實驗
4.1.消融
我們首先燒蝕FLIP設(shè)計旬薯。圖像編碼器為ViT-L/16[20],文本編碼器的尺寸較小适秩,如[52]所示绊序。我們在LAION-400M[36]上進行訓(xùn)練,并在ImageNet-1K[16]驗證上評估零樣本精度秽荞。
表1顯示了6.4個epoch的消融訓(xùn)練骤公。圖1描繪了多達32個epoch的權(quán)衡[52]平项。除非另有說明仁堪,否則結(jié)果以256個TPU-v3核心為基準(zhǔn)。
屏蔽比释簿。
表1a研究了圖像屏蔽率钦听。在這里洒试,我們相應(yīng)地縮放批大小(下一步刪除)朴上,以便大致保持內(nèi)存占用垒棋。0%掩碼條目表示我們的CLIP對應(yīng)項。屏蔽50%比CLIP基線高1.2%痪宰,屏蔽75%與基線持平叼架。速度方面,由于FLOP的大幅減少酵镜,屏蔽50%或75%只需要0.50倍或0.33倍的時鐘訓(xùn)練時間碉碉。
批量大小
我們在表1b中消除了批量大小的影響。不斷增加批次大小可提高準(zhǔn)確性淮韭。值得注意的是垢粮,即使使用16k的相同批量,我們的50%屏蔽條目也具有與0%屏蔽基線(68.6%靠粪,表1a)相當(dāng)?shù)臏?zhǔn)確度(68.5%蜡吧,表1b)。屏蔽引入的正則化可能會減少過度擬合占键,部分抵消這種設(shè)置中丟失信息的負(fù)面影響昔善。在75%的較高屏蔽率下,當(dāng)保持批量大小不變時畔乙,仍觀察到負(fù)面影響君仆。
我們基于屏蔽的方法自然鼓勵使用大批量。如表1a所示,如果我們根據(jù)屏蔽率來縮放批處理大小返咱,那么幾乎沒有額外的內(nèi)存成本钥庇。實際上,對于較大的批次咖摹,可用內(nèi)存始終是一個限制评姨。例如,表1a中的設(shè)置已經(jīng)達到了我們高端基礎(chǔ)設(shè)施中的內(nèi)存限制(256個TPU-v3內(nèi)核萤晴,每個16GB內(nèi)存)吐句。1如果使用更少的設(shè)備,內(nèi)存問題會更為苛刻店读,而且由于批量大小的幾乎自由增加嗦枢,我們的方法的增益將更加突出。
文本掩碼两入。表1c研究了文本屏蔽净宵。隨機屏蔽50%的文本會降低2.2%的準(zhǔn)確性。這與觀察[29]一致裹纳,即語言數(shù)據(jù)比圖像具有更高的信息密度择葡,因此文本屏蔽率應(yīng)該更低。
當(dāng)填充可變長度的文本序列以生成固定長度的批時剃氧,我們可以優(yōu)先屏蔽填充標(biāo)記敏储。與均勻地隨機屏蔽填充序列相比,優(yōu)先采樣保留了更多的有效令牌朋鞍。它將降解率降低到0.4%已添。
雖然我們的文本屏蔽比典型的屏蔽語言模型更具攻擊性(例如,[18]中的15%)滥酥,但總體速度增益很小更舞。這是因為文本編碼器較小,文本序列較短坎吻。與圖像編碼器相比缆蝉,文本編碼器的計算成本僅為4.4%(無屏蔽)。在這種情況下瘦真,文本屏蔽是不值得的刊头,我們在其他實驗中也不會屏蔽文本。
推理揭示诸尽。
默認(rèn)情況下原杂,我們在推斷時將模型應(yīng)用于完整圖像,類似于[29]您机。盡管屏蔽在訓(xùn)練和推理之間產(chǎn)生了分布偏移穿肄,但簡單地忽略這一偏移效果出奇地好(表1d年局,“無屏蔽”),即使在零樣本設(shè)置下被碗,在全圖像上從未進行過任何訓(xùn)練某宪。
表1d報告說,如果在推斷時使用屏蔽锐朴,精度會下降很多(例如,7.3%)蔼囊。這種下降可能部分是由于推斷時的信息丟失造成的焚志,因此我們還與集合多個屏蔽視圖進行了比較[10],其中視圖互為補充畏鼓,放在一起覆蓋所有patch酱酬。Ensembling減少了差距(表1d),但仍落后于簡單的全視圖推斷云矫。
無屏蔽微調(diào)膳沽。
到目前為止,我們的消融實驗不涉及無掩模微調(diào)让禀。表1e報告了預(yù)訓(xùn)練數(shù)據(jù)集上額外0.32個epoch的無掩模調(diào)整結(jié)果挑社。在75%的高屏蔽率下,它將準(zhǔn)確性提高了1.3%巡揍,這表明調(diào)整可以有效地減少預(yù)訓(xùn)練和推斷之間的分布差距痛阻。
圖3描繪了受無屏蔽微調(diào)影響的權(quán)衡(實線與虛線)。無屏蔽微調(diào)導(dǎo)致75%屏蔽的更理想的權(quán)衡腮敌;它對于50%的屏蔽具有可比的折衷阱当,但提高了最終精度。
重建糜工。
在表1f中弊添,我們研究了添加重建損失函數(shù)。重建頭遵循MAE[29]中的設(shè)計:它有一個小解碼器捌木,并重建標(biāo)準(zhǔn)化圖像像素油坝。重建損失被添加到對比損失中。
表1f顯示钮莲,重建的負(fù)面影響很小免钻。雖然這可能是次優(yōu)超參數(shù)(例如,平衡兩個損失)的結(jié)果崔拥,但為了力求簡單极舔,我們決定不使用重建損失。放棄重建頭也有助于簡化系統(tǒng)并提高精度/時間權(quán)衡链瓦。
準(zhǔn)確度與時間的權(quán)衡拆魏。
圖3給出了精度與訓(xùn)練時間權(quán)衡的詳細視圖盯桦。我們將時間表延長至最多32個epoch[52]。如圖3所示渤刃,F(xiàn)LIP明顯優(yōu)于CLIP拥峦。它可以實現(xiàn)與CLIP相似的精度,同時享受>3倍的加速卖子。使用相同的32個epoch的時間表略号,我們的方法比CLIP方法準(zhǔn)確度高出~1%,速度快2倍(屏蔽50%)洋闽。
我們方法的加速具有很大的實用價值玄柠。CLIP基線在256個TPU-v3核心中需要約10天的訓(xùn)練,因此2-3倍的加速可以節(jié)省很多天的掛鐘時間诫舅。這種加速有助于探索縮放行為羽利,我們將在第4.3節(jié)稍后討論。
4.2.與CLIP的比較
在本節(jié)中刊懈,我們將與各種場景中的各種CLIP基線進行比較这弧。我們表明,我們的方法是CLIP的一個有競爭力的替代方案虚汛;因此匾浪,我們的快速訓(xùn)練方法是實踐中更理想的選擇。
我們考慮以下CLIP基線:
?原始CLIP檢查點[52]泽疆,在私有數(shù)據(jù)集WIT-400M上訓(xùn)練户矢。
?OpenCLIP[36],接受LAION-400M訓(xùn)練殉疼。
?我們的CLIP復(fù)現(xiàn)梯浪,在LAION-400M上進行了訓(xùn)練。
最初的CLIP[52]是在私有數(shù)據(jù)集上訓(xùn)練的瓢娜,因此與其直接比較應(yīng)該反映數(shù)據(jù)的效果挂洛,而不僅僅是方法。OpenCLIP[36]是CLIP的忠實再現(xiàn)眠砾,但在我們可以使用的公共數(shù)據(jù)集上進行了訓(xùn)練虏劲,因此它是我們隔離數(shù)據(jù)集差異影響的良好參考。我們的CLIP復(fù)現(xiàn)進一步有助于隔離其他實現(xiàn)細節(jié)褒颈,并允許我們精確定位FLIP方法的效果柒巫。
對于本小節(jié)中研究的所有任務(wù),我們將與所有這些CLIP基線進行比較谷丸。這使我們能夠更好地理解數(shù)據(jù)和方法的影響堡掏。
ImageNet零樣本遷移。
在表2中刨疼,我們與ImageNet-1K[16]零樣本遷移的CLIP基線進行了比較泉唁。
作為一種健全性檢查鹅龄,我們的CLIP復(fù)現(xiàn)比在相同數(shù)據(jù)上訓(xùn)練的OpenCLIP具有略高的準(zhǔn)確性。原始CLIP比我們的復(fù)現(xiàn)和OpenCLIP具有更高的精度亭畜,這可能是由于預(yù)訓(xùn)練數(shù)據(jù)集之間的差異造成的扮休。
表2報告了我們的FLIP模型的結(jié)果,使用了我們在表1中燒蝕的最佳實踐(64k批次拴鸵、50%屏蔽比和無屏蔽微調(diào))玷坠。對于ViT-L/14,2宝踪,我們的方法具有74.6%的準(zhǔn)確度侨糟,比OpenCLIP高1.8%,比我們的CLIP復(fù)現(xiàn)高1.5%瘩燥。與原始CLIP相比,我們的方法將差距減少到0.7%不同。我們希望如果我們的方法在WIT數(shù)據(jù)上進行訓(xùn)練厉膀,將改進原始CLIP結(jié)果。
ImageNet線性探測二拐。
表3比較了線性探測結(jié)果服鹅,即在具有凍結(jié)特征的目標(biāo)數(shù)據(jù)集上訓(xùn)練線性分類器。FLIP的準(zhǔn)確率為83.6%百新,比CLIP高1.0%企软。它也比我們使用相同的SGD訓(xùn)練器遷移原始CLIP檢查點高0.6%。ImageNet微調(diào)饭望。表3還比較了全部微調(diào)結(jié)果仗哨。我們的微調(diào)實現(xiàn)遵循MAE[29],針對每個條目調(diào)整學(xué)習(xí)率铅辞。值得注意的是厌漂,通過我們的微調(diào)配方,原始CLIP檢查點達到87.4%斟珊,遠高于之前關(guān)于該指標(biāo)的報告[68苇倡,67,33]囤踩。在微調(diào)協(xié)議下旨椒,CLIP仍然是一個強大的模型。
FLIP優(yōu)于在相同數(shù)據(jù)上預(yù)訓(xùn)練的CLIP對手堵漱。我們86.9%的結(jié)果(或使用L/14的87.1%)落后于但接近原始CLIP檢查點87.4%的結(jié)果综慎,使用我們的微調(diào)配方。
對更多數(shù)據(jù)集進行零樣本分類怔锌。
在表4中寥粹,我們對[52]中研究的額外數(shù)據(jù)集進行了比較变过。由于結(jié)果可能對評估實施(例如,文本提示涝涤、圖像預(yù)處理)敏感媚狰,我們提供了對原始CLIP檢查點和OpenCLIP的評估
值得注意的是,我們觀察到訓(xùn)練前數(shù)據(jù)造成的明顯系統(tǒng)差距阔拳,使用相同的評估代碼進行了基準(zhǔn)測試崭孤。WIT數(shù)據(jù)集對某些任務(wù)(如飛機、Country211糊肠、SST2)有益辨宠,而LAION對其他一些任務(wù)(如Birdsnap、SUN397货裹、汽車)有益嗤形。
在隔離預(yù)訓(xùn)練數(shù)據(jù)的影響后,我們觀察到FLIP顯著優(yōu)于OpenCLIP和我們的CLIP再現(xiàn)弧圆,如表4中的綠色所示赋兵。
零樣本回收。
表5報告了Flickr30k[73]和COCO[42]的圖像/文本檢索結(jié)果搔预。FLIP優(yōu)于所有CLIP競爭對手霹期,包括最初的CLIP(以相同的224尺寸進行評估)。對于這兩個檢索數(shù)據(jù)集拯田,WIT數(shù)據(jù)集與LAION相比沒有優(yōu)勢历造。
零樣本魯棒性評估。
在表6中船庇,我們比較了以下[52]的穩(wěn)健性評估吭产。我們再次觀察到訓(xùn)練前數(shù)據(jù)造成的明顯系統(tǒng)差距。使用相同的評估代碼(表6中的“我們的評估”)溢十,在WIT上預(yù)訓(xùn)練的CLIP明顯優(yōu)于在LAION上預(yù)訓(xùn)練過的其他條目垮刹。以IN對抗(IN-A)為例:基于LAION的OpenCLIP[36]只有48.3%的準(zhǔn)確率(或[36]報告的46.6%)。雖然FLIP(51.2%)可以大幅優(yōu)于基于LAION的CLIP张弛,但仍比基于WIT的CLIP(71.9%)低20%荒典。
在不考慮預(yù)訓(xùn)練數(shù)據(jù)的影響的情況下,我們的FLIP訓(xùn)練在所有情況下都明顯優(yōu)于CLIP訓(xùn)練吞鸭。我們假設(shè)屏蔽作為噪聲和正則化的一種形式可以提高魯棒性寺董。
圖像字幕。
COCO[42]和nocaps[1]的字幕性能見表7刻剥。我們的字幕實現(xiàn)遵循[7]中的交叉熵訓(xùn)練基線遮咖。與預(yù)訓(xùn)練后僅添加分類器層的分類不同,這里微調(diào)模型具有新初始化的字幕(詳見附錄)造虏。在該任務(wù)中御吞,F(xiàn)LIP在幾個指標(biāo)上優(yōu)于原始CLIP檢查點麦箍。與基于相同數(shù)據(jù)預(yù)處理的CLIP基線相比,F(xiàn)LIP也顯示出明顯的增益陶珠,特別是在BLEU-4和CIDEr指標(biāo)中挟裂。
視覺問答。
我們在VQAv2數(shù)據(jù)集[26]上進行評估揍诽,并在[21]之后進行微調(diào)設(shè)置诀蓉。我們使用一個新初始化的多模態(tài)融合Transformer和一個答案分類器來獲得VQA輸出(詳見附錄)。表7(最右邊的列)報告了VQAv2的結(jié)果暑脆。所有經(jīng)過LAION預(yù)訓(xùn)練的參賽作品表現(xiàn)相似渠啤,而經(jīng)過WIT預(yù)訓(xùn)練的CLIP表現(xiàn)最好。
比較總結(jié)添吗。
在各種各樣的場景中沥曹,F(xiàn)LIP比其CLIP對手(OpenCLIP和我們的復(fù)現(xiàn)品)在相同的LAION數(shù)據(jù)上預(yù)訓(xùn)練的要好得多,在某些情況下差距很大碟联。
如在許多下游任務(wù)中觀察到的架专,WIT數(shù)據(jù)和LAION數(shù)據(jù)之間的差異可能會造成較大的系統(tǒng)差距。我們希望我們的研究將在未來的研究中引起對這些依賴數(shù)據(jù)的差距的關(guān)注玄帕。
4.3.縮放行為
在FLIP加速的推動下,我們探索了超出CLIP研究的最大案例的縮放行為[52]想邦。我們研究這三個軸中的任一軸的縮放:
?模型縮放裤纹。
我們將ViT-L圖像編碼器替換為ViT-H,其參數(shù)約為2×丧没。文本編碼器也會相應(yīng)地縮放鹰椒。
?數(shù)據(jù)縮放。
我們使用LAION-2B集合將預(yù)訓(xùn)練數(shù)據(jù)從4億擴展到20億[36]呕童。為了更好地將更多數(shù)據(jù)的影響與更長訓(xùn)練的影響分開漆际,我們固定了采樣數(shù)據(jù)的總數(shù)(12.8B,相當(dāng)于400M數(shù)據(jù)的32個epoch和2B數(shù)據(jù)的6.4個epoch)夺饲。
?計劃縮放奸汇。
我們將采樣數(shù)據(jù)從12.8B增加到25.6B(400M數(shù)據(jù)的64個epoch)。
我們研究每次沿這三個軸中的一個軸縮放往声,同時保持其他軸不變擂找。結(jié)果匯總在圖4和表8中。
訓(xùn)練曲線浩销。三種縮放策略在訓(xùn)練曲線中呈現(xiàn)出不同的趨勢(圖4)贯涎。
模型縮放(圖4a)顯示了在整個訓(xùn)練過程中持續(xù)存在的明顯差距,盡管最終差距較小慢洋。
另一方面塘雳,數(shù)據(jù)縮放(圖4b)在訓(xùn)練的前半段表現(xiàn)類似陆盘,但隨后開始呈現(xiàn)良好的增益。請注意败明,由于我們控制采樣數(shù)據(jù)的總數(shù)隘马,因此此設(shè)置中沒有額外的計算成本。
計劃縮放(圖4c)列車2×更長肩刃。為了提供更直觀的比較祟霍,我們繪制了一條假設(shè)曲線,該曲線沿x軸(虛線)重新縮放1/2盈包。盡管訓(xùn)練時間較長沸呐,但收益正在減少或沒有(表8中的數(shù)字更多)。
可轉(zhuǎn)讓性呢燥。
表8提供了關(guān)于縮放行為的各種下游任務(wù)的全面比較崭添。總的來說叛氨,模型縮放和數(shù)據(jù)縮放都可以在所有指標(biāo)上始終優(yōu)于基線呼渣,在某些情況下,可以獲得較大的利潤寞埠。
我們將下游任務(wù)分為兩種情況:(i)零樣本遷移屁置,即不在下游數(shù)據(jù)集上執(zhí)行學(xué)習(xí);(ii)遷移學(xué)習(xí)仁连,即在下游數(shù)據(jù)集上訓(xùn)練部分或全部權(quán)重蓝角。對于本文所研究的任務(wù),數(shù)據(jù)縮放通常適用于零樣本遷移饭冬,而模型縮放通常適用用于遷移學(xué)習(xí)使鹅。然而,值得注意的是昌抠,遷移學(xué)習(xí)性能取決于下游數(shù)據(jù)集的大小患朱,并且在太小的下游集合上訓(xùn)練大模型仍然受到過度擬合風(fēng)險的影響。
令人鼓舞的是炊苫,數(shù)據(jù)縮放顯然是有益的裁厅,甚至不會導(dǎo)致更長的訓(xùn)練或額外的計算。相反劝评,即使通過時間表縮放花費更多的計算也會帶來遞減的回報姐直。這些比較表明,大規(guī)模數(shù)據(jù)之所以有益蒋畜,主要是因為它們提供了更豐富的信息声畏。
接下來,我們縮放模型和數(shù)據(jù)(表8,最后一行第二行)插龄。對于所有度量愿棋,模型+數(shù)據(jù)縮放都比單獨縮放有所改善。模型縮放和數(shù)據(jù)縮放的增益是高度互補的:例如均牢,在零樣本in-1K中糠雨,僅模型縮放就比基線提高了1.2%(74.3%→75.5%),僅數(shù)據(jù)縮放就提高了1.5%(74.3%→75.8%)徘跪「恃縮放比例都提高了3.3%(77.6%),比兩個三角洲的總和還要多垮庐。在其他幾個任務(wù)中也觀察到這種行為松邪。這表明,更大的模型需要更多的數(shù)據(jù)來釋放其潛力哨查。
最后逗抑,我們報告了所有三個軸的關(guān)節(jié)縮放(表8,最后一行)寒亥。雖然組合計劃縮放提高了零樣本IN-1K精度邮府,但它會導(dǎo)致所有其他指標(biāo)的輕微或輕微下降。同樣溉奕,盡管成本很高褂傀,但計劃縮放并不總是有益的。
我們在IN-1K零樣本射擊中取得的78.1%的成績與在公共數(shù)據(jù)上訓(xùn)練的最先進成績(OpenCLIP的78.0%)不相上下加勤。同樣基于ViT-H和LAION-2B紊服,他們的結(jié)果用32B采樣數(shù)據(jù)訓(xùn)練,比我們的結(jié)果多1.25倍胸竞。考慮到我們使用的50%掩碼参萄,如果兩者在同一硬件上運行卫枝,我們的訓(xùn)練估計會比他們的快2.5倍。由于OpenCLIP的結(jié)果報告訓(xùn)練成本約為5600 GPU天讹挎,根據(jù)粗略估計校赤,我們的方法可以節(jié)省約3360 GPU天。由于對于大多數(shù)指標(biāo)來說筒溃,2倍的時間表是不必要的马篮,因此我們的“模型+數(shù)據(jù)縮放”輸入速度估計比他們的快5倍,可以節(jié)省約4480 GPU天怜奖。這大大降低了成本浑测。
5.討論和結(jié)論
語言是一種比經(jīng)典閉集標(biāo)簽更強的監(jiān)督形式。語言為監(jiān)督提供了豐富的信息。因此迁央,可涉及增加容量(模型縮放)和增加信息(數(shù)據(jù)縮放)的縮放對于在語言監(jiān)督訓(xùn)練中獲得良好結(jié)果至關(guān)重要
CLIP[52]是“擴展性好的簡單算法”的一個杰出例子掷匠。CLIP的簡單設(shè)計使得它可以相對容易地在更大的規(guī)模上執(zhí)行,并且與之前的方法相比實現(xiàn)了巨大的飛躍岖圈。我們的方法在很大程度上保持了CLIP的簡單性讹语,同時在縮放方面進一步推動它。
我們的方法可以提供2-3倍或更多的加速蜂科。對于本研究中涉及的規(guī)模顽决,這樣的加速可以大大減少墻上的時鐘時間(例如,大約數(shù)千TPU/GPU天)导匣。除了加快研究周期外才菠,加速還可以節(jié)省大量能源和商業(yè)成本。這些都是大規(guī)模機器學(xué)習(xí)研究中非常重要的組成部分逐抑。
我們的研究涉及與各種CLIP基線的受控比較鸠儿,這有助于我們打破不同因素造成的差距。我們表明厕氨,F(xiàn)LIP優(yōu)于在相同LAION數(shù)據(jù)上預(yù)訓(xùn)練的CLIP對手进每。通過比較幾種基于LAION的模型和原始的基于WIT的模型,我們觀察到預(yù)訓(xùn)練數(shù)據(jù)在幾個任務(wù)中產(chǎn)生了很大的系統(tǒng)差距命斧。
我們的研究提供了縮放行為的控制實驗田晚。我們觀察到,數(shù)據(jù)縮放是一個受歡迎的縮放維度国葬,因為它可以提高精度贤徒,而不需要額外的訓(xùn)練或推理時間成本。我們的快速方法鼓勵我們超越本研究的范圍汇四。
更廣泛的影響接奈。
訓(xùn)練大型模型需要高能耗和碳排放。雖然我們的方法已將成本降低到1/2-1/3通孽,但剩余成本仍相當(dāng)可觀序宦。我們希望我們的工作將引起更多的關(guān)注,以降低視覺語言模型訓(xùn)練成本的研究方向背苦。
本文中的數(shù)值結(jié)果基于公開的大規(guī)模數(shù)據(jù)集[56]互捌。由此產(chǎn)生的模型權(quán)重將反映數(shù)據(jù)偏差,包括潛在的負(fù)面影響行剂。當(dāng)使用相同的數(shù)據(jù)進行比較時秕噪,兩種方法之間的統(tǒng)計差異應(yīng)在很大程度上反映方法的性質(zhì);然而厚宰,當(dāng)使用不同的訓(xùn)練數(shù)據(jù)比較條目時腌巾,數(shù)據(jù)的偏差應(yīng)始終是考慮因素的一部分。實施細節(jié)
A、 1.預(yù)訓(xùn)練
編碼器壤躲。
表9顯示了我們使用的體系結(jié)構(gòu)城菊。設(shè)計遵循CLIP[52]。我們的圖像編碼器涉及ViT-B碉克、-L凌唬、-H[20],使用與[20]中相同的patch大新┞蟆(B和L為16客税,H為14)。我們在圖像編碼器之后使用全局平均池撕贞。相應(yīng)的文本編碼器的尺寸較小更耻,如[52]所示。我們使用256個TPU-v3核心訓(xùn)練ViT-B/-L捏膨,使用512個核心訓(xùn)練ViT-H秧均。表9還顯示了圖像編碼器、文本編碼器和整個模型(包括輸出投影層)的模型大小号涯。
超參數(shù)目胡。
我們的默認(rèn)預(yù)訓(xùn)練配置如表10所示。我們使用線性學(xué)習(xí)速率縮放規(guī)則[24]:lr=基本lr×batchsize/256链快。我們觀察到誉己,使用該規(guī)則允許我們改變消融的批量大小,而無需額外的學(xué)習(xí)率搜索域蜗。我們使用的數(shù)值精度是float32巨双;使用半精度是可能的,并且可以加快訓(xùn)練速度霉祸,但需要TPU工程支持筑累,這是我們不容易獲得的。
無屏蔽微調(diào)是一種在禁用屏蔽的同時進行預(yù)訓(xùn)練的形式丝蹭,遵循表10疼阔,除了我們將基礎(chǔ)學(xué)習(xí)率降低到4e-8,并將預(yù)熱計劃縮短到2560萬個樣本半夷。
A、 2.ImageNet分類
零樣本
我們遵循[52]中的提示工程迅细。他們的代碼提供了80個模板巫橄。3我們使用他們推薦的7個模板的子集;使用所有80個模板可以得到類似的結(jié)果茵典,但推斷速度較慢湘换。
線性探測和微調(diào)。
設(shè)置如下[29]。見表11和表12彩倚。
A筹我、 3.零樣本檢索
我們在兩個標(biāo)準(zhǔn)基準(zhǔn)上評估了零樣本檢索的性能:Flickr30K[73]和COCO[42],測試集中分別有1K和5K圖像文本對帆离。根據(jù)CLIP[52]中的協(xié)議蔬蕊,我們從相應(yīng)的編碼器中提取圖像和文本嵌入,并基于候選圖像-文本對上的余弦相似度進行檢索哥谷;不使用提示岸夯。
A、 4.零樣本魯棒性評估在我們對ImageNet相關(guān)集進行的零樣本魯棒評估中们妥,我們使用了[52]提供的7個提示猜扮,只有在In-R中,我們才使用了所有80個提示监婶,這些提示比7個提示有明顯的優(yōu)勢旅赢。數(shù)據(jù)集的準(zhǔn)備和拆分遵循OpenCLIP[36]。4在ObjectNet中惑惶,我們遵循[52]在沒有提示的情況下使用類名煮盼。在YTBB中,我們使用[52]提供的VOC提示集惋。
A孕似、 5.更多零樣本數(shù)據(jù)集
對于表4中的實驗,我們使用[52]提供的提示刮刑。5我們遵循[25]和[46]提供的數(shù)據(jù)準(zhǔn)備腳本喉祭,并使用Tensorflow數(shù)據(jù)集加載數(shù)據(jù)。根據(jù)[52]雷绢,我們報告了FGVC飛機泛烙、Oxford IIIT寵物、Caltech-101和Oxford Flowers 102數(shù)據(jù)集的每類平均精度翘紊;我們報告了Kinetics-700的前1和前5精度的平均值蔽氨,仇恨內(nèi)存的ROC AUC,以及Pascal VOC 2007分類的11點mAP帆疟;我們報告了其余數(shù)據(jù)集的最高精度鹉究。我們注意到,隨著時間的推移踪宠,互聯(lián)網(wǎng)上的Birdsnap數(shù)據(jù)集正在縮小自赔,只有1850張測試圖像可供我們使用(而[52]中測試的圖像為2149張,最初為2443張)柳琢。
A绍妨、 6.字幕
我們在ViT圖像編碼器的基礎(chǔ)上構(gòu)建了一個序列到序列編碼器-解碼器轉(zhuǎn)換器模型润脸,下面有3個編碼器層和3個解碼器層[7]。具體地他去,首先將ViT圖像特征線性投影到384維序列毙驯,并由3層變換編碼器(384寬度和6個頭)進一步編碼。對于自回歸字幕生成灾测,我們丟棄了FLIP中預(yù)先訓(xùn)練的文本編碼器爆价,并使用隨機初始化的3層變換解碼器(384寬度和6個頭),并交叉關(guān)注編碼器輸出行施。在[52]中允坚,使用標(biāo)記器訓(xùn)練模型以預(yù)測下一個文本標(biāo)記。
為了簡單起見蛾号,我們僅使用單詞級交叉熵?fù)p失來監(jiān)督教師強制的圖像字幕模型[7]稠项;我們沒有使用[7]中的CIDEr評分優(yōu)化。整個模型使用AdamW優(yōu)化器進行了端到端的微調(diào)鲜结,批量大小為256搓蚪,新添加參數(shù)的學(xué)習(xí)率為1e-4业筏,權(quán)重衰減為1e-2,15%迭代的預(yù)熱,以及余弦衰減學(xué)習(xí)率計劃表制。預(yù)訓(xùn)練的ViT參數(shù)的學(xué)習(xí)率對于ViT-L設(shè)置為1e-5(對于ViT-H設(shè)置為5e-6)完慧。ViT-L/16的輸入圖像大小為512×512砰嘁,ViT-H/14的輸入圖像尺寸為448×448(以保持相同的序列長度)享言。
所有模型都經(jīng)過微調(diào),可在[38]的COCO訓(xùn)練分割上進行20個epoch的圖像字幕纫事。在推斷過程中勘畔,使用自回歸解碼預(yù)測圖像字幕,我們報告了它們在不同度量下[38]的COCO測試分割上的性能丽惶。
為了評估COCO訓(xùn)練的模型如何推廣到新對象炫七,我們直接在nocaps[1]驗證集上評估這些模型,無需進一步微調(diào)钾唬。
A万哪、 7.視覺問答
在VQA實驗中,我們遵循[21]中描述的架構(gòu)抡秆。具體地說奕巍,VQA任務(wù)作為所有答案類的分類問題被廣播。輸入圖像由ViT編碼器編碼儒士。根據(jù)[21]中的實踐的止,輸入問題由預(yù)先訓(xùn)練的RoBERTa文本編碼器[43]編碼。應(yīng)用多模態(tài)融合Transformer(4層乍桂,768-d冲杀,12個頭,合并注意力[21])來組合圖像和文本表示睹酌。在融合模塊的類令牌上應(yīng)用兩層MLP以獲得VQA輸出[21]权谁。
我們對VQA模型進行端到端的微調(diào)。損失函數(shù)是使用軟分?jǐn)?shù)的二進制S形損失[60]憋沿。我們使用256的批量大小旺芽,隨機初始化參數(shù)的學(xué)習(xí)速率為1e-4,預(yù)訓(xùn)練的ViT參數(shù)的學(xué)習(xí)率為1e-5(ViT-L)或5e-6(ViT-H)辐啄。我們使用1e-2的權(quán)重衰減采章、15%的迭代預(yù)熱和余弦衰減學(xué)習(xí)率計劃。ViT-L/16的輸入圖像大小為512×512壶辜,ViT-H/14的輸入圖像尺寸為448×448悯舟。
所有模型都在VQAv2序列+val集合上針對20個epoch進行了微調(diào),并在[60]之后添加了來自視覺基因組[39]的問答對砸民。我們報告從評估服務(wù)器分離的測試開發(fā)的結(jié)果