CLIP：連接文本到圖像（上）

Learning Transferable Visual Models From Natural Language Supervision

發(fā)表日期：2021.3

[Blog]????https://openai.com/blog/clip/?

[Paper]????https://arxiv.org/abs/2103.00020

[Model Card]????https://github.com/openai/CLIP/blob/main/model-card.md?

[Colab]????https://colab.research.google.com/github/openai/clip/blob/master/notebooks/Interacting_with_CLIP.ipynb

摘要：最先進的計算機視覺系統(tǒng)經(jīng)過訓練，可以預測一組固定的預定對象類別卿闹。這種受限制的監(jiān)督形式限制了它們的通用性和可用性揭糕，因為需要額外的標記數(shù)據(jù)來指定任何其他視覺概念。直接從原始文本中學習圖像是一種很有前途的選擇锻霎，它利用了更廣泛的監(jiān)督來源著角。我們證明了預測哪個標題(caption)與哪個圖像匹配的簡單預訓練任務是一種有效且可擴展的方法，可以在從互聯(lián)網(wǎng)收集的4億對（圖像旋恼、文本）數(shù)據(jù)集上從頭開始學習SOTA圖像表示吏口。在預訓練之后，自然語言被用來引用(reference)學習到的視覺概念（或描述新的概念），從而實現(xiàn)模型到下游任務的zero-shot遷移产徊。我們通過在30多個不同的現(xiàn)有計算機視覺數(shù)據(jù)集上進行基準測試來研究這種方法的性能昂勒，這些數(shù)據(jù)集跨越了OCR、視頻中的動作識別舟铜、地理定位和許多類型的細粒度對象分類等任務叁怪。該模型可非平凡地遷移到大多數(shù)任務，并且通常與完全監(jiān)督的基線競爭深滚，而無需任何特定于數(shù)據(jù)集的訓練奕谭。例如，我們在ImageNet zero shot上匹配原始ResNet-50的精度痴荐，而無需使用128萬個訓練示例中的任何一個血柳。我們發(fā)布了我們的代碼和預訓練的模型權重：https://github.com/OpenAI/CLIP

1????引言和促發(fā)工作

在過去幾年中，直接從原始文本學習的預訓練方法已經(jīng)徹底改變了NLP（Dai&Le生兆，2015难捌；Peters等人，2018鸦难；Howard&Ruder根吁，2018；Radford等人合蔽，2018击敌；Devlin等人，2018拴事；Raffel等人沃斤，2019）。

任務不可知的目標刃宵，如自回歸和掩蔽語言建模衡瓶，在計算、模型容量和數(shù)據(jù)方面已經(jīng)擴展了許多數(shù)量級牲证，穩(wěn)步提高了能力哮针。“文本到文本”作為標準化輸入輸出接口的發(fā)展（McCann等人坦袍，2018年十厢；Radford等人，2019年键闺；Raffel等人寿烟，2019年）使任務無關體系結構能夠zero-shot遷移到下游數(shù)據(jù)集澈驼，無需專門的輸出頭或數(shù)據(jù)集特定定制辛燥。像GPT-3這樣的旗艦系統(tǒng)（Brown等人，2020年）現(xiàn)在在許多定制模型的任務中都具有競爭力，同時幾乎不需要特定于數(shù)據(jù)集的訓練數(shù)據(jù)挎塌。

這些結果表明徘六，在網(wǎng)絡規(guī)模的文本集合中，現(xiàn)代預訓練方法的總體監(jiān)督能力超過了高質量的人類標記NLP數(shù)據(jù)集榴都。然而待锈，在計算機視覺等其他領域，在ImageNet等人類標記數(shù)據(jù)集上預訓練模型仍然是標準做法（Deng等人嘴高，2009）竿音。直接從網(wǎng)絡文本中學習的可擴展的預訓練方法能否在計算機視覺領域取得類似的突破？先前的工作令人鼓舞拴驮。

20多年前春瞬，Mori et al.（1999）通過訓練一個模型來預測與圖像配對的文本文檔中名詞和形容詞，探索改進基于內容的圖像檢索套啤。Quattoni等人（2007年）證明宽气，可以通過分類器的權重空間中的流形學習來學習更加數(shù)據(jù)高效的圖像表示，其中分類器被訓練為預測與圖像相關的字幕中的單詞潜沦。Srivastava&Salakhutdinov（2012）通過在低級圖像和文本標記特征的基礎上訓練多模態(tài)深度Boltzmann機器萄涯，探索了深度表征學習。Joulin等人（2016年）對這項工作進行了現(xiàn)代化改造唆鸡，并證明訓練目標為預測圖像標題中的單詞的CNN學習了有用的圖像表示涝影。他們將YFCC100M（Thomee et al.，2016）數(shù)據(jù)集中圖像的標題争占、描述袄琳、標簽元數(shù)據(jù)轉換成詞袋多標簽分類任務，并顯示在遷移任務上燃乍，預訓練AlexNet（Krizhevsky et al.唆樊，2012）預測這些標簽時學習到的表示形式與基于ImageNet的預訓練類似。Li等人（2017年）隨后將該方法擴展到預測短語n-grams和單獨的單詞刻蟹，并通過基于學習的視覺n-grams字典對目標類進行評分并預測得分最高的目標類逗旁，證明了他們的系統(tǒng)將zero-shot遷移到其他圖像分類數(shù)據(jù)集的能力。VirTex（Desai&Johnson舆瘪，2020）片效、ICMLM（Bulent Sariyildiz et al.，2020）和ConVIRT（Zhang et al.英古，2020）最近采用了更新的架構和預訓練方法淀衣，展示了基于Transformer的語言建模、掩蔽語言建模和對比目標從文本中學習圖像表示的潛力召调。

雖然令人興奮的概念證明膨桥，使用自然語言監(jiān)督圖像表示學習仍然是罕見的蛮浑。這很可能是因為在通用基準上證明的性能遠遠低于其他方法。例如只嚣，Li等人（2017年）在zero-shot設置下沮稚，ImageNet的準確率僅為11.5%。這遠低于當前技術水平88.4%的準確率（Xie等人册舞，2020年）蕴掏。它甚至低于經(jīng)典計算機視覺方法50%的準確度（Deng等人，2012年）调鲸。相反盛杰，范圍更窄但目標明確的弱監(jiān)督措施提高了性能。Mahajan等人（2018年）表明藐石，預測Instagram圖像上與ImageNet相關的標簽是一項有效的預訓練任務饶唤。當微調到ImageNet時，這些經(jīng)過預訓練的模型將精確度提高了5%以上贯钩，并改善了當時的整體技術水平募狂。Kolesnikov等人（2019年）和Dosovitskiy等人（2020年）也通過預訓練模型預測噪聲標記的JFT-300M數(shù)據(jù)集的類別，在更廣泛的遷移基準集上顯示了巨大的收益角雷。

這一系列工作代表了當前從有限數(shù)量的受監(jiān)督“黃金標簽”學習和從幾乎無限數(shù)量的原始文本學習之間的務實中間立場祸穷。然而，這并非沒有妥協(xié)勺三。兩類都經(jīng)過精心設計雷滚，并在過程中將其監(jiān)督級別分別限制為1000級和18291級。自然語言能夠表達并監(jiān)督更廣泛的視覺概念吗坚，由于其廣泛性(generality)祈远。這兩種方法還使用靜態(tài)softmax分類器來執(zhí)行預測，并且缺少用于動態(tài)輸出的機制商源。這嚴重限制了他們的靈活性车份，限制了他們的“zero-shot”能力。

這些弱監(jiān)督模型與最近直接從自然語言學習圖像表示的探索之間的一個關鍵區(qū)別是規(guī)模(scale)牡彻。Mahajan等人（2018年）和Kolesnikov等人（2019年）在數(shù)百萬到數(shù)十億張圖像訓練他們的模型要花費加速器年(trained their models for accelerator years on millions to billions of images)扫沼，而VirTex、ICMLM和ConVIRT在一二十萬張圖像上訓練他們的模型要花費加速器日(trained for accelerator days on one to two hundred thousand images)庄吼。在這項工作中缎除，我們縮小了這一差距，并大規(guī)模研究了在自然語言監(jiān)督下訓練的圖像分類器的行為总寻。借助互聯(lián)網(wǎng)上大量公開的這種形式的數(shù)據(jù)器罐，我們創(chuàng)建了一個4億對（圖像、文本）的新數(shù)據(jù)集渐行，并演示了一個簡化版的ConVIRT從頭開始訓練轰坊，我們稱之為CLIP铸董，用于對比語言圖像預訓練，是一種從自然語言監(jiān)督中學習的有效方法衰倦。我們通過訓練一系列八個模型（跨越近2個數(shù)量級的計算）來研究CLIP的可擴展性袒炉，并觀察到遷移性能是一個平滑可預測的計算函數(shù)（Hestness et al.旁理，2017樊零；Kaplan et al.，2020）孽文。我們發(fā)現(xiàn)驻襟，CLIP與GPT系列類似，在預訓練階段可以學習執(zhí)行一系列任務芋哭，包括OCR沉衣、地理定位、動作識別和許多其他任務减牺。我們通過在30多個現(xiàn)有數(shù)據(jù)集上對CLIP的zero-shot遷移性能進行基準測試來衡量這一點豌习，并發(fā)現(xiàn)它可以與以前的任務特定監(jiān)督模型相競爭。我們還通過線性探測表示學習分析證實了這些發(fā)現(xiàn)拔疚，并表明CLIP在計算效率方面優(yōu)于最好的公共ImageNet模型肥隆。此外，我們還發(fā)現(xiàn)zero-shot CLIP模型比同等精度監(jiān)督的ImageNet模型更具魯棒性稚失，這表明任務不可知模型的zero-shot評估更能代表模型的能力栋艳。這些結果具有重要的策略policy和倫理含義，我們在第7節(jié)中予以考慮句各。

2????方法

2.1????自然語言監(jiān)督

我們方法的核心是從自然語言中包含的監(jiān)督中學習感知吸占。正如導言中所討論的，這并不是一個全新的想法凿宾，然而矾屯，用于描述這一領域工作的術語是多種多樣的，甚至看似矛盾初厚，而且所陳述的動機也是多種多樣的问拘。Zhang et al.（2020）、Gomez et al.（2017）惧所、Joulin et al.（2016）和Desai&Johnson（2020）都介紹了從文本和圖像配對學習視覺表示的方法骤坐，但分別將其描述為無監(jiān)督、自監(jiān)督下愈、弱監(jiān)督和監(jiān)督纽绍。

我們強調，這一系列工作的共同點不是所使用的特定方法的任何細節(jié)势似，而是青睞于將自然語言作為訓練信號拌夏。所有這些方法都是從自然語言監(jiān)督中學習的僧著。盡管早期的研究在使用主題模型和n-gram表示法時與自然語言的復雜性進行了斗爭，但深度上下文表示學習的改進表明障簿，我們現(xiàn)在有了有效利用這一豐富監(jiān)督來源的工具（McCann等人盹愚，2017）。

與其他訓練方法相比站故，從自然語言學習有幾個潛在優(yōu)勢皆怕。與用于圖像分類的標準眾包標簽相比，擴展自然語言監(jiān)督要容易得多西篓，因為它不要求注釋采用經(jīng)典的“機器學習兼容格式”愈腾，如規(guī)范的1-of-N多數(shù)票“黃金標簽”。相反岂津，研究自然語言的方法可以被動地(passively)從互聯(lián)網(wǎng)上大量文本所包含的監(jiān)督中學習虱黄。與大多數(shù)無監(jiān)督或自監(jiān)督的學習方法相比橱乱，從自然語言學習也有一個重要的優(yōu)勢粱甫，因為它不僅“只”學習一種表征魔种，而且還將該表征與語言聯(lián)系起來析二，從而實現(xiàn)靈活的zero-shot遷移叶摄。在下面的小節(jié)中，我們將詳細介紹我們確定的具體方法会傲。

2.2????創(chuàng)建足夠大的數(shù)據(jù)集

現(xiàn)有工作主要使用了三個數(shù)據(jù)集，MS-COCO（Lin等人泼疑，2014年）、Visual Genome（Krishna等人个粱，2017年）和YFCC100（Thomee等人，2016年）颖低。雖然MS-COCO和Visual Genome是高質量的人類標記數(shù)據(jù)集忱屑，但按照現(xiàn)代標準，它們都很小瘪校，每個都有大約100000張訓練照片伸辟。相比之下窃蹋，其他計算機視覺系統(tǒng)接受的Instagram照片訓練多達35億張（Mahajan等人，2018年）。YFCC100M（1億張照片）是一個可能的替代方案佛南，但每個圖像的元數(shù)據(jù)都是稀疏的，并且質量參差不齊埂陆。許多圖像使用自動生成的文件名懂版，如2016071613957.JPG作為“標題”蜡励，或包含相機曝光設置的“說明”。經(jīng)過過濾屡久，只保留自然語言標題和/或英文描述的圖像后，數(shù)據(jù)集縮小了6倍劝赔，只有1500萬張照片移层。這與ImageNet的大小大致相同予借。

自然語言監(jiān)督的一個主要動機是互聯(lián)網(wǎng)上公開的大量這種形式的數(shù)據(jù)秦叛。由于現(xiàn)有數(shù)據(jù)集不能充分反映這種可能性狞换，僅考慮這些數(shù)據(jù)集的結果將低估這一研究領域的潛力查库。為了解決這個問題适荣，我們構建了一個新的數(shù)據(jù)集，該數(shù)據(jù)集由4億對（圖像、文本）組成，這些數(shù)據(jù)集來自互聯(lián)網(wǎng)上各種公開來源闰歪。為了盡可能廣泛地涵蓋一組視覺概念论矾，我們搜索（圖像、文本）對彪笼，作為構建過程的一部分，其文本包括一組500000個查詢中的一個。（注釋1）通過每個查詢包含多達20000對（圖像、文本）對诵盼，我們大致平衡了結果蛹疯。結果數(shù)據(jù)集的總字數(shù)與用于訓練GPT-2的WebText數(shù)據(jù)集相似。我們將此數(shù)據(jù)集稱為WebImageText的WIT。

注釋1：基本查詢列表是英文版維基百科中至少出現(xiàn)100次的所有單詞。這是用bi-gram進行擴充的

2.3????選擇一種有效的預訓練方法

最先進的計算機視覺系統(tǒng)使用大量的計算。Mahajan等人（2018年）需要19GPU年來訓練他們的ResNeXt101-32x48d，Xie等人（2020年）需要33TPUv3核心年來訓練他們的NoisyStudent EfficientNet-L2餐弱。當考慮到這兩個系統(tǒng)都被訓練為只能預測1000個ImageNet類時瓢谢，從自然語言中學習一組開放的視覺概念的任務似乎令人望而生畏论笔。在我們的努力過程中，我們發(fā)現(xiàn)訓練效率是成功擴展自然語言監(jiān)督的關鍵，我們根據(jù)這一指標選擇了最終的預訓練方法。

我們最初的方法類似于VirTex，從零開始聯(lián)合訓練圖像CNN和文本Transformer來預測圖像的標題。然而芽卿，我們在有效地擴展此方法時遇到了困難称杨。在圖2中呜舒，我們展示了一個6300萬參數(shù)的transformer語言模型般婆，該模型已經(jīng)使用了其ResNet-50圖像編碼器兩倍的計算配名，它學習識別ImageNet類的速度比預測相同文本的一個詞袋編碼的簡單基線慢三倍。

這兩種方法有一個關鍵的相似之處。他們試圖預測每幅圖像中文字的確切含義。這是一項困難的任務，因為與圖像同時出現(xiàn)的描述、注釋和相關文本種類繁多。最近在圖像對比表征學習方面的工作發(fā)現(xiàn)科雳，對比目標可以比其等效預測目標學習到更好的表征（Tian等人，2019）蕉堰。其他研究發(fā)現(xiàn)躲舌，盡管圖像的生成模型可以學習高質量的圖像表示，但它們需要比具有相同性能的對比模型多出一個數(shù)量級的計算量（Chen等人，2020a）。注意到這些發(fā)現(xiàn)，我們探索了一個訓練系統(tǒng)來解決一個潛在的更容易的代理任務蜘犁，即只預測哪個文本（作為一個整體）與哪個圖像配對翰苫，而不是該文本的確切單詞。從圖2中的同一個詞袋編碼基線開始这橙，我們將預測目標替換為對比目標，并觀察到在向ImageNet遷移zero-shot的速率方面屈扎，效率進一步提高了4倍埃唯。(Starting with the same bag-of-words encoding baseline, we swapped the predictive objective for a contrastive objective in Figure 2 and observed a further 4x efficiency improvement in the rate of zero-shot transfer to ImageNet.)

給定一批 $N$ （圖像，文本）對助隧，對CLIP進行訓練筑凫，以預測在一批中實際發(fā)生的 $N×N$ 可能（圖像，文本）對中的哪一對并村。為此，CLIP通過聯(lián)合訓練圖像編碼器和文本編碼器來學習多模態(tài)嵌入空間滓技，以最大化批次中 $N$ 個實對的圖像和文本嵌入的余弦相似性哩牍，同時最小化 $N^2-N$ 個不正確配對的嵌入的余弦相似性。我們對這些相似性分數(shù)用對稱交叉熵損失優(yōu)化令漂。在圖3中膝昆，我們包含了CLIP實現(xiàn)核心的偽代碼丸边。據(jù)我們所知，這一批量構建技術和目標首先作為多類N-對損失Sohn（2016）被引入深度度量學習領域荚孵，并作為InfoNCE loss被Oord等人（2018）推廣用于對比表征學習妹窖，Zhang等人（2020）最近將其應用于醫(yī)學影像領域的對比（文本、圖像）表征學習收叶。

圖1.不同于標準的圖像模型聯(lián)合訓練圖像特征提取器和線性分類器來預測某些標簽骄呼，CLIP聯(lián)合訓練圖像編碼器和文本編碼器來預測一批（圖像、文本）訓練示例的正確配對判没。在測試時蜓萄，學習的文本編碼器通過嵌入目標數(shù)據(jù)集類的名稱或描述來合成zero-shot線性分類器。While standard image models jointly train an image feature extractor and a linear classifier to predict some label, CLIP jointly trains an image encoder and a text encoder to predict the correct pairings of a batch of (image, text) training examples. At test time the learned text encoder synthesizes a zero-shot linear classifier by embedding the names or descriptions of the target dataset’s classes.

圖2.CLIP在zero-shot遷移方面比我們的圖像字幕基線效率更高澄峰。盡管表達能力很強嫉沽，但我們發(fā)現(xiàn)基于transformer的語言模型在zero-shot ImageNet分類方面相對較弱。在這里俏竞，我們可以看到绸硕，它的學習速度比預測文本詞袋編碼的基線（Joulin等人，2016）慢3倍魂毁。CLIP將預測目標換成對比目標玻佩，可進一步提高效率4倍

圖3.CLIP核心實現(xiàn)的類Numpy偽代碼。

由于我們的預訓練數(shù)據(jù)集很大漱牵，過擬合不是主要問題夺蛇，與Zhang等人（2020）的實施相比，訓練CLIP的細節(jié)簡化了酣胀。我們從頭開始訓練CLIP刁赦，而不使用ImageNet權重初始化圖像編碼器，也不使用預訓練的權重初始化文本編碼器闻镶。表示和對比嵌入空間之間甚脉，我們不使用非線性投影，這一變化由Bachman等人（2019）引入铆农，Chen等人（2020b）推廣牺氨。我們只使用線性投影將每個編碼器的表示映射到多模態(tài)嵌入空間。我們沒有注意到兩個版本在訓練效率上的差異墩剖，并推測只有在自監(jiān)督的表征學習方法中猴凹，非線性投影可能與當前圖像的細節(jié)共同適應。我們還從Zhang et al.（2020）中刪除了文本遷移函數(shù) $t_u$ 岭皂，該函數(shù)從文本中統(tǒng)一采樣一個句子郊霎，因為CLIP預訓練數(shù)據(jù)集中的許多（圖像、文本）對只有一個句子爷绘。我們還簡化了 $t_v$ 的圖像變換函數(shù)书劝。從調整過大小的圖像中隨機裁剪正方形是訓練期間使用的唯一數(shù)據(jù)增強进倍。最后，在訓練期間购对，softmax中的溫度參數(shù) $τ$ （其控制softmax中Logit的range）作為對數(shù)參數(shù)乘法標量直接優(yōu)化猾昆，以避免作為超參數(shù)調試（原文似筆誤：avoid turning as a hyper-parameter）。

2.4????選擇和擴展模型

我們考慮兩種不同的圖像編碼器結構骡苞。首先垂蜗，我們使用ResNet-50（He et al.，2016a）作為圖像編碼器的基本架構烙如，因為它被廣泛采用么抗，并且性能得到驗證。我們對原始版本進行了幾次修改亚铁，包括使用He等人（2019）的ResNet-D改進和Zhang（2019）的抗鋸齒rect-2模糊池化改蝇刀。我們還將全局平均池化層替換為注意池化機制。注意池化實現(xiàn)為單層“Transformer式”多頭QKV注意徘溢，其中查詢以圖像的全局平均池化表示為條件(where the query is conditioned on the global average-pooled representation of the image)吞琐。對于第二種架構，我們使用最近引入的視覺Transformer（ViT）進行了實驗（Dosovitskiy等人然爆，2020年）站粟。我們密切跟隨他們的實現(xiàn)，只做了微小的修改曾雕，在Transformer之前向組合的patch和位置嵌入添加了一個額外的層歸一化奴烙，并使用了稍微不同的初始化方案。

文本編碼器是一種Transformer（Vaswani等人剖张，2017年）切诀，其結構修改如Radford等人（2019年）所述。作為基本尺寸搔弄，我們使用一個63M參數(shù)的12層512寬模型幅虑，帶有8個注意頭。該Transformer使用lower-cased byte pair encoding（BPE）表示顾犹，文本大小為49152字節(jié)（Sennrich et al.倒庵，2015）。為了計算效率炫刷，最大序列長度限制在76擎宝。文本序列用[SOS]和[EOS]標記括起來，并且在Transformer最高層浑玛，[EOS]標記處的激活被視為文本的特征表示认臊，該激活被層歸一化，然后線性投影到多模態(tài)嵌入空間锄奢。在文本編碼器中使用了帶屏蔽的自注意失晴，以保留使用預訓練的語言模型進行初始化的能力，或將語言建模添加為輔助目標拘央，盡管這方面的探索仍有待于未來的工作涂屁。

雖然之前的計算機視覺研究通常通過單獨增加寬度（Mahajan等人，2018年）或深度（He等人灰伟，2016a）來縮放模型拆又，但對于ResNet圖像編碼器，我們采用了Tan&Le（2019年）的方法栏账，該方法發(fā)現(xiàn)在所有寬度帖族、深度、分辨率三個維度上聯(lián)合分配額外計算要優(yōu)于僅在一個維度上分配挡爵。Tan&Le（2019）調整分配給每個維度的計算比率以實現(xiàn)其EfficientNet架構竖般，我們使用一個簡單的基線來平均地分配額外的計算，以增加模型的寬度茶鹃、深度和分辨率涣雕。對于文本編碼器，我們僅模型的寬度縮放為與計算出的ResNet寬度增加成比例闭翩，而完全不縮放深度挣郭，因為我們發(fā)現(xiàn)CLIP的性能對文本編碼器的容量不太敏感。(For the text encoder, we only scale the width of the model to be proportional to the calculated increase in width of the ResNet and do not scale the depth at all, as we found CLIP’s performance to be less sensitive to the capacity of the text encoder )

2.5????訓練

我們訓練了一系列的5個ResNet和3個視覺Transformer疗韵。對于ResNet兑障，我們訓練了一個ResNet-50、一個ResNet-101蕉汪，然后再訓練3個按照EfficientNet風格的模型縮放的計算量大約為ResNet-50的4倍流译、16倍和64倍的變體，它們分別表示為RN50x4肤无、RN50x16和RN50x64先蒋。對于視覺Transformer，我們訓練了一個ViT-B/32宛渐、一個ViT-B/16和一個ViT-L/14竞漾。所有模型訓練32epoch。我們使用Adam優(yōu)化器（Kingma&Ba窥翩，2014）业岁，將解耦權重衰減正則化（Loshchilov&Hutter，2017）應用于所有無縮放因子或偏置的權重寇蚊，并使用余弦計劃衰減學習率（Loshchilov&Hutter笔时，2016）。初始超參數(shù)是在基線ResNet-50模型上使用網(wǎng)格搜索仗岸、隨機搜索和手動調整相結合的方法設置的允耿，訓練時間為1epoch借笙。然后，由于計算限制较锡，超參數(shù)被啟發(fā)式地調整為更大的模型业稼。可學習的溫度參數(shù) $τ$ 從（Wu等人蚂蕴，2018年）初始化為0.07的等效值低散，并進行clipped，以防止將Logit縮放超過100骡楼，我們發(fā)現(xiàn)這是防止訓練不穩(wěn)定性所必需的熔号。我們使用32768的非常大的minibatch∧裾混合精度（Micikevicius等人引镊，2017年）用于加速訓練和節(jié)省內存。為了節(jié)省額外內存吃嘿，使用了gradient checkpointing（Griewank&Walther祠乃，2000；Chen等人兑燥，2016）亮瓷、半精度Adam統(tǒng)計（Dhariwal等人，2020）和半精度隨機舍入文本編碼器權重降瞳。嵌入相似性的計算也被分割嘱支，單個GPU只計算其局部批量嵌入所需的成對相似性子集。最大的ResNet型號RN50x64在592 V100 GPU上訓練需要18天挣饥，而最大的Vision Transformer在256 V100?GPU上訓練需要12天除师。對于ViT-L/14，我們還以更高的336像素分辨率預訓練額外的一個epoch扔枫，以提高性能汛聚，類似于FixRes（Touvron等人，2019年）短荐。我們將該模型表示為ViT-L/14@336px.除非另有說明倚舀，本文中所有報告為“CLIP”的結果都使用我們發(fā)現(xiàn)性能最好的模型。

3????實驗

3.1????zero-shot遷移

3.1.1. 動機

在計算機視覺中忍宋，zero-shot學習通常指的是在圖像分類中推廣到未見對象類別的研究（Lampert等人痕貌，2009）。相反糠排，我們在更廣泛的意義上使用這個術語舵稠，并研究對未見數(shù)據(jù)集的泛化。正如Larochelle等人（2008）在零數(shù)據(jù)學習論文中所期望的那樣，我們將其作為執(zhí)行未見任務的代理哺徊。雖然在無監(jiān)督學習領域的許多研究集中于機器學習系統(tǒng)的表征學習(representation learning)能力室琢，但我們鼓勵研究zero-shot遷移作為衡量機器學習系統(tǒng)的任務學習(task learning)能力的一種方法。在這個視圖中唉工，數(shù)據(jù)集評估的是特定分布上任務的性能研乒。然而，許多流行的計算機視覺數(shù)據(jù)集是由研究界創(chuàng)建的淋硝，主要是作為基準來指導通用圖像分類方法的開發(fā)，而不是測量特定任務的性能宽菜。雖然可以合理地說谣膳，SVHN數(shù)據(jù)集衡量的是谷歌街景照片分發(fā)中的街道編號轉錄任務，但不清楚CIFAR-10數(shù)據(jù)集衡量的是什么“真實”任務铅乡。然而继谚，從TinyImages（Torralba等人，2008年）中得出的CIFAR-10分布是清楚的阵幸。在這類數(shù)據(jù)集上花履，zero-shot遷移更多的是評估CLIP對分布遷移和域泛化的魯棒性，而不是任務泛化挚赊。有關這方面的分析诡壁，請參見第3.3節(jié)。(In this view, a dataset evaluates performance on a task on a specific distribution. However, many popular computer vision datasets were created by the research community primarily as benchmarks to guide the development of generic image classification methods rather than measuring performance on a specific task. While it is reasonable to say that the SVHN dataset measures the task of street number transcription on the distribution of Google Street View photos, it is unclear what “real” task the CIFAR-10 dataset measures. It is clear, however, what distribution CIFAR-10 is drawn from - TinyImages (Torralba et al., 2008). On these kinds of datasets, zero-shot transfer is more an evaluation of CLIP’s robustness to distribution shift and domain generalization rather than task generalization. Please see Section 3.3 for analysis focused on this)

據(jù)我們所知荠割，Visual N-Grams（Li et al.妹卿，2017）首先以上述方式研究了zero-shot遷移到現(xiàn)有圖像分類數(shù)據(jù)集。這也是我們所知的唯一一項使用一般預訓練模型研究zero-shot遷移到標準圖像分類數(shù)據(jù)集的工作蔑鹦，并作為背景CLIP的最佳參考點夺克。他們的方法學習142806個可視n-gram（跨度為1-5-gram）字典的參數(shù)，并使用Jelinek-Mercer平滑的差分版本優(yōu)化這些n-gram嚎朽，以最大化給定圖像中所有文本n-gram的概率铺纽。為了執(zhí)行zero-shot遷移，他們首先將每個數(shù)據(jù)集類名的文本遷移為其n-gram表示哟忍，然后根據(jù)模型計算其概率狡门，預測得分最高的類名。

我們研究zero-shot遷移作為任務學習評估的重點受到NLP領域任務學習演示工作的啟發(fā)魁索。據(jù)我們所知融撞，Liu等人（2018年）首次將任務學習視為一種“意外的副作用”，當時粗蔚，經(jīng)過訓練生成維基百科文章的語言模型學會了在語言之間可靠地音譯名稱尝偎。雖然GPT-1（Radford et al.，2018）將預訓練作為一種遷移學習方法來改進監(jiān)督微調，但它還包括一項消融研究致扯，證明四種啟發(fā)式zero-shot遷移方法的性能在預訓練過程中穩(wěn)步提高肤寝，沒有任何監(jiān)督適配(adaption)毅该。該分析是GPT-2（Radford et al.阀圾，2019）的基礎，GPT-2專注于通過zero-shot遷移研究語言模型的任務學習能力脓斩。

3.1.2????使用CLIP進行zero-shot遷移

CLIP經(jīng)過預訓練耍群，可以預測圖像和文本片段是否在其數(shù)據(jù)集中配對义桂。為了執(zhí)行zero-shot分類，我們重用了此功能蹈垢。對于每個數(shù)據(jù)集慷吊，我們使用數(shù)據(jù)集中所有類的名稱作為潛在的文本對集，并根據(jù)CLIP預測最可能的（圖像曹抬、文本）對溉瓶。更詳細地說，我們首先通過各自的編碼器計算圖像的特征嵌入和可能文本集的特征嵌入谤民。然后計算這些嵌入的余弦相似性堰酿，用溫度參數(shù) $τ$ 進行縮放，并通過softmax將其歸一化為概率分布张足。注意触创，該預測層是一個多項式邏輯回歸分類器，具有L2歸一化輸入兢榨、L2歸一化權重嗅榕、無偏置、用溫度縮放吵聪。當以這種方式解釋(interpreted凌那，編者注：或譯為解碼？)時吟逝，圖像編碼器是計算機視覺主干帽蝶，用于計算圖像的特征表示，文本編碼器是超網(wǎng)絡（Ha等人块攒，2016）励稳，其基于文本生成線性分類器的權重，該文本指定類表示的視覺概念(generates the weights of a linear classifier based on the text specifying the visual concepts that the classes represent)囱井。Lei Ba等人（2015年）首次引入了這種形式的zero-shot圖像分類器驹尼，而從自然語言生成分類器的想法至少可以追溯到Elhoseiny等人（2013年）。繼續(xù)這種解釋庞呕，CLIP預訓練的每一步都可以被視為優(yōu)化隨機創(chuàng)建的計算機視覺數(shù)據(jù)集代理的性能(Continuing with this interpretation, every step of CLIP pre-training can be viewed as optimizing the performance of a randomly created proxy to a computer vision dataset)新翎，該數(shù)據(jù)集每類包含1個示例程帕，通過自然語言描述定義了32768個總類。對于zero-shot評估地啰，一旦文本編碼器計算出zero-shot分類器愁拭，我們將其緩存，并將其重新用于所有后續(xù)預測亏吝。這允許生成數(shù)據(jù)的成本在數(shù)據(jù)集中的所有預測中攤銷岭埠。

3.1.3. 與視覺N-grams的初步比較

在表1中，我們將視覺N-grams與CLIP進行了比較蔚鸥。最佳CLIP模型將ImageNet上的精度從概念驗證(a proof of concept )的11.5%提高到76.2%惜论，并與原始ResNet-50的性能相匹配，盡管沒有使用該數(shù)據(jù)集可用的128萬人類標記訓練示例株茶。此外来涨，CLIP模型的 top-5精度明顯高于 top-1，該模型的 top-5精度為95%启盛，與Inception-V4匹配（Szegedy et al.，2016）技羔。在zero-shot設置下匹配強大僵闯、完全監(jiān)督基線的能力表明，CLIP是朝著靈活實用的zero-shot計算機視覺分類器邁出的重要一步藤滥。如上所述鳖粟，與視覺N-gram的比較旨在對CLIP的性能進行上下文分析，不應解釋為CLIP和視覺N-gram之間的直接方法比較拙绊，因為兩個系統(tǒng)之間的許多性能相關差異未得到控制向图。例如，我們在一個大10倍的數(shù)據(jù)集上進行訓練标沪，使用一個視覺模型榄攀，每個預測需要將近100倍的計算量，可能使用了超過1000倍的訓練計算量金句，并使用一個基于Transformer的模型檩赢，該模型在發(fā)布視覺N-gram時不存在。作為更接近的比較违寞，我們在視覺N-Grams訓練的同一個YFCC100M數(shù)據(jù)集上訓練了一個CLIP ResNet-50贞瞒。YFCC100M數(shù)據(jù)集是視覺N-grams用來訓練的，并發(fā)現(xiàn)其一個V100 GPU天的訓練與他們報告的ImageNet性能相匹配趁曼。該基線也從零開始訓練军浆，而不是如視覺N-gram那樣從預訓練的ImageNet權重初始化。

表1挡闰。將CLIP與先前的zero-shot遷移圖像分類結果進行比較乒融。CLIP大大提高了所有三個數(shù)據(jù)集的性能。這種改進反映了自視覺N-Grams（Li等人，2017年）開發(fā)以來的4年中的許多差異簇抵。

CLIP在其他兩個報告數(shù)據(jù)集上的表現(xiàn)也優(yōu)于視覺N-Grams庆杜。在aYahoo上，CLIP可以減少95%的錯誤碟摆，而在SUN上晃财，CLIP可以將視覺N-gram的準確度提高一倍以上。為了進行更全面的分析和壓力測試典蜕，我們實施了附錄a中詳述的更大的評估套件断盛。總體而言愉舔，我們從視覺N-Grams中報告的3個數(shù)據(jù)集擴展到30多個數(shù)據(jù)集钢猛，并與50多個現(xiàn)有的計算機視覺系統(tǒng)進行比較，以將結果與上下文聯(lián)系起來轩缤。

3.1.4? ? 提示工程和集成

大多數(shù)標準的圖像分類數(shù)據(jù)集都把支持基于自然語言的zero-shot遷移的信息命名或類別描述作為后處理命迈。絕大多數(shù)數(shù)據(jù)集僅使用標簽的數(shù)字id對圖像進行注釋，并包含一個將這些id映射回其英文名稱的文件火的。一些數(shù)據(jù)集壶愤，如Flowers102和GTSRB，在其發(fā)布版本中似乎根本不包含此映射馏鹤，從而完全阻止了zero-shot遷移（注釋2：在這個項目過程中征椒，相比其預期，Alec學到了更多關于花卉和德國交通標志的知識）湃累。對于許多數(shù)據(jù)集勃救，我們觀察到這些標簽的選擇可能有點隨意，并且沒有預見到與zero-shot遷移相關的問題治力，zero-shot遷移依賴于任務描述以成功遷移蒙秒。

一個常見的問題是一詞多義。當類的名稱是提供給CLIP的文本編碼器的唯一信息時琴许，由于缺乏上下文税肪，它無法區(qū)分哪個詞的意思。在某些情況下榜田，同一個單詞的多個含義可能作為不同的類包含在同一個數(shù)據(jù)集中益兄！這發(fā)生在ImageNet中，它包含建筑起重機和飛行起重機(construction cranes and cranes that fly)箭券。另一個例子是在Oxford-IIIT寵物數(shù)據(jù)集中的類中發(fā)現(xiàn)的净捅，從上下文來看，boxer一詞顯然指的是一種狗辩块，但缺乏上下文的文本編碼器也可能指的是一種運動員蛔六。

我們遇到的另一個問題是荆永，在我們的預訓練數(shù)據(jù)集中，與圖像配對的文本僅是一個單詞的情況相對較少国章。通常具钥，文本是以某種方式描述圖像的完整句子。為了幫助彌補這個分布差距液兽，我們發(fā)現(xiàn)使用提示模板“A photo of a {label}.”是個很好的默認設置骂删，幫助指定文本是關于圖像內容的。與僅使用標簽文本相比四啰，這通常會提高性能宁玫。例如，僅使用此提示即可將ImageNet上的準確性提高1.3%柑晒。

與關于GPT-3的“提示工程”討論類似（Brown等人欧瘪，2020年；Gao等人匙赞，2020年）佛掖，我們還觀察到，通過為每個任務定制提示文本涌庭，可以顯著提高zero-shot性能苦囱。下面是一些非詳盡的例子。我們在幾個細粒度圖像分類數(shù)據(jù)集上發(fā)現(xiàn)脾猛，它有助于指定類別。例如鱼鸠，在牛津IIIT寵物上猛拴，使用“A photo of a {label}, a type of pet”，幫助提供上下文很有效蚀狰。同樣愉昆，在Food101上指定a type of food，在FGVC飛機上指定a type of food麻蹋，也有幫助跛溉。對于OCR數(shù)據(jù)集，我們發(fā)現(xiàn)在要識別的文本或數(shù)字周圍加引號可以提高性能扮授。最后芳室，我們發(fā)現(xiàn)，在衛(wèi)星圖像分類數(shù)據(jù)集上刹勃，我們使用了變體“a satellite photo of a {label}.”堪侯，它有助于指定圖像為這種形式。

我們還試驗了在多個zero-shot分類器上進行集成(ensembling)荔仁，作為提高性能的另一種方法伍宦。這些分類器是通過使用不同的上下文提示來計算的芽死，例如“A photo of a big {label}”和“A photo of a small {label}”。我們在嵌入空間而不是概率空間上構造了集成次洼。這允許我們緩存一組平均的文本嵌入(a single set of averaged text embeddings)关贵，以便在對多個預測進行攤銷時，集成的計算成本與使用單個分類器的計算成本相同卖毁。我們已經(jīng)觀察到許多生成的zero-shot分類器之間的融合揖曾，以可靠地提高性能，并將其用于大多數(shù)數(shù)據(jù)集势篡。在ImageNet上翩肌，我們集成了80個不同的上下文提示，與上面討論的單個默認提示相比禁悠，性能提高了3.5%念祭。綜合考慮，提示工程和集成將ImageNet的精確度提高近5%碍侦。在圖4中粱坤，我們可視化了與Li等人（2017）所做的直接嵌入類名的無上下文基線方法相比，提示工程和集成如何改變一組CLIP模型的性能瓷产。

圖4站玄。提示工程和集成提高了zero-shot性能。與使用無上下文類名的基線相比濒旦，提示工程和集成在36個數(shù)據(jù)集中平均提高了近5個點的zero-shot分類性能株旷。這種改進類似于使用基線zero-shot方法進行4倍以上計算所獲得的收益，但在許多預測中攤銷時是“無成本的”尔邓。

3.1.5????zero-shot CLIP性能分析

由于用于計算機視覺的任務無關zero-shot分類器尚未得到充分研究晾剖，CLIP為更好地理解這種模型提供了一個很好的機會。在本節(jié)中梯嗽，我們將研究CLIP的zero-shot分類器的各種屬性齿尽。作為第一個問題，我們只看zero-shot分類器的性能如何灯节。為了說明這一點循头，我們比較了一個簡單的現(xiàn)成基線的性能：根據(jù)經(jīng)典(canonical)的ResNet-50的特征擬合一個完全監(jiān)督、正則化的邏輯回歸分類器炎疆。在圖5中卡骂，我們展示了27個數(shù)據(jù)集之間的比較。有關數(shù)據(jù)集和設置的詳細信息磷雇，請參見附錄A偿警。

圖5.Zero-shot CLIP與完全監(jiān)督的基線相比具有競爭力。在27個數(shù)據(jù)集評估中唯笙，16個數(shù)據(jù)集（包括ImageNet）上螟蒸，Zero-shot CLIP分類器的性能優(yōu)于安裝在ResNet-50特征上的完全監(jiān)督線性分類器盒使。

相比基線，zero-shot CLIP表現(xiàn)更好的數(shù)據(jù)集更多七嫌，在27個數(shù)據(jù)集中有16個數(shù)據(jù)集獲勝少办。查看單個數(shù)據(jù)集可以發(fā)現(xiàn)一些有趣的行為。在細粒度分類任務中诵原，我們觀察到性能上的大差距英妓。在其中的兩個數(shù)據(jù)集斯坦福汽車和Food101上，zero-shot CLIP優(yōu)于ResNet-50特征上邏輯回歸超過20%绍赛，而在另外兩個數(shù)據(jù)集Flowers102和FGVCAircraft上蔓纠，zero-shotCLIP的表現(xiàn)低于邏輯回歸超過10%。在牛津寵物和鳥巢上吗蚌，表現(xiàn)更接近腿倚。我們懷疑這些差異主要是由于WIT和ImageNet之間每項任務的監(jiān)督量不同(We suspect these difference are primarily due to varying amounts of per-task supervision between WIT and ImageNet)。在“通用”對象分類數(shù)據(jù)集（如ImageNet蚯妇、CIFAR10/100敷燎、STL10和PascalVOC2007）上，性能相對相似箩言，但在所有情況下硬贯，zero-shotCLIP都有一點優(yōu)勢。在STL10上陨收，CLIP總體達到99.3%饭豹，這似乎是一種新的技術狀態(tài)，盡管沒有使用任何訓練樣本务漩。Zero-shot CLIP在測量視頻中動作識別的兩個數(shù)據(jù)集上顯著優(yōu)于ResNet-50墨状。在Kinetics700上，CLIP的性能比ResNet-50好14.5%菲饼。Zero-shot CLIP在UCF101上的性能也比ResNet-50高出7.7%。我們推測這是因為與ImageNet中以名詞為中心的客體監(jiān)督相比列赎，自然語言為涉及動詞的視覺概念提供了更廣泛的監(jiān)督宏悦。

查看zero-shot CLIP的表現(xiàn)明顯不佳的地方，我們發(fā)現(xiàn)zero-shot CLIP在一些專門包吝、復雜或抽象的任務上相當弱饼煞，如衛(wèi)星圖像分類（EuroSAT和RESISC45）、淋巴結腫瘤檢測（PatchCamelyon）诗越、合成場景中的物體計數(shù)（CLEVRCounts）砖瞧，與自駕相關的任務，如德國交通標志識別（GTSRB）嚷狞，識別到最近車輛的距離（KITTI Distance）块促。這些結果突出表明荣堰，在更復雜的任務中，zero-shot CLIP的能力較差竭翠。相比之下振坚，不是專家的人類可以穩(wěn)健地執(zhí)行其中的一些任務，如計數(shù)斋扰、衛(wèi)星圖像分類和交通標志識別渡八，這表明有很大的改進空間。然而传货，我們要提醒的是屎鳍，相比few-shot遷移，在這些沒有先驗的難任務上評估zero-shot遷移是否有意義尚不清楚问裕，例如淋巴結腫瘤分類逮壁，這對于幾乎所有人類（以及可能CLIP）來說zero-shot能力都是困難的。(However, we caution that it is unclear whether measuring zero-shot transfer, as opposed to few-shot transfer, is a meaningful evaluation for difficult tasks that a learner has no prior experience with, such as lymph node tumor classification for almost all humans (and possibly CLIP).)

雖然將zero-shot性能與完全監(jiān)督模型進行比較會將CLIP的任務學習能力聯(lián)系起來僻澎，但與few-shot方法相比更直接貌踏，因為zero-shot是其限制。在圖6中窟勃，我們展示了zero-shot CLIP與few-shot邏輯回歸在許多圖像模型特征上的對比祖乳，包括最佳公開可用的ImageNet模型、自監(jiān)督學習方法和CLIP本身秉氧。雖然預期zero-shot的表現(xiàn)低于one-shot是直觀的眷昆，但我們發(fā)現(xiàn)zero-shot CLIP與相同特征空間上的四樣本邏輯回歸的表現(xiàn)相匹配。這可能是由于zero-shot和few-shot方法之間的一個重要區(qū)別汁咏。首先亚斋，CLIP的zero-shot分類器是通過自然語言生成的，它允許直接指定視覺概念(First, CLIP’s zero-shot classifier is generated via natural language which allows for visual conceptsto be directly specified (“communicated”).)攘滩。相比之下帅刊，“常規(guī)”監(jiān)督學習必須從訓練樣本間接推斷概念。無上下文的樣本學習的缺點是漂问，許多不同的假設可能都與數(shù)據(jù)一致赖瞒，特別是在one-shot案例中。單個圖像通常包含許多不同的視覺概念蚤假。盡管一個有能力的學習者能夠利用視覺線索和啟發(fā)( heuristics,)栏饮，例如假設正在演示的概念是圖像中的主要對象，但這并不能保證磷仰。

圖6.Zero-shot CLIP優(yōu)于few-shot線性探針袍嬉。Zero-shot CLIP匹配在相同特征空間上訓練的4-shot線性分類器的平均性能，并且?guī)缀跗ヅ涔部捎媚Ｐ椭械?6-shot線性分類器最佳結果灶平。對于BiT-M和SimCLRv2伺通，將突出顯示性能最佳的模型箍土。淺灰色線條是評估中的其他模型。在本分析中使用了20個數(shù)據(jù)集泵殴，每個類別至少有16個實例涮帘。

zero-shot和few-shot性能之間這種差異的潛在解決方案是使用CLIP的zero-shot分類器作為few-shot分類器權重的先驗。雖然向生成的權重添加L2懲罰是這一想法的直接實現(xiàn)笑诅，但我們發(fā)現(xiàn)超參數(shù)優(yōu)化通常會為該正則化器選擇一個很大的值调缨，以至于生成的few-shot分類器“只是”zero-shot分類器。研究更好的方法吆你，將zero-shot遷移的強度與few-shot學習的靈活性相結合弦叶，是未來工作的一個有希望的方向。

將zero-shot CLIP與其他模型的特征上的few-shot邏輯回歸比較時妇多，zero-shot CLIP大致與我們評估中性能最佳的16樣本分類器的性能相匹配鲸郊，該分類器使用在ImageNet-21K上訓練的BiT-M ResNet-152x2的特征啊研。我們確信厉萝，在JFT-300M上訓練的BiT-L模型將表現(xiàn)得更好屁商，但這些模型尚未公開發(fā)布。BiT-M ResNet-152x2在16樣本的情況下表現(xiàn)最好七问，這有點令人驚訝蜓耻，因為如第3.2節(jié)所分析的，在27個數(shù)據(jù)集中械巡，NoisyStudentEfficientNet-L2在完全監(jiān)督的情況下平均比它高出近5%刹淌。

除了研究zero-shot CLIP和few-shot邏輯回歸的平均性能外，我們還檢查了單個數(shù)據(jù)集的性能讥耗。在圖7中有勾，我們顯示了估計的每個類需要多少個有標注樣本，使得相同特征空間上的邏輯回歸分類器可以匹配zero-shot CLIP的性能古程。由于zero-shot CLIP也是一個線性分類器蔼卡，因此在該設置中，這將估計zero-shot遷移的有效數(shù)據(jù)效率挣磨。為了避免訓練數(shù)千個線性分類器菲宴，我們根據(jù)1、2趋急、4、8势誊、16樣本（如果可能）和在每個數(shù)據(jù)集上訓練的完全監(jiān)督線性分類器的性能的對數(shù)線性插值來估計有效的數(shù)據(jù)效率呜达。我們發(fā)現(xiàn)，zero-shot遷移在每個數(shù)據(jù)集上的效率差異很大粟耻，從每個類不到1個標記樣本到184個查近。Flowers102和EuroSAT這兩個數(shù)據(jù)集的性能低于one-shot模型眉踱。一半的數(shù)據(jù)集要求每個類少于5個樣本，中位數(shù)為5.4霜威。然而谈喳，平均估計數(shù)據(jù)效率為每類20.8個樣本。這是因為20%的數(shù)據(jù)集中戈泼，監(jiān)督分類器需要每個類有許多標記的樣本婿禽，以匹配性能。在ImageNet上大猛，zero-shot CLIP與在相同特征空間上訓練的16樣本線性分類器的性能相匹配扭倾。

圖7。zero-shot遷移的數(shù)據(jù)效率差異很大挽绩。計算每類需要多少個有標記樣本膛壹，同一CLIP特征空間上的線性分類器才能匹配zero-shot分類器，將zero-shot遷移的有效性上下文化唉堪。根據(jù)1, 2, 4, 8, 16-shot和完全監(jiān)督結果的對數(shù)線性插值估計值模聋。性能差異很大，從在兩個數(shù)據(jù)集上仍然表現(xiàn)不及one-shot分類器到匹配每個類估計184個標記示例唠亚。

如果我們假設評估數(shù)據(jù)集足夠大链方，能夠很好地估計在其上訓練的線性分類器的參數(shù)，那么趾撵，由于CLIP的zero-shot分類器也是一個線性分類器侄柔，因此完全監(jiān)督分類器的性能大致設定了zero-shot遷移可以實現(xiàn)的上限。在圖8中占调，我們比較了CLIP的zero-shot性能與數(shù)據(jù)集上完全監(jiān)督的線性分類器暂题。虛線y=x表示“最佳”zero-shot分類器，該分類器與其完全監(jiān)督的等效分類器的性能相匹配究珊。對于大多數(shù)數(shù)據(jù)集薪者，zero-shot分類器的性能仍然比完全監(jiān)督分類器的性能差10%到25%，這表明在改進CLIP的任務學習和zero-shot遷移能力方面仍有很大的空間剿涮。

圖8：Zero-shot性能與線性探頭性能相關言津，但仍大多為次優(yōu)。跨數(shù)據(jù)集比較zero-shot和線性探頭性能表明取试，與zero-shot性能有很強的相關性悬槽，zero-shot性能大多降低了10至25個點。只有5個數(shù)據(jù)集的zero-shot性能接近線性探頭性能(≤3點差）瞬浓。?

zero-shot性能和完全監(jiān)督的性能之間初婆，相關系數(shù)為正的0.82（p值<10^-6），表明CLIP在將基礎表征及任務學習與zero-shot遷移聯(lián)系起來方面相對一致(suggesting that CLIP is relatively consistent at connecting underlying representation and task learning to zero-shot transfer)。然而磅叛，zero-shotCLIP僅在5個數(shù)據(jù)集上接近完全監(jiān)督的性能：STL10屑咳、CIFAR10、Food101弊琴、OxfordPets和Caltech101兆龙。在所有5個數(shù)據(jù)集上，zero-shot精度和全監(jiān)督精度均超過90%敲董。這表明CLIP在zero-shot遷移時可能更有效紫皇，因為它的基本表示(underlying representation)也是高質量的。預測zero-shot性能的線性回歸模型的斜率作為全監(jiān)督性能的函數(shù)估計臣缀，全監(jiān)督性能每提高1%坝橡，zero-shot性能提高1.28%。然而精置，95百分置信區(qū)間仍然包括小于1（0.93-1.79）的值计寇。(The slope of a linear regression model predicting zero-shot performance as a function of fully supervised performance estimates that for every 1% improvement in fully supervised performance, zero-shot performance improves by 1.28%. However, the 95th-percentile confidence intervals still include values of less than 1 (0.93-1.79).)

在過去幾年中，對深度學習系統(tǒng)的實證研究證明脂倦，性能是可預測的番宁，是訓練計算和數(shù)據(jù)集大小等重要數(shù)量的函數(shù)（Hestness et al.，2017赖阻；Kaplan et al.蝶押，2020）。迄今為止火欧，GPT系列模型已經(jīng)證明棋电，在訓練計算量增加1000倍的情況下，zero-shot性能得到了持續(xù)改進苇侵。在圖9中赶盔，我們檢查CLIP的zero-shot性能是否遵循類似的縮放模式。我們繪制了5個ResNet CLIP模型在36個不同數(shù)據(jù)集的39次評估中的平均錯誤率榆浓，發(fā)現(xiàn)在模型計算量增加44倍的情況下于未，CLIP具有類似的對數(shù)-對數(shù)線性擴展趨勢(log-log linear scaling trend)。雖然總體趨勢是平穩(wěn)的陡鹃，但我們發(fā)現(xiàn)烘浦，個別評估的表現(xiàn)可能會更加嘈雜。我們不確定這是否是由于子任務（如D'Amour et al.（2020）中記錄的）的個體訓練運行之間的高方差導致的萍鲸，掩蓋了穩(wěn)步改善的趨勢闷叉，或者性能是否作為某些任務計算的函數(shù)實際上是非單調的(or whether performance is actually non-monotonic as a function of compute on some tasks)。

圖9.Zero-shot CLIP性能隨模型計算而平滑擴展脊阴。在36個不同數(shù)據(jù)集的39個評估中握侧，平均zero-shot誤差通過對數(shù)-對數(shù)線性趨勢得到了很好的建模, 在5個不同CLIP模型的44x計算范圍區(qū)間捌肴。淺陰影線表示單獨評估的性能，表明盡管總體趨勢平穩(wěn)藕咏，但性能變化更大。

3.2????表征學習

雖然我們在前一節(jié)中通過zero-shot遷移廣泛分析了CLIP的任務學習能力秽五，但更常見的是研究模型的表示學習能力孽查。評估表征質量的方法有很多，對于“理想”表征應該具有哪些屬性也存在分歧（Locatello等人坦喘，2020年）盲再。在從模型中提取的表示上擬合線性分類器并在各種數(shù)據(jù)集上測量其性能是一種常見的方法。另一種方法是測量模型端到端微調的性能瓣铣。這增加了靈活性答朋，先前的工作令人信服地證明，在大多數(shù)圖像分類數(shù)據(jù)集上棠笑，微調優(yōu)于線性分類（Kornblith等人梦碗，2019年；翟等人蓖救，2019年）洪规。雖然微調的高性能激發(fā)了其研究的實際原因，但出于幾個原因循捺，我們仍然選擇基于線性分類器的評估斩例。我們的工作重點是開發(fā)一種高性能的任務和數(shù)據(jù)集不可知的預訓練方法。微調从橘，因為它在微調階段調整每個數(shù)據(jù)集的表示念赶，可以補償并潛在地掩蓋在預訓練階段學習通用和健壯表示的失敗。線性分類器恰力，由于其靈活性有限叉谜，反而強調這些失敗，并在開發(fā)過程中提供清晰的反饋牺勾。對于CLIP正罢，訓練監(jiān)督線性分類器還有一個額外的好處，那就是與zero-shot分類器使用的方法非常相似驻民，這使得能夠進行第3.1節(jié)中的廣泛比較和分析翻具。最后，我們的目標是在許多任務中將CLIP與一組全面的現(xiàn)有模型進行比較回还。在27個不同的數(shù)據(jù)集上研究66個不同的模型需要調整1782個不同的評估裆泳。微調打開了更大的設計和超參數(shù)空間，這使得比較其他大規(guī)模實證研究中討論的不同技術集很難進行公平評估柠硕，并且計算成本也很高（Lucic et al.工禾，2018运提；Choi et al.，2019）闻葵。相比之下民泵，線性分類器需要最小的超參數(shù)調整，并且具有標準化的實現(xiàn)和評估程序槽畔。有關評估的更多詳細信息栈妆，請參見附錄A。

圖10總結了我們的發(fā)現(xiàn)厢钧。為了盡量減少可能引起確認或報告偏差問題的選擇效應(To minimize selection effects that could raise concerns of confirmation or reporting bias)鳞尔，我們首先研究了Kornblith等人（2019）的12個數(shù)據(jù)集評估的性能。雖然諸如ResNet-50和ResNet-101之類的小CLIP模型的性能優(yōu)于在ImageNet-1K（BiT-S和原始ResNet）上訓練的其他ResNet早直，但它們的性能不如在ImageNet-21K（BiT-M）上訓練的ResNet寥假。這些小CLIP模型的性能也低于EfficientNet系列中具有類似計算要求的模型。然而霞扬，使用CLIP scale訓練的模型非常好糕韧，我們訓練的最大模型（ResNet-50x64）在總分和計算效率方面都略優(yōu)于表現(xiàn)最好的現(xiàn)有模型（NoisyStudentEfficientNet-L2）。我們還發(fā)現(xiàn)祥得，CLIP 視覺transformers的計算效率大約是CLIP ResNet的3倍兔沃，這使我們能夠在計算預算內實現(xiàn)更高的整體性能。這些結果定性地復制了Dosovitskiy等人（2020年）的研究結果级及，該研究報告稱乒疏，當在足夠大的數(shù)據(jù)集上進行訓練時，視覺Transformer的計算效率高于ConvNet饮焦。我們最好的整體模型是ViT-L/14怕吴，它在我們的數(shù)據(jù)集上以336像素的更高分辨率進行了微調額外的一個epoch。該模型在整個評估中的平均性能優(yōu)于現(xiàn)有的最佳模型2.6%县踢。

圖10.與最先進的計算機視覺模型相比转绷，CLIP模型的線性探頭性能。虛線表示以比訓練前更高的分辨率對圖像進行微調或評估的模型硼啤。單個得分見表10议经，每個數(shù)據(jù)集的圖表見圖20。

如圖21定性顯示的那樣谴返，CLIP模型學習的任務比之前所演示的在一個計算機視覺模型中隨機初始化端到端訓練的更廣泛(As Figure 21 qualitatively shows, CLIP models learn a wider set of tasks than has previously been demonstrated in a single computer vision model trained end-to-end from random initialization.)煞肾。這些任務包括地理定位、光學字符識別嗓袱、面部情緒識別和動作識別籍救。Kornblith等人（2019年）的評估中未對這些任務進行測量。這可能是Kornblith等人（2019年）對與ImageNet重疊的任務的研究中的一種選擇偏差渠抹。為了解決這個問題蝙昙，我們還測量了更廣泛的27個數(shù)據(jù)集評估套件的性能闪萄。附錄A中詳述的該評估包括代表上述任務的數(shù)據(jù)集、德國交通標志識別基準（Stallkamp等人奇颠，2011年）以及從VTAB改編的其他幾個數(shù)據(jù)集（翟等人败去，2019年）。

在這個更廣泛的評估套件中烈拒，CLIP的好處更為明顯为迈。無論規(guī)模大小，所有CLIP模型在計算效率方面都優(yōu)于所有評估系統(tǒng)缺菌。與以前的系統(tǒng)相比，最佳模型的平均得分從2.6%提高到5%搜锰。我們還發(fā)現(xiàn)伴郁，自監(jiān)督系統(tǒng)在我們更廣泛的評估套件中表現(xiàn)明顯更好。例如蛋叼，盡管SimCLRv2在Kornbrith等人（2019）的12個數(shù)據(jù)集上的平均性能仍低于BiT-M焊傅，但在我們的27個數(shù)據(jù)集評估上，SimCLRv2的性能優(yōu)于BiT-M狈涮。這些發(fā)現(xiàn)建議繼續(xù)擴大任務多樣性和覆蓋范圍狐胎，以便更好地了解系統(tǒng)的“通用(general)”性能。我們懷疑按照VTAB進行的額外評估工作是有價值的歌馍。

除了上面的聚合分析之外握巢，在圖11中，我們還可視化了每個數(shù)據(jù)集所有27個數(shù)據(jù)集的最佳CLIP模型和評估中的最佳模型的性能差異松却。CLIP在27個數(shù)據(jù)集中的21個數(shù)據(jù)集上優(yōu)于NoisyStudentEfficientNet-L2暴浦。CLIP在需要OCR（SST2和HatefulMemes）、地理定位和場景識別（Country211晓锻、SUN397）以及視頻中的活動識別（Kinetics700和UCF101）的任務上改進最多歌焦。此外，CLIP在細粒度汽車和交通標志識別（斯坦福汽車和GTSRB）方面也做得更好砚哆。這可能反映了ImageNet監(jiān)督范圍過窄的問題独撇。在GTSRB改善14.7%的結果可能表明ImageNet-1K存在問題，它對所有交通和街道標志只有一個標簽躁锁。這可能會鼓勵崩潰類內細節(jié)的有監(jiān)督的表示(a supervised representation to collapse intra-class details)纷铣，并損害細粒度下游任務的準確性。如前所述灿里，CLIP在幾個數(shù)據(jù)集上的性能仍然低于EfficientNet关炼。毫不奇怪，與CLIP相比匣吊，EfficientNet做得最好的數(shù)據(jù)集是它訓練過的數(shù)據(jù)集：ImageNet儒拂。在低分辨率數(shù)據(jù)集（如CIFAR10和CIFAR100）上寸潦，EfficientNet的性能也略優(yōu)于CLIP。我們懷疑這至少部分是由于CLIP中缺乏基于尺度的數(shù)據(jù)增強社痛。Effi-cientNet在PatchCamelyon和CLEVRCounts數(shù)據(jù)集上的表現(xiàn)也稍好一些见转，這兩種方法的總體性能仍然較低。

圖11.CLIP的特征在廣泛的數(shù)據(jù)集上都優(yōu)于最佳ImageNet模型的特征蒜哀。在27個數(shù)據(jù)集中的21個數(shù)據(jù)集上斩箫，在CLIP的特征上擬合線性分類器優(yōu)于使用Noisy Student EfficientNet-L2。

3.3????對自然分布變化的魯棒性

2015年在ImageNet測試集上撵儿，深度學習模型被宣稱超過了人類的表現(xiàn)（He等人乘客，2015年）。然而淀歇，隨后幾年的研究反復發(fā)現(xiàn)易核，這些模型仍然存在許多簡單的錯誤（道奇&卡拉姆，2017浪默；蓋爾斯等人牡直，2018；阿爾科恩等人纳决，2019）碰逸，測試這些系統(tǒng)的新基準經(jīng)常發(fā)現(xiàn)它們的性能遠遠低于其ImageNet精度和人類精度（Recht et al.，2019阔加；Barbu et al.饵史，2019）。如何解釋這種差異胜榔？已經(jīng)提出并研究了各種想法（Ilyas等人约急，2019年；Geirhos等人苗分，2020年）厌蔽。提出的解釋的一個共同主題是，深度學習模型非常擅長發(fā)現(xiàn)貫穿其訓練數(shù)據(jù)集的相關性和模式摔癣，從而提高分布性能奴饮。然而，其中許多相關性和模式實際上是虛假的择浊，不適用于其他分布戴卜，并導致其他數(shù)據(jù)集的性能大幅下降。(A common theme of proposed explanations is that deep learning models are exceedingly adept at finding correlations and patterns which hold across their training dataset and thus improve in-distribution performance. However many of these correlations and patterns are actually spurious and do not hold for other distributions and result in large drops in performance on other datasets.)

我們要提醒的是琢岩，到目前為止投剥，這些研究中的大多數(shù)將其評估局限于在ImageNet上訓練的模型〉？祝回顧討論的主題江锨，從這些初步發(fā)現(xiàn)推廣地太遠可能是錯誤的(it may be a mistake to generalize too far from these initial findings)吃警。這些失敗在多大程度上歸因于深度學習、ImageNet或兩者的某種組合啄育？CLIP模型通過自然語言監(jiān)督在一個非常大的數(shù)據(jù)集上訓練酌心，并且能夠實現(xiàn)高的zero-shot性能，這是從不同角度研究這個問題的一個機會挑豌。

Taori等人（2020年）是最近的一項綜合性研究安券，旨在量化和理解ImageNet模型的這些行為。Taori等人（2020年）研究了當評估自然分布變化時氓英，ImageNet模型的性能如何變化侯勉。他們測量了一組7個分布遷移的性能：ImageNetV2（Recht等人，2019）铝阐、ImageNet Sketch（Wang等人壳鹤，2019）、Youtube BB和ImageNet Vid（Shankar等人饰迹，2019）、ObjectNet（Barbu等人余舶，2019）啊鸭、ImageNet Adversarial（Hendrycks等人，2019）和 ImageNet Rendition（Hendrycks等人匿值，2020a）赠制。它們將這些數(shù)據(jù)集（均由從各種來源收集的新圖像組成）與合成分布遷移（如ImageNet-C（Hendrycks&Dieterich，2019）挟憔、Stylized ImageNet（Geirhos et al.钟些，2018）或對抗攻擊（Goodfello et al.，2014）區(qū)分開來绊谭，這些攻擊是通過以各種方式干擾現(xiàn)有圖像而產(chǎn)生的政恍。他們提出這一區(qū)別，部分原因是他們發(fā)現(xiàn)达传，雖然已經(jīng)證明了幾種技術可以提高合成分布遷移的性能篙耗，但它們往往無法對自然分布產(chǎn)生一致的改進。（原注：我們請讀者參閱Hendrycks等人（2020a）宪赶，了解關于這一主張的其他實驗和討論）

在這些收集的數(shù)據(jù)集中宗弯，ImageNet模型的準確性遠遠低于ImageNet驗證集設定的預期值。在下面的總結討論中搂妻，我們報告了所有7個自然分布偏移數(shù)據(jù)集的平均精度以及ImageNet相應類別子集的平均精度蒙保，除非另有規(guī)定。此外欲主，對于具有兩種不同評估設置的Youtube BB和ImageNet Vid邓厕，我們使用pm-0和pm-10精度的平均值逝嚎。

與ImageNet驗證集相比，在對這些自然分布變化進行評估時邑狸，ResNet-101犯的錯誤是其5倍懈糯。然而，令人鼓舞的是单雾，Taori等人（2020年）發(fā)現(xiàn)赚哗，分布偏移下的準確度隨著ImageNet準確度的增加而增加，并且被很好地建模為 logit-transformed準確度的線性函數(shù)硅堆。Taori等人（2020年）利用這一發(fā)現(xiàn)提出穩(wěn)健性分析應區(qū)分有效魯棒性和相對魯棒性屿储。有效的魯棒性度量了分布內和分布外精度之間的記錄關系所預測的分布偏移下的精度改進。相對魯棒性捕獲了分布外精度的任何改進渐逃。Taori等人（2020年）認為魯棒性技術應旨在提高有效魯棒性和相對魯棒性够掠。(Effective robustness measures improvementsin accuracy under distribution shift above what is predicted by the documented relationship between in-distribution and out-of-distribution accuracy. Relative robustness captures any improvement in out-of-distribution accuracy.)

Taori等人（2020年）研究的幾乎所有模型都在ImageNet數(shù)據(jù)集上進行了訓練或微調∏丫眨回到本節(jié)導言中的討論：訓練或適應ImageNet數(shù)據(jù)集分布是否是觀察到的魯棒性差距的原因疯潭？直覺上，zero-shot模型應該不能利用僅適用于特定分布的虛假相關性或模式面殖，因為它沒有針對該分布進行訓練（原注：我們提醒說竖哩，zero-shot模型仍然可以利用預訓練和評估分布之間共享的虛假相關性）。因此脊僚，期望zero-shot模型具有更高的有效魯棒性是合理的相叁。在圖13中，我們比較了zero-shot CLIP與現(xiàn)有ImageNet模型在自然分布偏移方面的性能辽幌。所有zero-shot CLIP模型大大提高了有效的魯棒性增淹，并將ImageNet精度和分布偏移下的精度之間的差距減小了75%。

圖13.與標準ImageNet模型相比乌企，zero-shot CLIP對分布偏移的魯棒性更強虑润。（左）理想的魯棒模型（虛線）是在ImageNet分布和其他自然圖像分布上表現(xiàn)同樣好。zero-shot CLIP模型將這種“魯棒性差距”縮小了75%加酵。對數(shù)變換的線性擬合顯示為自舉估計95%置信區(qū)間端辱。（右）可視化香蕉的分布變化，香蕉是7個自然分布變化數(shù)據(jù)集中的5個共享的類別虽画。最佳zero-shot CLIP模型ViT-L/14@336px的性能與在ImageNet驗證集ResNet-101上具有相同性能的模型進行比較舞蔽。Figure 13. Zero-shot CLIP is much more robust to distribution shift than standard ImageNet models. (Left) An ideal robust model (dashed line) performs equally well on the ImageNet distribution and on other natural image distributions. Zero-shot CLIP models shrink this “robustness gap” by up to 75%. Linear fits on logit transformed values are shown with bootstrap estimated 95% confidence intervals.(Right) Visualizing distribution shift for bananas, a class shared across 5 of the 7 natural distribution shift datasets. The performance of the best zero-shot CLIP model, ViT-L/14@336px, is compared with a model that has the same performance on the ImageNet validation set, ResNet-101.

雖然這些結果表明zero-shot模型可以更魯棒，但它們并不一定意味著ImageNet上的監(jiān)督學習會導致魯棒性差距码撰。CLIP的其他細節(jié)渗柿，如其龐大而多樣的預訓練數(shù)據(jù)集或自然語言監(jiān)督的使用，也可能導致更魯棒的模型，無論它們是zero-shot還是微調朵栖。作為可能開始縮小范圍的初步實驗颊亮，我們還通過一個L2正則化邏輯回歸分類器來測量CLIP模型在適應ImageNet分布后的性能變化，該分類器在ImageNet訓練集上擬合CLIP特征陨溅。我們在圖14中展示了zero-shot分類器的性能變化终惑。盡管將CLIP適應ImageNet分布，可以將ImageNet準確度提高9.2%至85.4%门扇，并與Mahajan等人（2018年）的2018 SOTA精度保持一致雹有，但分布偏移下的平均精度略有下降。

圖14.盡管監(jiān)督下的ImageNet適應提高了9.2%的ImageNetwork準確性臼寄，但它略微降低了平均魯棒性呆馁。（左）與使用單個靜態(tài)zero-shot ImageNet分類器和在類似類中匯集預測相比讨越，為每個數(shù)據(jù)集定制零鏡頭CLIP提高了魯棒性，如Taori等人（2020）所述咐容。適應ImageNet的CLIP模型具有與先前的最佳ImageNet模型相似的有效魯棒性誓沸。（右）兩種魯棒性干預的每個數(shù)據(jù)集準確性變化的詳細信息欲低。適應ImageNet顯著提高了ImageNetV2的準確性坚洽，但在其他幾個發(fā)行版上會犧牲準確性爷肝。特定于數(shù)據(jù)集的zero-shot分類器可以大大提高準確性，但僅限于少數(shù)數(shù)據(jù)集炼邀，這些數(shù)據(jù)集包含與ImageNet類別不完全一致的類魄揉。Figure 14. While supervised adaptation to ImageNet increases ImageNet accuracy by 9.2%, it slightly reduces average robustness.(Left) Customizing zero-shot CLIP to each dataset improves robustness compared to using a single static zero-shot ImageNet classifier and pooling predictions across similar classes as in Taori et al. (2020). CLIP models adapted to ImageNet have similar effective robustness as the best prior ImageNet models. (Right) Details of per dataset changes in accuracy for the two robustness interventions. Adapting to ImageNet increases accuracy on ImageNetV2 noticeably but trades off accuracy on several other distributions. Dataset specific zero-shot classifiers can improve accuracy by a large amount but are limited to only a few datasets that include classes which don’t perfectly align with ImageNet categories.

令人驚訝的是，準確度提高了9.2%汤善，這與SOTA大約3年的改進相對應，但未能轉化為分布遷移下平均性能的任何改善票彪。在圖14中红淡，我們還分析了每個數(shù)據(jù)集的zero-shot準確度和線性分類器準確度之間的差異，發(fā)現(xiàn)在一個數(shù)據(jù)集ImageNetV2上性能仍然顯著提高降铸。ImageNetV2緊跟著原始ImageNet數(shù)據(jù)集的創(chuàng)建過程在旱，這表明從監(jiān)督適應中獲得的準確性集中在ImageNet分布上。ImageNet-R的性能下降了4.7%推掸，ObjectNet的性能下降了3.8%桶蝎，ImageNet Sketch的性能下降了2.8%，ImageNet-A的性能下降了1.9%谅畅。另外兩個數(shù)據(jù)集Youtube BB和ImageNet Vid的精度變化微不足道登渣。

如何在分布遷移中精度幾乎沒有增加的情況下，將ImageNet數(shù)據(jù)集的精度提高9.2%呢毡泻？收益主要來自“利用虛假相關性”嗎胜茧？這種行為是CLIP、ImageNet數(shù)據(jù)集和所研究的分布遷移的某些組合所特有的，還是更普遍的現(xiàn)象呻顽？它適用于端到端微調和線性分類器嗎雹顺？目前，我們對這些問題沒有自信的答案廊遍。之前的工作也對ImageNet以外的分布進行了預訓練嬉愧，但通常是只有在對ImageNet進行了微調后才能研究和發(fā)布模型。為了了解預訓練的zero-shot模型是否始終比微調模型具有更高的有效魯棒性喉前，我們鼓勵Mahajan等人（2018）没酣、Kolesnikov等人（2019）和Dosovitskiy等人（2020）的作者，如果可能的話被饿，也在他們的模型上研究這些問題四康。

我們還研究了另一種魯棒性干預，通過靈活的基于zero-shot自然語言的圖像分類器(by flexible zero-shot natural-language-based image classifiers)狭握。7個遷移數(shù)據(jù)集中的目標類并不總是與ImageNet的目標類完全一致闪金。兩個數(shù)據(jù)集，Youtube BB和ImageNet Vid论颅，由ImageNet的超類組成哎垦。當嘗試使用ImageNet模型的固定1000路分類器進行預測時，會出現(xiàn)問題恃疯。Taori等人（2020年）根據(jù)ImageNet類層次結構漏设，通過最大化所有子類的預測來處理這一問題。有時今妄，這種映射遠遠不夠完美郑口。對于Youtube BB中的"person"類，預測是通過匯集一名棒球運動員盾鳞、一名新郎和一名水肺潛水員的ImageNet類進行的犬性。使用CLIP，我們可以直接根據(jù)每個數(shù)據(jù)集的類名為其生成一個自定義的zero-shot分類腾仅。在圖14中乒裆，我們看到這將平均有效穩(wěn)健性提高了5%，但主要集中在僅對少數(shù)數(shù)據(jù)集的大幅改進上推励。奇怪的是鹤耍，ObjectNet上的準確率也提高了2.3%。盡管數(shù)據(jù)集被設計為與ImageNet類緊密重疊验辞，但與必要時使用ImageNet類名和匯集預測相比稿黄，使用ObjectNet的創(chuàng)建者為每個類提供的名稱仍有少量幫助(using the names provided for each class by ObjectNet’s creators still helps a small amount compared to using ImageNet class names and pooling predictions when necessary.)。

雖然zero-shot CLIP提高了有效魯棒性跌造，但圖14顯示抛猖，在完全監(jiān)督的環(huán)境中，這種優(yōu)勢幾乎完全消失了。為了更好地理解這種差異财著，我們研究了有效魯棒性如何在從zero-shot到全監(jiān)督的連續(xù)體上改變(how effective robustness changes on the continuum from zero-shot to fully supervised)联四。在圖15中，我們可視化了在最佳CLIP模型特征上0樣本撑教、1樣本朝墩、2樣本、4樣本...128樣本伟姐，以及全監(jiān)督的邏輯回歸分類的性能收苏。我們看到，雖然少樣本模型也比現(xiàn)有模型表現(xiàn)出更高的有效魯棒性愤兵，但隨著訓練數(shù)據(jù)的增加鹿霸，分布內性能的提高，這種優(yōu)勢逐漸消失秆乳。對于全監(jiān)督模型來說懦鼠，這種優(yōu)勢是大部分（盡管不是完全）都消失了。此外屹堰，zero-shot CLIP明顯比具有同等ImageNet性能的few-shot模型更魯棒肛冶。

在我們的實驗中，高的有效魯棒性似乎是通過最小化模型可以訪問的特定于分布的訓練數(shù)據(jù)量來實現(xiàn)的扯键，但這是以降低特定于數(shù)據(jù)集的性能為代價的睦袖。

圖15.與現(xiàn)有ImageNet模型相比，few-shot CLIP也提高了有效魯棒性荣刑，但比zero-shot CLIP魯棒性差馅笙。最小化用于適應ImageNet訓練數(shù)據(jù)的數(shù)據(jù)量，提高了有效的魯棒性厉亏，但以降低相對魯棒性為代價董习。如圖7所示，16-shot邏輯回歸CLIP與ImageNet上的zero-shot CLIP相匹配叶堆，但魯棒性較差阱飘。

總的來看斥杜，這些結果表明虱颗，最近向大規(guī)模的任務和數(shù)據(jù)集不可知的預訓練的轉變，以及對廣泛評估的zero-shot和few-shot基準測試的重新定位（如Yogatama等人（2019）和Linzen（2020）所倡導的）蔗喂，促進了更魯棒系統(tǒng)的開發(fā)忘渔，并提供了更準確的性能評估。我們很想知道缰儿，在NLP領域畦粮，如GPT族，zero-shot模型是否也有同樣的結果。雖然Hendrycks等人（2020b）報告說宣赔，預訓練提高了情緒分析的相對魯棒性预麸，但Miller等人（2020）對自然分布變化下問答模型魯棒性的研究發(fā)現(xiàn)，與Taori等人（2020）類似儒将，迄今為止吏祸，幾乎沒有證據(jù)表明有效魯棒性改進。

4????與人類性能的比較

CLIP與人類性能和人類學習相比如何钩蚊？為了更好地了解人類在與CLIP類似的評估設置中的表現(xiàn)贡翘，我們對人類的一項任務進行了評估。我們想了解在這些任務中砰逻，人類的zero-shot表現(xiàn)有多強鸣驱，以及如果向他們展示一兩個圖像樣本，人類的表現(xiàn)會有多大程度的改善蝠咆。這可以幫助我們比較人類和CLIP的任務難度踊东，并確定它們之間的相關性和差異。(This can help us to compare task difficulty for humans and CLIP, and identify correlations and differences between them)

在牛津IIT寵物數(shù)據(jù)集（Parkhi et al.勺美，2012）的測試集中递胧，我們讓五個不同的人分別查看3669張圖像，并從37只貓或狗中選擇最符合圖像的品種（如果他們完全不確定赡茸，則“我不知道”）缎脾。在zero-shot的情況下，沒有給人類提供品種的例子占卧，并要求他們在沒有互聯(lián)網(wǎng)搜索的情況下盡其所能給它們貼上標簽遗菠。在one-shot實驗中，給人一張每個品種的樣本圖像华蜒，在 two-shot實驗中辙纬，給人兩張每個品種的樣本圖像。（原注：人類的few-shot任務和模型的few-shot性能之間沒有完美的對應關系叭喜，因為模型不能像人類那樣參考樣本圖像）

一個可能的擔憂是贺拣，人類工作者在zero-shot任務中沒有充分的動機。STL-10數(shù)據(jù)集（Coates等人捂蕴，2011年）和注意力檢查圖像子集的高人類準確率分別為94%和97-100%譬涡，增加了我們對人類工作者的信任。

有趣的是啥辨，每類只有一個訓練示例涡匀，人類的平均成績從54%提高到了76%，而額外的訓練樣本帶來的邊際收益微乎其微溉知。從zero-shot到one shot的準確度提升幾乎完全取決于人類不確定的圖像陨瘩。這表明人類“知道他們不知道的”腕够，并且能夠根據(jù)一個樣本更新他們最不確定的圖像的先驗信息。鑒于此舌劳，盡管CLIP是一種很有前途的zero-shot訓練策略（圖5）帚湘，并且在自然分布遷移測試中表現(xiàn)良好（圖13），但人類從幾個樣本中學習的方式與本文中的few-shot方法之間存在很大差異甚淡。

表2.牛津IIT寵物的人類表現(xiàn)比較客们。如Parkhi等人（2012年）所述，該指標是每類分類準確度的平均值材诽。從人類zero shot情況到人類one shot情況底挫，大多數(shù)性能的提高都是在參與者高度不確定的圖像上×辰模“猜測”是指將數(shù)據(jù)集限制在參與者選擇“我不知道”以外的答案的地方建邓，“多數(shù)投票”是每張圖片中最頻繁（不包括平局）的答案。

這表明睁枕，如Lake等人（2016）和其他人所指出的官边，仍有算法改進有待完成，以縮小機器和人類樣本效率之間的差距外遇。由于對CLIP的這些少樣本評估沒有有效地利用先驗知識注簿，而人類利用了，因此我們推測跳仿，找到一種方法诡渴，將先驗知識適當?shù)卣系缴贅颖緦W習中，是CLIP算法改進的重要一步菲语。據(jù)我們所知妄辩，在高質量預訓練模型的特征之上使用線性分類器幾乎是few-shot學習的最新技術（Tian等人，2020）山上，這表明最好的few-shot機器學習方法與人類few-shot學習之間存在差距眼耀。

如果我們繪制出人類的準確度與CLIP的zero-shot準確度的對比圖（圖16），我們會發(fā)現(xiàn)CLIP最難解決的問題對人類來說也是很難解決的佩憾。在一定程度上哮伟，誤差是一致的，我們的假設是妄帘，這至少是由于兩個因素：數(shù)據(jù)集中的噪聲（包括錯誤標記的圖像）和分布外的圖像對人類和模型來說都是困難的楞黄。

圖16.CLIP最難的問題也往往是人類最難的。這里寄摆，我們根據(jù)CLIP的難度對圖像類別進行排序谅辣，以正確標簽的概率為衡量標準

5????數(shù)據(jù)重疊分析

在非常大的互聯(lián)網(wǎng)數(shù)據(jù)集上進行預訓練的一個問題是無意中與下游評估重疊修赞。這一點非常重要婶恼，因為在最壞的情況下桑阶，評估數(shù)據(jù)集的完整副本可能會泄漏到預訓練數(shù)據(jù)集中，并使評估作為有意義的泛化測試無效勾邦。防止這種情況的一種方法是在訓練模型之前識別并刪除所有重復項蚣录。雖然這可以保證報告真實的保持性能，但它需要提前了解模型可能要評估的所有可能數(shù)據(jù)眷篇。這樣做的缺點是限制了基準測試和分析的范圍萎河。增加一個新的評估需要昂貴的重新訓練或風險報告由于重疊而無法量化的收益。(Adding a new evaluation would require an expensive re-train or risk reporting an un-quantified benefit due to overlap.)

相反蕉饼，我們記錄了有多少重疊發(fā)生虐杯，以及性能如何因這些重疊而改變。為此昧港，我們使用以下程序：

1）對于每個評估數(shù)據(jù)集擎椰，我們在其示例上運行一個重復檢測器（見附錄C）。然后创肥，我們手動檢查找到的最近鄰达舒，并設置每個數(shù)據(jù)集的閾值，以保持高精度叹侄，同時最大限度地提高召回率巩搏。使用這個閾值，我們然后創(chuàng)建兩個新的子集趾代，Overlap（包含與閾值以上的訓練示例具有相似性的所有示例）和Clean（表示未更改的完整數(shù)據(jù)集贯底，全部供參考）。由此撒强，我們首先將數(shù)據(jù)污染的程度記錄為重疊示例的數(shù)量與所有示例的大小之比丈甸。

2）然后，我們計算三個數(shù)據(jù)集上的CLIP RN50x64的zero-shot精度尿褪，并報告All-Clean作為我們的主要指標睦擂。這是由于污染造成的精度差異。當為正值時杖玲，我們估計數(shù)據(jù)集的總體報告準確度因過度擬合重疊數(shù)據(jù)而降低顿仇。

3）重疊的數(shù)量通常很小，因此我們還進行了二項顯著性檢驗摆马，其中我們使用Clean的準確性作為零假設臼闻，并計算重疊子集的單尾（更大）p值。我們還計算了99.5%的Cropper-Pearson置信區(qū)間囤采，作為另一項檢查述呐。

該分析的摘要如圖17所示。在研究的35個數(shù)據(jù)集中蕉毯，有9個數(shù)據(jù)集根本沒有檢測到重疊乓搬。大多數(shù)這些數(shù)據(jù)集是合成的或專門化的思犁，因此它們不太可能作為普通圖像發(fā)布在互聯(lián)網(wǎng)上（例如MNIST、CLEVR和GTSRB）进肯，或者由于包含數(shù)據(jù)集創(chuàng)建日期之后的新數(shù)據(jù)（ObjectNet和 Hateful Memes）激蹲，因此保證不會有重疊。這表明我們的檢測器具有較低的假陽性率江掩，這一點很重要学辱，因為在我們的分析中，假陽性會低估污染的影響环形。中位重疊率為2.2%策泣，平均重疊率為3.2%。由于這種少量的重疊抬吟，只有7個數(shù)據(jù)集高于該閾值着降，整體精度的變化很少超過0.1%。其中拗军，只有2項在Bonferroni校正后具有統(tǒng)計學意義任洞。Birdsnap的最大檢測改善率僅為0.6%，重疊率為12.1%发侵，位居第二交掏。最大的重疊是Country211，占21.5%刃鳄。這是因為它是由YFCC100M構建而成的盅弛，我們的預訓練數(shù)據(jù)集包含一個經(jīng)過過濾的數(shù)據(jù)子集。盡管存在如此大的重疊叔锐，但Country211的準確度僅提高了0.2%挪鹏。這可能是因為示例附帶的訓練文本通常與下游評估衡量的特定任務無關。Country211測量地理定位能力愉烙，但檢查這些副本的訓練文本表明讨盒，他們通常沒有提到圖像的位置。

圖17.由于檢測到的數(shù)據(jù)重疊步责，精確度在統(tǒng)計上幾乎沒有顯著改善返顺。

我們在分析中意識到兩個潛在的問題。首先蔓肯，我們的探測器并不完美遂鹊。雖然它在代理訓練任務上實現(xiàn)了接近100%的準確率，并且手動檢查+閾值調整的結果精度非常高蔗包，在找到的最近鄰中具有良好的召回率秉扑，但我們無法在4億個示例中輕松檢查其召回率。我們分析的另一個潛在混淆是调限，基礎數(shù)據(jù)分布可能在重疊子集和干凈子集之間遷移舟陆。例如误澳，在Kinetics-700上，許多“重疊”實際上都是黑色過渡幀吨娜。這就解釋了為什么Kinetics-700在重疊時的精度明顯下降20%。我們懷疑可能存在更微妙的分布變化淘钟。我們在CIFAR-100上注意到的一種可能性是宦赠，由于其圖像的分辨率非常低，許多復制品是鳥類或飛機等小物體的誤報米母。準確度的變化可能是由于類分布的變化或副本的難度勾扭。不幸的是，這些分布和難度變化也可能掩蓋過度擬合的影響铁瞒。

然而妙色，這些結果與之前大規(guī)模預訓練工作中類似重復分析的結果密切相關。Mahajan等人（2018年）和Kolesnikov等人（2019年）檢測到類似的重疊率慧耍，并發(fā)現(xiàn)總體性能變化極小身辨。重要的是，Kolesnikov等人（2019年）還將本節(jié)導言中討論的替代重復數(shù)據(jù)消除策略與我們確定的方法進行了比較芍碧，并發(fā)現(xiàn)兩種方法之間幾乎沒有差異煌珊。

本文的下半部分

CLIP：連接文本到圖像（下）

http://www.reibang.com/p/7514e6f57fe5

最后編輯于：2022.10.25 15:43:14

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市泌豆，隨后出現(xiàn)的幾起案子定庵，更是在濱河造成了極大的恐慌，老刑警劉巖踪危，帶你破解...
沈念sama閱讀 219,427評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件蔬浙，死亡現(xiàn)場離奇詭異，居然都是意外死亡贞远，警方通過查閱死者的電腦和手機畴博，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,551評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來蓝仲，“玉大人绎晃，你說我怎么就攤上這事≡忧” “怎么了庶艾？”我有些...
開封第一講書人閱讀 165,747評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長擎勘。經(jīng)常有香客問我咱揍，道長，這世上最難降的妖魔是什么棚饵？我笑而不...
開封第一講書人閱讀 58,939評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任煤裙，我火速辦了婚禮掩完，結果婚禮上，老公的妹妹穿的比我還像新娘硼砰。我一直安慰自己且蓬，他們只是感情好，可當我...
茶點故事閱讀 67,955評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布题翰。她就那樣靜靜地躺著恶阴，像睡著了一般。火紅的嫁衣襯著肌膚如雪豹障。梳的紋絲不亂的頭發(fā)上冯事，一...
開封第一講書人閱讀 51,737評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音血公，去河邊找鬼昵仅。笑死，一個胖子當著我的面吹牛累魔，可吹牛的內容都是我干的摔笤。我是一名探鬼主播，決...
沈念sama閱讀 40,448評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼垦写，長吁一口氣：“原來是場噩夢啊……” “哼籍茧！你這毒婦竟也來了？” 一聲冷哼從身側響起梯澜，我...
開封第一講書人閱讀 39,352評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤寞冯，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后晚伙，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體吮龄，經(jīng)...
沈念sama閱讀 45,834評論 1贊 317
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,992評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年咆疗，在試婚紗的時候發(fā)現(xiàn)自己被綠了漓帚。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,133評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡午磁，死狀恐怖尝抖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情迅皇，我是刑警寧澤昧辽，帶...
沈念sama閱讀 35,815評論 5贊 346
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站登颓，受9級特大地震影響搅荞，放射性物質發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,477評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一咕痛、第九天我趴在偏房一處隱蔽的房頂上張望痢甘。院中可真熱鬧，春花似錦茉贡、人聲如沸塞栅。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,022評論 0贊 22
一樁弒父案腔丧，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽放椰。三九已至，卻和暖如春悔据，著一層夾襖步出監(jiān)牢的瞬間庄敛，已是汗流浹背俗壹。一陣腳步聲響...
開封第一講書人閱讀 33,147評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工科汗，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人绷雏。一個月前我還...
沈念sama閱讀 48,398評論 3贊 373
代替公主和親
正文我出身青樓头滔，卻偏偏與公主長得像，于是被迫代替她去往敵國和親涎显。傳聞我的和親對象是個殘疾皇子坤检，可洞房花燭夜當晚...
茶點故事閱讀 45,077評論 2贊 355

CLIP：連接文本到圖像（上）

推薦閱讀更多精彩內容