CLIP論文閱讀筆記

論文CLIP: Learning Transferable Visual Models From Natural Language Supervision

Abstract

相比于監(jiān)督式的CV學(xué)習(xí)方法,直接對(duì)圖文對(duì)學(xué)習(xí)有可能提供更多監(jiān)督信息吟策。在互聯(lián)網(wǎng)上收集4億圖文對(duì)的體量下,通過(guò)簡(jiǎn)單的預(yù)訓(xùn)練任務(wù)(預(yù)測(cè)圖文對(duì)的對(duì)應(yīng)關(guān)系)洒缀,便可以達(dá)到sota的圖像表征能力。預(yù)訓(xùn)練后醉锅,自然語(yǔ)言被用來(lái)參考學(xué)習(xí)到的視覺(jué)概念侣签,用于將模型遷移到下游任務(wù)實(shí)現(xiàn)zero-shot. 對(duì)比了30多個(gè)CV任務(wù),在zero-shot的性能達(dá)到了resnet-50在imagenet訓(xùn)練的性能蛇摸。

1. Introduction and Motivating Work

GPT-3等成果表明备图,現(xiàn)代預(yù)訓(xùn)練方法在互聯(lián)網(wǎng)規(guī)模的文本集中的總體監(jiān)督能力超過(guò)了高質(zhì)量的人類(lèi)標(biāo)記NLP數(shù)據(jù)集。
在CV領(lǐng)域赶袄,使用自然語(yǔ)言作為圖像表征學(xué)習(xí)的監(jiān)督信息的工作比較少揽涮,可能是因?yàn)槠湫阅茌^低。而一些弱監(jiān)督的方法提升了性能饿肺,在Instagram圖像上預(yù)測(cè)ImageNet相關(guān)的標(biāo)簽是一項(xiàng)有效的預(yù)訓(xùn)練任務(wù)蒋困,在imagenet調(diào)參可獲得5%的性能提升。
2.方法
方法核心是學(xué)習(xí)自然語(yǔ)言蘊(yùn)含的感知信息
數(shù)據(jù)集收集:互聯(lián)網(wǎng)4億圖文對(duì)敬辣,盡可能涵蓋更多的視覺(jué)概念雪标,使用50萬(wàn)個(gè)搜索詞,為了類(lèi)間平衡溉跃,規(guī)定每個(gè)搜索詞對(duì)應(yīng)的圖像數(shù)量不超過(guò)2萬(wàn)個(gè)圖文對(duì)村刨。數(shù)據(jù)集的詞語(yǔ)數(shù)量與訓(xùn)練GPT-2使用的數(shù)據(jù)集WebText體量相近。
高效預(yù)訓(xùn)練:sotaCV方法對(duì)于GPU的消耗是很驚人的撰茎,成功的從自然語(yǔ)言中學(xué)習(xí)到對(duì)圖像的監(jiān)督信息的核心和訓(xùn)練效率嵌牺。
原始方法:類(lèi)似 VirTex,協(xié)同訓(xùn)練一個(gè)CNN和文本transformer,實(shí)現(xiàn)圖像描述任務(wù)(image caption)龄糊。但是發(fā)現(xiàn)效率比較低逆粹,63M的文本transformer編碼器的訓(xùn)練效率是CNN的3倍∫锴可能的原因是圖像描述任務(wù)太難了枯饿。將代理任務(wù)設(shè)計(jì)為基于對(duì)比學(xué)習(xí),預(yù)測(cè)哪個(gè)文本與圖像是一對(duì)诡必。預(yù)訓(xùn)練過(guò)程是協(xié)調(diào)訓(xùn)練圖像編碼器和文本編碼器奢方,最大化對(duì)應(yīng)圖像-文本對(duì)embedding的余弦相似度。是一種跨模態(tài)的對(duì)比學(xué)習(xí)爸舒。 對(duì)余弦相似度優(yōu)化symmetric cross entropy loss 蟋字。
模型細(xì)節(jié):圖像編碼器和文本編碼器都是從頭訓(xùn)練,因?yàn)閿?shù)據(jù)集足夠大扭勉。移除了非線性投射鹊奖,使用線性投射。 移除 the text transformation function tu涂炎, 簡(jiǎn)化the image transformation function tv. 圖像數(shù)據(jù)增強(qiáng)只用了 random square crop from resized images忠聚。對(duì)比學(xué)習(xí)損失函數(shù)中的溫度系數(shù)直接從訓(xùn)練中優(yōu)化设哗,而不是超參數(shù)。
模型設(shè)計(jì):圖像編碼器有兩種結(jié)構(gòu)两蟀。
一種是resnet-50,改進(jìn)的細(xì)節(jié)包括使用resnet-50D和 antialiased
rect-2 blur pooling网梢,global average pooling layer 改成了 attention pooling mechanism。
第二種結(jié)構(gòu)是ViT,區(qū)別只在于 adding
an additional layer normalization to the combined patch
and position embeddings赂毯。
文本編碼器:As a base size we use a 63M-parameter 12-layer 512-wide model with 8 attention heads.
對(duì)于模型規(guī)模的變化战虏,只對(duì)text encoder的寬度進(jìn)行變化,沒(méi)改變深度党涕,因?yàn)閷?shí)驗(yàn)發(fā)現(xiàn)CLIP的性能與對(duì)文本encoder的能力不敏感烦感。
模型訓(xùn)練:5個(gè)resnet網(wǎng)絡(luò)和3個(gè)vit
resnet:resnet-50,resnet-101,RN50x4, RN50x16, andRN50x64
ViT:ViT-B/32, a ViT-B/16, and a ViT-L/14
mini-batch:32768
訓(xùn)練資源:最大的resnetRN50x64, took 18 days to train on 592 V100 GPUs while
the largest Vision Transformer took 12 days on 256 V100
GPUs.

image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市膛堤,隨后出現(xiàn)的幾起案子手趣,更是在濱河造成了極大的恐慌,老刑警劉巖骑祟,帶你破解...
    沈念sama閱讀 218,451評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件回懦,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡次企,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,172評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門(mén)潜圃,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)缸棵,“玉大人,你說(shuō)我怎么就攤上這事谭期《碌冢” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,782評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵隧出,是天一觀的道長(zhǎng)踏志。 經(jīng)常有香客問(wèn)我,道長(zhǎng)胀瞪,這世上最難降的妖魔是什么针余? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,709評(píng)論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮凄诞,結(jié)果婚禮上圆雁,老公的妹妹穿的比我還像新娘。我一直安慰自己帆谍,他們只是感情好伪朽,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,733評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著汛蝙,像睡著了一般烈涮。 火紅的嫁衣襯著肌膚如雪朴肺。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,578評(píng)論 1 305
  • 那天坚洽,我揣著相機(jī)與錄音宇挫,去河邊找鬼。 笑死酪术,一個(gè)胖子當(dāng)著我的面吹牛器瘪,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播绘雁,決...
    沈念sama閱讀 40,320評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼橡疼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了庐舟?” 一聲冷哼從身側(cè)響起欣除,我...
    開(kāi)封第一講書(shū)人閱讀 39,241評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎挪略,沒(méi)想到半個(gè)月后历帚,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,686評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡杠娱,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,878評(píng)論 3 336
  • 正文 我和宋清朗相戀三年挽牢,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片摊求。...
    茶點(diǎn)故事閱讀 39,992評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡禽拔,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出室叉,到底是詐尸還是另有隱情睹栖,我是刑警寧澤,帶...
    沈念sama閱讀 35,715評(píng)論 5 346
  • 正文 年R本政府宣布茧痕,位于F島的核電站野来,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏踪旷。R本人自食惡果不足惜曼氛,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,336評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望埃脏。 院中可真熱鬧搪锣,春花似錦、人聲如沸彩掐。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,912評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至狗超,卻和暖如春弹澎,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背努咐。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,040評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工苦蒿, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人渗稍。 一個(gè)月前我還...
    沈念sama閱讀 48,173評(píng)論 3 370
  • 正文 我出身青樓佩迟,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親竿屹。 傳聞我的和親對(duì)象是個(gè)殘疾皇子报强,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,947評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容