CLIP:多模態(tài)領(lǐng)域革命者

CLIP:多模態(tài)領(lǐng)域革命者

當(dāng)前的內(nèi)容是梳理《Transformer視覺系列遨游》系列過程中引申出來的荧降。目前最近在AI作畫這個(gè)領(lǐng)域 Transformer 火的一塌糊涂,AI畫畫效果從18年的 DeepDream[1] 噩夢中驚醒過來,開始從2022年 OpenAI 的 DALL·E 2[2] 引來插畫效果和聯(lián)想效果都達(dá)到驚人效果夺鲜。雖然不懂,但是這個(gè)話題很吸引ZOMI傀履,于是就著這個(gè)領(lǐng)域內(nèi)容來看看有什么好玩的技術(shù)點(diǎn)抹剩。

[圖片上傳失敗...(image-a3fce2-1660822503083)]

但是要了解:Transformer 帶來AI+藝術(shù),從語言開始遇到多模態(tài)筐眷,碰撞藝術(shù)火花 這個(gè)主題,需要引申很多額外的知識(shí)點(diǎn)习柠,可能跟 CV匀谣、NLP 等領(lǐng)域大力出奇跡的方式不同,AI+藝術(shù)會(huì)除了遇到 Transformer 結(jié)構(gòu)以外资溃,還會(huì)涉及到 VAE武翎、ELBO、Diffusion Model等一系列跟數(shù)學(xué)相關(guān)的知識(shí)溶锭。


Transformer + Art 系列中宝恶,今天新挖一個(gè) CLIP 的坑,多模態(tài)不是一個(gè)新鮮的瓜,隨著 AI 的發(fā)展垫毙,多模態(tài)已經(jīng)成為一種趨勢霹疫,而 CLIP 就是在多模態(tài)領(lǐng)域里邁出了重要的一步。其具有非常好的遷移學(xué)習(xí)能力综芥,預(yù)訓(xùn)練好的模型可以在任意一個(gè)視覺分類數(shù)據(jù)集上取得不錯(cuò)的效果丽蝎,而且是 Zero-shot(不需要對新數(shù)據(jù)集重新訓(xùn)練,就能得到很好的結(jié)果)膀藐。

OpenAI 財(cái)大氣粗力大磚飛搞出了 CLIP屠阻,在400M的圖像-文本對數(shù)據(jù)上,用最樸素的對比損失訓(xùn)練雙塔網(wǎng)絡(luò)额各,利用text信息監(jiān)督視覺任務(wù)自訓(xùn)練国觉,對齊了兩個(gè)模態(tài)的特征空間,本質(zhì)就是將分類任務(wù)化成了圖文匹配任務(wù)虾啦,效果可與全監(jiān)督方法相當(dāng)麻诀。在近 30 個(gè)數(shù)據(jù)集上 zero-shot 達(dá)到或超越主流監(jiān)督學(xué)習(xí)性能。Let's dive in!

CLIP:《Learning Transferable Visual Models From Natural Language Supervision》

[圖片上傳失敗...(image-b952ba-1660822503083)]

多模態(tài)

模態(tài)(modal)是事情經(jīng)歷和發(fā)生的方式缸逃,我們生活在一個(gè)由多種模態(tài)(Multimodal)信息構(gòu)成的世界针饥,包括視覺信息、聽覺信息需频、文本信息丁眼、嗅覺信息等等,當(dāng)研究的問題或者數(shù)據(jù)集包含多種這樣的模態(tài)信息時(shí)我們稱之為多模態(tài)問題昭殉,研究多模態(tài)問題是推動(dòng)人工智能更好的了解和認(rèn)知我們周圍世界的關(guān)鍵苞七。

通常主要研究模態(tài)包括"3V":即Verbal(文本)、Vocal(語音)挪丢、Visual(視覺)蹂风。

多模態(tài)發(fā)展歷史

實(shí)際上,多模態(tài)學(xué)習(xí)不是近幾年才火起來乾蓬,而是近幾年因?yàn)樯疃葘W(xué)習(xí)使得多模態(tài)效果進(jìn)一步提升惠啄。下面梳理一下從1970年代起步,多模態(tài)技術(shù)經(jīng)歷的4個(gè)發(fā)展階段任内,在2012后迎來 Deep Learning 階段撵渡,在2016年后進(jìn)入目前真正的多模態(tài)階段。

  • 第一階段為基于行為的時(shí)代(1970s until late 1980s)死嗦,這一階段主要從心理學(xué)的角度對多模態(tài)這一現(xiàn)象進(jìn)行剖析趋距。

  • 第二階段基于計(jì)算的時(shí)代(1980 - 2000),這一階段主要利用一些淺層的模型對多模態(tài)問題進(jìn)行研究越除,其中代表性的應(yīng)用包括視覺語音聯(lián)合識(shí)別节腐,多模態(tài)情感計(jì)算等等外盯。

  • 第三階段基于交互的時(shí)代,這一階段主要主要從交互的角度入手翼雀,研究多模態(tài)識(shí)別問題饱苟,其中主要的代表作品包括蘋果的語音助手Siri等。

  • 第四階段基于深度學(xué)習(xí)的時(shí)代锅纺,促使多模態(tài)研究發(fā)展的關(guān)鍵促成因素有4個(gè)掷空,1)更大規(guī)模的多模態(tài)數(shù)據(jù)集肋殴;2)更強(qiáng)大的算力(NPU/GPU/TPU)囤锉;3)強(qiáng)大的視覺特征抽取能力;4)強(qiáng)大的語言特征抽取能力护锤。

[圖片上傳失敗...(image-743a00-1660822503083)]

多模態(tài)核心任務(wù)

多模態(tài)機(jī)器學(xué)習(xí)的核心任務(wù)主要包括表示學(xué)習(xí)官地,模態(tài)映射,模態(tài)對齊烙懦,模態(tài)融合驱入,協(xié)同學(xué)習(xí)。

表示學(xué)習(xí)

表示學(xué)習(xí)(Representation):主要研究如何將多個(gè)模態(tài)數(shù)據(jù)所蘊(yùn)含的語義信息氯析,數(shù)值化為實(shí)值向量亏较,簡單來說就是特征化。

單模態(tài)的表示學(xué)習(xí)負(fù)責(zé)將信息表示為計(jì)算機(jī)可以處理的數(shù)值向量或者進(jìn)一步抽象為更高層的特征向量 Feature掩缓;而多模態(tài)表示學(xué)習(xí)通過利用多模態(tài)之間的互補(bǔ)性雪情,剔除模態(tài)間的冗余性,從而學(xué)習(xí)到更好的特征 Feature你辣。

那在表示學(xué)習(xí)中主要包括兩大研究方向:

  1. 聯(lián)合表示(Joint Representations):將多個(gè)模態(tài)的信息一起映射到一個(gè)統(tǒng)一的多模態(tài)向量空間巡通。(CLIP 和 DALL·E 使用簡單的聯(lián)合表示,不過效果出奇的贊)舍哄。

  2. 協(xié)同表示(Coordinated Representations):將多模態(tài)中的每個(gè)模態(tài)分別映射到各自的表示空間宴凉,但映射后的向量之間滿足一定的相關(guān)性約束(例如線性相關(guān))。

[圖片上傳失敗...(image-c391cd-1660822503083)]

下游任務(wù)

上面講的是表示學(xué)習(xí)用于提取多模態(tài)的特征表悬,有了特性后在機(jī)器學(xué)習(xí)領(lǐng)域接著就是下游任務(wù)對特征進(jìn)行理解(學(xué)術(shù)上也叫做內(nèi)容理解)弥锄,典型的下游任務(wù)包括視覺問答、視覺推理蟆沫、視覺聯(lián)合推理籽暇、圖像檢索、視頻檢索饥追。

  1. 視覺問答(Visual Question Answering图仓,VQA):根據(jù)給定的圖片提問,從候選中選擇出正確的答案但绕,VQA2.0 中從 COCO 圖片中篩選了超過100萬的問題救崔,訓(xùn)練模型來預(yù)測最常見的3129個(gè)回答惶看,其本質(zhì)上可以轉(zhuǎn)化成一個(gè)分類問題。

[圖片上傳失敗...(image-c42ad3-1660822503083)]

  1. 視覺推理(Visual Reasoning六孵,VR):視覺推理相對視覺問答更為復(fù)雜, 其可以分解為兩個(gè)子任務(wù)視覺問答(Q->A)和選出答案的原因(QA->R), 除了回答的問題需要用自然語言表達(dá)具有挑戰(zhàn)性的視覺問題外, 模型還需要解釋為什么作出這樣的回答, 其最開始由華盛頓大學(xué)提出, 同時(shí)發(fā)布的 VCR 數(shù)據(jù)集包含 11 萬的電影場景和 29 萬的多項(xiàng)選擇問題纬黎。

[圖片上傳失敗...(image-b71cc5-1660822503083)]

  1. 檢索任務(wù)(Index Task):主要包括文本檢索圖片或者圖片檢索文本,檢索任務(wù)應(yīng)該不用加以過多的解釋了劫窒,比較好理解本今,就是以文搜圖或者以圖搜文。下面圖中就是Google 以圖搜文的服務(wù)主巍,當(dāng)然包括華為手機(jī)里面的截圖識(shí)字冠息,淘寶拼多多的以文搜圖等身邊很多諸如此類的服務(wù)啦。

[圖片上傳失敗...(image-896951-1660822503083)]

CLIP算法原理

CLIP 不預(yù)先定義圖像和文本標(biāo)簽類別孕索,直接利用從互聯(lián)網(wǎng)爬取的 400 million 個(gè)image-text pair 進(jìn)行圖文匹配任務(wù)的訓(xùn)練逛艰,并將其成功遷移應(yīng)用于30個(gè)現(xiàn)存的計(jì)算機(jī)視覺分類。簡單的說搞旭,CLIP 無需利用 ImageNet 的數(shù)據(jù)和標(biāo)簽進(jìn)行訓(xùn)練散怖,就可以達(dá)到 ResNet50 在 ImageNet數(shù)據(jù)集上有監(jiān)督訓(xùn)練的結(jié)果,所以叫做 Zero-shot肄渗。

CLIP(contrastive language-image pre-training)主要的貢獻(xiàn)就是利用無監(jiān)督的文本信息镇眷,作為監(jiān)督信號(hào)來學(xué)習(xí)視覺特征

CLIP 作者先是回顧了并總結(jié)了和上述相關(guān)的兩條表征學(xué)習(xí)路線:

  1. 構(gòu)建image和text的聯(lián)系翎嫡,比如利用已有的image-text pair數(shù)據(jù)集欠动,從text中學(xué)習(xí)image的表征;

  2. 獲取更多的數(shù)據(jù)(不要求高質(zhì)量钝的,也不要求full labeled)然后做弱監(jiān)督預(yù)訓(xùn)練翁垂,就像谷歌使用的JFT-300M數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練一樣(在JFT數(shù)據(jù)集中,類別標(biāo)簽是有噪聲的)硝桩。具體來說沿猜,JFT中一共有18291個(gè)類別,這能教模型的概念比ImageNet的1000類要多得多碗脊,但盡管已經(jīng)有上萬類了啼肩,其最后的分類器其實(shí)還是靜態(tài)的、有限的衙伶,因?yàn)槟阕詈筮€是得固定到18291個(gè)類別上進(jìn)行分類祈坠,那么這樣的類別限制還是限制了模型的zero-shot能力。

這兩條路線其實(shí)都展現(xiàn)了相當(dāng)?shù)臐摿κ妇ⅲ罢咦C明 paired image-text 可以用來訓(xùn)練視覺表征赦拘,后者證明擴(kuò)充數(shù)據(jù)能極大提升性能,即使數(shù)據(jù)有noise芬沉。于是high-level上躺同,CLIP 作者考慮從網(wǎng)上爬取大量的 image-text pair 以擴(kuò)充數(shù)據(jù)阁猜,同時(shí)這樣的 pairs 是可以用來訓(xùn)練視覺表征的。作者隨即在互聯(lián)網(wǎng)上采集了4億個(gè) image-text 對蹋艺,準(zhǔn)備開始訓(xùn)練模型剃袍。

數(shù)據(jù)準(zhǔn)備

那這4億image-text數(shù)據(jù)怎么整?

4億訓(xùn)練數(shù)據(jù)數(shù)據(jù)用的是圖像-文本(image-text)對是從網(wǎng)絡(luò)上獲取的捎谨。具體的方式是準(zhǔn)備50k 個(gè) text query民效,每個(gè) query 抓至多 20k 張圖,共 400m 個(gè) pair 對涛救。50k 個(gè)query 的來源是畏邢,先準(zhǔn)備一個(gè) base query list,由 Wikipedia 高頻詞組成州叠,然后做bi-gram 形成一些高頻詞組棵红,再補(bǔ)充一些 Wikipedia 高頻文章名稱和 WordNet 同義詞組。每個(gè) query 至多20k張圖是考慮到了類別平衡咧栗。

網(wǎng)絡(luò)模型

多模態(tài)的網(wǎng)絡(luò)模型采用雙塔結(jié)構(gòu),即一個(gè) image encoder 和一個(gè) text encoder虱肄。image encoder 是 ResNet 的改進(jìn)版(添加了多個(gè) stem 層和 attention pooling)或直接使用 Vision Transformer (ViT)致板;text encoder 基于 GPT-2 的 transformer。兩個(gè) encoder 的輸出相同維度的向量(假設(shè) n 都為1024)咏窿。

CLIP流程

回答 CLIP 的流程最好的答案可能就是下面這張圖斟或。很直觀,有三個(gè)階段:

  1. Contrastive pre-training:對比預(yù)訓(xùn)練階段集嵌,使用image-text對進(jìn)行對比學(xué)習(xí)訓(xùn)練萝挤。
  2. Create dataset classifier from label text:提取預(yù)測類別文本特征。
  3. Use for zero-shot prediction:進(jìn)行 Zero-Shot 推理預(yù)測根欧。

[圖片上傳失敗...(image-988978-1660822503082)]

  1. 階段一 Contrastive pre-training

在預(yù)訓(xùn)練階段怜珍,對比學(xué)習(xí)十分靈活,只需要定義好 正樣本對 和 負(fù)樣本對 就行了凤粗,其中能夠配對的 image-text 對即為正樣本酥泛。具體來說,先分別對圖像和文本提特征嫌拣,這時(shí)圖像對應(yīng)生成 I1柔袁、I2 ... In 的特征向量(Image Feature),文本對應(yīng)生成 T1异逐、T2 ... Tn 的特征向量(Text Feature)捶索,中間對角線為正樣本,其余均為負(fù)樣本灰瞻。

這樣的話就形成了 n 個(gè)正樣本腥例,n^2 - n 個(gè)負(fù)樣本燥筷。一旦有了正負(fù)樣本,模型就可以通過對比學(xué)習(xí)的方式訓(xùn)練起來了院崇,完全不需要手工的標(biāo)注肆氓。當(dāng)然,自監(jiān)督的訓(xùn)練需要大量的數(shù)據(jù)底瓣,OPENAI 在數(shù)據(jù)準(zhǔn)備階段階段使用的數(shù)據(jù)對在4億的數(shù)量級谢揪。

[圖片上傳失敗...(image-f5675f-1660822503082)]

在同一個(gè)batch里面算對比損失。由于4億對 image-text pairs 訓(xùn)練數(shù)據(jù)巨大捐凭,訓(xùn)練是個(gè)十分耗費(fèi)時(shí)間的事情拨扶,所以必須對訓(xùn)練策略進(jìn)行一些改進(jìn)以提升訓(xùn)練效率。

采用對比學(xué)習(xí)進(jìn)行訓(xùn)練的一個(gè)重要原因也是考慮到訓(xùn)練效率茁肠。圖中最下面的藍(lán)線表示像 GPT2 這種預(yù)測型的任務(wù)(NLP預(yù)測型的任務(wù)是指患民,現(xiàn)在已經(jīng)有一張圖片拉,去預(yù)測圖片對應(yīng)的描述)垦梆,可以看到是最慢的匹颤。中間黃線是指一種 bag of words 的方式,不需要逐字逐句地去預(yù)測文本托猩,文本已經(jīng)抽象成特征印蓖,相應(yīng)的約束也放寬了,這樣做訓(xùn)練速度提高了 3 倍京腥。接下來進(jìn)一步放寬約束赦肃,不再去預(yù)測單詞,而是去判斷 image-text pairs 是否一對公浪,也就是綠色線的對比學(xué)習(xí)方法他宛,效率進(jìn)一步提升 4 倍。

[圖片上傳失敗...(image-181ca3-1660822503082)]

  1. 階段二 Create dataset classifier from label text

CLIP最牛逼的地方在于欠气,基于400M數(shù)據(jù)上學(xué)得的先驗(yàn)厅各,僅用數(shù)據(jù)集的標(biāo)簽文本,就可以得到很強(qiáng)的圖像分類性能』瘟眨現(xiàn)在訓(xùn)練好了讯检,然后進(jìn)入前向預(yù)測階段,通過 prompt label text 來創(chuàng)建待分類的文本特征向量卫旱。

[圖片上傳失敗...(image-53fb15-1660822503082)]

首先需要對文本類別進(jìn)行一些處理人灼,ImageNet 數(shù)據(jù)集的 1000 個(gè)類別,原始的類別都是單詞顾翼,而 CLIP 預(yù)訓(xùn)練時(shí)候的文本端出入的是個(gè)句子投放,這樣一來為了統(tǒng)一就需要把單詞構(gòu)造成句子,怎么做呢适贸?可以使用 “A photo of a {object}.” 的提示模板 (prompt template) 進(jìn)行構(gòu)造灸芳,比如對于 dog涝桅,就構(gòu)造成 “A photo of a dog.”,然后再送入 Text Encoder 進(jìn)行特征提取烙样。

具體地冯遂,用模板填空(promot)的方式從類別標(biāo)簽生成文本。將得到的文本輸入Text Encoder谒获。

openai_imagenet_template = [
    lambda c: f'a bad photo of a {object}.',
    lambda c: f'a photo of many {object}.',
    lambda c: f'a sculpture of a {object}.',
    lambda c: f'a photo of the hard to see {object}.',
    lambda c: f'a low resolution photo of the {object}.',
    ......
    lambda c: f'a toy {object}.',
    lambda c: f'itap of my {object}.',
    lambda c: f'a photo of a cool {object}.',
    lambda c: f'a photo of a small {object}.',
    lambda c: f'a tattoo of the {object}.',
]
  1. 階段三 Zero-shot prediction

最后就是推理見證效果的時(shí)候蛤肌,對于測試圖片,選擇相似度最大的那個(gè)類別輸出批狱。

在推理階段裸准,無論來了張什么樣的圖片,只要扔給 Image Encoder 進(jìn)行特征提取炒俱,會(huì)生成一個(gè)一維的圖片特征向量,然后拿這個(gè)圖片特征和 N 個(gè)文本特征做余弦相似度對比爪膊,最相似的即為想要的那個(gè)結(jié)果,比如這里應(yīng)該會(huì)得到 “A photo of a guacamole.”惊完,

[圖片上傳失敗...(image-d1be50-1660822503082)]

以上就是 CLIP 算法流程的總覽,可以看到 CLIP 在一次預(yù)訓(xùn)練后,可以方便的遷移到其他視覺分類任務(wù)上進(jìn)行 Zero-shot 的預(yù)測荷辕。這也是 DALL·E 在最后階段使用 CLIP 的原因啦。

具體算法與實(shí)驗(yàn)

算法部分因?yàn)榫W(wǎng)絡(luò)模型流程設(shè)計(jì)比較簡單疮方,因此算法偽代碼也非常簡單。另外 CLIP 這篇論文一共48頁骡显,從第6頁開始后面都是實(shí)驗(yàn)部分,所以想寫好論文實(shí)驗(yàn)部分惫谤,可以重點(diǎn)看看 CLIP 的實(shí)驗(yàn)部分,很有參考價(jià)值哦溜歪!

算法實(shí)現(xiàn)

[圖片上傳失敗...(image-7d10a3-1660822503082)]

其中重點(diǎn)是分別計(jì)算出圖像和文本的 embedding 特征 I_e 和 T_e,通過矩陣乘法 dot 得到余弦相似度蝴猪。接下來就是對稱損失函數(shù)(symmetric loss function)膊爪,而損失函數(shù)則采用對比學(xué)習(xí)常用的 InfoNCE。

對比損失函數(shù)的分子部分鼓勵(lì)正例相似度越高越好嚎莉,也就是在表示空間內(nèi)距離越近越好米酬;而分母部分,則鼓勵(lì)任意負(fù)例之間的向量相似度越低越好趋箩,也就是距離越遠(yuǎn)越好赃额。t 是溫度系數(shù)超參,用來調(diào)節(jié)數(shù)據(jù)在單位超球面上的分布均勻性阁簸。這樣爬早,在優(yōu)化過程中,通過 InfoNCE 損失函數(shù)指引启妹,就能訓(xùn)練模型筛严,以達(dá)成我們期望的目標(biāo),將成對的 image-text 映射到空間中接近的地方饶米,和將非成對的 image-text 在表示空間內(nèi)盡量推遠(yuǎn)桨啃。

重點(diǎn)實(shí)驗(yàn)

下面挑選了一些重點(diǎn)實(shí)驗(yàn)部分的結(jié)論來看看 CLIP的效果。

  1. Zero-shot CLIP v.s. Linear Probe on ResNet50

從圖中可以看到檬输,在不同的數(shù)據(jù)集上照瘾,CLIP 對比通用的 ResNet50 精度超過的有16/27,已經(jīng)很強(qiáng)了丧慈,因?yàn)镃LIP是zero-shot的析命,即沒有用下游任務(wù)的數(shù)據(jù),而linear probed ResNet50用了下游數(shù)據(jù)進(jìn)行finetune邏輯回歸分類器的參數(shù)逃默。

[圖片上傳失敗...(image-b08e1c-1660822503082)]

  1. Prompt engineering and ensembling

作者默認(rèn)prompt模板是:"A photo of a {label}."鹃愤,但作者發(fā)現(xiàn)這樣的模板還是有點(diǎn)粗糙,可以考慮加一些context比如 "A photo of a {label}, a type of pet."完域。對于不同類型任務(wù)软吐,作者做了一些手動(dòng)的、特定的label prompt工程吟税。

從另一個(gè)角度凹耙,一張圖的text描述其實(shí)有很多種的,只要text的核心語義和image相同就行肠仪,那么我們還可以做一些ensemble肖抱,比如ensemble一下"A photo of a big {label}."和"A photo of a small {label}."。

可以從實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)藤韵,采用 Prompt engineering + ensembling 的效果比只用沒有上下文的類別名好得多虐沥。

[圖片上傳失敗...(image-159424-1660822503082)]

  1. Few-shot CLIP v.s. SOTA (ImageNet) SSL methods

作者實(shí)驗(yàn)分析使用了20個(gè)數(shù)據(jù)集,每個(gè)類至少有16個(gè)示例镐依。結(jié)果看到槐壳,Zero-shot CLIP 的性能和4-shot CLIP差不多喜每,F(xiàn)ew-shot CLIP的performance遠(yuǎn)高于之前的SOTA模型(BiT-M/SimCLRv2/ResNet)带兜。

[圖片上傳失敗...(image-ace4ac-1660822503082)]

  1. How many shots is needed for achieving zero-shot performance

Few-shot (linear probing) CLIP (保持CLIP encoder 參數(shù)fixed刚照,加一層邏輯回歸分類器微調(diào))平均需要 20.8-shots 才能 match zero-shot CLIP 性能。這里相當(dāng)于保持了 the same CLIP feature space 上啊楚,觀察 few-shot finetuning 和zero-shot 的性能差異恭理。這里其實(shí)說明通過自然語言學(xué)到的視覺概念比少量樣本 finetune 學(xué)到的好郭变。

[圖片上傳失敗...(image-f9966c-1660822503082)]

  1. Linear probing CLIP performance

這里不再是few-shot linear probing了诉濒,而是全量數(shù)據(jù)的linear probing,我們來看下其跟zero-shot性能的對比,實(shí)際上兩者的性能是正相關(guān)的茄猫,此外困肩,大部分情況下linear probing的性能要好不少锌畸。

[圖片上傳失敗...(image-65a75b-1660822503082)]

6.** Robustness to Natural Distribution Shift**

作者在ImageNet的7個(gè)shift datasets上觀察各模型的平均性能,遷移應(yīng)用于ImageNet的分類任務(wù)的幻捏,可以看到命咐,不僅達(dá)到ResNet101的效果醋奠,且泛化能力遠(yuǎn)遠(yuǎn)強(qiáng)于有標(biāo)簽監(jiān)督學(xué)習(xí)。

[圖片上傳失敗...(image-e61a39-1660822503082)]

總結(jié)

CLIP 可以說是開辟了 CV+NLP 的多模態(tài)表征學(xué)習(xí)新時(shí)代沛善。后面谷歌的ALIGN金刁,微軟的Florence织咧,商湯 DeCLIP笙蒙,快手 EfficientCLIP 都是研究相類似的任務(wù)。雖然 CLIP 在小部分任務(wù)上 zero-shot 精度一般轧葛,但是 CLIP 在多模態(tài)的 Encoders 能提供簡單而又強(qiáng)大的視覺先驗(yàn)的表征能力尿扯。下面分開數(shù)據(jù)衷笋、精度矩屁、流程三方面來提出一些疑問和思考,希望能夠幫助到更多的人去思考進(jìn)一步值得研究的問題泊脐。

數(shù)據(jù)方面

論文中關(guān)于 400Million 的龐大數(shù)據(jù)集并沒有提及太多(我其實(shí)很想看到他的數(shù)據(jù)集容客,畢竟AI是個(gè)數(shù)據(jù)驅(qū)動(dòng)的時(shí)代)。如何在較小數(shù)據(jù)集上(例如Conceptual Caption但两,或者實(shí)驗(yàn)室的MEP-3M)保證學(xué)習(xí)結(jié)果值得探索镜遣。

CLIP的訓(xùn)練數(shù)據(jù)是從網(wǎng)上采集的士袄,這些image-text pairs不確定做了哪些 data clear 和 de-bias娄柳,由于訓(xùn)練集的限制,可能會(huì)出現(xiàn)很多社會(huì)性偏見(social biases)問題秫筏,比如對不同種族性別年齡的傾向这敬。

精度方面

CLIP 的 zero-shot 精度雖然總體上比 supervised baseline ResNet-50 要好蕉朵,但其實(shí)在很多任務(wù)上比不過 SOTA methods始衅,因此 CLIP 的 transfer learning有待挖掘。

CLIP 在 fine-grained 分類(花/車的分類)蝙茶、抽象的任務(wù)(如計(jì)算圖中 object 的個(gè)數(shù))以及預(yù)訓(xùn)練時(shí)沒見過的task(如分出相鄰車輛的距離等任務(wù) zero-shot 的精度有待提升隆夯。

Zero-shot CLIP 在真正意義上的 out-of-distribution data 上精度不好吮廉,比如在OCR中畸肆。盡管CLIP zero-shot classifier 能在很廣泛的任務(wù)上 work轴脐,但究其本質(zhì)CLIP 還是在有限的類別中進(jìn)行對比大咱、推理,而不能像 image caption 那樣完全的flexible 地生成新的概念(如:詞)溯捆,這是 CLIP 功能上的缺陷提揍,CLIP 終究不是生成模型煮仇。

流程方法

CLIP的方法論上也存在幾個(gè)缺陷:在訓(xùn)練和挑選 CLIP 模型時(shí)浙垫,作者采用在幾個(gè)數(shù)據(jù)的validation performance 來做指導(dǎo),這其實(shí)是不準(zhǔn)確的杉武,因?yàn)樗荒芡耆?CLIP 的 zero-shot 性能轻抱。如果十拣,設(shè)計(jì)一套框架來 evaluate zero-shot performance 對于之后的研究是很重要的志鹃。

很多視覺任務(wù)很難用文本來進(jìn)行表示,如何用更高效的 few-shot learning 方法優(yōu)化 CLIP 也很重要缰趋。BTW陕见,CLIP 仍然沒有解決深度學(xué)習(xí) poor data efficiency 的問題,結(jié)合 CLIP 和 self-training 可能是一個(gè)能提高 data efficiency 的方向灰粮。

雖然說 CLIP 是多模態(tài)時(shí)代的一個(gè)引領(lǐng)者粘舟,但究其本質(zhì)仍然是Image-level的,如果是 Image-level的能不能將這個(gè)范式拓展成 dense prediction(object detection, semantic segmentation)的預(yù)訓(xùn)練能力呢霞揉?如果不是晰骑,那么更多模態(tài)的引入如何實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的表征硕舆?

由于image encoder的監(jiān)督信息來自且僅來自text encoder,它對文字的理解能力也就約束了圖像特征的學(xué)習(xí)蚂会。提升text encoder能不能帶來image encoder的提升胁住?CLIP的text encoder能不能學(xué)到一些單模態(tài)Bert無法學(xué)到的東西彪见?

引用

[1] 多模態(tài)定義與歷史

[2] 極智AI | 多模態(tài)領(lǐng)域先行者 詳解 CLIP 算法實(shí)現(xiàn)

[3] 2021.02【CLIP】Learning Transferable Visual Models From Natural Language Supervision

[4] 【多模態(tài)】CLIP模型

[5] CLIP論文 | Learning Transferable Visual Models From Natural Language Supervision

[6] CLIP:Learning Transferable Visual Models From Natural Language Supervision

[7] 【CLIP系列Paper解讀】CLIP: Learning Transferable Visual Models From Natural Language Supervision

[8] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International Conference on Machine Learning. PMLR, 2021.

[9] Suzuki, Keisuke, et al. "A deep-dream virtual reality platform for studying altered perceptual phenomenology." Scientific reports 7.1 (2017): 1-11.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末余指,一起剝皮案震驚了整個(gè)濱河市酵镜,隨后出現(xiàn)的幾起案子淮韭,更是在濱河造成了極大的恐慌贴届,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,548評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件占键,死亡現(xiàn)場離奇詭異畔乙,居然都是意外死亡啸澡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來皮服,“玉大人参咙,你說我怎么就攤上這事≡裢” “怎么了敲才?”我有些...
    開封第一講書人閱讀 167,990評論 0 360
  • 文/不壞的土叔 我叫張陵紧武,是天一觀的道長敏储。 經(jīng)常有香客問我已添,道長,這世上最難降的妖魔是什么畦幢? 我笑而不...
    開封第一講書人閱讀 59,618評論 1 296
  • 正文 為了忘掉前任呛讲,我火速辦了婚禮贝搁,結(jié)果婚禮上芽偏,老公的妹妹穿的比我還像新娘。我一直安慰自己膀哲,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評論 6 397
  • 文/花漫 我一把揭開白布仿村。 她就那樣靜靜地躺著蔼囊,像睡著了一般衣迷。 火紅的嫁衣襯著肌膚如雪壶谒。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,246評論 1 308
  • 那天让禀,我揣著相機(jī)與錄音堆缘,去河邊找鬼吼肥。 笑死麻车,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的啤斗。 我是一名探鬼主播钮莲,決...
    沈念sama閱讀 40,819評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼崔拥,長吁一口氣:“原來是場噩夢啊……” “哼凤覆!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起慈俯,我...
    開封第一講書人閱讀 39,725評論 0 276
  • 序言:老撾萬榮一對情侶失蹤贴膘,失蹤者是張志新(化名)和其女友劉穎刑峡,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,268評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡阳似,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評論 3 340
  • 正文 我和宋清朗相戀三年撮奏,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了畜吊。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,488評論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出托酸,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 36,181評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站漩绵,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜不同,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評論 3 333
  • 文/蒙蒙 一凳兵、第九天 我趴在偏房一處隱蔽的房頂上張望庐扫。 院中可真熱鬧,春花似錦碘勉、人聲如沸倍宾。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽涝涤。三九已至,卻和暖如春糊肠,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評論 1 272
  • 我被黑心中介騙來泰國打工拓轻, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留帕膜,地道東北人垮刹。 一個(gè)月前我還...
    沈念sama閱讀 48,897評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像寺董,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子遮咖,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評論 2 359

推薦閱讀更多精彩內(nèi)容