2021年剛到來(lái)椰弊,AI界就迎來(lái)了一場(chǎng)開(kāi)門紅浪秘,1月5號(hào)OpenAI發(fā)布了兩個(gè)新模型赊豌,分別叫DALL·E?(據(jù)說(shuō)名字跟藝術(shù)家達(dá)利有關(guān)) 和 CLIP, 其融合了圖像識(shí)別和NLP壁查,在前任GPT-3的基礎(chǔ)上給了AI更大的能力滚停。
DALL·E的具體訓(xùn)練細(xì)節(jié)OpenAI還沒(méi)有給出詳細(xì)介紹矮嫉,目前能確定的是臊诊,DALL·E也是基于Transformer坡慌,訓(xùn)練時(shí)同時(shí)用了海量的文本和圖像芽世。
未來(lái)的AI如果想更接近人類智慧挚赊,應(yīng)該需要不光能看懂文字,理解文字(NLP的領(lǐng)域)济瓢,也需要理解圖片(CV領(lǐng)域)荠割,聲音,外界環(huán)境等葬荷,畢竟我們?nèi)祟惿钤谝粋€(gè)立體的世界涨共,這也是這兩年越來(lái)越多提到多模態(tài)學(xué)習(xí)的原因纽帖,這一次OpenAI在此方向上的嘗試,開(kāi)了一個(gè)好頭举反。
這個(gè)擁有120億參數(shù)的龐然大物能做什么呢?它可以接收一段文本并生成與之匹配的圖像火鼻,比如上圖室囊,告訴它鱷梨形狀的扶手椅,它就會(huì)生成這么多對(duì)應(yīng)的圖片魁索,著實(shí)令人震驚融撞。根據(jù)官網(wǎng)描述,接收到輸入的文本粗蔚,DALL·E 可以生成很多圖片尝偎,隨后第二個(gè)模型CLIP會(huì)對(duì)這些圖片根據(jù)其跟文本的匹配程度排序。這樣的能力可能會(huì)改變今后設(shè)計(jì)師的工作鹏控,大大提高他們的工作效率致扯。
也有很多人會(huì)懷疑,因?yàn)镈ALL·E 在訓(xùn)練時(shí)看了那么多文字和圖片当辐,會(huì)不會(huì)這些圖片就是它記下來(lái)的抖僵,并不是理解了文本后的創(chuàng)造。為了證明這一點(diǎn)缘揪,OpenAI給出了下面例子耍群,作者給DALL·E 這樣的文本提示:“長(zhǎng)頸鹿和海龜?shù)膶I(yè)高質(zhì)量插圖≌殷荩”?
于是得到下面的結(jié)果:
給它這樣的提示:“由豎琴制成的蝸诺腹福”, 得到下面結(jié)果:
按理說(shuō)袖裕,訓(xùn)練模型時(shí)耘婚,不可能有這么多奇怪的圖片存在,這也更讓人對(duì)DALL·E 的能力印象深刻陆赋。
根據(jù)官網(wǎng)沐祷,DALL·E還能做一些zero-shot視覺(jué)推理和簡(jiǎn)單的視覺(jué)IQ測(cè)試 ,如下圖:
由于安全考慮灾锯,OpenAI暫時(shí)不太會(huì)發(fā)布模型供人們測(cè)試兢榨。雖然DALL·E已經(jīng)很強(qiáng)大,但就像GPT-3一樣,找辦法愚弄它讓它出丑也不難吵聪,期待未來(lái)能看到更多關(guān)于DALL·E細(xì)節(jié)的東西凌那。