Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models2022-11-18

最近随抠,擴散模型改進了生成圖像生成激况,從而在各種任務中獲得了出色的視覺質(zhì)量虐杯。隨著強大的多模態(tài)模型(如CLIP)的出現(xiàn)帅戒,“AI-Art”領(lǐng)域領(lǐng)域獲得了前所未有的增長灯帮。通過將語音合成模型與圖像合成模型相結(jié)合崖技,建立了所謂的“提示工程”(prompt-engineering),即使用精心挑選和組合的句子钟哥,在生成的圖像中實現(xiàn)一定的視覺風格迎献。本文提出了一種基于檢索增強擴散模型(retrievalaugmented diffusion models (RDMs))的替代方法。在RDMs中腻贰,在每個訓練實例的訓練過程中吁恍,從外部數(shù)據(jù)庫中檢索一組最近的鄰居,擴散模型以這些信息樣本為條件播演。在推斷(采樣)期間冀瓦,本文用一個更專門的數(shù)據(jù)庫替換檢索數(shù)據(jù)庫,該數(shù)據(jù)庫只包含特定視覺風格的圖像写烤。這提供了一種新奇的方式翼闽,可以在訓練后“提示”一般訓練過的模型,從而指定特定的視覺風格顶霞。我們的實驗表明肄程,這種方法優(yōu)于在文本提示中指定視覺風格。本文代碼在https://github.com/CompVis/latent-diffusion開源代碼和模型權(quán)重选浑。


特別是在文本到圖像合成方面蓝厌,擴散模型結(jié)果也可以用來創(chuàng)建藝術(shù)圖像。因此古徒,這樣的模型有潛力幫助藝術(shù)家創(chuàng)造新的內(nèi)容拓提,并為AI生成藝術(shù)領(lǐng)域的巨大增長做出了貢獻。然而隧膘,這些模型是計算密集型的代态。因此,在目前的工作中疹吃,我們建立在檢索-增強擴散模型(RDMs)[3,2]上蹦疑,該模型可以通過使用大型圖像數(shù)據(jù)庫的相對較小的生成模型,來顯著降低訓練的計算復雜度:雖然檢索方法提供(局部)內(nèi)容萨驶,但模型現(xiàn)在可以專注于基于該內(nèi)容學習場景的組成歉摧。在這個擴展的摘要中,我們顯示RDMs生成藝術(shù)圖像的能力腔呜,如圖1所示叁温。此外,通過使用CLIP[20]的聯(lián)合文本圖像表示空間核畴,我們可以用自然語言控制生成過程膝但,并演示了通過從WikiArt[24]和ArtBench[16]構(gòu)建的高度專門化數(shù)據(jù)庫中檢索鄰居來獲得對輸出視覺風格的細粒度控制。最后谤草,我們還將模型權(quán)重公開跟束,允許藝術(shù)家補充莺奸、擴展和評估他們的工作,并調(diào)查這些模型的固有偏見

檢索增強擴散模型(RDM)是條件潛在擴散模型\epsilon_\theta[12,22]和圖像數(shù)據(jù)庫D_{train}的組合冀宴,數(shù)據(jù)庫是模型的顯式部分憾筏,并且(不可訓練的),對于給定的查詢x花鹅,采用一定的采樣策略獲取D_{train}的一個子集如最近鄰算法氧腰。這樣,對于每個查詢(即訓練示例)刨肃,它的k個最近鄰作為一個集合返回古拴,其中距離在CLIP[20]圖像嵌入空間中衡量。然后通過交叉注意機制將這些最近鄰居的CLIP嵌入喂到給模型[28,22]真友。培訓目標如下


其中φCLIP為CLIP圖像編碼器黄痪,E(x)為[22,3]中部署的自動編碼模型的編碼器。訓練結(jié)束后盔然,我們將原始RDM的D_{train}替換為來自art數(shù)據(jù)集D_{style}桅打,以獲得事后模型修改,并且實現(xiàn)zero-shot風格化愈案。此外挺尾,我們可以利用[3]中提出的CLIP[20]的共享文本圖像特征空間,用文本提示來指導合成過程站绪。因此遭铺,我們得到了一個僅對圖像數(shù)據(jù)進行訓練的風格可控的生成模型。

實驗1

為了展示RDM的通用的zero-shot風格化潛力恢准,我們在ImageNet[8]上訓練RDM的精確副本魂挂,從OpenImages[15]構(gòu)建D_{train}。對于推理馁筐,我們通過使用基于WikiArt[24]數(shù)據(jù)集的數(shù)據(jù)庫Dstyle實現(xiàn)了風格化涂召。
雖然我們的模型只在ImageNet上進行了訓練,但它可以推廣到這個新數(shù)據(jù)庫敏沉,并能夠生成描述文本提示所定義的內(nèi)容的類似藝術(shù)品的圖像果正。為了進一步強調(diào)這種事后數(shù)據(jù)庫交換的效果,我們展示了使用相同過程但使用D_{train}(最下面一行)獲得的示例

圖2

實驗2

我們提出了一個更大的模型赦抖,使用來自LAION-2B-en[25,1]的100M樣本進行訓練擴散模型舱卡,同時使用更多樣化的數(shù)據(jù)庫D_{train}辅肾,其中包含該數(shù)據(jù)集中剩余的1.9B樣本队萤。該模型的樣本如圖1所示。通過我們將該數(shù)據(jù)庫與ArtBench數(shù)據(jù)集[16]的不同的矫钓、特定于風格的子集交換要尔,我們表明RDM可以進一步用于細粒度的風格化舍杜,并且無需為此風格化任務進行訓練。

圖3

許多功能強大的模型通過添加后綴“…以…的風格”作為特定的提示語句赵辕。通過在推理過程中使用從ArtBench數(shù)據(jù)集[16]獲得的特定于風格的數(shù)據(jù)既绩,我們在這里提出了一種替代方法。圖3為提示語句“白天和黑夜爭奪時間的支配”和LAION-RDM的結(jié)果还惠。每一列都包含用特定于風格的ArtBench-子集替換Dtrain生成的示例饲握。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市蚕键,隨后出現(xiàn)的幾起案子救欧,更是在濱河造成了極大的恐慌,老刑警劉巖锣光,帶你破解...
    沈念sama閱讀 206,968評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件笆怠,死亡現(xiàn)場離奇詭異,居然都是意外死亡誊爹,警方通過查閱死者的電腦和手機蹬刷,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來频丘,“玉大人办成,你說我怎么就攤上這事÷” “怎么了诈火?”我有些...
    開封第一講書人閱讀 153,220評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長状答。 經(jīng)常有香客問我冷守,道長,這世上最難降的妖魔是什么惊科? 我笑而不...
    開封第一講書人閱讀 55,416評論 1 279
  • 正文 為了忘掉前任拍摇,我火速辦了婚禮,結(jié)果婚禮上馆截,老公的妹妹穿的比我還像新娘充活。我一直安慰自己,他們只是感情好蜡娶,可當我...
    茶點故事閱讀 64,425評論 5 374
  • 文/花漫 我一把揭開白布混卵。 她就那樣靜靜地躺著,像睡著了一般窖张。 火紅的嫁衣襯著肌膚如雪幕随。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,144評論 1 285
  • 那天宿接,我揣著相機與錄音赘淮,去河邊找鬼辕录。 笑死,一個胖子當著我的面吹牛梢卸,可吹牛的內(nèi)容都是我干的走诞。 我是一名探鬼主播,決...
    沈念sama閱讀 38,432評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼蛤高,長吁一口氣:“原來是場噩夢啊……” “哼蚣旱!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起戴陡,我...
    開封第一講書人閱讀 37,088評論 0 261
  • 序言:老撾萬榮一對情侶失蹤姻锁,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后猜欺,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體位隶,經(jīng)...
    沈念sama閱讀 43,586評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,028評論 2 325
  • 正文 我和宋清朗相戀三年开皿,在試婚紗的時候發(fā)現(xiàn)自己被綠了涧黄。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,137評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡赋荆,死狀恐怖笋妥,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情窄潭,我是刑警寧澤春宣,帶...
    沈念sama閱讀 33,783評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站嫉你,受9級特大地震影響月帝,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜幽污,卻給世界環(huán)境...
    茶點故事閱讀 39,343評論 3 307
  • 文/蒙蒙 一嚷辅、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧距误,春花似錦簸搞、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至刑然,卻和暖如春寺擂,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評論 1 262
  • 我被黑心中介騙來泰國打工沽讹, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人武鲁。 一個月前我還...
    沈念sama閱讀 45,595評論 2 355
  • 正文 我出身青樓爽雄,卻偏偏與公主長得像,于是被迫代替她去往敵國和親沐鼠。 傳聞我的和親對象是個殘疾皇子挚瘟,可洞房花燭夜當晚...
    茶點故事閱讀 42,901評論 2 345

推薦閱讀更多精彩內(nèi)容