最近随抠,擴散模型改進了生成圖像生成激况,從而在各種任務中獲得了出色的視覺質(zhì)量虐杯。隨著強大的多模態(tài)模型(如CLIP)的出現(xiàn)帅戒,“AI-Art”領(lǐng)域領(lǐng)域獲得了前所未有的增長灯帮。通過將語音合成模型與圖像合成模型相結(jié)合崖技,建立了所謂的“提示工程”(prompt-engineering),即使用精心挑選和組合的句子钟哥,在生成的圖像中實現(xiàn)一定的視覺風格迎献。本文提出了一種基于檢索增強擴散模型(retrievalaugmented diffusion models (RDMs))的替代方法。在RDMs中腻贰,在每個訓練實例的訓練過程中吁恍,從外部數(shù)據(jù)庫中檢索一組最近的鄰居,擴散模型以這些信息樣本為條件播演。在推斷(采樣)期間冀瓦,本文用一個更專門的數(shù)據(jù)庫替換檢索數(shù)據(jù)庫,該數(shù)據(jù)庫只包含特定視覺風格的圖像写烤。這提供了一種新奇的方式翼闽,可以在訓練后“提示”一般訓練過的模型,從而指定特定的視覺風格顶霞。我們的實驗表明肄程,這種方法優(yōu)于在文本提示中指定視覺風格。本文代碼在https://github.com/CompVis/latent-diffusion開源代碼和模型權(quán)重选浑。
特別是在文本到圖像合成方面蓝厌,擴散模型結(jié)果也可以用來創(chuàng)建藝術(shù)圖像。因此古徒,這樣的模型有潛力幫助藝術(shù)家創(chuàng)造新的內(nèi)容拓提,并為AI生成藝術(shù)領(lǐng)域的巨大增長做出了貢獻。然而隧膘,這些模型是計算密集型的代态。因此,在目前的工作中疹吃,我們建立在檢索-增強擴散模型(RDMs)[3,2]上蹦疑,該模型可以通過使用大型圖像數(shù)據(jù)庫的相對較小的生成模型,來顯著降低訓練的計算復雜度:雖然檢索方法提供(局部)內(nèi)容萨驶,但模型現(xiàn)在可以專注于基于該內(nèi)容學習場景的組成歉摧。在這個擴展的摘要中,我們顯示RDMs生成藝術(shù)圖像的能力腔呜,如圖1所示叁温。此外,通過使用CLIP[20]的聯(lián)合文本圖像表示空間核畴,我們可以用自然語言控制生成過程膝但,并演示了通過從WikiArt[24]和ArtBench[16]構(gòu)建的高度專門化數(shù)據(jù)庫中檢索鄰居來獲得對輸出視覺風格的細粒度控制。最后谤草,我們還將模型權(quán)重公開跟束,允許藝術(shù)家補充莺奸、擴展和評估他們的工作,并調(diào)查這些模型的固有偏見
檢索增強擴散模型(RDM)是條件潛在擴散模型[12,22]和圖像數(shù)據(jù)庫的組合冀宴,數(shù)據(jù)庫是模型的顯式部分憾筏,并且(不可訓練的),對于給定的查詢x花鹅,采用一定的采樣策略獲取的一個子集如最近鄰算法氧腰。這樣,對于每個查詢(即訓練示例)刨肃,它的k個最近鄰作為一個集合返回古拴,其中距離在CLIP[20]圖像嵌入空間中衡量。然后通過交叉注意機制將這些最近鄰居的CLIP嵌入喂到給模型[28,22]真友。培訓目標如下
其中φCLIP為CLIP圖像編碼器黄痪,E(x)為[22,3]中部署的自動編碼模型的編碼器。訓練結(jié)束后盔然,我們將原始RDM的替換為來自art數(shù)據(jù)集桅打,以獲得事后模型修改,并且實現(xiàn)zero-shot風格化愈案。此外挺尾,我們可以利用[3]中提出的CLIP[20]的共享文本圖像特征空間,用文本提示來指導合成過程站绪。因此遭铺,我們得到了一個僅對圖像數(shù)據(jù)進行訓練的風格可控的生成模型。
實驗1
為了展示RDM的通用的zero-shot風格化潛力恢准,我們在ImageNet[8]上訓練RDM的精確副本魂挂,從OpenImages[15]構(gòu)建。對于推理馁筐,我們通過使用基于WikiArt[24]數(shù)據(jù)集的數(shù)據(jù)庫Dstyle實現(xiàn)了風格化涂召。
雖然我們的模型只在ImageNet上進行了訓練,但它可以推廣到這個新數(shù)據(jù)庫敏沉,并能夠生成描述文本提示所定義的內(nèi)容的類似藝術(shù)品的圖像果正。為了進一步強調(diào)這種事后數(shù)據(jù)庫交換的效果,我們展示了使用相同過程但使用(最下面一行)獲得的示例
實驗2
我們提出了一個更大的模型赦抖,使用來自LAION-2B-en[25,1]的100M樣本進行訓練擴散模型舱卡,同時使用更多樣化的數(shù)據(jù)庫辅肾,其中包含該數(shù)據(jù)集中剩余的1.9B樣本队萤。該模型的樣本如圖1所示。通過我們將該數(shù)據(jù)庫與ArtBench數(shù)據(jù)集[16]的不同的矫钓、特定于風格的子集交換要尔,我們表明RDM可以進一步用于細粒度的風格化舍杜,并且無需為此風格化任務進行訓練。
許多功能強大的模型通過添加后綴“…以…的風格”作為特定的提示語句赵辕。通過在推理過程中使用從ArtBench數(shù)據(jù)集[16]獲得的特定于風格的數(shù)據(jù)既绩,我們在這里提出了一種替代方法。圖3為提示語句“白天和黑夜爭奪時間的支配”和LAION-RDM的結(jié)果还惠。每一列都包含用特定于風格的ArtBench-子集替換Dtrain生成的示例饲握。