Latent Diffusion:高分辨率圖像合成

本文介紹Stable-diffusion背后的關(guān)鍵技術(shù)

Stable-diffusion:https://stablediffusionweb.com/

這是知乎上對擴(kuò)散模型的一個通俗講解:https://zhuanlan.zhihu.com/p/563543020

High-Resolution Image Synthesis with Latent Diffusion Models

CVPR2022

原文:https://arxiv.org/abs/2112.10752

開源:

https://github.com/compvis/latent-diffusion (4k星柴淘,demo震撼)

https://github.com/compvis/stable-diffusion (29.2k星)

https://paperswithcode.com/paper/high-resolution-image-synthesis-with-latent

Robin Rombach,?Andreas Blattmann,?Dominik Lorenz,?Patrick Esser,?Bj?rn Ommer

用于高分辨率圖像合成的Latent擴(kuò)散模型

摘要:通過將圖像形成過程分解為去噪自動編碼器的連續(xù)應(yīng)用柱嫌,擴(kuò)散模型(DM)在圖像數(shù)據(jù)及其他方面取得了最先進(jìn)的合成結(jié)果。此外朵你,它們的配方允許一種引導(dǎo)機(jī)制來控制圖像生成過程班缎,而無需再訓(xùn)練蝴光。然而,由于這些模型通常直接在像素空間中運(yùn)行达址,因此對功能強(qiáng)大的DM進(jìn)行優(yōu)化通常需要數(shù)百GPU天蔑祟,并且由于順序評估,推理成本很高沉唠。為了在有限的計算資源上實現(xiàn)DM訓(xùn)練疆虚,同時保持其質(zhì)量和靈活性,我們將其應(yīng)用于強(qiáng)大的預(yù)處理自動編碼器的潛在空間。與之前的工作相比径簿,基于這種表示的訓(xùn)練擴(kuò)散模型首次在復(fù)雜性降低和細(xì)節(jié)保留之間達(dá)到接近最佳的點罢屈,大大提高了視覺逼真度。通過在模型體系結(jié)構(gòu)中引入交叉注意層篇亭,我們將擴(kuò)散模型轉(zhuǎn)化為功能強(qiáng)大且靈活的生成器缠捌,用于文本或邊界框等一般條件輸入,并以卷積方式實現(xiàn)高分辨率合成译蒂。我們的潛在擴(kuò)散模型(LDM)在圖像修復(fù)和各種任務(wù)(包括無條件圖像生成曼月、語義場景合成和超分辨率)上具有高度競爭力的性能方面達(dá)到了新的技術(shù)水平,同時與基于像素的DM相比柔昼,大大降低了計算要求哑芹。開源在:https://github.com/CompVis/latent-diffusion

By decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-the-art synthesis results on image data and beyond. Additionally, their formulation allows for a guiding mechanism to control the image generation process without retraining. However, since these models typically operate directly in pixel space, optimization of powerful DMs often consumes hundreds of GPU days and inference is expensive due to sequential evaluations. To enable DM training on limited computational resources while retaining their quality and flexibility, we apply them in the latent space of powerful pretrained autoencoders. In contrast to previous work, training diffusion models on such a representation allows for the first time to reach a near-optimal point between complexity reduction and detail preservation, greatly boosting visual fidelity. By introducing cross-attention layers into the model architecture, we turn diffusion models into powerful and flexible generators for general conditioning inputs such as text or bounding boxes and high-resolution synthesis becomes possible in a convolutional manner. Our latent diffusion models (LDMs) achieve a new state of the art for image inpainting and highly competitive performance on various tasks, including unconditional image generation, semantic scene synthesis, and super-resolution, while significantly reducing computational requirements compared to pixel-based DMs.?

圖1:通過較少的激進(jìn)下采樣提高可實現(xiàn)質(zhì)量的上限。由于擴(kuò)散模型為空間數(shù)據(jù)提供了極好的歸納偏差捕透,我們不需要對潛在空間中的相關(guān)生成模型進(jìn)行大量的空間下采樣聪姿,但仍然可以通過適當(dāng)?shù)淖詣泳幋a模型大大降低數(shù)據(jù)的維數(shù),見第3節(jié)乙嘀。圖像來自DIV2K[1]驗證集末购,評估值為512^2像素。我們用f表示空間下采樣因子乒躺。重建FID[29]和PSNR是在ImageNet-val[12]上計算的; 另見表8招盲。Figure 1. Boosting the upper bound on achievable quality with less agressive downsampling. Since diffusion models offer excellent inductive biases for spatial data, we do not need the heavy spatial downsampling of related generative models in latent space, but can still greatly reduce the dimensionality of the data via suitable autoencoding models, see Sec. 3. Images are from the DIV2K [1] validation set, evaluated at 512^2 px. We denote the spatial downsampling factor by f. Reconstruction FIDs [29] and PSNR are calculated on ImageNet-val. [12]; see also Tab. 8

1? ? 引言

圖像合成是近年來發(fā)展最為引人注目的計算機(jī)視覺領(lǐng)域之一,也是計算需求最大的領(lǐng)域之一嘉冒。特別是復(fù)雜自然場景的高分辨率合成曹货,目前主要由基于擴(kuò)大基于似然的模型,可能包含自回歸(AR)變換器中的數(shù)十億個參數(shù)[66,67](scaling up likelihood-based models, potentially containing billions of parameters in autoregressive (AR) transformers)讳推。相比之下顶籽,GANs[3、27银觅、40]的有希望的結(jié)果大多局限于變化相對有限的數(shù)據(jù)(data with comparably limited variability)礼饱,因為它們的對抗學(xué)習(xí)過程不容易擴(kuò)展到建模復(fù)雜的多模態(tài)分布。最近究驴,基于去噪自動編碼器層次結(jié)構(gòu)構(gòu)建的擴(kuò)散模型[82]已證明在圖像合成[30,85]和[7,45,48,57]之外取得了令人印象深刻的結(jié)果镊绪,并定義了一流的條件圖像合成[15,31]和超分辨率[72]。此外洒忧,與其他類型的生成模型[19,46,69]相比蝴韭,即使是無條件DMs也可以很容易地應(yīng)用于修復(fù)和著色[85]或基于筆劃的合成[53]等任務(wù)。作為基于似然的模型熙侍,它們不像GAN那樣表現(xiàn)出模式崩潰和訓(xùn)練不穩(wěn)定性榄鉴,并且通過大量利用參數(shù)共享履磨,它們可以對自然圖像的高度復(fù)雜分布建模,而不像AR模型那樣涉及數(shù)十億個參數(shù)[67]庆尘。

人人可用的高分辨率圖像合成? ? 擴(kuò)散模型屬于基于似然的模型類剃诅,其模式覆蓋行為(mode-covering behavior)使得它們很容易花費(fèi)過多的容量(從而計算資源)來建模無法察覺的數(shù)據(jù)細(xì)節(jié)[16,73]。盡管重加權(quán)變分目標(biāo)[30]旨在通過對初始去噪步驟進(jìn)行欠采樣來解決這一問題驶忌,但擴(kuò)散模型仍然需要很多的計算矛辕,因為訓(xùn)練和評估這樣的模型需要在RGB圖像的高維空間中進(jìn)行重復(fù)的函數(shù)評估(和梯度計算)。例如位岔,訓(xùn)練最強(qiáng)大的DM通常需要數(shù)百GPU天(例如如筛,[15]中的150-1000 V100天),對輸入空間的噪聲版本進(jìn)行重復(fù)評估也會導(dǎo)致推理成本高昂抒抬,因此在單個A100 GPU上生成50k樣本大約需要5天[15]。這對研究社區(qū)和一般用戶來說有兩個后果:首先晤柄,訓(xùn)練這樣的模型需要大量的計算資源擦剑,只有領(lǐng)域內(nèi)的一小部分人可用,并留下巨大的碳足跡[65,86]芥颈。其次惠勒,評估一個已經(jīng)訓(xùn)練過的模型在時間和內(nèi)存上也很昂貴,因為相同的模型體系結(jié)構(gòu)必須連續(xù)運(yùn)行大量步驟(如[15]中的25-1000個步驟)爬坑。為了增加這個強(qiáng)大模型類的可訪問性纠屋,同時減少其顯著的資源消耗,需要一種方法來降低訓(xùn)練和采樣的計算復(fù)雜性盾计。因此售担,在不影響DM性能的情況下減少其計算需求是提高其可訪問性的關(guān)鍵。

前往潛在空間(Departure to Latent Space)? ? 我們的方法首先分析像素空間中已訓(xùn)練的擴(kuò)散模型:圖2顯示了訓(xùn)練模型的率失真權(quán)衡( rate-distortion trade-off)署辉。與任何基于似然的模型一樣族铆,學(xué)習(xí)可以大致分為兩個階段:第一階段是感知壓縮階段,去除高頻細(xì)節(jié)哭尝,但仍然學(xué)習(xí)很少的語義變化(but still learns little semantic variation)哥攘。在第二階段,實際生成模型學(xué)習(xí)數(shù)據(jù)的語義和概念組成(語義壓縮)(semantic and conceptual composition of the data)材鹦。因此逝淹,我們的目標(biāo)是首先找到一個在感知(perceptually)上等效但在計算上更合適的空間,在這個計算上更合適的空間里桶唐,我們訓(xùn)練用于高分辨率圖像合成的擴(kuò)散模型栅葡。

圖2.感知和語義壓縮:數(shù)字圖像的大部分比特對應(yīng)于難以察覺的細(xì)節(jié)。盡管DM允許通過最小化responsible損失項來抑制這種語義上無意義的信息莽红,但仍需要在所有像素上評估梯度(在訓(xùn)練期間)和神經(jīng)網(wǎng)絡(luò)主干(訓(xùn)練和推理)妥畏,這導(dǎo)致了多余的計算和不必要的昂貴優(yōu)化和推理邦邦。我們提出潛在擴(kuò)散模型(LDM)作為一種有效的生成模型和一個單獨(dú)的輕度壓縮階段,僅消除不可察覺的細(xì)節(jié)醉蚁。數(shù)據(jù)和圖像來自[30]燃辖。Figure 2. Illustrating perceptual and semantic compression: Most bits of a digital image correspond to imperceptible details. While DMs allow to suppress this semantically meaningless information by minimizing the responsible loss term, gradients (during training) and the neural network backbone (training and inference) still need to be evaluated on all pixels, leading to superfluous computations and unnecessarily expensive optimization and inference.We propose latent diffusion models (LDMs) as an effective generative model and a separate mild compression stage that only eliminates imperceptible details. Data and images from [30].

按照常見實踐[11、23网棍、66黔龟、67、96]滥玷,我們將訓(xùn)練分為兩個不同的階段:首先氏身,我們訓(xùn)練一個自動編碼器,它提供一個低維(因而高效)的表示空間惑畴,在感知上與數(shù)據(jù)空間等價(perceptually equivalent to the data space)蛋欣。重要的是,與之前的工作[23,66]相比如贷,我們不需要依賴過多的空間壓縮陷虎,因為我們在學(xué)習(xí)的潛在空間中訓(xùn)練DM,它在空間維度方面表現(xiàn)出更好的縮放特性( scaling properties)杠袱。復(fù)雜度的降低還提供了通過單個網(wǎng)絡(luò)通道pass從潛在空間高效生成圖像的方法(The reduced complexity also provides efficient image generation from the latent space with a single network pass)尚猿。我們將所得模型類稱為潛在擴(kuò)散模型(Latent Diffusion Models,LDM)楣富。

這種方法的一個顯著優(yōu)點是凿掂,我們只需要對通用自動編碼階段進(jìn)行一次訓(xùn)練,因此可以將其用于多個DM訓(xùn)練或探索可能完全不同的任務(wù)[81]纹蝴。這使得能夠有效地探索各種圖像到圖像和文本到圖像任務(wù)的大量擴(kuò)散模型庄萎。對于后者,我們設(shè)計了一種架構(gòu)骗灶,將Transformer連接到DM的UNet主干網(wǎng)[71]惨恭,并支持任意類型的基于令牌的調(diào)節(jié)機(jī)制(token-based conditioning mechanisms),見第3.3節(jié)耙旦。

總之脱羡,我們的工作做出了以下貢獻(xiàn):

(i) 與純基于Transformer的方法相比[23,66]免都,我們的方法對高維數(shù)據(jù)的縮放更為優(yōu)雅锉罐,因此可以(a)在壓縮級別上工作,比以前的工作(見圖1)提供更可靠和詳細(xì)的重建绕娘,并且(b)可以有效地應(yīng)用于百萬像素圖像的高分辨率合成脓规。

(ii)我們在多個任務(wù)(無條件圖像合成、修復(fù)险领、隨機(jī)超分辨率stochastic super-resolution)和數(shù)據(jù)集上實現(xiàn)了具有競爭力的性能侨舆,同時顯著降低了計算成本秒紧。與基于像素的擴(kuò)散方法相比,我們還顯著降低了推理成本挨下。

(iii)我們表明宫峦,與之前同時學(xué)習(xí)編碼器/解碼器架構(gòu)和基于分?jǐn)?shù)的先驗知識的工作[93]相比胰锌,我們的方法不需要對重建和生成能力進(jìn)行微妙的加權(quán)。這確保了極其可靠的重建多矮,并且?guī)缀醪恍枰獙撛诳臻g進(jìn)行正則化褂萧。(We show that, in contrast to previous work [93] which learns both an encoder/decoder architecture and a score-based prior simultaneously, our approach does not require a delicate weighting of reconstruction and generative abilities. This ensures extremely faithful reconstructions and requires very little regularization of the latent space.)

(iv)我們發(fā)現(xiàn)恒傻,對于條件密集的任務(wù)(densely conditioned tasks)余素,如超分辨率蒙兰、修復(fù)和語義合成,我們的模型可以以卷積方式應(yīng)用茵乱,并呈現(xiàn)大的一致的~ 1024^2像素的圖像茂洒。

(v) 此外,我們還設(shè)計了一種基于交叉注意的通用的條件機(jī)制(a general-purpose conditioning mechanism based on cross-attention)似将,支持多模態(tài)訓(xùn)練获黔。我們使用它來訓(xùn)練類別條件、文本到圖像和布局到圖像模型(class-conditional, text-to-image and layout-to-image models)在验。

(vi)最后,我們在https://github.com/CompVis/latent-diffusion上發(fā)布了預(yù)處理的潛在擴(kuò)散和自動編碼模型堵未,該模型除了訓(xùn)練DM外腋舌,還可用于各種任務(wù)[81]。

2????相關(guān)工作

圖像合成的生成模型? ? 圖像的高維性對生成性建模提出了明顯的挑戰(zhàn)渗蟹。生成對抗網(wǎng)絡(luò)(GAN)[27]允許對高分辨率圖像進(jìn)行具有良好感知質(zhì)量的高效采樣[3块饺,42],但很難優(yōu)化[2雌芽,28授艰,54],難以捕獲完整的數(shù)據(jù)分布[55]世落。相比之下淮腾,基于似然的方法強(qiáng)調(diào)良好的密度估計,從而使優(yōu)化更加有效屉佳。變分自動編碼器(Variational autoencoders谷朝,VAE)[46]和基于流的模型[18,19]能夠高效合成高分辨率圖像[9武花,44圆凰,92],但樣本質(zhì)量與GAN不一樣体箕。雖然自回歸模型(autoregressive models专钉,ARM)[6挑童、10、94跃须、95]在密度估計方面取得了很好的性能站叼,但計算量大的體系結(jié)構(gòu)[97]和順序采樣過程將其限制在低分辨率圖像上。由于基于像素的圖像表示包含幾乎無法感知的高頻細(xì)節(jié)[16,73]回怜,最大似然訓(xùn)練在建模它們上花費(fèi)的容量不成比例大年,導(dǎo)致訓(xùn)練時間過長。為了提高分辨率玉雾,幾種兩階段方法[23,67,101,103]使用ARM來建模壓縮的潛在圖像空間翔试,而不是原始像素。

最近复旬,擴(kuò)散概率模型(DM)[82]在密度估計[45]和樣本質(zhì)量[15]方面取得了最先進(jìn)的結(jié)果垦缅。這些模型的生成能力來源于,當(dāng)其底層神經(jīng)主干實現(xiàn)為UNet[15,30,71,85]時驹碍,對類似圖像數(shù)據(jù)(image-like data)的歸納偏置的自然擬合壁涎。當(dāng)將加權(quán)目標(biāo)[30]用于訓(xùn)練時,通持就海可以獲得最佳的綜合質(zhì)量怔球。在這種情況下,DM對應(yīng)于有損壓縮程序浮还,并允許以圖像質(zhì)量換取壓縮能力(In this case, the DM corresponds to a lossy compressor and allow to trade image quality for compression capabilities)竟坛。然而,在像素空間中評估和優(yōu)化這些模型存在推理速度慢和訓(xùn)練成本高的缺點钧舌。雖然前者可以通過高級采樣策略[47担汤、75、84]和分層方法[31洼冻、93]部分解決崭歧,但高分辨率圖像數(shù)據(jù)的訓(xùn)練總是需要計算昂貴的梯度。我們用我們提出的LDM解決了這兩個缺點撞牢,LDM工作于低維的壓縮的潛在空間率碾。這使得訓(xùn)練的計算成本更低,并且加快了推理速度普泡,而合成質(zhì)量幾乎沒有降低(見圖1)播掷。

兩階段圖像合成????為了緩解單個生成方法的缺點,許多研究[11撼班、23歧匈、67、70砰嘁、101件炉、103]都致力于通過兩階段方法將不同方法的優(yōu)勢結(jié)合到更高效勘究、更具表現(xiàn)力的模型中。VQ-VAEs[67斟冕,101]使用自回歸模型在離散化潛在空間上學(xué)習(xí)具有表達(dá)能力的先驗(expressive prior)口糕。

[66]通過學(xué)習(xí)離散化圖像和文本表示的聯(lián)合分布,將這種方法擴(kuò)展到文本到圖像生成磕蛇。更一般地說景描,[70]使用條件可逆網(wǎng)絡(luò)在不同領(lǐng)域的潛在空間之間提供通用遷移。與VQ-VAE不同秀撇,VQGANs[23超棺,103]采用第一階段,以對抗和感知目標(biāo)將自回歸Transformer縮放到更大的圖像呵燕。然而棠绘,可行的ARM訓(xùn)練所要求的高壓縮率引入了數(shù)十億訓(xùn)練參數(shù)[23,66]再扭,限制了此類方法的整體性能氧苍,而較少的壓縮是以高計算成本為代價的[23,66]泛范。我們的工作防止了這種權(quán)衡让虐,因為我們提出的LDM由于其卷積主干,可以更溫和地(gently)擴(kuò)展到更高維的潛在空間罢荡。因此澄干,我們可以自由選擇壓縮級別,其在學(xué)習(xí)一個強(qiáng)大的第一階段之間進(jìn)行最佳調(diào)節(jié)柠傍,而不會將太多的感知壓縮留給生成擴(kuò)散模型,同時保證高保真重建(見圖1)辩稽。(Thus, we are free to choose the level of compression which optimally mediates between learning a powerful first stage, without leaving too much perceptual compression up to the generative diffusion model while guaranteeing highfidelity reconstructions)

雖然聯(lián)合[93]或單獨(dú)[80]學(xué)習(xí)編碼/解碼模型以及基于分?jǐn)?shù)的先驗知識的方法已經(jīng)存在惧笛,但前者仍然需要在重建和生成能力[11]之間進(jìn)行困難的權(quán)衡,并且我們的方法更優(yōu)(第4節(jié))逞泄,后者側(cè)重于高度結(jié)構(gòu)化的圖像患整,如人臉。

3????方法

為了降低用于高分辨率圖像合成的訓(xùn)練擴(kuò)散模型的計算要求喷众,我們觀察到各谚,盡管擴(kuò)散模型允許通過欠采樣相應(yīng)的損失項來忽略感知無關(guān)的細(xì)節(jié)[30],但它們?nèi)匀恍枰谙袼乜臻g進(jìn)行昂貴的函數(shù)評估到千,這會導(dǎo)致對計算時間和能量資源的巨大需求昌渤。

我們建議通過顯示地分離壓縮和生成學(xué)習(xí)階段來規(guī)避這一缺陷(by introducing an explicit separation of the compressive from the generative learning phase)(見圖2)。為了實現(xiàn)這一點憔四,我們使用了一個自動編碼模型膀息,它學(xué)習(xí)一個與圖像空間在感知上等價(perceptually equivalent)的空間般眉,但計算復(fù)雜度顯著降低。

這種方法有幾個優(yōu)點:(i)通過離開高維圖像空間潜支,我們獲得了計算效率更高的DM甸赃,因為采樣是在低維空間進(jìn)行的。(ii)我們利用了DM的歸納偏置冗酿,這種歸來偏置來自其UNet架構(gòu)[71]埠对,這使得它們對具有空間結(jié)構(gòu)的數(shù)據(jù)特別有效,因此裁替,可以減少對以前方法所要求的激進(jìn)的项玛、降低質(zhì)量的壓縮級別的需求[23,66]胯究。(iii)最后稍计,我們獲得了通用壓縮模型,其潛在空間可用于訓(xùn)練多個生成模型裕循,也可用于其他下游應(yīng)用臣嚣,如單圖像CLIP引導(dǎo)合成[25]。

3.1????感知圖像壓縮Perceptual Image Compression

我們的感知壓縮模型基于先前的工作[23]剥哑,其包含一個自動編碼器硅则,自動編碼器通過感知損失[106]和基于patch的[33]對抗目標(biāo)[20,23株婴,103]的組合來訓(xùn)練怎虫。這可以通過增強(qiáng)局部逼真感來確保重建僅限于圖像流形,并避免僅依賴像素空間損失(如L2或L1目標(biāo))而引入模糊困介。( Our perceptual compression model is based on previous work [23] and consists of an autoencoder trained by combination of a perceptual loss [106] and a patch-based [33] adversarial objective [20, 23, 103]. This ensures that the reconstructions are confined to the image manifold by enforcing local realism and avoids bluriness introduced by relying solely on pixel-space losses such as L2 or L1 objectives)

更準(zhǔn)確地說大审,給定一個RGB空間的圖像x \in \mathbb{R}^{H\times W\times 3},編碼器\mathcal{E}x編碼為潛在表示z=\mathcal{E}(x)座哩,解碼器\mathcal{D}從潛在表示中重建圖像徒扶,\tilde{x} =\mathcal{D}(z)=\mathcal{D}(\mathcal{E}(x)),其中z \in \mathbb{R}^{h\times w\times c}根穷。重要的是姜骡,編碼器用下采樣因子f = H/h = W/w對圖像下采樣,我們研究了不同的下采樣因子f = 2^m屿良,m \in \mathbb{N}圈澈。

為了避免任意高方差的潛在空間,我們用兩種不同的正則化方法進(jìn)行了實驗尘惧。第一種變體康栈,KL reg.,對所學(xué)latent的標(biāo)準(zhǔn)正態(tài)(編者注:或標(biāo)準(zhǔn)范數(shù)?standard normal)施加輕微的KL懲罰谅将,類似于VAE[46漾狼,69],而VQ-reg. 在解碼器內(nèi)使用向量量化層(vector quantization layer)[96]饥臂。該模型可以解釋為VQGAN[23]逊躁,但量化層被解碼器吸收(absorbed)。因為我們后續(xù)的DM設(shè)計為處理我們學(xué)習(xí)的潛在空間z=\mathcal{E}(x)的二維結(jié)構(gòu)隅熙,所以我們可以使用相對溫和的壓縮率稽煤,并實現(xiàn)非常好的重建。這與之前的工作[23囚戚,66]不同酵熙,之前的工作依賴于習(xí)得空間z的任意1D排序來對其分布進(jìn)行自回歸建模,從而忽略了z的許多固有結(jié)構(gòu)驰坊。因此匾二,我們的壓縮模型更好地保留了x的細(xì)節(jié)(見表8)。完整的目標(biāo)和訓(xùn)練細(xì)節(jié)可以在補(bǔ)充資料中找到拳芙。

3.2????潛在擴(kuò)散模型

擴(kuò)散模型[82]是一種概率模型察藐,通過逐漸對正態(tài)分布變量去噪來學(xué)習(xí)數(shù)據(jù)分布p(x),這對應(yīng)于學(xué)習(xí)長度為T的固定馬爾可夫鏈的逆過程舟扎。對于圖像合成分飞,最成功的模型[15,30,72]依賴于在p(x)上的變分下界的重加權(quán)變分,這mirrors了去噪分?jǐn)?shù)匹配[85]睹限。這些模型可以解釋為去噪自編碼器\epsilon _{\theta } (x_{t},t)譬猫,t=1\dots T,它們被訓(xùn)練來預(yù)測輸入x_t的去噪變量羡疗,其中x_t是輸入x的噪聲版本染服。相應(yīng)的目標(biāo)可以簡化為(補(bǔ)充材料中的Sec. B)

L_{DM} = \mathbb{E}_{x,\epsilon \sim \mathcal{N}(0, 1),  t  }[{||\epsilon - \epsilon _{\theta }(x_{t},t) ||}_{2}^2  ],(1)

其中t均勻采樣自\left\{ {1, \dots, T} \right\} 叨恨。

(Diffusion Models are probabilistic models designed to learn a data distribution p(x) by gradually denoising a normally distributed variable, which corresponds to learning the reverse process of a fixed Markov Chain of length T. For image synthesis, the most successful models rely on a reweighted variant of the variational lower bound on p(x), which mirrors denoising score-matching. These models can be interpreted as an equally weighted sequence of denoising autoencoders \epsilon _{\theta } (x_{t},t), t=1\dots T, which are trained to predict a denoised variant of their input x_t, where x_t is a noisy version of the input x. The corresponding objective can be simplified to suppsec:dmdetails)

潛在表示的生成建模????有了由\mathcal{E}\mathcal{D}組成的經(jīng)過訓(xùn)練的感知壓縮模型肌索,我們現(xiàn)在可以進(jìn)入一個高效、低維的潛在空間特碳,在這個空間中,高頻晕换、不可察覺的細(xì)節(jié)被抽離出來午乓。與高維像素空間相比,該空間更適合基于似然的生成模型闸准,因為它們現(xiàn)在可以(i)專注于數(shù)據(jù)的重要語義位(important, semantic bit)益愈,(ii)在低維、計算效率更高的空間中訓(xùn)練。

與之前依賴于高度壓縮蒸其、離散潛在空間中的自回歸敏释、基于注意力的Transformer模型[23,66103]的工作不同,我們可以利用我們模型提供的圖像特定的歸納偏置摸袁。這包括主要從2D卷積層構(gòu)建底層UNet的能力钥顽,并使用重加權(quán)界將目標(biāo)進(jìn)一步聚焦于感知最相關(guān)的位,現(xiàn)在讀作

L_{LDM} := \mathbb{E}_{{\mathcal{E}(x)},\epsilon \sim \mathcal{N}(0, 1),  t  }[{||\epsilon - \epsilon _{\theta }(z_{t},t) ||}_{2}^2  ]? ? (2)

(the ability to build the underlying UNet primarily from 2D convolutional layers,and further focusing the objective on the perceptually most relevant bits using the reweighted bound, which now reads)

我們模型的神經(jīng)主干 \epsilon _{\theta }(\circ ,t)被實現(xiàn)為時間條件UNet[71](time-conditional UNet)靠汁。由于前向過程是固定的蜂大,因此在訓(xùn)練過程中可以從\mathcal{E}中高效地獲得z_t,并且從p(z)中的樣本可以\mathcal{D}with a single pass解碼到圖像空間蝶怔。

3.3????條件機(jī)制

與其他類型的生成模型類似[56奶浦,83],擴(kuò)散模型原則上能夠建模形式為p(z|y)的條件分布踢星。這可以通過條件去噪自動編碼器 \epsilon _{\theta }(z_t ,t,y)來實現(xiàn)澳叉,并通過輸入y(例如文本[68]、語義圖[33沐悦,61]或其他圖像到圖像轉(zhuǎn)換任務(wù)[34])為控制合成過程鋪平了道路成洗。

然而,在圖像合成的背景下所踊,將DMs的生成能力與類標(biāo)簽以外的其他類型的條件[15]或輸入圖像的模糊變體[72]相結(jié)合是目前尚未探索的研究領(lǐng)域泌枪。

我們通過交叉注意機(jī)制[97]增強(qiáng)其底層UNet主干,將DM轉(zhuǎn)化為更靈活的條件圖像生成器秕岛,這對于學(xué)習(xí)各種輸入模式的基于注意的模型是有效的[35,36]碌燕。為了預(yù)處理來自各種模式(如語言提示)的y,我們引入了一個特定于域的編碼器τ_θ继薛,該編碼器將y投影到中間表示τ_θ(y)  \in \mathbb{R}^{M\times {d_r}}修壕,然后通過交叉注意力層將其映射到UNet的中間層,交叉注意力層實現(xiàn)為\text{Attention}(Q,K,V)=\text{softmax}(\frac{QK^T}{\sqrtmq6y4gq } )\cdot V遏考,其中:Q = W^{(i)}_Q \cdot  \varphi_i(z_t)慈鸠,K = W^{(i)}_K \cdot τ_θ(y)V = W^{(i)}_V \cdot τ_θ(y)灌具。

這里青团,\varphi_i(z_t) \in \mathbb{R}^{N\times {d_{e}^i }}表示UNet的(展平的)中間表示,實現(xiàn) \epsilon _{\theta }W^{(i)}_V \in \mathbb{R}^{d \times d^i_\epsilon}咖楣、W^{(i)}_Q \in \mathbb{R}^{d \times d_\tau}督笆、W^{(i)}_K \in \mathbb{R}^{d \times d_\tau}是可學(xué)習(xí)的投影矩陣[36,97]诱贿。有關(guān)可視化展示娃肿,請參見圖3咕缎。

圖3.我們通過拼接或更general的交叉注意機(jī)制來調(diào)節(jié)LDM。見第3.3節(jié)料扰。Figure 3. We condition LDMs either via concatenation or by a more general cross-attention mechanism. See Sec. 3.3

基于圖像-條件對(image-conditioning pairs)凭豪,通過以下方式學(xué)習(xí)條件LDM:

L_{LDM} := \mathbb{E}_{{\mathcal{E}(x)},y,\epsilon \sim \mathcal{N}(0, 1),  t  }[{||\epsilon - \epsilon _{\theta }(z_{t},t,τ_θ(y) ) ||}_{2}^2  ]? ? (3)

其中,τ_θ\epsilon _{\theta }都通過公式3進(jìn)行聯(lián)合優(yōu)化晒杈。這種條件機(jī)制很靈活嫂伞,因為可以用特定于領(lǐng)域的專家來參數(shù)化τ_θ,例如桐智,當(dāng)y為文本提示時末早,這個專家就是(無掩碼的)transformers[97]。(見第4.3.1節(jié))

4????實驗

LDM為各種圖像模態(tài)的靈活且可計算處理的基于擴(kuò)散的圖像合成提供了手段说庭,我們在下面的實驗中展示了這一點然磷。然而,首先刊驴,我們分析了與基于像素的擴(kuò)散模型相比姿搜,我們的模型在訓(xùn)練和推理方面的收益。有趣的是捆憎,我們發(fā)現(xiàn)在VQ正則化的潛在空間中訓(xùn)練的LDM有時可以獲得更好的樣本質(zhì)量舅柜,即使VQ正則的第一階段模型的重建能力稍微落后于它們對應(yīng)的連續(xù)模型,參見表8躲惰。附錄D.1對第一階段正則化方案對LDM訓(xùn)練的影響及其對分辨率>256^2的泛化能力進(jìn)行了直觀比較致份。在E.2中,我們列出了本節(jié)中所有結(jié)果的架構(gòu)、實施、訓(xùn)練和評估的詳細(xì)信息聘鳞。

4.1????感知壓縮權(quán)衡

本節(jié)分析了具有不同下采樣因子f\in\{1,2,4,8,16,32\}的LDM的行為(縮寫為LDM-f,其中LDM-1對應(yīng)于基于像素的DM)滔蝉。為了獲得一個可比較的測試場,我們將本節(jié)中所有實驗的計算資源固定到單個NVIDIA? A100塔沃,并用相同的步驟數(shù)和參數(shù)量訓(xùn)練所有模型蝠引。

表8顯示了本節(jié)中用于LDM的第一階段模型的超參數(shù)和重建性能。圖6顯示了ImageNet[12]數(shù)據(jù)集上2M個步驟的類別條件模型(class-conditional models)的樣本質(zhì)量與訓(xùn)練進(jìn)度的函數(shù)關(guān)系蛀柴。我們看到螃概,i)LDM-{1,2}的小的下采樣因子會導(dǎo)致訓(xùn)練進(jìn)度緩慢,而ii)f值過大會導(dǎo)致鸽疾,在相對較少的訓(xùn)練步驟后谅年,保真度停滯不前。重新審視上述分析(圖1和圖2)肮韧,我們將其歸因于i)將大部分感知壓縮留給擴(kuò)散模型,ii)第一階段壓縮太強(qiáng),導(dǎo)致信息丟失弄企,從而限制了可實現(xiàn)的質(zhì)量超燃。LDM-{4-16}在效率和感知結(jié)果之間取得了很好的平衡,這體現(xiàn)在2M訓(xùn)練步驟后拘领,基于像素的擴(kuò)散(LDM-1)和LDM-8之間的FID[29]的顯著差距為38意乓。

表8.在OpenImages上訓(xùn)練的完整自動編碼器zoo,在ImageNet-Val上評估约素。?表示無需注意的自動編碼器届良。Table 8. Complete autoencoder zoo trained on OpenImages, evaluated on ImageNet-Val. ? denotes an attention-free autoencoder.
圖6.分析ImageNet數(shù)據(jù)集上超過2M個訓(xùn)練步驟的具有不同下采樣因子的類別條件LDM的訓(xùn)練。與具有更大下采樣因子(LDM-{4-16})的模型相比圣猎,基于像素的LDM-1需要更長的訓(xùn)練時間士葫。LDM-32中過多的感知壓縮限制了總體樣本質(zhì)量。所有模型都在一個NVIDIA A100上訓(xùn)練送悔,計算預(yù)算相同慢显。使用100個DDIM步驟[84]和κ=0獲得的結(jié)果。 Figure 6. Analyzing the training of class-conditional LDMs with different downsampling factors f over 2M train steps on the ImageNet dataset. Pixel-based LDM-1 requires substantially larger train times compared to models with larger downsampling factors (LDM-{4-16}). Too much perceptual compression as in LDM-32 limits the overall sample quality. All models are trained on a single NVIDIA A100 with the same computational budget. Results obtained with 100 DDIM steps [84] and κ = 0

在圖7中欠啤,我們將CelebAHQ[39]和ImageNet上訓(xùn)練的模型與DDIM采樣器[84]就不同數(shù)量的去噪步驟的采樣速度進(jìn)行了比較荚藻,并將其與FID得分[29]進(jìn)行了對比。LDM-{4-8}的性能優(yōu)于感知和概念壓縮比例不合適的模型洁段。特別是與基于像素的LDM-1相比应狱,它們的FID分?jǐn)?shù)低得多,同時顯著提高了樣本吞吐量祠丝。像ImageNet這樣的復(fù)雜數(shù)據(jù)集需要降低壓縮率疾呻,以避免降低質(zhì)量∨ε保總之罐韩,LDM-4和-8為獲得高質(zhì)量的合成結(jié)果提供了最佳條件。

圖7.比較CelebA HQ(左)和ImageNet(右)數(shù)據(jù)集上不同壓縮的LDM污朽。不同的標(biāo)記指示使用DDIM的{10散吵,20,50蟆肆,100矾睦,200}采樣步驟,沿著每條線從右到左炎功。虛線顯示了200個步驟的FID分?jǐn)?shù)枚冗,表明LDM-{4-8}的強(qiáng)大性能。對5000份樣本進(jìn)行FID評分蛇损。所有模型都在A100上訓(xùn)練了500k(CelebA)/2M(ImageNet)步數(shù)赁温。Figure 7. Comparing LDMs with varying compression on the CelebA-HQ (left) and ImageNet (right) datasets. Different markers indicate {10, 20, 50, 100, 200} sampling steps using DDIM, from right to left along each line. The dashed line shows the FID scores for 200 steps, indicating the strong performance of LDM-{4-8}. FID scores assessed on 5000 samples. All models were trained for 500k (CelebA) / 2M (ImageNet) steps on an A100.

4.2????潛在擴(kuò)散的圖像生成

我們在CelebA HQ[39]坛怪、FFHQ[41]、LSUN Churches and-Bodrooms[102]上對256^2像素的圖像的無條件模型進(jìn)行訓(xùn)練股囊,并使用i)采樣質(zhì)量袜匿;ii)對數(shù)據(jù)流形的coverage,使用ii)FID [29]以及ii)Precision-and-Recall [50]稚疹。

表1總結(jié)了我們的結(jié)果居灯。在CelebA-HQ上,我們報告了一個新的最先進(jìn)的FID内狗,為5.11怪嫌,優(yōu)于以前的基于似然的模型以及GAN。我們還優(yōu)于LSGM[93]柳沙,其中潛在擴(kuò)散模型與第一階段聯(lián)合訓(xùn)練岩灭。相比之下,我們在一個固定空間中訓(xùn)練擴(kuò)散模型偎行,避免了將重建質(zhì)量與在潛在空間學(xué)習(xí)先驗進(jìn)行權(quán)衡的困難川背,見圖1-2。(avoid the difficulty of weighing reconstruction quality against learning the prior over the latent space)

除LSUN Bedrooms數(shù)據(jù)集外蛤袒,我們的得分接近ADM[15]熄云,盡管使用了一半的參數(shù),需要的訓(xùn)練資源減少了4倍(見附錄E.3.5)妙真。此外缴允,LDM在精度和召回方面一致地優(yōu)于基于GAN的方法,從而證實了其模式覆蓋基于似然的訓(xùn)練目標(biāo)(mode-covering likelihood-based training objective)相對于對抗方法的優(yōu)勢珍德。在圖4中练般,我們還顯示了每個數(shù)據(jù)集的定性結(jié)果。

圖4.在CelebAHQ[39]锈候、FFHQ[41]薄料、LSUN教堂[102]、LSUN臥室[102]和類別條件ImageNet[12]上訓(xùn)練的LDM的樣本泵琳,每個樣本的分辨率為256×256摄职。放大時最佳查看。有關(guān)更多示例获列,請參閱附錄谷市。Figure 4. Samples from LDMs trained on CelebAHQ [39], FFHQ [41], LSUN-Churches [102], LSUN-Bedrooms [102] and class-conditional ImageNet [12], each with a resolution of 256 × 256. Best viewed when zoomed in. For more samples cf . the supplement.

4.3????條件潛在擴(kuò)散

4.3.1 LDM的Transformer編碼器

通過在LDM中引入基于交叉注意的條件控制,我們?yōu)橹皵U(kuò)散模型中未探索的各種條件控制模式打開了大門击孩。對于文本到圖像建模迫悠,我們在LAION-400M[78]上訓(xùn)練了一個1.45B參數(shù)KL正則的LDM,條件是語言提示巩梢。我們使用BERT-tokenizer[14]创泄,并將τ_θ實現(xiàn)為Transformer[97]艺玲,來推斷一個潛在c碼(code),這個碼通過(多頭)交叉注意力被映射到UNet(第3.3節(jié))鞠抑。將學(xué)習(xí)語言表示的特定于領(lǐng)域的專家與視覺合成結(jié)合起來產(chǎn)生了一個強(qiáng)大的模型板驳,它很好地推廣到復(fù)雜的、用戶未定義的文本提示碍拆,請查閱圖8和5

對于定量分析慨蓝,我們遵循先前的工作感混,并在MS-COCO[51]驗證集上評估文本到圖像的生成,其中礼烈,我們的模型改進(jìn)了強(qiáng)大的AR[17弧满,66]和基于GAN的[109]方法,見表2此熬。我們注意到庭呜,應(yīng)用無分類器的擴(kuò)散引導(dǎo)[32]大大提高了樣本質(zhì)量,因此引導(dǎo)的LDM-KL-8-G與最近最先進(jìn)的AR[26]和用于文本到圖像合成的擴(kuò)散模型[59]不相上下犀忱,同時大大減少了參數(shù)數(shù)量募谎。為了進(jìn)一步分析基于交叉注意的條件作用機(jī)制的靈活性,我們還訓(xùn)練模型根據(jù)OpenImages[49]上的語義布局(semantic layouts)合成圖像阴汇,并在COCO[4]進(jìn)行微調(diào)数冬,見圖8。定量評估和實現(xiàn)細(xì)節(jié)見第D.3節(jié)搀庶。

Text-to-Image Synthesis on LAION. 1.45B Model

圖5.用戶定義文本提示的樣例拐纱,來自我們的文本到圖像合成的模型,LDM-8 (KL)哥倔,該模型在LAION[78]數(shù)據(jù)庫上訓(xùn)練秸架。使用200 DDIM步驟生成的樣本,η=1.0咆蒿。我們使用s=10.0的無條件指導(dǎo)[32]东抹。Figure 5. Samples for user-defined text prompts from our model for text-to-image synthesis, LDM-8 (KL), which was trained on the LAION [78] database. Samples generated with 200 DDIM steps and η = 1.0. We use unconditional guidance [32] with s = 10.0.
圖8.在COCO[4]上使用LDM進(jìn)行布局到圖像的合成,見4.3.1節(jié)蜡秽。定量評估參見附錄D.3府阀。

最后,跟隨先前的工作[3芽突,15试浙,21,23]寞蚌,我們評估我們表現(xiàn)最佳的類別條件ImageNet模型田巴,使用f\in\{4,8\}钠糊,來自4.1節(jié),在表3壹哺、圖4和D.4節(jié)抄伍。這里,我們的性能優(yōu)于最先進(jìn)的擴(kuò)散模型ADM[15]管宵,同時顯著減少了計算要求和參數(shù)數(shù)量截珍,參見表18。

表3.類別條件ImageNet LDM與ImageNet[12]上最先進(jìn)的類別條件圖像生成方法的比較箩朴。與其他基線的更詳細(xì)比較見D.4岗喉,表10和F。c.F.g.表示具有[32]中提出的尺度s的無分類器的引導(dǎo)炸庞。Table 3. Comparison of a class-conditional ImageNet LDM with recent state-of-the-art methods for class-conditional image generation on ImageNet [12]. A more detailed comparison with additional baselines can be found in D.4, Tab. 10 and F. c.f.g. denotes classifier-free guidance with a scale s as proposed in [32].

4.3.2????超過256^2的卷積采樣

通過將空間對齊的條件信息拼接到\epsilon _{\theta }的輸入钱床,LDM可以作為高效的通用的圖像到圖像轉(zhuǎn)換模型。我們用它來訓(xùn)練語義合成埠居、超分辨率(第4.4節(jié))和修復(fù)(第4.5節(jié))的模型查牌。對于語義合成,我們使用景觀圖像與語義圖[23滥壕,61]配對(we use images of landscapes paired with semantic maps)纸颜,并將語義圖的下采樣版本與f=4模型的潛在圖像表示連接起來(VQ reg.,見表8)捏浊。我們訓(xùn)練的輸入分辨率為256^2(從384^2中裁剪)懂衩,但發(fā)現(xiàn)我們的模型適用于更大的分辨率,當(dāng)以卷積方式評估時金踪,可以生成高達(dá)百萬像素范圍的圖像(見圖9)浊洞。我們利用這種行為還應(yīng)用了第4.4節(jié)中的超分辨率模型和第4.5節(jié)中的修復(fù)模型,以生成512^2到1024^2之間的大圖像胡岔。對于這種應(yīng)用法希,信噪比(由潛在空間的規(guī)模scale引起的)會顯著影響結(jié)果。在第D.1節(jié)中靶瘸,我們在學(xué)習(xí)以下LDM時對此進(jìn)行了說明:(i)由f=4模型(KL reg.苫亦,見表8)提供的潛在空間,以及(ii)按組件標(biāo)準(zhǔn)偏差縮放的重縮放版本(a rescaled version, scaled by the component-wise standard deviation)怨咪。

后者屋剑,結(jié)合無分類器引導(dǎo)[32],還可以為文本條件LDM-KL-8-G直接合成>256^2個圖像诗眨,如圖13所示唉匾。(The latter, in combination with classifier-free guidance [32], also enables the direct synthesis of > 256^2 images for the text-conditional LDM-KL-8-G as in Fig. 13)

4.4????潛在擴(kuò)散的超分辨率

LDM可以通過拼接直接調(diào)節(jié)低分辨率圖像,從而有效地進(jìn)行超分辨率訓(xùn)練(參見第3.3節(jié))。在第一個實驗中巍膘,我們遵循SR3[72]厂财,并將圖像退化修復(fù)為具有4×下采樣的雙三次插值,并在ImageNet上按照SR3的數(shù)據(jù)處理管道進(jìn)行訓(xùn)練峡懈。我們使用OpenImages上預(yù)處理的f=4自動編碼模型(VQ reg.璃饱,cf表8),并將低分辨率條件y與UNet的輸入(τ_θ肪康,即 identity)拼接起來荚恶。我們的定性和定量結(jié)果(見圖10和表5)顯示了有競爭力的性能,LDM-SR在FID中優(yōu)于SR3磷支,而SR3的IS更好裆甩。簡單的圖像回歸模型可以獲得最高的PSNR和SSIM分?jǐn)?shù);然而齐唆,這些指標(biāo)與人類的感知并不一致[106],而且相對于不完全一致的高頻細(xì)節(jié)冻河,它們更傾向于模糊性[72]箍邮。此外,我們還進(jìn)行了一項用戶研究叨叙,將像素基線與LDM-SR進(jìn)行了比較锭弊。我們遵循SR3[72],在兩幅高分辨率圖像之間擂错,向人類受試者展示低分辨率圖像味滞,并詢問他們的偏好。表4的結(jié)果證實了LDM-SR的良好性能钮呀。PSNR和SSIM可以通過使用post-hoc引導(dǎo)機(jī)制來推動[15]剑鞍,我們通過感知損失來實現(xiàn)這種基于圖像的引導(dǎo),參見第D.6節(jié)爽醋。

LDMs can be efficiently trained for super-resolution by diretly conditioning on low-resolution images via concatenation (cf . Sec. 3.3). In a first experiment, we follow SR3[72] and fix the image degradation to a bicubic interpolation with 4×-downsampling and train on ImageNet following SR3’s data processing pipeline. We use the f = 4 autoencoding model pretrained on OpenImages (VQ-reg., cf .Tab. 8) and concatenate the low-resolution conditioning y and the inputs to the UNet, i.e. τθ is the identity.

由于雙三次退化過程不能很好地推廣到不遵循此預(yù)處理的圖像蚁署,我們還通過使用更多樣的退化來訓(xùn)練通用模型LDM-BSR。結(jié)果見第D.6.1節(jié)蚂四。

4.5????潛在擴(kuò)散的修復(fù)

Inpainting的任務(wù)是用新內(nèi)容填充圖像的屏蔽區(qū)域光戈,因為圖像的某些部分已損壞,或者替換圖像中現(xiàn)有但不需要的內(nèi)容遂赠。我們評估了我們用于條件圖像生成的一般方法與用于此任務(wù)的更專業(yè)久妆、最先進(jìn)(state-of-the-art)的方法相比的效果。我們的評估遵循LaMa[88]的協(xié)議跷睦,LaMa是一種近期的修復(fù)模型筷弦,它引入了一種依賴于快速傅里葉卷積的特殊體系結(jié)構(gòu)[8]。第E.2.2節(jié)描述了Places[108]的確切訓(xùn)練和評估協(xié)議送讲。

我們首先分析第一階段不同設(shè)計選擇的影響奸笤。特別是惋啃,我們比較了LDM-1(即基于像素的條件DM)和LDM-4在KL和VQ正則化的修復(fù)效率,也比較了第一階段沒有任何注意力的VQLDM-4(見表8)监右,后者減少了高分辨率解碼的GPU內(nèi)存边灭。為了便于比較,我們確定了所有模型的參數(shù)數(shù)量健盒。表6報告了分辨率為256^2和512^2時的訓(xùn)練和采樣吞吐量绒瘦、總訓(xùn)練時間(小時/epoch)以及六個epoch后驗證集的FID得分】垩ⅲ總的來說惰帽,我們觀察到基于像素和基于latent的擴(kuò)散模型之間的加速至少為2.7倍,同時FID得分至少提高1.6倍父虑。

與表7中其他修復(fù)方法的比較表明该酗,我們的帶注意力的模型提高了FID測量的整體圖像質(zhì)量,超過了[88]士嚎。無拼接圖像和我們的樣本之間的LPIPS略高于[88]呜魄。我們將其歸因于,與LDM產(chǎn)生不同結(jié)果相比莱衩,[88]只產(chǎn)生了一個結(jié)果爵嗅,該結(jié)果傾向于恢復(fù)更多的平均圖像(recover more of an average image),請查閱圖21笨蚁。此外睹晒,在用戶研究(表4)中,人類受試者更喜歡我們的結(jié)果括细,而不是[88]的結(jié)果伪很。

編者注:recover more of an average image,從圖21看應(yīng)該是指[88]產(chǎn)生了更多的模糊結(jié)果

圖21.圖像修復(fù)的定性結(jié)果奋单。與[88]相反是掰,我們的生成方法能夠為給定輸入生成多個不同的樣本。

基于這些初始結(jié)果辱匿,我們也在VQ正則化第一階段的潛在空間中訓(xùn)練了一個更大的擴(kuò)散模型(表7中的big)键痛。繼[15]之后,該擴(kuò)散模型的UNet在其特征層次的三個級別上使用了注意層匾七,BigGAN[3]殘差塊用于上采樣和下采樣絮短,并且具有387M個參數(shù),而不是215M個參數(shù)昨忆。訓(xùn)練后丁频,我們注意到在256^2和512^2分辨率下產(chǎn)生的樣本質(zhì)量存在差異,我們假設(shè)這是由額外的注意模塊引起的。然而席里,在512^2分辨率微調(diào)半個epoch叔磷,使模型能夠適應(yīng)新的特征統(tǒng)計數(shù)據(jù),并為圖像修復(fù)設(shè)置了最新的FID(表7奖磁,圖11中的big改基,w/o attn,w/ft)咖为。

圖11:使用我們的big, w/ ft修復(fù)模型去除物體的定性結(jié)果秕狰。更多結(jié)果見圖22

5????限制和社會影響

限制????雖然與基于像素的方法相比,LDM大大降低了計算要求躁染,但其順序采樣過程仍然比GAN慢鸣哀。此外,當(dāng)需要高精度時吞彤,LDM的使用可能會有問題:盡管在我們的f=4自動編碼模型中圖像質(zhì)量損失很形页摹(見圖1),但它們的重建能力可能成為需要像素空間中細(xì)粒度精度的任務(wù)的瓶頸饰恕。我們假設(shè)我們的超分辨率模型(第4.4節(jié))在這方面已經(jīng)有一些限制低飒。

While LDMs significantly reduce computational requirements compared to pixel-based approaches, their sequential sampling process is still slower than that of GANs.Moreover, the use of LDMs can be questionable when high precision is required: although the loss of image quality is very small in our f=4 autoencoding models, their reconstruction capability can become a bottleneck for tasks that require fine-grained accuracy in pixel space.We assume that our superresolution models are already somewhat limited in this respect.

社會影響????媒體類圖像的生成模型是一把雙刃劍:一方面,它們可以實現(xiàn)各種創(chuàng)造性應(yīng)用懂盐,尤其是像我們這樣降低訓(xùn)練和推理成本的方法,有潛力促進(jìn)對這項技術(shù)的使用糕档,并使其探索普及化莉恼。另一方面,這也意味著更容易創(chuàng)建和傳播被操縱的數(shù)據(jù)或傳播錯誤信息和垃圾郵件速那。特別是俐银,在這種情況下,故意操縱圖像(“深度偽造”)是一個常見問題端仰,尤其是女性受到影響的比例過高[13捶惜,24]。

生成模型還可以揭示(reveal)其訓(xùn)練數(shù)據(jù)[5荔烧,90]吱七,當(dāng)數(shù)據(jù)包含敏感或個人信息且未經(jīng)明確同意而收集時,這一點非常令人擔(dān)憂鹤竭。然而踊餐,這一點在多大程度上也適用于圖像的DMs尚不完全清楚。

最后臀稚,深度學(xué)習(xí)模塊傾向于再現(xiàn)或加劇數(shù)據(jù)中已經(jīng)存在的偏見[22吝岭,38啊易,91]。雖然擴(kuò)散模型比基于GAN的方法能夠更好地覆蓋數(shù)據(jù)分布隅津,但我們的兩階段方法(結(jié)合對抗訓(xùn)練和基于似然的目標(biāo))在多大程度上歪曲了數(shù)據(jù)韧涨,這仍是一個重要的研究問題。關(guān)于深層生成模型的倫理考慮的更廣泛幕帆、更詳細(xì)的討論获搏,請參見例如[13]。

6????結(jié)論

我們提出了潛在擴(kuò)散模型蜓肆,這是一種簡單有效的方法颜凯,可以顯著提高去噪擴(kuò)散模型的訓(xùn)練和采樣效率,而不會降低其質(zhì)量仗扬≈⒏牛基于這一機(jī)制和我們的交叉注意調(diào)節(jié)機(jī)制(cross-attention conditioning mechanism),我們的實驗表明早芭,在各種條件圖像合成任務(wù)中彼城,與最先進(jìn)的方法相比顯示出良好的結(jié)果,即使沒有特定于任務(wù)的架構(gòu)退个。

附錄

A????更改日志

這里我們列出了此版本(https://arxiv.org/abs/2112.10752v2)論文和上一版本(https://arxiv.org/abs/2112.10752v1)之間的更改

?????我們在第4.3節(jié)中更新了文本到圖像合成的結(jié)果募壕,這些結(jié)果是通過訓(xùn)練一個新的、更大的模型(1.45B參數(shù))獲得的语盈。這還包括與最近在arXiv上發(fā)表的關(guān)于這項任務(wù)的競爭方法的新比較舱馅,這些方法與我們的工作發(fā)表的同時([59,109])或之后([26])發(fā)表在arXiv上。

?????我們更新了第4.1節(jié)表3(另見第D.4節(jié))中ImageNet上的類別條件合成結(jié)果刀荒,該結(jié)果是通過用更大的批量重新訓(xùn)練模型獲得的代嗤。圖26和圖27中相應(yīng)的定性結(jié)果也進(jìn)行了更新。更新的文本到圖像和類條件模型現(xiàn)在都使用無分類器指導(dǎo)[32]作為提高視覺逼真度的措施缠借。

?????我們進(jìn)行了一項用戶研究(遵循Saharia等人[72]提出的方案)干毅,為我們的修復(fù)(第4.5節(jié))和超分辨率模型(第4.4節(jié))提供了額外的評估。

?????將圖5添加到主文件中泼返,將圖18移動到附錄中硝逢,并將圖13添加到附錄中。

B????去噪擴(kuò)散模型的詳細(xì)信息

擴(kuò)散模型可以根據(jù)信噪比\text{SNR}(t)=\frac{\alpha_t^2}{\sigma_t^2}來指定绅喉,這個信噪比由序列(\alpha_t)_{t=1}^T(\sigma_t)_{t=1}^T組成渠鸽,從數(shù)據(jù)樣本x_0開始,將前向擴(kuò)散過程q定義為:

 q(x_t \vert x_0) =\mathcal{N}(x_t \vert \alpha_t x_0, \sigma_t^2 \mathbb{I})? ? (4)

with Markov結(jié)構(gòu) for s < t:

 q(x_t \vert x_s) = \mathcal{N}(x_t \vert \alpha_{t\vert s} x_s, \sigma_{t\vert s}^2 \mathbb{I})  ? ? (5)

\alpha_{t\vert s} = \frac{\alpha_t}{\alpha_s}? ? (6)

\sigma_{t\vert s}^2 = \sigma_t^2 - \alpha_{t\vert s}^2 \sigma_s^2? ? (7)

去噪擴(kuò)散模型是生成模型p(x_0)柴罐,它恢復(fù)(revert)這個過程拱绑,使用類似馬爾可夫結(jié)構(gòu),時間上反向運(yùn)行丽蝎,也就是猎拨,其被指定為:

 p(x_0) = \int_{z} p(x_T) \prod_{t=1}^T p(x_{t-1} \vert x_t)? ? (8)

然后膀藐,與該模型相關(guān)的證據(jù)下限(evidence lower bound,ELBO)在離散時間步長上分解為:

-\text{log} p(x_0) \leq  \mathbb{KL}(q(x_T \vert x_0) \vert p(x_T)) + \sum_{t=1}^T   \mathbb{E}_{q(x_t \vert x_0)} \mathbb{KL}(q(x_{t-1} \vert x_t, x_0) \vert p(x_{t-1} \vert x_t))

(9)

通常選擇先驗p(x_T)作為標(biāo)準(zhǔn)正態(tài)分布红省,然后ELBO的第一項僅取決于最終信噪比\text{SNR}(t)额各。為了最小化剩下的項,通常選擇參數(shù)化p(x_{t-1} \vert x_t)是根據(jù)真后驗q(x_{t-1} \vert x_t, x_0)吧恃,但未知x_0由基于當(dāng)前步驟x_t的估計x_\theta(x_t, t)代替虾啦。這給出了[45]

p(x_{t-1} \vert x_t) :=q(x_{t-1} \vert x_t, x_\theta(x_t, t)) ? ? (10)

= \mathcal{N}(x_{t-1} \vert \mu_\theta(x_t, t), \sigma_{t\vert t-1}^2  \frac{\sigma_{t-1}^2}{\sigma_t^2}\mathbb{I})? ? (11)

The prior p(xT ) is typically choosen as a standard normal distribution and the first term of the ELBO then depends only on the final signal-to-noise ratio SNR(T).To minimize the remaining terms, a common choice to parameterize p(xt?1|xt) is to specify it in terms of the true posterior q(xt?1|xt, x0) but with the unknown x0 replaced by an estimate xθ(xt, t) based on the current step xt. This gives [45]

其中平均值可以表示為:

 \mu_\theta(x_t, t) = \frac{\alpha_{t\vert t-1} \sigma_{t-1}^2}{\sigma_t^2}  x_t + \frac{\alpha_{t-1} \sigma_{t\vert t-1}^2}{\sigma_t^2} x_\theta(x_t, t)? ? (12)

在這種情況下,ELBO的求和簡化為:

\sum_{t=1}^T \mathbb{E}_{q(x_t \vert x_0)} \mathbb{KL}(q(x_{t-1} \vert x_t, x_0) \vert p(x_{t-1}) =

\sum_{t=1}^T \mathbb{E}_{\mathcal{N}(\epsilon \vert 0, \mathbb{I})} \frac{1}{2}(\text{SNR}(t-1) -  \text{SNR}(t)) \Vert x_0 - x_\theta(\alpha_t x_0 + \sigma_t \epsilon, t) \Vert^2? ? (13)

跟隨[30]痕寓,我們使用重參數(shù)化:

  \epsilon_\theta(x_t, t) = (x_t - \alpha_t x_\theta(x_t, t))/\sigma_t? ? (14)

將重建項表示為去噪目標(biāo):

  \Vert x_0 - x_\theta(\alpha_t x_0 + \sigma_t \epsilon, t) \Vert^2 =  \frac{\sigma_t^2}{\alpha_t^2} \Vert \epsilon - \epsilon_\theta(\alpha_t x_0 +  \sigma_t \epsilon, t) \Vert^2? ? (15)

并且重新加權(quán)傲醉,其為每個項分配相同的權(quán)重并得到等式(1)中的結(jié)果。

C????圖像引導(dǎo)機(jī)制

圖14.在景觀上呻率,無條件模型的卷積采樣可以導(dǎo)致均勻和不一致的全局結(jié)構(gòu)(見第2列)硬毕。具有低分辨率圖像的L2引導(dǎo)可以幫助重建相干全局結(jié)構(gòu)。Figure 14. On landscapes, convolutional sampling with unconditional models can lead to homogeneous and incoherent global structures(see column 2). L2-guiding with a low resolution image can help to reestablish coherent global structures.

擴(kuò)散模型的一個有趣的特點是礼仗,無條件模型可以在測試時進(jìn)行調(diào)節(jié)(conditioned)[15吐咳,82,85]元践。

特別是韭脊,[15]提出了一種算法,以引導(dǎo)在ImageNet數(shù)據(jù)集上訓(xùn)練的無條件和有條件模型单旁,該算法使用分類器\log p_{\Phi}(y\vert x_t)沪羔,在擴(kuò)散過程的每個x_t上訓(xùn)練。我們直接建立在這一公式的基礎(chǔ)上象浑,并引入post-hoc圖像引導(dǎo):

對于具有固定方差的epsilon參數(shù)化模型蔫饰,[15]中介紹的引導(dǎo)算法如下:

\hat{\epsilon} \leftarrow \epsilon_\theta(z_t, t) + \sqrt{1-\alpha_t^2}\; \nabla_{z_t} \log p_{\Phi}(y\vert z_t) \? ? (16)

這可以解釋為用條件分布\log p_{\Phi}(y\vert z_t)修正“分?jǐn)?shù)”\epsilon_\theta的更新。(This can be interpreted as an update correcting the “score” cθ with a conditional distribution log pΦ(y|zt).)

到目前為止融柬,這個場景只應(yīng)用于單類別分類模型。我們重新解釋引導(dǎo)分布p_{\Phi}(y\vert T(\mathcal{D}(z_0(z_t))))為給定目標(biāo)圖像y的通用圖像到圖像翻譯任務(wù)趋距,其中T可以是現(xiàn)成的圖像到圖像轉(zhuǎn)換任務(wù)采用的任何可微變換粒氧,例如恒等、下采樣操作或類似操作节腐。

例如外盯,我們可以假設(shè)具有固定方差\sigma^2=1的高斯引導(dǎo),這樣

log p_{\Phi}(y\vert z_t) = -\frac{1}{2}\Vert y- T(\mathcal{D}(z_0(z_t))) \Vert^2_2? ? ? ? (17)

成為L2回歸目標(biāo)翼雀。

圖14展示了該 formulation如何作為無條件模型的上采樣機(jī)制饱苟,模型在256^2的圖像上訓(xùn)練 ,其中256^2大小的無條件樣本引導(dǎo)512^2圖像的卷積合成狼渊,T是2×雙三次下采樣箱熬。根據(jù)這一動機(jī)类垦,我們還試驗了感知相似性指導(dǎo),并用LPIPS[106]度量代替L2目標(biāo)城须,見第4.4節(jié)蚤认。

D????附加結(jié)果

D.1????選擇高分辨率合成的信噪比

如第4.3.2節(jié)所述,潛在空間方差(即\text{Var(z)}/\sigma^2_t)引起的信噪比顯著影響卷積采樣的結(jié)果糕伐。例如砰琢,當(dāng)直接在KL正則化模型的潛在空間中訓(xùn)練LDM時(見表8),這個比率非常高良瞧,因此模型在反向去噪過程(reverse denoising process)的早期分配了大量語義細(xì)節(jié)陪汽。相反,當(dāng)按第G節(jié)所述的根據(jù)latents的元素級標(biāo)準(zhǔn)差重新縮放潛在空間時(rescaling the latent space by the component-wise standard deviation of the latents)褥蚯,SNR會降低挚冤。我們在圖15中說明了對語義圖像合成卷積采樣的影響。注意遵岩,VQ正則化空間的方差接近1你辣,因此不必重新縮放。

D.2????所有第一階段模型的完整列表

我們在表8中提供了在OpenImages數(shù)據(jù)集上訓(xùn)練的各種自動編碼模型的完整列表尘执。

(編者注:表8被挪到正文4.1節(jié))

D.3? ? 布局到圖像的合成

在這里舍哄,我們?yōu)榈?.3.1節(jié)中的布局到圖像模型提供了定量評估和額外樣本。我們在COCO[4]上訓(xùn)練了一個模型誊锭;我們還訓(xùn)練了另一個模型是在OpenImages[49]數(shù)據(jù)集上訓(xùn)練表悬,然后在COCO上進(jìn)一步微調(diào)。表9顯示了結(jié)果丧靡。當(dāng)遵循其訓(xùn)練和評估協(xié)議時蟆沫,我們的COCO模型在布局到圖像合成方面達(dá)到了最先進(jìn)模型的性能[89]。當(dāng)從OpenImages模型進(jìn)行微調(diào)時温治,我們超越了這些工作饭庞。我們的OpenImages模型在FID方面超過Jahn等人[37]的結(jié)果近11。在圖16中熬荆,我們顯示了在COCO上微調(diào)的模型的其他樣本舟山。

表9.我們的布局到圖像模型的定量比較,在COCO[4]和OpenImages[49]數(shù)據(jù)集上卤恳。?:在COCO上從頭訓(xùn)練累盗;*:從OpenImages微調(diào)。Table 9. Quantitative comparison of our layout-to-image models on the COCO [4] and OpenImages [49] datasets. ?: Training from scratch on COCO; *: Finetuning from OpenImages.

D.4????ImageNet上的類別條件圖像合成

表10包含在FID和感知得分(IS)中測量的類別條件LDM的結(jié)果突琳。LDM-8需要更少的參數(shù)和計算需求(見表18若债,在附錄F節(jié)中),以實現(xiàn)極具競爭力的性能拆融。與之前的工作類似蠢琳,我們可以通過在每個噪聲尺度上訓(xùn)練分類器并進(jìn)行引導(dǎo)來進(jìn)一步提高性能啊终,請參見第C節(jié)。與基于像素的方法不同挪凑,這種分類器在潛在空間中的訓(xùn)練成本非常低孕索。其他定性結(jié)果見圖26和圖27(見文末)。

D.5? ? 樣本質(zhì)量 vs. V100天(續(xù)第4.1節(jié))

為了評估第4.1節(jié)中訓(xùn)練過程中的樣本質(zhì)量躏碳,我們報告了FID和IS分?jǐn)?shù)作為訓(xùn)練步驟的函數(shù)搞旭。另一種可能是在V100天內(nèi)報告這些指標(biāo)。圖17中還提供了這種分析菇绵,顯示了定性相似(qualitatively similar)的結(jié)果肄渗。

D.6???? 超分辨率

為了提高LDM和像素空間擴(kuò)散模型的可比性,我們從表5出發(fā)擴(kuò)展了我們的分析咬最,比較相同步驟數(shù)訓(xùn)練的擴(kuò)散模型翎嫡,參數(shù)量和我們的LDM相當(dāng)。這種比較的結(jié)果顯示在表11的最后兩行中永乌,并表明LDM實現(xiàn)了更好的性能惑申,同時允許更快的采樣。圖20給出了定性比較翅雏,其中顯示了像素空間中LDM和擴(kuò)散模型的隨機(jī)樣本圈驼。

圖20.LDM-SR和基線像素空間擴(kuò)散模型之間兩個隨機(jī)樣本的定性超分辨率比較。在相同數(shù)量的訓(xùn)練步驟后望几,在imagenet驗證集上進(jìn)行評估绩脆。

D.6.1????LDM-BSR:通過多種圖像退化的通用SR模型?

General Purpose SR Model via Diverse Image Degradation

為了評估LDM-SR的通用性,我們將其應(yīng)用于來自類別條件ImageNet模型(第4.1節(jié))的合成LDM樣本和從互聯(lián)網(wǎng)抓取的圖像橄抹。有趣的是靴迫,我們觀察到LDM-SR(如[72]所示,僅使用雙三次下采樣條件訓(xùn)練)不能很好地推廣到不遵循此預(yù)處理的圖像楼誓。因此玉锌,為了獲得廣泛的真實世界圖像的超分辨率模型,該模型可能包含相機(jī)噪聲疟羹、壓縮偽影主守、模糊和插值的復(fù)雜疊加,我們用[105]中的退化流水線替換了LDM-SR中的雙三次下采樣操作阁猜。BSR退化過程是一個退化流水線丸逸,它以隨機(jī)順序?qū)PEG壓縮噪聲蹋艺、相機(jī)傳感器噪聲剃袍、用于下采樣的不同圖像插值、高斯模糊核和高斯噪聲應(yīng)用于圖像捎谨。我們發(fā)現(xiàn)民效,使用如[105]中的原始參數(shù)的BSR退化過程會導(dǎo)致非常強(qiáng)的退化過程憔维。由于更溫和的退化過程似乎適合我們的應(yīng)用程序,因此我們調(diào)整了BSR退化的參數(shù)(我們調(diào)整的降級過程可以在我們的代碼庫https://github.com/CompVis/platent diffusion中找到)畏邢。圖18通過直接比較LDM-SR和LDM-BSR說明了該方法的有效性业扒。后者生成的圖像比僅限于固定預(yù)處理的模型更清晰,使其適用于真實世界的應(yīng)用舒萎。在LSUN-cows上LDM-BSR的進(jìn)一步結(jié)果如圖19所示程储。

圖19.LDM-BSR泛化到任意輸入,并可用作通用上采樣器臂寝,將LSUN-Cows數(shù)據(jù)集的樣本上采樣到1024^2分辨率

E????實施細(xì)節(jié)和超級參數(shù)

E.1????超參數(shù)

我們在表12章鲤、表13、表14和表15中概述了所有訓(xùn)練LDM模型的超參數(shù)咆贬。

Table 12. Hyperparameters for the unconditional LDMs producing the numbers shown in Tab. 1. All models trained on a single NVIDIA A100.
Table 13. Hyperparameters for the conditional LDMs trained on the ImageNet dataset for the analysis in Sec. 4.1. All models trained on a single NVIDIA A100.
Table 14. Hyperparameters for the unconditional LDMs trained on the CelebA dataset for the analysis in Fig. 7. All models trained on a single NVIDIA A100. *: All models are trained for 500k iterations. If converging earlier, we used the best checkpoint for assessing the provided FID scores.
Table 15. Hyperparameters for the conditional LDMs from Sec. 4. All models trained on a single NVIDIA A100 except for the inpainting model which was trained on eight V100.

E.2????實施細(xì)節(jié)

E.2.1????條件LDM的τ_θ的實現(xiàn)

對于文本到圖像和布局到圖像(第4.3.1節(jié))合成的實驗败徊,我們將調(diào)節(jié)器(conditioner)τ_θ實現(xiàn)為無掩模transformer,它處理輸入y的tokenized版本掏缎,并產(chǎn)生輸出ζ:=τ_θ(y)皱蹦,其中ζ∈ \mathbb{R}^{M\times {d_τ}}

更具體地說眷蜈,transformer由N個transformer塊實現(xiàn)沪哺,該transformer塊由全局自注意層、層歸一化和逐位置MLP組成端蛆,如下:

原注:從這個adapted而來:https://github.com/lucidrains/x-transformers

ζ可用時凤粗,調(diào)節(jié)(conditioning)通過交叉注意機(jī)制映射到UNet中,如圖3所示今豆。我們修改了“ablated UNet”[15]架構(gòu)嫌拣,并用淺(無掩模)transformer替換自注意層,該transformer由T塊組成呆躲,交替為(i)自注意异逐,(ii)逐位置MLP和(iii)交叉注意層;見表16插掂。注意灰瞻,如果沒有(ii)和(iii),該架構(gòu)等同于“ablated?UNet”辅甥。

表16.第E.2.1節(jié)所述transformer塊的結(jié)構(gòu)酝润,取代了標(biāo)準(zhǔn)“ablated UNet”結(jié)構(gòu)[15]的自注意力層。這里璃弄,n_h表示注意力頭數(shù)要销,d表示每個注意頭的維度。

雖然可以通過額外調(diào)節(jié)時間步t來增加τ_θ的表示能力夏块,但我們不追求這種選擇疏咐,因為它降低了推斷速度纤掸。我們將對這一修改進(jìn)行更詳細(xì)的分析,留待以后的工作浑塞。

對于文本到圖像模型借跪,我們依賴于公開可用的tokenizer[99]。布局到圖像模型將邊框的空間位置離散化酌壕,并將每個框編碼為(l,b,c)元組掏愁,其中l表示(離散的)左上角位置,b表示右下角位置卵牍。關(guān)于τ_θ的超參數(shù)托猩,見表17;關(guān)于上述兩項任務(wù)的UNet超參數(shù)辽慕,參見表13京腥。

(原注:公開可用的tokenizer,https://huggingface.co/docs/transformers/model_doc/bert#berttokenizerfast)

注意溅蛉,第4.1節(jié)中描述的類別條件模型也是通過交叉注意層實現(xiàn)的公浪,其中τ_θ是維度為512的單個可學(xué)習(xí)嵌入層,將類別y映射到ζ∈ \mathbb{R}^{1\times 512}船侧。

表17欠气。第4.3節(jié)中transformer編碼器實驗的超參數(shù)。

E 2.2????圖像修復(fù)

對于第4.5節(jié)中的圖像修復(fù)實驗镜撩,我們使用代碼[88]生成合成掩模预柒。我們使用了一組固定的來自Places的2k個驗證和30k個測試樣本[108]。在訓(xùn)練期間袁梗,我們使用大小為256×256的隨機(jī)裁剪宜鸯,并對大小為512×512的裁剪進(jìn)行評估。這遵循[88]中的訓(xùn)練和測試協(xié)議遮怜,并復(fù)制其報告的指標(biāo)(見表7中的?)淋袖。我們在圖21中包括了LDM-4 w/attn的其他定性結(jié)果,在圖22中包括LDM-4 w/o attn锯梁,big即碗,w/ft的定性結(jié)果。

編者注:圖21在正文4.5節(jié)中陌凳。

圖22剥懒。如圖11所示,物體移除的更多定性結(jié)果合敦。

E.3????評估詳情

本節(jié)提供了第4節(jié)所示實驗評估的其他詳細(xì)信息初橘。

未完待續(xù)......


E.3.1 無條件和類別條件圖像合成的定量結(jié)果

我們遵循常規(guī)做法,并根據(jù)來自我們模型的50k個樣本和每個顯示數(shù)據(jù)集的整個訓(xùn)練集,估計用于計算表1和10中所示FID壁却、精度和召回分?jǐn)?shù)[29,50]的統(tǒng)計數(shù)據(jù)裸准。為了計算FID分?jǐn)?shù)展东,我們使用火炬保真度包[60]。然而炒俱,由于不同的數(shù)據(jù)處理管道可能導(dǎo)致不同的結(jié)果[64]盐肃,我們還使用Dhariwal和Nichol提供的腳本評估了我們的模型[15]。我們發(fā)現(xiàn)权悟,除ImageNet和LSUN Bedrooms數(shù)據(jù)集外砸王,結(jié)果基本一致,我們注意到分?jǐn)?shù)略有不同峦阁,分別為7.76(火炬保真度)和7.77(Nichol和Dhariwal)以及2.95和3.0谦铃。對于未來,我們強(qiáng)調(diào)統(tǒng)一的樣品質(zhì)量評估程序的重要性榔昔。精度和召回率也通過使用Nichol和Dhariwal提供的腳本進(jìn)行計算驹闰。

E、 3.2文本到圖像合成

根據(jù)[66]的評估協(xié)議撒会,我們通過將生成的樣本與MS-COCO數(shù)據(jù)集驗證集的30000個樣本進(jìn)行比較嘹朗,計算表2中文本到圖像模型的FID和初始得分[51]。FID和初始得分采用火炬保真度計算诵肛。

E屹培、 3.3圖像合成布局

為了評估COCO數(shù)據(jù)集表9中我們的布局到圖像模型的樣本質(zhì)量,我們遵循常見做法[37怔檩,87褪秀,89],并計算COCO分割挑戰(zhàn)分割的2048個未分段示例的FID分?jǐn)?shù)薛训。為了獲得更好的可比性溜歪,我們使用了與[37]中完全相同的樣本。對于OpenImages數(shù)據(jù)集许蓖,我們同樣遵循他們的協(xié)議蝴猪,并使用驗證集中2048個中心裁剪的測試圖像。

E膊爪、 3.4超分辨率

我們按照[72]中建議的管道在ImageNet上評估超分辨率模型自阱,即去除尺寸小于256像素的圖像(用于訓(xùn)練和評估)。在ImageNet上米酬,使用具有抗鋸齒的雙三次插值生成低分辨率圖像沛豌。FID使用火炬保真度進(jìn)行評估[60],我們在驗證分割上制作樣本。對于FID分?jǐn)?shù)加派,我們還將其與列車分割計算的參考特征進(jìn)行了比較叫确,見表5和表11。

E芍锦、 3.5效率分析

出于效率原因竹勉,我們基于5k個樣本計算了圖6、17和7中繪制的樣本質(zhì)量度量娄琉。因此次乓,結(jié)果可能與表1和表10中所示的結(jié)果不同。所有模型都具有表13和表14中提供的可比數(shù)量的參數(shù)孽水。我們最大化了各個模型的學(xué)習(xí)率票腰,使它們?nèi)匀环€(wěn)定地訓(xùn)練。因此女气,不同跑步之間的學(xué)習(xí)率略有不同cf杏慰。表13和14。

E炼鞠、 3.6用戶研究

對于表4中所示的用戶研究結(jié)果逃默,我們遵循[72]的協(xié)議,并使用2種替代力選擇范式來評估兩種不同任務(wù)的人類偏好得分簇搅。在任務(wù)1中完域,受試者被顯示在相應(yīng)的地面真相高分辨率/無掩模版本和合成圖像之間的低分辨率/掩模圖像,合成圖像通過使用中間圖像作為條件生成瘩将。對于超分辨率吟税,受試者被問及:“兩幅圖像中哪一幅是中間低分辨率圖像的高質(zhì)量版本?”姿现。對于Inpainting肠仪,我們問“這兩幅圖像中哪一幅包含了圖像中間更逼真的修復(fù)區(qū)域?”备典。在任務(wù)2中异旧,人類同樣被展示了低分辨率/蒙面版本,并被要求在兩種競爭方法生成的兩個對應(yīng)圖像之間進(jìn)行偏好選擇提佣。在[72]中吮蛹,人類在做出反應(yīng)之前觀看了3秒鐘的圖像

F、 計算要求

在表18中拌屏,我們對我們使用的計算資源進(jìn)行了更詳細(xì)的分析潮针,并使用提供的數(shù)字將CelebA HQ、FFHQ倚喂、LSUN和ImageNet數(shù)據(jù)集上的最佳性能模型與最新的最先進(jìn)模型進(jìn)行比較每篷,cf。[15]。由于他們在V100天內(nèi)報告了他們使用的計算焦读,并且我們在單個NVIDIA A100 GPU上訓(xùn)練了所有模型子库,因此我們假設(shè)A100與V100的速度比為2.2倍,從而將A100天轉(zhuǎn)換為V100天[74]4矗晃。為了評估樣本質(zhì)量仑嗅,我們還報告了報告數(shù)據(jù)集上的FID分?jǐn)?shù)。我們接近StyleGAN2[42]和ADM[15]等最先進(jìn)方法的性能喧兄,同時顯著減少了所需的計算資源

G、 自動編碼器型號詳情

我們在[23]之后以對抗的方式訓(xùn)練我們的所有自動編碼器模型啊楚,使得基于補(bǔ)丁的鑒別器Dψ被優(yōu)化以區(qū)分原始圖像和重建D(E(x))吠冤。為了避免任意縮放的潛在空間,我們將潛在z正則化為零中心恭理,并通過引入正則化損失項Lreg來獲得小方差拯辙。我們研究了兩種不同的正則化方法:(i)在標(biāo)準(zhǔn)變分自動編碼器[46,69]中颜价,qE(z|x)=N(z涯保;Eμ,Eσ2)和標(biāo)準(zhǔn)正態(tài)分布N(z周伦,0夕春,1)之間的低權(quán)重Kullback-Leibler項,以及(ii)通過學(xué)習(xí)|z|不同示例的碼本专挪,用矢量量化層正則化潛在空間[96]及志。為了獲得高保真度重建,我們只對這兩種場景使用非常小的正則化寨腔,即我們通過因子對KL項進(jìn)行加權(quán)~ 10?6或選擇高碼本維度|Z|速侈。訓(xùn)練自動編碼模型(E,D)的完整目標(biāo)如下:

潛在空間中的DM培訓(xùn)

注意迫卢,對于學(xué)習(xí)的潛在空間上的訓(xùn)練擴(kuò)散模型倚搬,我們再次區(qū)分了學(xué)習(xí)p(z)或p(z|y)時的兩種情況(第4.3節(jié)):(i)對于KL正則化的潛在空間,我們采樣z=Eμ(x)+Eσ(x)·ε=:E(x)乾蛤,其中ε~ N(0每界,1)。當(dāng)重新縮放潛在值時,我們估計分量方差

從數(shù)據(jù)中的第一批數(shù)據(jù)中,其中μ=1 bchw P b此虑,c跷跪,h,w z b澡屡,c贱纠、h耳峦,w伊佃。對E的輸出進(jìn)行縮放窜司,使得重新縮放的潛像具有單位標(biāo)準(zhǔn)偏差,即z← 對于VQ正則化潛空間航揉,我們在量化層之前提取z塞祈,并將量化操作吸收到解碼器中,即它可以被解釋為D的第一層帅涂。

H议薪、 其他定性結(jié)果

最后,我們?yōu)榫坝^模型(圖12媳友、23斯议、24和25)、類條件ImageNet模型(圖26-27)和CelebA HQ醇锚、FFHQ和LSUN數(shù)據(jù)集的無條件模型(圖28-31)提供了額外的定性結(jié)果哼御。與第4.5節(jié)中的修復(fù)模型類似,我們還直接在5122張圖像上微調(diào)了第4.3.2節(jié)中的語義景觀模型焊唬,并在圖12和圖23中描述了定性結(jié)果恋昼。對于在相對較小的數(shù)據(jù)集上訓(xùn)練的那些模型,我們還顯示了VGG[79]特征空間中的最近鄰居赶促,用于圖32-34中我們模型的樣本液肌。



同一倉庫的另一篇論文

Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models

https://arxiv.org/abs/2207.13038 (只有幾頁,而且大部分都是配圖)

基于檢索增強(qiáng)擴(kuò)散模型的藝術(shù)圖像文本引導(dǎo)合成

相關(guān)中譯:http://www.reibang.com/p/1008149f01e8

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末鸥滨,一起剝皮案震驚了整個濱河市矩屁,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌爵赵,老刑警劉巖吝秕,帶你破解...
    沈念sama閱讀 222,252評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異空幻,居然都是意外死亡烁峭,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,886評論 3 399
  • 文/潘曉璐 我一進(jìn)店門秕铛,熙熙樓的掌柜王于貴愁眉苦臉地迎上來约郁,“玉大人,你說我怎么就攤上這事但两△廾罚” “怎么了?”我有些...
    開封第一講書人閱讀 168,814評論 0 361
  • 文/不壞的土叔 我叫張陵谨湘,是天一觀的道長绽快。 經(jīng)常有香客問我芥丧,道長,這世上最難降的妖魔是什么坊罢? 我笑而不...
    開封第一講書人閱讀 59,869評論 1 299
  • 正文 為了忘掉前任续担,我火速辦了婚禮,結(jié)果婚禮上活孩,老公的妹妹穿的比我還像新娘物遇。我一直安慰自己,他們只是感情好憾儒,可當(dāng)我...
    茶點故事閱讀 68,888評論 6 398
  • 文/花漫 我一把揭開白布询兴。 她就那樣靜靜地躺著,像睡著了一般起趾。 火紅的嫁衣襯著肌膚如雪诗舰。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,475評論 1 312
  • 那天阳掐,我揣著相機(jī)與錄音始衅,去河邊找鬼冷蚂。 笑死缭保,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的蝙茶。 我是一名探鬼主播艺骂,決...
    沈念sama閱讀 41,010評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼隆夯!你這毒婦竟也來了钳恕?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,924評論 0 277
  • 序言:老撾萬榮一對情侶失蹤蹄衷,失蹤者是張志新(化名)和其女友劉穎忧额,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體愧口,經(jīng)...
    沈念sama閱讀 46,469評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡睦番,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,552評論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了耍属。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片托嚣。...
    茶點故事閱讀 40,680評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖厚骗,靈堂內(nèi)的尸體忽然破棺而出示启,到底是詐尸還是另有隱情,我是刑警寧澤领舰,帶...
    沈念sama閱讀 36,362評論 5 351
  • 正文 年R本政府宣布夫嗓,位于F島的核電站迟螺,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏啤月。R本人自食惡果不足惜煮仇,卻給世界環(huán)境...
    茶點故事閱讀 42,037評論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望谎仲。 院中可真熱鬧浙垫,春花似錦、人聲如沸郑诺。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,519評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽辙诞。三九已至辙售,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間飞涂,已是汗流浹背旦部。 一陣腳步聲響...
    開封第一講書人閱讀 33,621評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留较店,地道東北人士八。 一個月前我還...
    沈念sama閱讀 49,099評論 3 378
  • 正文 我出身青樓,卻偏偏與公主長得像梁呈,于是被迫代替她去往敵國和親婚度。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,691評論 2 361

推薦閱讀更多精彩內(nèi)容