上周重要論文摘要 2023-04-03

釋義可以避開 AI 生成文本檢測器回季，但檢索是一種有效的防御策略

https://arxiv.org/pdf/2303.13408.pdf

摘要

為了檢測針對惡意使用大型語言模型（例如腔呜，虛假內(nèi)容創(chuàng)建或?qū)W術(shù)剽竊），最近提出了幾種方法通過水印或統(tǒng)計違規(guī)行為識別 AI 生成的文本。這些檢測算法對 AI 生成文本的檢測有多穩(wěn)叫锸А？為了對這些檢測器進(jìn)行壓力測試，我們首先訓(xùn)練一個 11B 參數(shù)釋義生成模型 (DIPPER)心赶，該模型可以釋義段落，可選擇利用周圍的文本（例如缺猛，用戶編寫的提示）作為上下文缨叫。 DIPPER 還使用標(biāo)量旋鈕來控制釋義中詞匯多樣性和重新排序的數(shù)量。三種大型語言模型（包括 GPT3.5-davinci-003）使用 DIPPER 生成的釋義文本成功逃避了多種檢測器荔燎，包括水印耻姥、GPTZero、DetectGPT 和 OpenAI 的文本分類器有咨。例如琐簇，DIPPER 將 DetectGPT 的檢測精度從 70.3% 降低到 4.6%（以 1% 的恒定誤報率），而沒有明顯修改輸入語義座享。

精選圖片

Figure 1: An overview of paraphrasing attacks with DIPPER on watermarked text (Kirchenbauer et al., 2023). Theoriginal model generation (top) contains several “green” watermarked tokens that are counted by a detector tojudge whether the text was written by an AI. After paraphrasing, several of these green tokens are replaced withapproximately semantically-equivalent red tokens, thereby fooling the detector (actual outputs from a watermarkedversion of GPT2-XL and our paraphraser DIPPER shown).

Figure 2: An illustration of the method used to train DIPPER on English translations of the French novel The Nun. We first align sentences between the two translations to create parallel data. Next, a subset of the alignments are chosen; in this example, we use (p2, q2) and (p3, q3q4). We shuffle sentences, compute control codes, and finally fine-tune a T5-XXL LM to generate p2p3 given q3q4q2 and the context p1 and p4.

結(jié)論

我們提出了 DIPPER婉商，這是一種文本釋義生成模型，可以重寫多個文本句子渣叛，并可以選擇利用周圍的上下文丈秩。我們使用 DIPPER 對當(dāng)前 AI 生成的原始文本進(jìn)行壓力測試。我們發(fā)現(xiàn) DIPPER 釋義很容易避開這些檢測器淳衙，同時大致保留輸入語義蘑秽。為了抵御這種釋義攻擊，我們提出了一種簡單的基于檢索的機(jī)制箫攀，在該機(jī)制中肠牲，我們從 LLM API 中搜索預(yù)先生成的序列的語料庫，以獲得與給定查詢語義相似的內(nèi)容靴跛。我們的實(shí)驗(yàn)表明缀雳，這種檢索防御在釋義文本上明顯優(yōu)于基線檢測器，并且在大規(guī)模數(shù)據(jù)上是有效的汤求。我們也討論了我們防御的可能局限性俏险，并且我們開源了我們預(yù)訓(xùn)練的模型、代碼和數(shù)據(jù)扬绪，以使研究社區(qū)能夠在這些想法的基礎(chǔ)上進(jìn)行構(gòu)建新的研究竖独。

Make-It-3D: 使用Diffusion Prior從單個圖像創(chuàng)建高保真 3D 對象

https://arxiv.org/pdf/2303.14184.pdf

摘要

在這項工作中，我們研究了僅從單個圖像創(chuàng)建高保真 3D 內(nèi)容的問題挤牛。這本身就具有挑戰(zhàn)性：它本質(zhì)上涉及估計底層 3D 幾何體莹痢，同時產(chǎn)生看不見的紋理。為了應(yīng)對這一挑戰(zhàn)，我們利用來自訓(xùn)練有素的 2D 擴(kuò)散模型的先驗(yàn)知識來充當(dāng) 3D 創(chuàng)作的 3D 感知監(jiān)督竞膳。我們的方法 Make-It-3D 采用兩階段優(yōu)化管道：第一階段通過在正面視圖中結(jié)合來自參考圖像的約束和在新視圖中的擴(kuò)散先驗(yàn)來優(yōu)化神經(jīng)輻射場航瞭；第二階段將粗糙模型轉(zhuǎn)換為帶紋理的點(diǎn)云，并在利用參考圖像的高質(zhì)量紋理的同時進(jìn)一步提升擴(kuò)散先驗(yàn)的真實(shí)感坦辟。大量實(shí)驗(yàn)表明刊侯，我們的方法大大優(yōu)于之前的工作，有著令人印象深刻的視覺質(zhì)量锉走。我們的方法首次嘗試從單個圖像為一般對象實(shí)現(xiàn)高質(zhì)量 3D 創(chuàng)建滨彻，并支持各種應(yīng)用程序，例如文本到 3D 創(chuàng)建和紋理編輯挪蹭。

精選圖片

Figure 1: Make-It-3D can create high-fidelity 3D content from only a single image. We show the normal map and novel-viewrenderings of created 3D content, showcasing fine geometry and faithful textures with stunning quality at novel views.

Figure 2: Overview architecture. We propose a two-stage framework for creating a high-quality 3D model from a referenceimage with diffusion prior (Sec. 3.1). At the coarse stage, we optimize a NeRF for reconstructing the geometry of thereference image (Sec. 3.2). We further build textured point clouds from NeRF and the reference image, and jointly optimizethe texture of invisible points and a learnable deferred renderer to generate realistic and view-consistent textures (Sec. 3.3).

Figure 4: 360? object reconstruction from real images

結(jié)論

我們介紹了 Make-It-3D亭饵，這是一種新穎的兩階段方法，用于從單個圖像創(chuàng)建高保真 3D 內(nèi)容梁厉。利用擴(kuò)散先驗(yàn)作為 3D 感知監(jiān)督辜羊，生成的 3D 模型展示了高保真的幾何形狀和逼真的紋理，具有擴(kuò)散 CLIP 損失和紋理點(diǎn)云增強(qiáng)词顾。 Make-It-3D 適用于一般物體八秃，賦予多種有趣的應(yīng)用程序。我們相信我們的方法在將 2D 內(nèi)容創(chuàng)建的成功擴(kuò)展到 3D 方面邁出了一大步计技，為用戶提供了全新的 3D 創(chuàng)作體驗(yàn)喜德。

ChatGPT 在文本注釋任務(wù)方面優(yōu)于人類工作者

https://arxiv.org/pdf/2303.15056.pdf

摘要

許多 NLP 應(yīng)用程序需要對各種任務(wù)進(jìn)行手動數(shù)據(jù)注釋，特別是訓(xùn)練分類器或評估無監(jiān)督模型的性能垮媒。根據(jù)規(guī)模和復(fù)雜程度，這些任務(wù)可能由人們在 MTurk 等平臺上進(jìn)行航棱，也會用到訓(xùn)練有素的注釋者睡雇，例如研究助理。使用包含 2,382 條推文的樣本饮醇，我們證明 ChatGPT 在多項注釋任務(wù)（包括相關(guān)性它抱、立場、主題和框架檢測）方面優(yōu)于眾包工作者朴艰。具體來說观蓄，ChatGPT 的零樣本準(zhǔn)確率在80%的任務(wù)中超過了眾包工作者，而 ChatGPT 的intercode agreement在所有任務(wù)上都超過了眾包工作者和訓(xùn)練有素的注釋者祠墅。此外侮穿，ChatGPT 的每次注釋成本低于0.003 美元——大約比 MTurk 便宜 20 倍。這些結(jié)果顯示了大型語言模型在顯著提高文本分類效率方面的潛力毁嗦。

精選圖片

Figure 1: ChatGPT zero-shot text annotation performance, compared to MTurk andtrained annotators. ChatGPT’s accuracy outperforms that of MTurk for four of the fivetasks. ChatGPT’s intercoder agreement outperforms that of both MTurk and trained annotators in all tasks. Accuracy means agreement with the trained annotators.

結(jié)論

本文展示了 LLM 為許多研究項目常見的各種任務(wù)轉(zhuǎn)換文本注釋程序的潛力亲茅。盡管專注于單個數(shù)據(jù)集且測試數(shù)量相對有限，但有證據(jù)表明，與 MTurk 等平臺上的人類注釋相比克锣，LLM 可能已經(jīng)是一種更好的方法茵肃。至少，這些發(fā)現(xiàn)證明了更深入地研究 LLM 的文本注釋屬性和功能的重要性袭祟。以下問題和步驟似乎特別有前途：(i) ChatGPT 跨多種語言的性能验残； (ii) ChatGPT 在多種文本類型（社交媒體、新聞媒體巾乳、立法您没、演講等）中的表現(xiàn)； (iii) 與 BERT 和 RoBERTa 等微調(diào)模型相比想鹰，在 ChatGPT 上實(shí)施少樣本學(xué)習(xí)紊婉； (iv) 構(gòu)建半自動化數(shù)據(jù)標(biāo)簽系統(tǒng)，其中模型首先通過觀察人類注釋進(jìn)行學(xué)習(xí)辑舷，然后用于推薦甚至自動化標(biāo)簽（Desmond 等人喻犁，2021）； (v) 使用思維鏈提示和其他策略來提高零樣本推理的性能 (Kojima et al., 2022)何缓； (vi) 只要可用性允許肢础，就可以使用 GPT-4 實(shí)施注釋任務(wù)。

EVA-CLIP: 大規(guī)模改進(jìn) CLIP 訓(xùn)練技術(shù)

https://arxiv.org/pdf/2303.15389.pdf

摘要

Contrastive language-image pre-training, CLIP for short,has gained increasing attention for its potential in variousscenarios. In this paper, we propose EVA-CLIP, a seriesof models that significantly improve the efficiency and effectiveness of CLIP training. Our approach incorporates newtechniques for representation learning, optimization, andaugmentation, enabling EVA-CLIP to achieve superior performance compared to previous CLIP models with the samenumber of parameters but significantly smaller training costs.Notably, our largest 5.0B-parameter EVA-02-CLIP-E/14+with only 9 billion seen samples achieves 82.0% zero-shottop-1 accuracy on ImageNet-1K val. A smaller EVA-02-CLIP-L/14+ with only 430 million parameters and 6 billionseen samples achieves 80.4% zero-shot top-1 accuracy onImageNet-1K val. To facilitate open access and open research, we release the complete suite of EVA-CLIP to thecommunity.

Contrastive language-image pre-training碌廓，簡稱CLIP传轰，因其在各種場景中的潛力而受到越來越多的關(guān)注。在本文中谷婆，我們提出了 EVA-CLIP慨蛙，這是一系列顯著提高 CLIP 訓(xùn)練效率和有效性的模型。我們的方法結(jié)合了用于表示學(xué)習(xí)纪挎、優(yōu)化和增強(qiáng)的新技術(shù)期贫，使 EVA-CLIP 能夠在參數(shù)數(shù)量相同但訓(xùn)練成本顯著降低的情況下實(shí)現(xiàn)優(yōu)于先前 CLIP 模型的性能。值得注意的是异袄，我們最大的 5.0B 參數(shù) EVA-02-CLIP- E/14+ 只有 90 億個可見樣本通砍，在 ImageNet-1K val 上達(dá)到 82.0% zero-shottop-1 精度。較小的 EVA-02-CLIP-L/14+ 只有 4.3 億個參數(shù)和 6 億個樣本烤蜕，在 ImageNet-1K val 上實(shí)現(xiàn)了 80.4% 的零樣本 top-1 精度封孙。為了促進(jìn)開放獲取和開放研究，我們向社區(qū)發(fā)布了完整的 EVA-CLIP 套件讽营。

精選圖片

Figure 1: Summary of CLIP models’ ImageNet-1K zero-shotclassification performance. The diameter of each circle corresponds to forward GFLOPs x the number of training samples.

Table 6: Training time and GPU memory. Training on 16NVIDIA 40G-A100 GPUs with the DeepSpeed [43] ZeRO stage-1optimizer [40] and gradient checkpointing [10]. The batch size is32k.

結(jié)論

在表 6 中（上圖）虎忌，我們展示了我們實(shí)現(xiàn)的內(nèi)存和時間成本。如圖所示斑匪，masking50% 的圖像標(biāo)記可以將訓(xùn)練時間加快 2 倍呐籽，使用 flash attention 可以額外減少 15% 的訓(xùn)練時間锋勺。使用所有這些技術(shù)，我們可以用比其他對應(yīng) CLIP 模型更低的預(yù)算來訓(xùn)練 EVA-CLIP狡蝶。例如庶橱，EVA-CLIP-B/16 可以使用 16 個 NVIDIA40GB-A100 GPU 以 32k 的批量大小進(jìn)行訓(xùn)練，并在 300 小時內(nèi)收斂贪惹。同樣苏章，十億規(guī)模的 EVA CLIPg/14 可以在 65k 的批量大小上進(jìn)行訓(xùn)練，使用 64 個 NVIDIA40G-A100 GPU 訓(xùn)練 12B 個樣本需要不到 25 天的時間奏瞬。這些結(jié)果證明了我們的方法在實(shí)現(xiàn)最先進(jìn)結(jié)果同時保持訓(xùn)練時間和 GPU 內(nèi)存利用率之間的最佳平衡方面的可擴(kuò)展性和有效性枫绅。

Text-to-Image Diffusion Models 是零樣本分類器

https://arxiv.org/pdf/2303.15233.pdf

摘要

文本到圖像擴(kuò)散模型的出色生成能力表明它們可以學(xué)習(xí)圖像文本數(shù)據(jù)的信息表示。然而硼端，它們的表示捕獲了哪些知識還沒有被人們完全理解并淋，并且它們還沒有在下游任務(wù)中得到徹底的探索。我們通過提出一種將它們評估為零樣本分類器的方法來研究擴(kuò)散模型珍昨。關(guān)鍵思想是使用擴(kuò)散模型的能力來給有噪聲的圖像降噪县耽，給定標(biāo)簽的文本描述作為該標(biāo)簽可能性的代理。我們將我們的方法應(yīng)用于 Imagen镣典，用它來探測 Imagen 知識的細(xì)粒度值兔毙，并將其與 CLIP 的零樣本能力進(jìn)行比較。 Imagen 在廣泛的零鏡頭圖像分類數(shù)據(jù)集上與 CLIP 相比具有競爭力兄春。此外澎剥，它在形狀/紋理偏差測試上實(shí)現(xiàn)了最先進(jìn)的結(jié)果，并且可以成功執(zhí)行屬性綁定赶舆，而 CLIP 則不能哑姚。盡管生成預(yù)訓(xùn)練在 NLP 中很普遍，但視覺基礎(chǔ)模型通常使用其他方法芜茵，例如對比學(xué)習(xí)蜻懦。根據(jù)我們的發(fā)現(xiàn)，我們認(rèn)為應(yīng)該探索生成式預(yù)訓(xùn)練作為解決視覺和視覺語言問題的令人信服的替代方案夕晓。

精選圖片

Figure 1. Zero-Shot Classification using Imagen. We first calculate scores for each label prompt across multiple time-steps to generatea scores matrix. We then classify an image by aggregating the scores for each class using a weighting function over the time-steps. Theimage is assigned the class with the minimum aggregate score. In Section 3.1, we discuss how efficiency can be improved only computinga subset of the full scores matrix.

Figure 2. Comparison of efficiency improvements on CIFAR-100.Shared noise improves sample efficiency by roughly 100x andpruning by an additional 8-10x.

Figure 3. Examples of the synthetic-data attribute binding tasks. We explored more sophisticated prompts than in the figure (e.g., “Ablender rendering of two objects, one of which is a yellow sphere.”), but they didn’t substantially change results.

結(jié)論

我們提出了一種方法，使擴(kuò)散模型可以用作零樣本分類器悠咱，并開發(fā)了大大提高其效率以使其可用的方法蒸辆。我們使用 Imagen 進(jìn)行的實(shí)驗(yàn)在圖像分類方面展示了強(qiáng)大的結(jié)果。此外析既，我們展示了 Imagen 對于誤導(dǎo)性紋理非常穩(wěn)健躬贡，在 Stylized Imagenet 上實(shí)現(xiàn)了最先進(jìn)的結(jié)果。雖然現(xiàn)有的擴(kuò)散模型分析通常定性研究生成的圖像眼坏，但我們的框架提供了一種通過在受控分類任務(wù)上評估文本到圖像生成模型來定量評估文本到圖像生成模型的方法拂玻。我們通過對屬性綁定的研究展示了這一點(diǎn)。我們發(fā)現(xiàn) Imagen 有時能夠綁定屬性，而 CLIP 似乎沒有這種能力檐蚜。我們希望我們的發(fā)現(xiàn)能夠激發(fā)未來的工作魄懂，將文本到圖像擴(kuò)散模型用作生成以外任務(wù)的基礎(chǔ)模型。一個方向是微調(diào)下游任務(wù)的擴(kuò)散模型闯第；鑒于 Imagen 強(qiáng)大的零樣本性能市栗，下一步自然是在進(jìn)一步監(jiān)督訓(xùn)練后對其進(jìn)行評估。

事實(shí)上咳短，Brempong 等人（2022）已經(jīng)探索了一個相關(guān)的想法填帽，發(fā)現(xiàn)去噪預(yù)訓(xùn)練可以改進(jìn)語義分割模型。我們注意到我們在這項工作中與 CLIP 的主要比較并不直接咙好，因?yàn)槟Ｐ图軜?gòu)篡腌、參數(shù)計數(shù)和訓(xùn)練數(shù)據(jù)不同。隨著模型變得更大勾效，一個關(guān)鍵問題是對比預(yù)訓(xùn)練與生成預(yù)訓(xùn)練的縮放定律（Hestnesset al., 2017; Kaplan et al., 2020）如何比較嘹悼，我們將其留作未來工作的問題。我們也有興趣將我們的分析應(yīng)用于其他擴(kuò)散模型葵第，以表明我們的結(jié)果并非特定于 Imagen绘迁。為此，我們目前正在努力將我們的方法應(yīng)用于穩(wěn)定擴(kuò)散 (Rombach et al., 2022)卒密。此外缀台，我們也有興趣將我們的分析應(yīng)用于其他生成模型，并研究與擴(kuò)散預(yù)訓(xùn)練相比哮奇，我們的結(jié)果在多大程度上是生成預(yù)訓(xùn)練的結(jié)果膛腐。最終，我們的方法不會產(chǎn)生實(shí)用的分類器鼎俘，因?yàn)樗枰罅康脑诮o許多類型打分時計算哲身。相反，我們看到這項工作的主要價值更多地揭示了大型預(yù)訓(xùn)練擴(kuò)散模型的能力贸伐。我們的結(jié)果表明勘天，生成預(yù)訓(xùn)練可能是文本圖像自監(jiān)督學(xué)習(xí)對比預(yù)訓(xùn)練的有用替代方案。

StyleDiffusion: 基于文本的 Prompt-Embedding Inversion

https://arxiv.org/pdf/2303.15649.pdf

摘要

當(dāng)前一項重要的研究工作集中在利用預(yù)訓(xùn)練擴(kuò)散模型的驚人能力來編輯圖像捉邢。這些工作要么微調(diào)模型脯丝，要么在預(yù)訓(xùn)練模型的潛在空間中反轉(zhuǎn)圖像。但是伏伐，他們也遇到兩個問題：（1）選定區(qū)域的結(jié)果不令人滿意宠进，以及非選定區(qū)域的意外變化。 (2) 它們需要仔細(xì)的文本提示編輯藐翎，其中提示應(yīng)包括輸入圖像中的所有可視對象材蹬。為了解決這個問題实幕，我們提出了兩項改進(jìn)：（1）僅優(yōu)化交叉注意力層中價值線性網(wǎng)絡(luò)的輸入，就足以重建真實(shí)圖像堤器。 (2) 我們提出注意正則化以在編輯后保留類似對象的注意圖昆庇，使我們能夠在不調(diào)用重大結(jié)構(gòu)更改的情況下獲得準(zhǔn)確的樣式編輯。我們進(jìn)一步改進(jìn)了用于無分類器指導(dǎo)的無條件分支的編輯技術(shù)吼旧，以及 P2P [15] 使用的條件分支凰锡。對各種圖像進(jìn)行廣泛的實(shí)驗(yàn)提示編輯結(jié)果，定性和定量地證明我們的方法具有比現(xiàn)有和并行工作更優(yōu)越的編輯能力圈暗。

精選圖片

Figure 1: Our method takes as input a real image (leftmost column) and an associated caption. We have more accurateediting capability than Null-text inversion [26]. We manipulate the inverted image using the editing technique P2P [15].

Figure 4: Overview of the proposed method. (a) DDIM inversion: the diffusion process is performed to generate the latentrepresentations: (?zt, ?at)(t = 1, ..., T), where ?z0 is set to be the encoding of the input real image x0. c0 is the extractedtextual embedding by a Clip-text Encoder with a given prompt. (b) The proposed method: we take the input image x0 asinput, and extract the textual embedding ct?1 = Mt?1 (x0), which is used to generate the value matrix v with the linearnetwork ΨV . We freeze the input of the linear network ΨK with the given textual embedding c0.

結(jié)論

我們提出了一種真實(shí)圖像編輯的新方法掂为。我們將真實(shí)圖像轉(zhuǎn)換為交叉注意力層中價值線性映射網(wǎng)絡(luò)的輸入，并使用用戶提供的文本嵌入凍結(jié)關(guān)鍵線性映射網(wǎng)絡(luò)的輸入员串。這允許學(xué)習(xí)初始注意力圖和重建真實(shí)圖像的近似軌跡勇哗。我們引入了一種新的注意力正則化來保留編輯后的注意力圖，使我們能夠獲得更準(zhǔn)確的編輯能力寸齐。此外欲诺，我們在無分類器擴(kuò)散模型的無條件分支中提出了注意注入，進(jìn)一步提高了編輯能力渺鹦，尤其是當(dāng)源和目標(biāo)提示都有較大的域偏移時扰法。雖然 StyleDiffusion 成功地修改了真實(shí)圖像，但它仍然存在一些局限性毅厚。當(dāng)真實(shí)圖像的對象具有罕見的姿勢（圖 8（左））塞颁，或者源和目標(biāo)提示都具有較大的語義偏移（圖 8（右））時，我們的方法無法生成令人滿意的圖像吸耿。

Stable Diffusion 圖像編輯中使用高度個性化的文本嵌入

Highly Personalized Text Embedding for Image Manipulation by Stable Diffusion

https://arxiv.org/pdf/2303.08767.pdf

摘要

擴(kuò)散模型在圖像生成和操作方面表現(xiàn)出優(yōu)越的性能祠锣，但固有的隨機(jī)性在保存和操作圖像內(nèi)容和特征方面提出了挑戰(zhàn)。雖然以前的方法如 DreamBooth [16] 和 Textual Inversion [3] 提出了模型或潛在表示個性化來維護(hù)內(nèi)容咽安，但它們對多個參考圖像和復(fù)雜訓(xùn)練的依賴限制了它們的實(shí)用性伴网。在本文中，我們通過分解用于個性化和內(nèi)容操作的 CLIP 嵌入空間妆棒，提出了一種使用高度個性化 (HiPer) 文本嵌入進(jìn)行個性化的簡單而高效的方法澡腾。我們的方法不需要模型微調(diào)或標(biāo)識符，但仍然可以僅使用單個圖像和目標(biāo)文本來處理背景糕珊、紋理和運(yùn)動蛋铆。通過對不同目標(biāo)文本的實(shí)驗(yàn)，我們證明我們的方法可以在廣泛的任務(wù)中產(chǎn)生高度個性化和復(fù)雜的語義圖像編輯放接。我們相信，這項工作中對文本嵌入空間的新穎理解有可能激發(fā)對各種任務(wù)的進(jìn)一步研究留特。

精選圖片

Figure 1: Image manipulation results with highly personalized (HiPer) text embeddings. In the upper row, the identities of therabbit and the dog are well preserved while adequately manipulating the images to align with target texts. In the bottom row,not only motion and background, but also texture of the source image is transformed towards corresponding target text.

Figure 2: The proposed method. (Training) First, the source text prompt, which have the meaning of source image, is convertedto text embedding. Some parts of text embedding, which have no information, are removed. The informative target embeddingpart and the personalized embedding is concatenated, and they are the input of pre-trained U-net. In training, the personalizedembedding is only optimized. Although this figure depicts it as learning in image space, the embedding is actually optimized inlatent space. (Inference) The target embedding is also cropped and concatenated with personalized embedding. The pre-trainedtext-to-image model, which conditioned that embedding, generates an image which has the meaning of target text and thesubject of source image.

Figure 3: Cross Attention maps in the final timestep of text-to-image diffusion models. The source text is “a standing dog’and the target text is “a sitting dog”. Cross Attention maps (a) conditioned with esrc (b) conditioned with [e0src, ehper], (c)conditioned with [e0tgt, ehper]. (d) Cross attention maps by Imagic [9].

Figure 6: Text-driven image manipulation results featuring a female doctor.

結(jié)論

我們提出了一種使用穩(wěn)定擴(kuò)散的高度個性化的文本到圖像生成方法纠脾，該方法簡單而強(qiáng)大玛瘸。只需一張圖片，我們的方法就可以生成高度個性化的文本標(biāo)記苟蹈，從而在保持主題特點(diǎn)方面具有卓越的性能糊渊。此外，我們的方法不需要模型微調(diào)或復(fù)雜的損失函數(shù)慧脱。這些屬性使我們能夠使用僅需三分鐘的簡單優(yōu)化過程快速輕松地處理圖像渺绒。此外，我們通過在運(yùn)動菱鸥、背景和紋理三個方面演示圖像編輯結(jié)果宗兼，展示了我們方法的卓越功能。

最后編輯于：2023.04.02 16:07:25

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末氮采，一起剝皮案震驚了整個濱河市殷绍，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌鹊漠，老刑警劉巖主到，帶你破解...
沈念sama閱讀 216,544評論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異躯概，居然都是意外死亡登钥，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,430評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門娶靡，熙熙樓的掌柜王于貴愁眉苦臉地迎上來牧牢，“玉大人，你說我怎么就攤上這事固蛾〗嶂矗” “怎么了？”我有些...
開封第一講書人閱讀 162,764評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵艾凯，是天一觀的道長献幔。經(jīng)常有香客問我，道長趾诗，這世上最難降的妖魔是什么蜡感？我笑而不...
開封第一講書人閱讀 58,193評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮恃泪，結(jié)果婚禮上郑兴，老公的妹妹穿的比我還像新娘。我一直安慰自己贝乎，他們只是感情好情连，可當(dāng)我...
茶點(diǎn)故事閱讀 67,216評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著览效，像睡著了一般却舀。火紅的嫁衣襯著肌膚如雪虫几。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,182評論 1贊 299
城市分裂傳說
那天挽拔，我揣著相機(jī)與錄音辆脸，去河邊找鬼。笑死螃诅，一個胖子當(dāng)著我的面吹牛啡氢，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播术裸，決...
沈念sama閱讀 40,063評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼倘是，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了穗椅？” 一聲冷哼從身側(cè)響起辨绊，我...
開封第一講書人閱讀 38,917評論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎匹表，沒想到半個月后门坷，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,329評論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡袍镀，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,543評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年默蚌，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片苇羡。...
茶點(diǎn)故事閱讀 39,722評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡绸吸，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出设江，到底是詐尸還是另有隱情锦茁，我是刑警寧澤，帶...
沈念sama閱讀 35,425評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布叉存，位于F島的核電站码俩，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏歼捏。R本人自食惡果不足惜稿存，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,019評論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望瞳秽。院中可真熱鬧瓣履，春花似錦、人聲如沸练俐。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,671評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至瓢棒，卻和暖如春浴韭，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背脯宿。一陣腳步聲響...
開封第一講書人閱讀 32,825評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留泉粉，地道東北人连霉。一個月前我還...
沈念sama閱讀 47,729評論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長得像嗡靡，于是被迫代替她去往敵國和親跺撼。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,614評論 2贊 353

上周重要論文摘要 2023-04-03

釋義可以避開 AI 生成文本檢測器回季，但檢索是一種有效的防御策略

摘要

精選圖片

結(jié)論

Make-It-3D: 使用Diffusion Prior從單個圖像創(chuàng)建高保真 3D 對象

摘要

精選圖片

結(jié)論

ChatGPT 在文本注釋任務(wù)方面優(yōu)于人類工作者

摘要

精選圖片

結(jié)論

EVA-CLIP: 大規(guī)模改進(jìn) CLIP 訓(xùn)練技術(shù)

摘要

精選圖片

結(jié)論

Text-to-Image Diffusion Models 是零樣本分類器

摘要

精選圖片

結(jié)論

StyleDiffusion: 基于文本的 Prompt-Embedding Inversion

摘要

精選圖片

結(jié)論

Stable Diffusion 圖像編輯中使用高度個性化的文本嵌入

摘要

精選圖片

結(jié)論

推薦閱讀更多精彩內(nèi)容