釋義可以避開 AI 生成文本檢測器回季,但檢索是一種有效的防御策略
https://arxiv.org/pdf/2303.13408.pdf
摘要
為了檢測針對惡意使用大型語言模型 (例如腔呜,虛假內(nèi)容創(chuàng)建或?qū)W術(shù)剽竊),最近提出了幾種方法通過水印或統(tǒng)計違規(guī)行為識別 AI 生成的文本。這些檢測算法對 AI 生成文本的檢測有多穩(wěn)叫锸А?為了對這些檢測器進(jìn)行壓力測試,我們首先訓(xùn)練一個 11B 參數(shù)釋義生成模型 (DIPPER)心赶,該模型可以釋義段落,可選擇利用周圍的文本(例如缺猛,用戶編寫的提示)作為上下文缨叫。 DIPPER 還使用標(biāo)量旋鈕來控制釋義中詞匯多樣性和重新排序的數(shù)量。三種大型語言模型(包括 GPT3.5-davinci-003)使用 DIPPER 生成的釋義文本成功逃避了多種檢測器荔燎,包括水印耻姥、GPTZero、DetectGPT 和 OpenAI 的文本分類器有咨。例如琐簇,DIPPER 將 DetectGPT 的檢測精度從 70.3% 降低到 4.6%(以 1% 的恒定誤報率),而沒有明顯修改輸入語義座享。
精選圖片
結(jié)論
我們提出了 DIPPER婉商,這是一種文本釋義生成模型,可以重寫多個文本句子渣叛,并可以選擇利用周圍的上下文丈秩。我們使用 DIPPER 對當(dāng)前 AI 生成的原始文本進(jìn)行壓力測試。我們發(fā)現(xiàn) DIPPER 釋義很容易避開這些檢測器淳衙,同時大致保留輸入語義蘑秽。為了抵御這種釋義攻擊,我們提出了一種簡單的基于檢索的機(jī)制箫攀,在該機(jī)制中肠牲,我們從 LLM API 中搜索預(yù)先生成的序列的語料庫,以獲得與給定查詢語義相似的內(nèi)容靴跛。我們的實(shí)驗(yàn)表明缀雳,這種檢索防御在釋義文本上明顯優(yōu)于基線檢測器,并且在大規(guī)模數(shù)據(jù)上是有效的汤求。我們也討論了我們防御的可能局限性俏险,并且我們開源了我們預(yù)訓(xùn)練的模型、代碼和數(shù)據(jù)扬绪,以使研究社區(qū)能夠在這些想法的基礎(chǔ)上進(jìn)行構(gòu)建新的研究竖独。
Make-It-3D: 使用Diffusion Prior從單個圖像創(chuàng)建高保真 3D 對象
https://arxiv.org/pdf/2303.14184.pdf
摘要
在這項工作中,我們研究了僅從單個圖像創(chuàng)建高保真 3D 內(nèi)容的問題挤牛。這本身就具有挑戰(zhàn)性:它本質(zhì)上涉及估計底層 3D 幾何體莹痢,同時產(chǎn)生看不見的紋理。為了應(yīng)對這一挑戰(zhàn),我們利用來自訓(xùn)練有素的 2D 擴(kuò)散模型的先驗(yàn)知識來充當(dāng) 3D 創(chuàng)作的 3D 感知監(jiān)督竞膳。我們的方法 Make-It-3D 采用兩階段優(yōu)化管道:第一階段通過在正面視圖中結(jié)合來自參考圖像的約束和在新視圖中的擴(kuò)散先驗(yàn)來優(yōu)化神經(jīng)輻射場航瞭;第二階段將粗糙模型轉(zhuǎn)換為帶紋理的點(diǎn)云,并在利用參考圖像的高質(zhì)量紋理的同時進(jìn)一步提升擴(kuò)散先驗(yàn)的真實(shí)感坦辟。大量實(shí)驗(yàn)表明刊侯,我們的方法大大優(yōu)于之前的工作,有著令人印象深刻的視覺質(zhì)量锉走。我們的方法首次嘗試從單個圖像為一般對象實(shí)現(xiàn)高質(zhì)量 3D 創(chuàng)建滨彻,并支持各種應(yīng)用程序,例如文本到 3D 創(chuàng)建和紋理編輯挪蹭。
精選圖片
結(jié)論
我們介紹了 Make-It-3D亭饵,這是一種新穎的兩階段方法,用于從單個圖像創(chuàng)建高保真 3D 內(nèi)容梁厉。利用擴(kuò)散先驗(yàn)作為 3D 感知監(jiān)督辜羊,生成的 3D 模型展示了高保真的幾何形狀和逼真的紋理,具有擴(kuò)散 CLIP 損失和紋理點(diǎn)云增強(qiáng)词顾。 Make-It-3D 適用于一般物體八秃,賦予多種有趣的應(yīng)用程序。我們相信我們的方法在將 2D 內(nèi)容創(chuàng)建的成功擴(kuò)展到 3D 方面邁出了一大步计技,為用戶提供了全新的 3D 創(chuàng)作體驗(yàn)喜德。
ChatGPT 在文本注釋任務(wù)方面優(yōu)于人類工作者
https://arxiv.org/pdf/2303.15056.pdf
摘要
許多 NLP 應(yīng)用程序需要對各種任務(wù)進(jìn)行手動數(shù)據(jù)注釋,特別是訓(xùn)練分類器或評估無監(jiān)督模型的性能垮媒。根據(jù)規(guī)模和復(fù)雜程度,這些任務(wù)可能由人們在 MTurk 等平臺上進(jìn)行航棱,也會用到訓(xùn)練有素的注釋者睡雇,例如研究助理。使用包含 2,382 條推文的樣本饮醇,我們證明 ChatGPT 在多項注釋任務(wù)(包括相關(guān)性它抱、立場、主題和框架檢測)方面優(yōu)于眾包工作者朴艰。具體來說观蓄,ChatGPT 的零樣本準(zhǔn)確率在80%的任務(wù)中超過了眾包工作者,而 ChatGPT 的intercode agreement在所有任務(wù)上都超過了眾包工作者和訓(xùn)練有素的注釋者祠墅。此外侮穿,ChatGPT 的每次注釋成本低于0.003 美元——大約比 MTurk 便宜 20 倍。這些結(jié)果顯示了大型語言模型在顯著提高文本分類效率方面的潛力毁嗦。
精選圖片
結(jié)論
本文展示了 LLM 為許多研究項目常見的各種任務(wù)轉(zhuǎn)換文本注釋程序的潛力亲茅。盡管專注于單個數(shù)據(jù)集且測試數(shù)量相對有限,但有證據(jù)表明,與 MTurk 等平臺上的人類注釋相比克锣,LLM 可能已經(jīng)是一種更好的方法茵肃。至少,這些發(fā)現(xiàn)證明了更深入地研究 LLM 的文本注釋屬性和功能的重要性袭祟。以下問題和步驟似乎特別有前途:(i) ChatGPT 跨多種語言的性能验残; (ii) ChatGPT 在多種文本類型(社交媒體、新聞媒體巾乳、立法您没、演講等)中的表現(xiàn); (iii) 與 BERT 和 RoBERTa 等微調(diào)模型相比想鹰,在 ChatGPT 上實(shí)施少樣本學(xué)習(xí)紊婉; (iv) 構(gòu)建半自動化數(shù)據(jù)標(biāo)簽系統(tǒng),其中模型首先通過觀察人類注釋進(jìn)行學(xué)習(xí)辑舷,然后用于推薦甚至自動化標(biāo)簽(Desmond 等人喻犁,2021); (v) 使用思維鏈提示和其他策略來提高零樣本推理的性能 (Kojima et al., 2022)何缓; (vi) 只要可用性允許肢础,就可以使用 GPT-4 實(shí)施注釋任務(wù)。
EVA-CLIP: 大規(guī)模改進(jìn) CLIP 訓(xùn)練技術(shù)
https://arxiv.org/pdf/2303.15389.pdf
摘要
Contrastive language-image pre-training, CLIP for short,has gained increasing attention for its potential in variousscenarios. In this paper, we propose EVA-CLIP, a seriesof models that significantly improve the efficiency and effectiveness of CLIP training. Our approach incorporates newtechniques for representation learning, optimization, andaugmentation, enabling EVA-CLIP to achieve superior performance compared to previous CLIP models with the samenumber of parameters but significantly smaller training costs.Notably, our largest 5.0B-parameter EVA-02-CLIP-E/14+with only 9 billion seen samples achieves 82.0% zero-shottop-1 accuracy on ImageNet-1K val. A smaller EVA-02-CLIP-L/14+ with only 430 million parameters and 6 billionseen samples achieves 80.4% zero-shot top-1 accuracy onImageNet-1K val. To facilitate open access and open research, we release the complete suite of EVA-CLIP to thecommunity.
Contrastive language-image pre-training碌廓,簡稱CLIP传轰,因其在各種場景中的潛力而受到越來越多的關(guān)注。在本文中谷婆,我們提出了 EVA-CLIP慨蛙,這是一系列顯著提高 CLIP 訓(xùn)練效率和有效性的模型。我們的方法結(jié)合了用于表示學(xué)習(xí)纪挎、優(yōu)化和增強(qiáng)的新技術(shù)期贫,使 EVA-CLIP 能夠在參數(shù)數(shù)量相同但訓(xùn)練成本顯著降低的情況下實(shí)現(xiàn)優(yōu)于先前 CLIP 模型的性能。值得注意的是异袄,我們最大的 5.0B 參數(shù) EVA-02-CLIP- E/14+ 只有 90 億個可見樣本通砍,在 ImageNet-1K val 上達(dá)到 82.0% zero-shottop-1 精度。較小的 EVA-02-CLIP-L/14+ 只有 4.3 億個參數(shù)和 6 億個樣本烤蜕,在 ImageNet-1K val 上實(shí)現(xiàn)了 80.4% 的零樣本 top-1 精度封孙。為了促進(jìn)開放獲取和開放研究,我們向社區(qū)發(fā)布了完整的 EVA-CLIP 套件讽营。
精選圖片
結(jié)論
在表 6 中(上圖)虎忌,我們展示了我們實(shí)現(xiàn)的內(nèi)存和時間成本。如圖所示斑匪,masking50% 的圖像標(biāo)記可以將訓(xùn)練時間加快 2 倍呐籽,使用 flash attention 可以額外減少 15% 的訓(xùn)練時間锋勺。使用所有這些技術(shù),我們可以用比其他對應(yīng) CLIP 模型更低的預(yù)算來訓(xùn)練 EVA-CLIP狡蝶。例如庶橱,EVA-CLIP-B/16 可以使用 16 個 NVIDIA40GB-A100 GPU 以 32k 的批量大小進(jìn)行訓(xùn)練,并在 300 小時內(nèi)收斂贪惹。同樣苏章,十億規(guī)模的 EVA CLIPg/14 可以在 65k 的批量大小上進(jìn)行訓(xùn)練,使用 64 個 NVIDIA40G-A100 GPU 訓(xùn)練 12B 個樣本需要不到 25 天的時間奏瞬。這些結(jié)果證明了我們的方法在實(shí)現(xiàn)最先進(jìn)結(jié)果同時保持訓(xùn)練時間和 GPU 內(nèi)存利用率之間的最佳平衡方面的可擴(kuò)展性和有效性枫绅。
Text-to-Image Diffusion Models 是零樣本分類器
https://arxiv.org/pdf/2303.15233.pdf
摘要
文本到圖像擴(kuò)散模型的出色生成能力表明它們可以學(xué)習(xí)圖像文本數(shù)據(jù)的信息表示。然而硼端,它們的表示捕獲了哪些知識還沒有被人們完全理解并淋,并且它們還沒有在下游任務(wù)中得到徹底的探索。我們通過提出一種將它們評估為零樣本分類器的方法來研究擴(kuò)散模型珍昨。關(guān)鍵思想是使用擴(kuò)散模型的能力來給有噪聲的圖像降噪县耽,給定標(biāo)簽的文本描述作為該標(biāo)簽可能性的代理。我們將我們的方法應(yīng)用于 Imagen镣典,用它來探測 Imagen 知識的細(xì)粒度值兔毙,并將其與 CLIP 的零樣本能力進(jìn)行比較。 Imagen 在廣泛的零鏡頭圖像分類數(shù)據(jù)集上與 CLIP 相比具有競爭力兄春。此外澎剥,它在形狀/紋理偏差測試上實(shí)現(xiàn)了最先進(jìn)的結(jié)果,并且可以成功執(zhí)行屬性綁定赶舆,而 CLIP 則不能哑姚。盡管生成預(yù)訓(xùn)練在 NLP 中很普遍,但視覺基礎(chǔ)模型通常使用其他方法芜茵,例如對比學(xué)習(xí)蜻懦。根據(jù)我們的發(fā)現(xiàn),我們認(rèn)為應(yīng)該探索生成式預(yù)訓(xùn)練作為解決視覺和視覺語言問題的令人信服的替代方案夕晓。
精選圖片
結(jié)論
我們提出了一種方法,使擴(kuò)散模型可以用作零樣本分類器悠咱,并開發(fā)了大大提高其效率以使其可用的方法蒸辆。我們使用 Imagen 進(jìn)行的實(shí)驗(yàn)在圖像分類方面展示了強(qiáng)大的結(jié)果。此外析既,我們展示了 Imagen 對于誤導(dǎo)性紋理非常穩(wěn)健躬贡,在 Stylized Imagenet 上實(shí)現(xiàn)了最先進(jìn)的結(jié)果。雖然現(xiàn)有的擴(kuò)散模型分析通常定性研究生成的圖像眼坏,但我們的框架提供了一種通過在受控分類任務(wù)上評估文本到圖像生成模型來定量評估文本到圖像生成模型的方法拂玻。我們通過對屬性綁定的研究展示了這一點(diǎn)。我們發(fā)現(xiàn) Imagen 有時能夠綁定屬性,而 CLIP 似乎沒有這種能力檐蚜。我們希望我們的發(fā)現(xiàn)能夠激發(fā)未來的工作魄懂,將文本到圖像擴(kuò)散模型用作生成以外任務(wù)的基礎(chǔ)模型。 一個方向是微調(diào)下游任務(wù)的擴(kuò)散模型闯第;鑒于 Imagen 強(qiáng)大的零樣本性能市栗,下一步自然是在進(jìn)一步監(jiān)督訓(xùn)練后對其進(jìn)行評估。
事實(shí)上咳短,Brempong 等人(2022)已經(jīng)探索了一個相關(guān)的想法填帽,發(fā)現(xiàn)去噪預(yù)訓(xùn)練可以改進(jìn)語義分割模型。我們注意到我們在這項工作中與 CLIP 的主要比較并不直接咙好,因?yàn)槟P图軜?gòu)篡腌、參數(shù)計數(shù)和訓(xùn)練數(shù)據(jù)不同。隨著模型變得更大勾效,一個關(guān)鍵問題是對比預(yù)訓(xùn)練與生成預(yù)訓(xùn)練的縮放定律(Hestnesset al., 2017; Kaplan et al., 2020)如何比較嘹悼,我們將其留作未來工作的問題。我們也有興趣將我們的分析應(yīng)用于其他擴(kuò)散模型葵第,以表明我們的結(jié)果并非特定于 Imagen绘迁。為此,我們目前正在努力將我們的方法應(yīng)用于穩(wěn)定擴(kuò)散 (Rombach et al., 2022)卒密。此外缀台,我們也有興趣將我們的分析應(yīng)用于其他生成模型,并研究與擴(kuò)散預(yù)訓(xùn)練相比哮奇,我們的結(jié)果在多大程度上是生成預(yù)訓(xùn)練的結(jié)果膛腐。最終,我們的方法不會產(chǎn)生實(shí)用的分類器鼎俘,因?yàn)樗枰罅康脑诮o許多類型打分時計算哲身。相反,我們看到這項工作的主要價值更多地揭示了大型預(yù)訓(xùn)練擴(kuò)散模型的能力贸伐。我們的結(jié)果表明勘天,生成預(yù)訓(xùn)練可能是文本圖像自監(jiān)督學(xué)習(xí)對比預(yù)訓(xùn)練的有用替代方案。
StyleDiffusion: 基于文本的 Prompt-Embedding Inversion
https://arxiv.org/pdf/2303.15649.pdf
摘要
當(dāng)前一項重要的研究工作集中在利用預(yù)訓(xùn)練擴(kuò)散模型的驚人能力來編輯圖像捉邢。這些工作要么微調(diào)模型脯丝,要么在預(yù)訓(xùn)練模型的潛在空間中反轉(zhuǎn)圖像。但是伏伐,他們也遇到兩個問題:(1)選定區(qū)域的結(jié)果不令人滿意宠进,以及非選定區(qū)域的意外變化。 (2) 它們需要仔細(xì)的文本提示編輯藐翎,其中提示應(yīng)包括輸入圖像中的所有可視對象材蹬。為了解決這個問題实幕,我們提出了兩項改進(jìn):(1)僅優(yōu)化交叉注意力層中價值線性網(wǎng)絡(luò)的輸入,就足以重建真實(shí)圖像堤器。 (2) 我們提出注意正則化以在編輯后保留類似對象的注意圖昆庇,使我們能夠在不調(diào)用重大結(jié)構(gòu)更改的情況下獲得準(zhǔn)確的樣式編輯。我們進(jìn)一步改進(jìn)了用于無分類器指導(dǎo)的無條件分支的編輯技術(shù)吼旧,以及 P2P [15] 使用的條件分支凰锡。對各種圖像進(jìn)行廣泛的實(shí)驗(yàn)提示編輯結(jié)果,定性和定量地證明我們的方法具有比現(xiàn)有和并行工作更優(yōu)越的編輯能力圈暗。
精選圖片
結(jié)論
我們提出了一種真實(shí)圖像編輯的新方法掂为。我們將真實(shí)圖像轉(zhuǎn)換為交叉注意力層中價值線性映射網(wǎng)絡(luò)的輸入,并使用用戶提供的文本嵌入凍結(jié)關(guān)鍵線性映射網(wǎng)絡(luò)的輸入员串。這允許學(xué)習(xí)初始注意力圖和重建真實(shí)圖像的近似軌跡勇哗。我們引入了一種新的注意力正則化來保留編輯后的注意力圖,使我們能夠獲得更準(zhǔn)確的編輯能力寸齐。此外欲诺,我們在無分類器擴(kuò)散模型的無條件分支中提出了注意注入,進(jìn)一步提高了編輯能力渺鹦,尤其是當(dāng)源和目標(biāo)提示都有較大的域偏移時扰法。雖然 StyleDiffusion 成功地修改了真實(shí)圖像,但它仍然存在一些局限性毅厚。當(dāng)真實(shí)圖像的對象具有罕見的姿勢(圖 8(左))塞颁,或者源和目標(biāo)提示都具有較大的語義偏移(圖 8(右))時,我們的方法無法生成令人滿意的圖像吸耿。
Stable Diffusion 圖像編輯中使用高度個性化的文本嵌入
Highly Personalized Text Embedding for Image Manipulation by Stable Diffusion
https://arxiv.org/pdf/2303.08767.pdf
摘要
擴(kuò)散模型在圖像生成和操作方面表現(xiàn)出優(yōu)越的性能祠锣,但固有的隨機(jī)性在保存和操作圖像內(nèi)容和特征方面提出了挑戰(zhàn)。雖然以前的方法如 DreamBooth [16] 和 Textual Inversion [3] 提出了模型或潛在表示個性化來維護(hù)內(nèi)容咽安,但它們對多個參考圖像和復(fù)雜訓(xùn)練的依賴限制了它們的實(shí)用性伴网。在本文中,我們通過分解用于個性化和內(nèi)容操作的 CLIP 嵌入空間妆棒,提出了一種使用高度個性化 (HiPer) 文本嵌入進(jìn)行個性化的簡單而高效的方法澡腾。我們的方法不需要模型微調(diào)或標(biāo)識符,但仍然可以僅使用單個圖像和目標(biāo)文本來處理背景糕珊、紋理和運(yùn)動蛋铆。通過對不同目標(biāo)文本的實(shí)驗(yàn),我們證明我們的方法可以在廣泛的任務(wù)中產(chǎn)生高度個性化和復(fù)雜的語義圖像編輯放接。我們相信,這項工作中對文本嵌入空間的新穎理解有可能激發(fā)對各種任務(wù)的進(jìn)一步研究留特。
精選圖片
結(jié)論
我們提出了一種使用穩(wěn)定擴(kuò)散的高度個性化的文本到圖像生成方法纠脾,該方法簡單而強(qiáng)大玛瘸。只需一張圖片,我們的方法就可以生成高度個性化的文本標(biāo)記苟蹈,從而在保持主題特點(diǎn)方面具有卓越的性能糊渊。此外,我們的方法不需要模型微調(diào)或復(fù)雜的損失函數(shù)慧脱。這些屬性使我們能夠使用僅需三分鐘的簡單優(yōu)化過程快速輕松地處理圖像渺绒。此外,我們通過在運(yùn)動菱鸥、背景和紋理三個方面演示圖像編輯結(jié)果宗兼,展示了我們方法的卓越功能。