上周重要論文摘要 2023-03-27

Sparks of Artificial General Intelligence: Early experiments with GPT-4

https://arxiv.org/pdf/2303.12712.pdf

摘要

人工智能 (AI) 研究人員一直在開發(fā)和改進大型語言模型 (LLM),這些模型在各種領(lǐng)域和任務(wù)中展現(xiàn)出卓越的能力销部,挑戰(zhàn)我們對學(xué)習和認知的理解桂塞。 OpenAI GPT-4 [Ope23] 開發(fā)的最新模型是使用前所未有的計算和數(shù)據(jù)規(guī)模進行訓(xùn)練的集嵌。在本文中,我們報告了我們對 GPT-4 早期版本的調(diào)查骗污,當時它仍在由 OpenAI 積極開發(fā)付材。我們認為(這個早期版本的)GPT4 是新的 LLM 隊列的一部分(例如 ChatGPT 和谷歌的 PaLM)妆偏,它們比以前的 AI 模型表現(xiàn)出更多的通用智能。我們討論了這些模型不斷增強的能力和影響古拴。我們證明箩帚,除了對語言的掌握之外,GPT-4 還可以解決跨越數(shù)學(xué)黄痪、編碼紧帕、視覺、醫(yī)學(xué)桅打、法律焕参、心理學(xué)等領(lǐng)域的新穎而困難的任務(wù),而無需任何特殊提示油额。此外叠纷,在所有這些任務(wù)中,GPT-4 的表現(xiàn)都非常接近人類水平潦嘶,并且經(jīng)常大大超過 ChatGPT 等先前的模型涩嚣。鑒于 GPT-4 功能的廣度和深度崇众,我們認為可以合理地將其視為通用人工智能 (AGI) 系統(tǒng)的早期(但仍不完整)版本。在我們對 GPT-4 的探索中航厚,我們特別強調(diào)發(fā)現(xiàn)它的局限性顷歌,并且我們討論了推進更深入和更全面的 AGI 版本所面臨的挑戰(zhàn),包括可能需要追求一種超越下一個詞預(yù)測的新范式幔睬。最后眯漩,我們反思了近期技術(shù)飛躍的社會影響和未來的研究方向。

精選圖片
Figure 1.1-1: Preliminary examples of GPT-4’s capabilities in language, vision, coding, and mathematics.
Figure 1.1-2: Preliminary examples of GPT-4’s capabilities in language, vision, coding, and mathematics.
Figure 1.1-3: Preliminary examples of GPT-4’s capabilities in language, vision, coding, and mathematics.
結(jié)論

我們已經(jīng)在廣泛的任務(wù)和領(lǐng)域中展示了我們對 GPT-4 的初步探索麻顶,為 GPT-4 的能力在其中許多方面可與人類水平相媲美的說法提供了支持證據(jù)赦抖。這一結(jié)論與 OpenAI 提出的發(fā)現(xiàn)一致在 [Ope23] 中。我們實驗的一個主要目標是對 GPT-4 的智能進行初步評估辅肾,這是一項艱巨的任務(wù)队萤,因為這個概念缺乏正式的定義,尤其是對于人工系統(tǒng)矫钓。我們希望我們的探索能為理解 GPT-4 的卓越能力和挑戰(zhàn)提供有用且必要的第一步要尔,并為開發(fā)更正式和更全面的方法來測試和分析具有如此廣泛智能的未來人工智能系統(tǒng)開辟新的機會。上面已經(jīng)展示的模型的能力新娜,無論是在深度還是普遍性方面赵辕,都表明機器學(xué)習社區(qū)需要通過結(jié)構(gòu)化數(shù)據(jù)集和任務(wù)超越經(jīng)典基準測試,并且對這些新模型的能力和認知能力的評估已經(jīng)從本質(zhì)上講概龄,它更接近于評估人類的任務(wù)还惠,而不是狹義的 AI 模型的任務(wù)。

我們希望我們的調(diào)查能夠激發(fā)對 GPT-4 和類似系統(tǒng)的進一步研究旁钧,無論是在探索新的應(yīng)用和領(lǐng)域,還是在理解其智能背后的機制和原則方面互拾。我們工作的核心主張是 GPT-4 獲得了形式的通用智能歪今,確實顯示出人工通用智能的火花。這體現(xiàn)在它的核心心智能力(如推理颜矿、創(chuàng)造力和演繹)寄猩、它獲得專業(yè)知識的主題范圍(如文學(xué)、醫(yī)學(xué)和編碼)以及它能夠執(zhí)行的各種任務(wù)(例如骑疆,玩游戲田篇、使用工具、自我解釋……)箍铭。要創(chuàng)建一個有資格成為完整 AGI 的系統(tǒng)泊柬,還有很多工作要做。我們通過討論幾個直接的后續(xù)步驟來結(jié)束本文诈火,包括定義 AGI 本身兽赁、為 AGI 構(gòu)建 LLM 中缺少的一些組件,以及更好地理解最近的 LLM 所顯示的智能的起源。


RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation

https://arxiv.org/pdf/2303.12570.pdf

摘要

存儲庫級代碼補全的任務(wù)是基于更廣泛的存儲庫上下文繼續(xù)編寫未完成的代碼刀崖。而自動化代碼補全工具很難利用分散在不同文件中的有用信息惊科。我們提出了 RepoCoder,一個簡單亮钦、通用且有效的框架來應(yīng)對挑戰(zhàn)馆截。它通過結(jié)合基于相似性的檢索器和預(yù)訓(xùn)練的代碼語言模型簡化了存儲庫級別的代碼完成過程,從而允許有效利用存儲庫級別的信息來完成代碼蜂莉,并賦予生成各種粒度級別的代碼的能力蜡娶。此外,RepoCoder 利用一種新穎的迭代檢索生成范式巡语,彌合了檢索上下文和預(yù)期完成目標之間的差距翎蹈。我們還提出了一個新的基準 RepoEval脊奋,它由最新和高質(zhì)量的真實世界存儲庫組成蘸鲸,涵蓋線路、API 調(diào)用和函數(shù)體完成場景沼填。我們通過使用代碼檢索器和生成器的各種組合來測試 RepoCoder 的性能枢赔。實驗結(jié)果表明澄阳,RepoCoder 在所有設(shè)置中將零樣本代碼完成基線顯著提高了 10% 以上,并且始終優(yōu)于 vanilla retrieval-augmented 代碼完成方法踏拜。此外碎赢,我們通過綜合分析驗證了 RepoCoder 的有效性,為未來的研究提供了有價值的見解速梗。

精選圖片
Figure 1: RepoCoder: an iterative retrieval-generation framework for repository-level code completion.
Figure 2: An example of the generate-then-retrieve paradigm: the model first predicts to call the COLMAP() API and then retrieves the grounding example for the second iteration of prediction.
結(jié)論

總之肮塞,我們提出了 RepoCoder,這是一個用于存儲庫級代碼完成任務(wù)的簡單有效的框架姻锁。利用基于相似性的檢索器和預(yù)訓(xùn)練的語言模型枕赵,RepoCoder 充分利用了存儲庫級別的信息。通過迭代檢索和生成位隶,RepoCoder 可以彌合檢索上下文和預(yù)期目標之間的差距拷窜,從而提高代碼完成性能。我們對 RepoEval 基準測試的嚴格實驗表明涧黄,RepoCoder 持續(xù)且顯著地提高了零樣本代碼完成性能篮昧,并且優(yōu)于普通的檢索增強生成方法。通過綜合分析笋妥,我們還對 RepoCoder 的有效性和局限性提供了有價值的見解懊昨。憑借其簡單性、通用性和有效性春宣,RepoCoder 有潛力成為現(xiàn)實世界軟件開發(fā)中必不可少的工具疚颊。在未來的工作中狈孔,我們旨在解決 RepoCoder 當前的局限性并繼續(xù)提高其可用性和穩(wěn)健性。


SemDeDup: Data-efficient learning at web-scale through semantic deduplication

https://arxiv.org/pdf/2303.09540.pdf

摘要

機器學(xué)習的進步在很大程度上是由數(shù)據(jù)的大量增加推動的材义。然而均抽,像 LAION 這樣的大型網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)集除了搜索精確的重復(fù)項外,基本上沒有經(jīng)過整理其掂,可能會留下很多冗余油挥。在這里,我們介紹 SemDeDup款熬,這是一種利用預(yù)訓(xùn)練模型的嵌入來識別和刪除“語義重復(fù)項”的方法:語義相似但不完全相同的數(shù)據(jù)對深寥。刪除語義重復(fù)項可以保持性能并加快學(xué)習速度。通過分析 LAION 的一個子集贤牛,我們表明 SemDeDup 可以刪除 50% 的數(shù)據(jù)惋鹅,而性能損失最小,從而有效地將訓(xùn)練時間減半殉簸。此外闰集,性能的提高不受分配的影響。此外般卑,通過分析在 C4(一個部分整理的數(shù)據(jù)集)上訓(xùn)練的語言模型武鲁,我們表明 SemDeDup 比以前的方法有所改進,同時提高了效率蝠检。 SemDeDup 提供了一個示例沐鼠,說明如何使用利用質(zhì)量嵌入的簡單方法來使模型在更少數(shù)據(jù)的情況下學(xué)習得更快。

精選圖片
Figure 1: Data efficiency from semantic deduplication (SemDeDup) (a): A schematic of the SemDeDup algorithm which efficiently removes semantic duplicates from web-scale data. (b): When SemDeDup removes 50% of the LAION-440M dataset, training on this semantically nonredundant subset achieves almost the same performance as training on the entire 440M dataset. Also, training speed is twice as fast and completes in half the time.
Figure 2: Mapping cosine similarity to perceptual and semantic similarity. We visualize pairs of images with cosine similarity 1?? in the CLIP image encoder embedding space. The left most image is a random seed image from LAION, while the remaining images are sorted by their dissimilarity ? to the seed image. Roughly, as ? increases from left to right, we move from perceptual to semantic duplicates, while at large values of ? we see semantically redundant pairs. Note the red labelled “semantic duplicate" is a view of the original left-most seed image from a slightly different perspective. We visualize more examples in Figure A9.
結(jié)論

我們介紹了 SemDeDup叹谁,這是一種簡單但易于處理且有效的方法饲梭,它利用預(yù)訓(xùn)練嵌入來刪除語義高度相似但不相同的語義重復(fù)項。刪除語義重復(fù)項可提高學(xué)習速度和分布外性能焰檩,同時提供高達 50% 的效率增益在很大程度上未策劃的 LAION 和 15% 在部分策劃的 C4 上憔涉。 SemDeDup 展示了數(shù)據(jù)質(zhì)量的重要性和數(shù)據(jù)管理在顯著提高訓(xùn)練效率方面的潛力。


FreeDoM: Training-Free Energy-Guided Conditional Diffusion Model

https://arxiv.org/pdf/2303.09833.pdf

摘要

最近锅尘,條件擴散模型因其出色的生成能力而在眾多應(yīng)用中受到歡迎监氢。然而布蔗,許多現(xiàn)有方法需要訓(xùn)練藤违。他們需要訓(xùn)練一個依賴時間的分類器或一個依賴條件的分數(shù)估計器,這增加了構(gòu)建條件擴散模型的成本纵揍,并且不方便在不同條件下遷移顿乒。目前的一些工作旨在通過提出免訓(xùn)練解決方案來克服這一限制,但大多數(shù)只能應(yīng)用于特定類別的任務(wù)泽谨,而不適用于更一般的條件璧榄。在這項工作中特漩,我們提出了一種用于各種條件的訓(xùn)練自由條件擴散模型 (FreeDoM)。具體來說骨杂,我們利用現(xiàn)成的預(yù)訓(xùn)練網(wǎng)絡(luò)(例如人臉檢測模型)來構(gòu)建與時間無關(guān)的能量函數(shù)涂身,該函數(shù)無需訓(xùn)練即可指導(dǎo)生成過程。此外搓蚪,由于能量函數(shù)的構(gòu)造非常靈活并且適應(yīng)各種條件蛤售,我們提出的 FreeDoM 比現(xiàn)有的免訓(xùn)練方法具有更廣泛的應(yīng)用范圍。 FreeDoM 的優(yōu)勢在于其簡單性妒潭、有效性和低成本悴能。實驗表明,F(xiàn)reeDoM 在各種條件下都有效雳灾,適用于不同數(shù)據(jù)域(包括圖像和潛在代碼域)的擴散模型漠酿。

精選圖片
Figure 1: FreeDoM controls the generation process of diffusion models in a training-free way. Here, we demonstrate some results of the applications FreeDoM supports. Part (a)-(c) show various face editing applications with training-free guidance. (a) We use the segmentation map, sketch, landmarks, and face ID as conditions to guide the generation process of an unconditional diffusion model; (b) We use CLIP [31] based text guidance to control image synthesis and editing. For editing, we use the segmentation masks to limit the editing areas (see Fig. 4 for details); (c) We combine different conditions to control the generation process. Part (d)-(f) show that training-free guidance can work with other training-required conditional diffusion models, like Stable Diffusion [33] and ControlNet [49], to achieve a more sophisticated control mechanism. The conditions of scribbles in (d), human poses in (e), and prompt texts in (f) are controlled by the training-required interfaces provided by ControlNet and Stable Diffusion. Training-free energy functions control the conditions of face IDs from the reference images in (e) and style images in (d) and (f). Zoom in for best view.
Figure 3: Demonstration of the importance of different sampling stages. Most of the semantic content is generated during the semantic stage, so we only employ the time-travel strategy in this stage to achieve an efficient version of FreeDoM. The shown images are x0|t generated by diffusion models pre-trained on the ImageNet data domain.
結(jié)論

我們提出了一種無需訓(xùn)練的能量引導(dǎo)條件擴散模型 FreeDoM,無需訓(xùn)練即可解決各種條件生成任務(wù)谎亩。我們的方法使用現(xiàn)成的預(yù)訓(xùn)練時間無關(guān)網(wǎng)絡(luò)來近似時間相關(guān)的能量函數(shù)炒嘲。然后,我們使用近似能量的梯度來指導(dǎo)生成過程团驱。我們的方法支持不同的擴散模型摸吠,包括圖像和潛在擴散模型。值得強調(diào)的是嚎花,本文中介紹的應(yīng)用程序只是 FreeDoM 支持的應(yīng)用程序的一個子集寸痢,不應(yīng)僅限于這些。在未來的工作中紊选,我們的目標是為更廣泛的任務(wù)探索更多的能量函數(shù)啼止。盡管有其優(yōu)點,但我們的 FreeDoM 方法有一些局限性:(1)采樣的時間成本仍然高于訓(xùn)練所需的方法兵罢,因為每次迭代都會增加能量函數(shù)的微分操作献烦,時間旅行策略引入了更多的采樣步驟。 (2) 在大數(shù)據(jù)域中難以使用能量函數(shù)來控制細粒度結(jié)構(gòu)特征卖词。例如巩那,即使我們使用時間旅行策略,使用 Canny 邊緣圖作為條件也可能導(dǎo)致引導(dǎo)不佳此蜈。在這種情況下即横,需要訓(xùn)練的方法將提供更好的選擇。 (3) 等式裆赵。 12處理多條件控制并假設(shè)提供的條件是獨立的东囚,這在實踐中不一定成立。當條件相互沖突時战授,F(xiàn)reeDoM 可能會產(chǎn)生低于標準的生成結(jié)果页藻。


CoDEPS: Online Continual Learning for Depth Estimation and Panoptic Segmentation

https://arxiv.org/pdf/2303.10147.pdf

摘要

在開放世界中操作機器人需要對以前未見過的環(huán)境具有高度的魯棒性桨嫁。理想情況下,機器人能夠在沒有人工監(jiān)督的情況下自行適應(yīng)新條件份帐,例如璃吧,自動調(diào)整其感知系統(tǒng)以適應(yīng)不斷變化的光照條件。在這項工作中废境,我們解決了在新環(huán)境中基于深度學(xué)習的單目深度估計和全景分割的持續(xù)學(xué)習任務(wù)以在線方式肚逸。我們引入 CoDEPS 來執(zhí)行涉及多個現(xiàn)實世界領(lǐng)域的持續(xù)學(xué)習,同時通過利用經(jīng)驗回放來減輕災(zāi)難性遺忘彬坏。特別是朦促,我們提出了一種新的域混合策略來生成偽標簽以適應(yīng)全景分割。此外栓始,我們通過提出基于稀有語義類采樣和圖像多樣性構(gòu)建固定大小重放緩沖區(qū)的采樣策略务冕,明確解決了機器人系統(tǒng)的有限存儲容量問題。我們在各種真實世界的數(shù)據(jù)集上對 CoDEPS 進行了廣泛的評估幻赚,證明它成功地適應(yīng)了看不見的環(huán)境禀忆,而不會犧牲先前領(lǐng)域的性能,同時實現(xiàn)了最先進的結(jié)果落恼。我們工作的代碼可在 http://codeps.cs.uni-freiburg.de 上公開獲得箩退。

精選圖片
Fig. 1. Neural networks often perform poorly when deployed on a target domain that differs from the source domain used for training. To close this domain gap, we propose to continuously adapt the network by exploiting online target images. To mitigate catastrophic forgetting and enhance generalizability, we leverage a fixed-size replay buffer allowing the method to revisit data from both the source and target domains.
Fig. 2. Overview of our proposed CoDEPS. Unlabeled RGB images from an online camera stream are combined with samples from a replay buffer comprising both annotated source samples and previously seen target images. Cross-domain mixing enables pseudo-supervision on the target domain. The network weights are then updated via backpropagation using the constructed data batch. The additional PoseNet required for unsupervised monocular depth estimation is omitted in this visualization
結(jié)論

在本文中,我們將 CoDEPS 作為聯(lián)合單眼深度估計和全景分割的在線持續(xù)學(xué)習的第一種方法佳谦。 CoDEPS 使機器人平臺的視覺系統(tǒng)能夠以在線方式不斷提高其性能戴涝。特別是,我們提出了一種新的跨域混合策略钻蔑,以適應(yīng)將帶注釋的源數(shù)據(jù)與來自目標域的未標記圖像相結(jié)合的全景分割啥刻。為了減輕災(zāi)難性遺忘,CoDEPS 利用由源樣本和目標樣本組成的緩沖區(qū)來體驗重放咪笑。與之前的工作不同可帽,我們通過為回放緩沖區(qū)設(shè)置固定大小來明確解決機器人平臺的有限內(nèi)存容量問題。為了確保不同的重放樣本窗怒,我們在源集上使用稀有類采樣映跟,并在更新目標緩沖區(qū)時采用基于圖像的多樣性采樣。通過廣泛的評估扬虚,我們證明 CoDEPS 優(yōu)于競爭基線努隙,同時避免了在線持續(xù)學(xué)習環(huán)境中的災(zāi)難性遺忘。未來的工作將探索跨任務(wù)協(xié)同作用和使用前置任務(wù)進行領(lǐng)域適應(yīng)孔轴。


LION: Implicit Vision Prompt Tuning

https://arxiv.org/pdf/2303.09992.pdf

摘要

盡管最近在一系列視覺任務(wù)中表現(xiàn)出色剃法,但視覺變形金剛?cè)匀淮嬖谟嬎愠杀靖叩膯栴}碎捺。最近路鹰,視覺提示學(xué)習為這個問題提供了一種經(jīng)濟的解決方案贷洲,而無需對整個大型模型進行微調(diào)。然而晋柱,由于插入大量提示塊和技巧提示設(shè)計优构,現(xiàn)有模型的效率仍遠不能令人滿意。在本文中雁竞,我們提出了一種名為 impLicit vIsion proOmpt tuNing (LION) 的高效視覺模型钦椭,該模型由具有穩(wěn)定記憶的深度隱式模型驅(qū)動各種復(fù)雜任務(wù)的成本。特別是碑诉,我們只是在預(yù)訓(xùn)練主干的兩端插入兩個平衡隱式層彪腔,主干中的參數(shù)被凍結(jié)。此外进栽,我們根據(jù)彩票假設(shè)修剪這兩層中的參數(shù)德挣。我們的 LION 獲得的性能在廣泛的數(shù)據(jù)集上很有前途。特別是快毛,與最先進的基線 VPT 相比格嗅,我們的 LION 減少了高達 11.5% 的訓(xùn)練參數(shù)數(shù)量,同時獲得了更高的性能唠帝,尤其是在具有挑戰(zhàn)性的場景下屯掖。此外,我們發(fā)現(xiàn)我們提出的 LION 具有良好的泛化性能襟衰,使其成為未來促進遷移學(xué)習的一種簡單方法贴铜。

精選圖片
Figure 1. Demonstration of the implicit vision prompt layer. The left part shows the traditional construction of the prompt block by stacking MLPs. The right part is our LION with the implicit equilibrium layer with the robust training for the prompt block.
Figure 2. Structural comparison of the fine-tuning and our LION. We add two implicit layers, which are only injected in front of the input and behind the output of the pre-trained backbone respectively, as the vision prompts to enrich the vision input and representation.
結(jié)論

總之,本文提出了一種名為 LION 的高效視覺模型瀑晒,它解決了與 ViT 相關(guān)的大量計算成本阀湿。通過從具有穩(wěn)定內(nèi)存成本的深度隱式模型中汲取靈感,LION 只需要在預(yù)訓(xùn)練的主干網(wǎng)的兩端有兩個平衡隱式層瑰妄,主干網(wǎng)中的參數(shù)被凍結(jié)陷嘴。此外,根據(jù)彩票假設(shè)修剪這兩層中的參數(shù)減少了訓(xùn)練參數(shù)的數(shù)量间坐。與最先進的基線 VPT 相比灾挨,LION 可以以更小的參數(shù)大小獲得更高的性能,尤其是在具有挑戰(zhàn)性的場景下竹宋。我們的實驗表明 LION 具有良好的泛化性能劳澄,使其成為未來提升應(yīng)用程序的簡便方法◎谄撸總的來說秒拔,LION 為視覺任務(wù)提供了一種經(jīng)濟的解決方案,并且有望用于廣泛的數(shù)據(jù)集飒硅。


DiffusionRet: Generative Text-Video Retrieval with Diffusion Model

https://arxiv.org/pdf/2303.09867.pdf

摘要

現(xiàn)有的文本-視頻檢索解決方案本質(zhì)上是專注于最大化條件似然性的判別模型砂缩,即 p(candidates|query)作谚。雖然簡單明了,但這種事實上的范式忽略了底層數(shù)據(jù)分布 p(query)庵芭,這使得識別分布外數(shù)據(jù)具有挑戰(zhàn)性妹懒。為了解決這個限制,我們創(chuàng)造性地從生成的角度處理這個任務(wù)双吆,并將文本和視頻之間的相關(guān)性建模為它們的聯(lián)合概率 p(candidates, query)眨唬。這是通過基于擴散的文本視頻檢索框架 (DiffusionRet) 實現(xiàn)的,該框架將檢索任務(wù)建模為從噪聲中逐漸生成聯(lián)合分布的過程好乐。在訓(xùn)練過程中匾竿,DiffusionRet 從生成和判別兩個角度進行優(yōu)化,生成器通過生成損失進行優(yōu)化蔚万,特征提取器通過對比損失進行訓(xùn)練搂橙。通過這種方式,DiffusionRet 巧妙地利用了生成方法和判別方法的優(yōu)勢笛坦。在五個常用的文本視頻檢索基準(包括 MSRVTT区转、LSMDC、MSVD版扩、ActivityNet Captions 和 DiDeMo)上進行的廣泛實驗證明了我們方法的有效性废离。更令人鼓舞的是,在沒有任何修改的情況下礁芦,DiffusionRet 甚至在域外檢索設(shè)置中也表現(xiàn)出色蜻韭。我們相信這項工作為相關(guān)領(lǐng)域帶來了基本的見解。代碼將在 https://github.com/jpthu17/DiffusionRet 上提供柿扣。

精選圖片
Figure 1: Diffusion model for text-video retrieval. (a) We propose to model the correlation between the query and the candidates as their joint probability. Specifically, the candidate with a higher degree of similarity to the query is assigned higher probability values. (b) Diffusion model has demonstrated remarkable generative power in various fields, and due to its coarse-to-fine nature, we utilize the diffusion model for joint probability generation.
Figure 2: Our DiffusionRet framework for generative text-video retrieval. We model the retrieval task as a process of gradually generating joint distribution from Gaussian noise. In contrast to the prior works, which typically optimize the posterior probabilities p(v|t) + p(t|v), our method builds the joint probabilities p(v, t).
Figure 3: Model architecture of the denoising network. We first leverage the text-frame attention encoder to extract the joint encoding of text and video. Then, we feed a distribution xk of length N, as well as noise level k, and the text and video representations into the query-candidate attention network. In each sampling step, the denoising network predicts the final clean distribution x?
結(jié)論

在本文中肖方,我們提出了 DiffusionRet,這是第一個基于擴散的生成文本視頻檢索框架未状。通過顯式建模文本和視頻的聯(lián)合概率分布俯画,DiffusionRet 有望解決當前判別機制的內(nèi)在局限性。它從生成的角度和判別的角度成功地優(yōu)化了 DiffusionRet司草。這使得 DiffusionRet 在域內(nèi)檢索和域外檢索設(shè)置中具有原則性和適用性艰垂。我們相信這項工作為相關(guān)領(lǐng)域帶來了基本的見解。我們建議在未來的研究中進一步研究生成方法在判別任務(wù)中的潛力埋虹。


Simfluence: Modeling the Influence of Individual Training Examples by Simulating Training Runs

https://arxiv.org/pdf/2303.08114.pdf

摘要

訓(xùn)練數(shù)據(jù)歸因 (TDA) 方法可以將模型對任何給定示例的預(yù)測追溯到特定的有影響力的訓(xùn)練示例〔略鳎現(xiàn)有方法通過為每個訓(xùn)練示例分配一個標量影響分數(shù)來實現(xiàn),在一個簡化的假設(shè)下搔课,即影響是可加的胰柑,訓(xùn)練集的總影響是其部分的總和。但實際上,我們觀察到訓(xùn)練示例高度交互由于示例間冗余柬讨、訓(xùn)練順序和課程學(xué)習效果等因素而導(dǎo)致的非加性方式崩瓤。為了研究這種交互,我們提出了 Simfluence姐浮,這是一種新的 TDA 范例,其目標不是為每個示例產(chǎn)生一個單一的影響分數(shù)葬馋,而是訓(xùn)練運行模擬器:用戶問卖鲤,“如果我的模型已經(jīng)在示例 z1 上進行了訓(xùn)練,然后是 z2畴嘶,...蛋逾,然后是 zn,它在 ztest 上的表現(xiàn)如何窗悯?”区匣;然后模擬器應(yīng)該輸出一個模擬訓(xùn)練運行,這是一個時間序列蒋院,預(yù)測模擬運行每一步在 ztest 上的損失亏钩。這使用戶能夠回答關(guān)于他們的模型在不同的培訓(xùn)課程下會學(xué)到什么的反事實問題,并直接看到學(xué)習會在培訓(xùn)中的什么地方發(fā)生欺旧。在 Simfluence 范例下姑丑,我們提出了一個模擬器 (Simfluence-Linear),它捕獲重要的非加性交互使用馬爾可夫過程辞友。它通常能夠以驚人的保真度預(yù)測單個示例損失的尖峰軌跡栅哀,同時匹配先前 TDA 工作的可解釋性并在毫秒內(nèi)運行。此外称龙,我們表明現(xiàn)有的 TDA 方法(例如 TracIn 和影響函數(shù))可以看作是 Simfluence-Linear 的特例留拾。這使我們能夠直接比較方法的模擬精度,將幾種先前的 TDA 方法納入評估鲫尊。在大型語言模型 (LLM) 微調(diào)實驗中痴柔,我們表明我們的方法在幾個任務(wù)、模型和訓(xùn)練中預(yù)測損失軌跡的準確性比現(xiàn)有的 TDA 方法高得多(斯皮爾曼相關(guān)性加倍并將均方誤差降低 75%)方法疫向。

精選圖片
Figure 1: Training data attribution (TDA) methods seek to understand the effect of individual training examples. Simfluence is a new paradigm for TDA, where the goal is to develop training run simulators that can accurately predict how any given sequence of training examples would affect the model’s loss on any particular test example. Here, we plot the loss of three different test examples over the course of a training run. We compare the true observed loss trajectories (blue) with our simulator’s predicted trajectories (green). Surprisingly, many of the ups and downs in the true loss trajectories are not “random” but can be anticipated by our simulator, showing the extent to which our simulator understands the effect of each training example.
Figure 2: Qualitative examples of Simfluence’s predicted loss trajectories on the loss of one random test example in one run.

GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models

https://arxiv.org/pdf/2303.10130.pdf

摘要

我們調(diào)查了生成式預(yù)訓(xùn)練 Transformer (GPT) 模型和相關(guān)技術(shù)對美國勞動力市場的潛在影響竞帽。我們使用新的標準,根據(jù)職業(yè)與 GPT 能力的對應(yīng)關(guān)系評估職業(yè)鸿捧,結(jié)合人類專業(yè)知識和 GPT-4 的分類屹篓。我們的研究結(jié)果表明,大約 80% 的美國勞動力至少有 10% 的工作任務(wù)會受到引入的影響的 GPT匙奴,而大約 19% 的員工可能會看到至少 50% 的任務(wù)受到影響堆巧。這種影響涵蓋所有工資水平,高收入工作可能面臨更大的風險。值得注意的是谍肤,這種影響不僅限于近期生產(chǎn)率增長較高的行業(yè)啦租。我們得出結(jié)論,生成式預(yù)訓(xùn)練 Transformer 表現(xiàn)出通用技術(shù) (GPT) 的特征荒揣,表明這些模型可能具有顯著的經(jīng)濟篷角、社會和政策影響。

結(jié)論

總之系任,本研究考察了 LLM恳蹲,特別是 GPT,對美國經(jīng)濟中各種職業(yè)和行業(yè)的潛在影響俩滥。通過應(yīng)用新的規(guī)則來理解 LLM 能力及其對工作的潛在影響嘉蕾,我們觀察到大多數(shù)職業(yè)都表現(xiàn)出一定程度的 GPT 暴露,而高薪職業(yè)通常會呈現(xiàn)更多暴露程度高的任務(wù)霜旧。我們的分析表明错忱,在考慮當前模型功能和預(yù)期的 GPT 支持的軟件時,大約 19% 的工作至少有 50% 的任務(wù)暴露于 GPT挂据。我們的研究旨在強調(diào) GPT 的通用潛力及其對美國工人的可能影響以清。以前的文獻展示了迄今為止 GPT 令人印象深刻的改進(見 2.1)。我們的調(diào)查結(jié)果證實了這樣一個假設(shè)崎逃,即這些技術(shù)可以對美國的廣泛職業(yè)產(chǎn)生普遍影響玖媚,并且 GPT 主要通過軟件和數(shù)字工具支持的額外進步可以對一系列經(jīng)濟活動產(chǎn)生重大影響。然而婚脱,雖然 GPT 提高人類勞動效率的技術(shù)能力似乎很明顯今魔,但重要的是要認識到社會、經(jīng)濟障贸、監(jiān)管和其他因素會影響實際的勞動生產(chǎn)率結(jié)果错森。隨著能力的不斷發(fā)展,GPT 對經(jīng)濟的影響可能會持續(xù)存在并增加篮洁,這對決策者預(yù)測和監(jiān)管其軌跡提出了挑戰(zhàn)涩维。需要進一步研究以探索 GPT 進步的更廣泛影響,包括它們增加或取代人類勞動力的潛力袁波,它們對工作質(zhì)量的影響瓦阐、對不平等的影響、技能發(fā)展以及許多其他結(jié)果篷牌。通過尋求了解 GPT 對勞動力的能力和潛在影響睡蟋,政策制定者和利益相關(guān)者可以做出更明智的決策,以駕馭 AI 的復(fù)雜格局及其在塑造未來工作中的作用枷颊。


SVDiff: Compact Parameter Space for Diffusion Fine-Tuning

https://arxiv.org/pdf/2303.11305.pdf

摘要

擴散模型在文本到圖像生成方面取得了顯著的成功戳杀,能夠從文本提示或其他模式創(chuàng)建高質(zhì)量圖像该面。然而,現(xiàn)有的定制這些模型的方法受到處理多個個性化對象和過度擬合風險的限制信卡。此外隔缀,它們的大量參數(shù)對于模型存儲來說是低效的。在本文中傍菇,我們提出了一種新方法來解決現(xiàn)有文本到圖像擴散模型中的這些局限性以進行個性化猾瘸。我們的方法涉及對權(quán)重矩陣的奇異值進行微調(diào),從而形成一個緊湊高效的參數(shù)空間丢习,從而降低過度擬合和語言漂移的風險牵触。我們還提出了一種 Cut-Mix-Unmix 數(shù)據(jù)增強技術(shù)來提高多數(shù)據(jù)質(zhì)量-主題圖像生成和簡單的基于文本的圖像編輯框架。與現(xiàn)有方法(vanilla DreamBooth 3.66GB泛领,Custom Diffusion 73MB)相比荒吏,我們提出的 SVDiff 方法具有明顯更小的模型大辛簿(StableDiffusion 為 1.7MB)渊鞋,使其更實用-世界應(yīng)用。

精選圖片
Figure 1. Applications of SVDiff. Style-Mixing: mix features from personalized subjects and create novel renderings; MultiSubject: generate multiple subjects in the same scene; SingleImage Editing: text-based editing from a single image.
Figure 3. Cut-Mix-Unmix data-augmentation for multi-subject generation. The figure shows the process of Cut-Mix-Unmix data augmentation for training a model to handle multiple concepts. The method involves (a) manually constructing image-prompt pairs where the image is created using a CutMix-like data augmentation [65] and the corresponding prompt is written as, for example, “photo of a [V2] sculpture and a [V1] dog”. The prior preservation image-prompt pairs are created in a similar manner. The objective is to train the model to separate different concepts by presenting it with explicit mixed samples. (b) To perform unmix regularization, we use MSE on non-corresponding regions of the cross-attention maps to enforce separation between the two subjects. The goal is to encourage that the dog’s special token should not attend to the panda and vice versa. (c) During inference, a different prompt, such as “photo of a [V1] dog sitting besides a [V2] sculpture”.
結(jié)論

總之瞧挤,我們提出了一個緊湊的參數(shù)空間锡宋,光譜偏移,用于擴散模型微調(diào)特恬。我們的實驗結(jié)果表明执俩,與單對象生成和多對象生成中的全權(quán)重微調(diào)相比,在此參數(shù)空間中進行微調(diào)可獲得相似甚至更好的結(jié)果癌刽。我們提出的 Cut-Mix-Unmix 數(shù)據(jù)增強技術(shù)還提高了多對象生成的質(zhì)量役首,使得處理對象屬于相似類別的情況成為可能。此外显拜,spectralshift 作為一種正則化方法衡奥,支持單圖像編輯等新用例。局限性我們的方法有一定的局限性远荠,包括隨著添加更多對象矮固,Cut-Mix-Unmix 的性能下降,以及在單圖像編輯中背景可能保存不充分譬淳。盡管存在這些局限性档址,我們還是看到了我們微調(diào)擴散模型的方法的巨大潛力,并期待在未來的研究中進一步探索其功能邻梆,例如將光譜偏移與 LoRA 相結(jié)合或開發(fā)免訓(xùn)練方法以實現(xiàn)快速個性化概念守伸。


Zero-1-to-3: Zero-shot One Image to 3D Object

https://arxiv.org/pdf/2303.11328.pdf

摘要

我們介紹了 Zero-1-to-3,這是一個框架浦妄,用于在給定單個 RGB 圖像的情況下更改對象的相機視點含友。為了在這種欠約束的環(huán)境中執(zhí)行新穎的視圖合成替裆,我們利用了大規(guī)模擴散模型了解自然圖像的幾何先驗。我們的條件擴散模型使用合成數(shù)據(jù)集來學(xué)習相對相機視點的控制窘问,這允許在指定的相機變換下生成同一對象的新圖像辆童。盡管它是在合成數(shù)據(jù)集上訓(xùn)練的,但我們的模型對分布外數(shù)據(jù)集以及自然圖像(包括印象派繪畫)保留了強大的零樣本泛化能力惠赫。我們的視點條件擴散方法可以進一步用于從單個圖像進行 3D 重建的任務(wù)把鉴。定性和定量實驗表明,我們的方法通過利用互聯(lián)網(wǎng)規(guī)模的預(yù)訓(xùn)練儿咱,顯著優(yōu)于最先進的單視圖 3D 重建和新穎的視圖合成模型庭砍。

精選圖片
Figure 1: Given a single RGB image of an object, we present Zero-1-to-3, a method to synthesize an image from a specified camera viewpoint. Our approach synthesizes views that contain rich details consistent with the input view for large relative transformations. It also achieves strong zero-shot performance on objects with complex geometry and artistic styles.
結(jié)論

在這項工作中,我們提出了一種新方法 Zero1-to-3混埠,用于零樣本怠缸、單圖像新視圖合成和 3D 重建。我們的方法利用了穩(wěn)定擴散模型钳宪,該模型在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進行了預(yù)訓(xùn)練揭北,并捕獲了豐富的語義和幾何先驗。為了提取此信息吏颖,我們對合成數(shù)據(jù)的模型進行了微調(diào)搔体,以學(xué)習對相機視點的控制。由于能夠利用 Stable Diffusion 學(xué)習的強對象形狀先驗半醉,因此產(chǎn)生的方法在多個基準測試中展示了最先進的結(jié)果疚俱。


COLT5: Faster Long-Range Transformers with Conditional Computation

https://arxiv.org/pdf/2303.09752.pdf

摘要

許多自然語言處理任務(wù)受益于長輸入,但使用 Transformers 處理長文檔非常昂貴——不僅因為二次注意力的復(fù)雜性缩多,而且還因為對每個標記應(yīng)用前饋和投影層呆奕。但是,并非所有標記都同等重要衬吆,尤其是對于較長的文檔梁钾。我們提出了 COLT5,沿輸入 Transformer 模型咆槽,該模型建立在這種直覺的基礎(chǔ)上陈轿,采用條件計算,將更多資源投入到前饋層和注意力層中的重要標記秦忿。我們表明麦射,COLT5 的性能比 LONGT5 更快,訓(xùn)練和推理速度更快灯谣,在長輸入 SCROLLS 基準測試中達到 SOTA供搀。此外刚盈,COLT5 可以有效且易于處理地利用極長的輸入男杈,顯示高達 64k 輸入長度的強大增益。

精選圖片
Figure 1: An overview of a COLT5 Transformer layer with conditional computation. All tokens are processed by light attention and MLP layers, while q routed query tokens perform heavier attention over v routed keyvalue tokens and m routed tokens are processed by a heavier MLP.
Figure 2: COLT5 achieves stronger performance than LONGT5 at any speed. Average performance on all datasets as a function of inference and fine-tuning time per sample (ms) for LONGT5 and COLT5 Base, Large, and XL models. LONGT5 does not use MQA, but we report speed as though it had for a conservative baseline.
Figure 3: An overview of the COLT5 attention pattern. The light branch performs local attention for each token. In the higher capacity heavy branch q selected query tokens (2 in the figure) attend to v separately selected key and value tokens (4 in the figure).
結(jié)論

我們提出了 COLT5罗售,這是一種用于遠程輸入的新模型,它采用條件計算以獲得更高的質(zhì)量和更快的速度钩述。 COLT5 具有適用于整個輸入的輕型前饋和注意層寨躁,以及僅適用于學(xué)習路由器選擇的重要令牌子集的重型分支。我們表明牙勘,與 LONGT5 相比职恳,COLT5 在各種長輸入數(shù)據(jù)集上在任何速度下都能實現(xiàn)更強的性能,并且可以有效且高效地利用高達 64k 令牌的極長輸入方面。


GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation

https://arxiv.org/pdf/2303.10056.pdf

摘要

基于擴散過程的文本到圖像 (T2I) 模型在使用用戶提供的說明的可控圖像生成方面取得了顯著成功放钦。然而,當前 T2I 模型中文本編碼器和圖像解碼器之間的緊密耦合使得替換或升級具有挑戰(zhàn)性恭金。此類更改通常需要進行大量微調(diào)操禀,甚至需要花費高昂的費用從頭開始進行培訓(xùn)。為了解決這個問題横腿,我們提出了 GlueGen颓屑,它應(yīng)用新提出的 GlueNet 模型來將單模態(tài)或多模態(tài)編碼器的特征與現(xiàn)有 T2I 模型的潛在空間對齊。該方法引入了一個新的訓(xùn)練目標蔑水,該目標利用并行語料庫來對齊不同編碼器的表示空間邢锯。實證結(jié)果表明扬蕊,GlueNet 可以得到有效的訓(xùn)練搀别,并具有超越以前最先進模型的各種能力:1)多語言語言模型,如 XLMRoberta 可以與現(xiàn)有的 T2I 模型對齊尾抑,允許從英語以外的字幕生成高質(zhì)量圖像; 2)GlueNet可以將AudioCLIP等多模態(tài)編碼器與Stable Diffusion模型對齊歇父,實現(xiàn)聲音到圖像的生成; 3)它還可以升級當前的潛在擴散模型的文本編碼器再愈,用于具有挑戰(zhàn)性的案例生成榜苫。通過對齊各種特征表示,GlueNet 允許將新功能靈活高效地集成到現(xiàn)有的 T2I 模型中翎冲,并闡明 X 到圖像 (X2I) 的生成垂睬。

精選圖片
Figure 1. Setting of GlueGen. GlueNet is trying to provide an adaptable portal for the Stable Diffusion model to input multimodal data, such as text, audio, i.e., (a) and (b), or text-audio hybrid signals, i.e. (c), for X-to-image generation.
Figure 2. Illustration of our desired GlueGen framework. With the proposed GlueNet model of the GlueGen framework, the pretrained image generator (i.e. UNet) can be bridged to off-the-shelf single- or multi-modal encoders to expand their functionalities, i.e., multilingual/sound-to-image generation, within a limited budget. GlueNet is trained offline and does not require back-propagation of UNet and image-text pairs for training. Therefore, GlueGen is flexible and efficient to achieve.
Figure 3. (a) Illustration of features transformation throughout the model translation/alignment. (b) The general pipeline and learning objectives of our proposed GlueNet. (c) Detailed architecture of GlueNet Encoder/Decoder.
結(jié)論

將預(yù)訓(xùn)練的條件編碼器注入現(xiàn)有的 T2I 圖像生成器是朝著更強大的 AI 系統(tǒng)邁進的一個令人興奮的方向。然而抗悍,目前的編碼器由于匹配緊密驹饺,不易升級。本文試圖打破相應(yīng)圖文模型的強約束缴渊,實現(xiàn)靈活模塊化和高效升級赏壹。為了解決嚴重的錯位問題,我們提出了 GlueNet衔沼,其目標是跨模型對齊和原創(chuàng)性保護蝌借。根據(jù)經(jīng)驗昔瞧,它有利于整體性能,并在有限的預(yù)算內(nèi)實現(xiàn) X-to-image 生成的多功能功能菩佑。我們希望這項工作能夠?qū)Υ笮?AI 系統(tǒng)設(shè)計領(lǐng)域的社區(qū)有所啟發(fā)自晰。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市稍坯,隨后出現(xiàn)的幾起案子缀磕,更是在濱河造成了極大的恐慌,老刑警劉巖劣光,帶你破解...
    沈念sama閱讀 210,914評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件袜蚕,死亡現(xiàn)場離奇詭異,居然都是意外死亡绢涡,警方通過查閱死者的電腦和手機牲剃,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,935評論 2 383
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來雄可,“玉大人凿傅,你說我怎么就攤上這事∈唬” “怎么了聪舒?”我有些...
    開封第一講書人閱讀 156,531評論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長虐急。 經(jīng)常有香客問我箱残,道長,這世上最難降的妖魔是什么止吁? 我笑而不...
    開封第一講書人閱讀 56,309評論 1 282
  • 正文 為了忘掉前任被辑,我火速辦了婚禮,結(jié)果婚禮上敬惦,老公的妹妹穿的比我還像新娘盼理。我一直安慰自己,他們只是感情好俄删,可當我...
    茶點故事閱讀 65,381評論 5 384
  • 文/花漫 我一把揭開白布宏怔。 她就那樣靜靜地躺著,像睡著了一般畴椰。 火紅的嫁衣襯著肌膚如雪臊诊。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,730評論 1 289
  • 那天迅矛,我揣著相機與錄音妨猩,去河邊找鬼。 笑死秽褒,一個胖子當著我的面吹牛壶硅,可吹牛的內(nèi)容都是我干的威兜。 我是一名探鬼主播,決...
    沈念sama閱讀 38,882評論 3 404
  • 文/蒼蘭香墨 我猛地睜開眼庐椒,長吁一口氣:“原來是場噩夢啊……” “哼椒舵!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起约谈,我...
    開封第一講書人閱讀 37,643評論 0 266
  • 序言:老撾萬榮一對情侶失蹤笔宿,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后棱诱,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體泼橘,經(jīng)...
    沈念sama閱讀 44,095評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,448評論 2 325
  • 正文 我和宋清朗相戀三年迈勋,在試婚紗的時候發(fā)現(xiàn)自己被綠了炬灭。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,566評論 1 339
  • 序言:一個原本活蹦亂跳的男人離奇死亡靡菇,死狀恐怖重归,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情厦凤,我是刑警寧澤鼻吮,帶...
    沈念sama閱讀 34,253評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站较鼓,受9級特大地震影響椎木,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜笨腥,卻給世界環(huán)境...
    茶點故事閱讀 39,829評論 3 312
  • 文/蒙蒙 一拓哺、第九天 我趴在偏房一處隱蔽的房頂上張望勇垛。 院中可真熱鬧脖母,春花似錦、人聲如沸闲孤。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,715評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽讼积。三九已至肥照,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間勤众,已是汗流浹背舆绎。 一陣腳步聲響...
    開封第一講書人閱讀 31,945評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留们颜,地道東北人吕朵。 一個月前我還...
    沈念sama閱讀 46,248評論 2 360
  • 正文 我出身青樓猎醇,卻偏偏與公主長得像,于是被迫代替她去往敵國和親努溃。 傳聞我的和親對象是個殘疾皇子硫嘶,可洞房花燭夜當晚...
    茶點故事閱讀 43,440評論 2 348

推薦閱讀更多精彩內(nèi)容