Sparks of Artificial General Intelligence: Early experiments with GPT-4
https://arxiv.org/pdf/2303.12712.pdf
摘要
人工智能 (AI) 研究人員一直在開發(fā)和改進大型語言模型 (LLM),這些模型在各種領(lǐng)域和任務(wù)中展現(xiàn)出卓越的能力销部,挑戰(zhàn)我們對學(xué)習和認知的理解桂塞。 OpenAI GPT-4 [Ope23] 開發(fā)的最新模型是使用前所未有的計算和數(shù)據(jù)規(guī)模進行訓(xùn)練的集嵌。在本文中,我們報告了我們對 GPT-4 早期版本的調(diào)查骗污,當時它仍在由 OpenAI 積極開發(fā)付材。我們認為(這個早期版本的)GPT4 是新的 LLM 隊列的一部分(例如 ChatGPT 和谷歌的 PaLM)妆偏,它們比以前的 AI 模型表現(xiàn)出更多的通用智能。我們討論了這些模型不斷增強的能力和影響古拴。我們證明箩帚,除了對語言的掌握之外,GPT-4 還可以解決跨越數(shù)學(xué)黄痪、編碼紧帕、視覺、醫(yī)學(xué)桅打、法律焕参、心理學(xué)等領(lǐng)域的新穎而困難的任務(wù),而無需任何特殊提示油额。此外叠纷,在所有這些任務(wù)中,GPT-4 的表現(xiàn)都非常接近人類水平潦嘶,并且經(jīng)常大大超過 ChatGPT 等先前的模型涩嚣。鑒于 GPT-4 功能的廣度和深度崇众,我們認為可以合理地將其視為通用人工智能 (AGI) 系統(tǒng)的早期(但仍不完整)版本。在我們對 GPT-4 的探索中航厚,我們特別強調(diào)發(fā)現(xiàn)它的局限性顷歌,并且我們討論了推進更深入和更全面的 AGI 版本所面臨的挑戰(zhàn),包括可能需要追求一種超越下一個詞預(yù)測的新范式幔睬。最后眯漩,我們反思了近期技術(shù)飛躍的社會影響和未來的研究方向。
精選圖片
結(jié)論
我們已經(jīng)在廣泛的任務(wù)和領(lǐng)域中展示了我們對 GPT-4 的初步探索麻顶,為 GPT-4 的能力在其中許多方面可與人類水平相媲美的說法提供了支持證據(jù)赦抖。這一結(jié)論與 OpenAI 提出的發(fā)現(xiàn)一致在 [Ope23] 中。我們實驗的一個主要目標是對 GPT-4 的智能進行初步評估辅肾,這是一項艱巨的任務(wù)队萤,因為這個概念缺乏正式的定義,尤其是對于人工系統(tǒng)矫钓。我們希望我們的探索能為理解 GPT-4 的卓越能力和挑戰(zhàn)提供有用且必要的第一步要尔,并為開發(fā)更正式和更全面的方法來測試和分析具有如此廣泛智能的未來人工智能系統(tǒng)開辟新的機會。上面已經(jīng)展示的模型的能力新娜,無論是在深度還是普遍性方面赵辕,都表明機器學(xué)習社區(qū)需要通過結(jié)構(gòu)化數(shù)據(jù)集和任務(wù)超越經(jīng)典基準測試,并且對這些新模型的能力和認知能力的評估已經(jīng)從本質(zhì)上講概龄,它更接近于評估人類的任務(wù)还惠,而不是狹義的 AI 模型的任務(wù)。
我們希望我們的調(diào)查能夠激發(fā)對 GPT-4 和類似系統(tǒng)的進一步研究旁钧,無論是在探索新的應(yīng)用和領(lǐng)域,還是在理解其智能背后的機制和原則方面互拾。我們工作的核心主張是 GPT-4 獲得了形式的通用智能歪今,確實顯示出人工通用智能的火花。這體現(xiàn)在它的核心心智能力(如推理颜矿、創(chuàng)造力和演繹)寄猩、它獲得專業(yè)知識的主題范圍(如文學(xué)、醫(yī)學(xué)和編碼)以及它能夠執(zhí)行的各種任務(wù)(例如骑疆,玩游戲田篇、使用工具、自我解釋……)箍铭。要創(chuàng)建一個有資格成為完整 AGI 的系統(tǒng)泊柬,還有很多工作要做。我們通過討論幾個直接的后續(xù)步驟來結(jié)束本文诈火,包括定義 AGI 本身兽赁、為 AGI 構(gòu)建 LLM 中缺少的一些組件,以及更好地理解最近的 LLM 所顯示的智能的起源。
RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation
https://arxiv.org/pdf/2303.12570.pdf
摘要
存儲庫級代碼補全的任務(wù)是基于更廣泛的存儲庫上下文繼續(xù)編寫未完成的代碼刀崖。而自動化代碼補全工具很難利用分散在不同文件中的有用信息惊科。我們提出了 RepoCoder,一個簡單亮钦、通用且有效的框架來應(yīng)對挑戰(zhàn)馆截。它通過結(jié)合基于相似性的檢索器和預(yù)訓(xùn)練的代碼語言模型簡化了存儲庫級別的代碼完成過程,從而允許有效利用存儲庫級別的信息來完成代碼蜂莉,并賦予生成各種粒度級別的代碼的能力蜡娶。此外,RepoCoder 利用一種新穎的迭代檢索生成范式巡语,彌合了檢索上下文和預(yù)期完成目標之間的差距翎蹈。我們還提出了一個新的基準 RepoEval脊奋,它由最新和高質(zhì)量的真實世界存儲庫組成蘸鲸,涵蓋線路、API 調(diào)用和函數(shù)體完成場景沼填。我們通過使用代碼檢索器和生成器的各種組合來測試 RepoCoder 的性能枢赔。實驗結(jié)果表明澄阳,RepoCoder 在所有設(shè)置中將零樣本代碼完成基線顯著提高了 10% 以上,并且始終優(yōu)于 vanilla retrieval-augmented 代碼完成方法踏拜。此外碎赢,我們通過綜合分析驗證了 RepoCoder 的有效性,為未來的研究提供了有價值的見解速梗。
精選圖片
結(jié)論
總之肮塞,我們提出了 RepoCoder,這是一個用于存儲庫級代碼完成任務(wù)的簡單有效的框架姻锁。利用基于相似性的檢索器和預(yù)訓(xùn)練的語言模型枕赵,RepoCoder 充分利用了存儲庫級別的信息。通過迭代檢索和生成位隶,RepoCoder 可以彌合檢索上下文和預(yù)期目標之間的差距拷窜,從而提高代碼完成性能。我們對 RepoEval 基準測試的嚴格實驗表明涧黄,RepoCoder 持續(xù)且顯著地提高了零樣本代碼完成性能篮昧,并且優(yōu)于普通的檢索增強生成方法。通過綜合分析笋妥,我們還對 RepoCoder 的有效性和局限性提供了有價值的見解懊昨。憑借其簡單性、通用性和有效性春宣,RepoCoder 有潛力成為現(xiàn)實世界軟件開發(fā)中必不可少的工具疚颊。在未來的工作中狈孔,我們旨在解決 RepoCoder 當前的局限性并繼續(xù)提高其可用性和穩(wěn)健性。
SemDeDup: Data-efficient learning at web-scale through semantic deduplication
https://arxiv.org/pdf/2303.09540.pdf
摘要
機器學(xué)習的進步在很大程度上是由數(shù)據(jù)的大量增加推動的材义。然而均抽,像 LAION 這樣的大型網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)集除了搜索精確的重復(fù)項外,基本上沒有經(jīng)過整理其掂,可能會留下很多冗余油挥。在這里,我們介紹 SemDeDup款熬,這是一種利用預(yù)訓(xùn)練模型的嵌入來識別和刪除“語義重復(fù)項”的方法:語義相似但不完全相同的數(shù)據(jù)對深寥。刪除語義重復(fù)項可以保持性能并加快學(xué)習速度。通過分析 LAION 的一個子集贤牛,我們表明 SemDeDup 可以刪除 50% 的數(shù)據(jù)惋鹅,而性能損失最小,從而有效地將訓(xùn)練時間減半殉簸。此外闰集,性能的提高不受分配的影響。此外般卑,通過分析在 C4(一個部分整理的數(shù)據(jù)集)上訓(xùn)練的語言模型武鲁,我們表明 SemDeDup 比以前的方法有所改進,同時提高了效率蝠检。 SemDeDup 提供了一個示例沐鼠,說明如何使用利用質(zhì)量嵌入的簡單方法來使模型在更少數(shù)據(jù)的情況下學(xué)習得更快。
精選圖片
結(jié)論
我們介紹了 SemDeDup叹谁,這是一種簡單但易于處理且有效的方法饲梭,它利用預(yù)訓(xùn)練嵌入來刪除語義高度相似但不相同的語義重復(fù)項。刪除語義重復(fù)項可提高學(xué)習速度和分布外性能焰檩,同時提供高達 50% 的效率增益在很大程度上未策劃的 LAION 和 15% 在部分策劃的 C4 上憔涉。 SemDeDup 展示了數(shù)據(jù)質(zhì)量的重要性和數(shù)據(jù)管理在顯著提高訓(xùn)練效率方面的潛力。
FreeDoM: Training-Free Energy-Guided Conditional Diffusion Model
https://arxiv.org/pdf/2303.09833.pdf
摘要
最近锅尘,條件擴散模型因其出色的生成能力而在眾多應(yīng)用中受到歡迎监氢。然而布蔗,許多現(xiàn)有方法需要訓(xùn)練藤违。他們需要訓(xùn)練一個依賴時間的分類器或一個依賴條件的分數(shù)估計器,這增加了構(gòu)建條件擴散模型的成本纵揍,并且不方便在不同條件下遷移顿乒。目前的一些工作旨在通過提出免訓(xùn)練解決方案來克服這一限制,但大多數(shù)只能應(yīng)用于特定類別的任務(wù)泽谨,而不適用于更一般的條件璧榄。在這項工作中特漩,我們提出了一種用于各種條件的訓(xùn)練自由條件擴散模型 (FreeDoM)。具體來說骨杂,我們利用現(xiàn)成的預(yù)訓(xùn)練網(wǎng)絡(luò)(例如人臉檢測模型)來構(gòu)建與時間無關(guān)的能量函數(shù)涂身,該函數(shù)無需訓(xùn)練即可指導(dǎo)生成過程。此外搓蚪,由于能量函數(shù)的構(gòu)造非常靈活并且適應(yīng)各種條件蛤售,我們提出的 FreeDoM 比現(xiàn)有的免訓(xùn)練方法具有更廣泛的應(yīng)用范圍。 FreeDoM 的優(yōu)勢在于其簡單性妒潭、有效性和低成本悴能。實驗表明,F(xiàn)reeDoM 在各種條件下都有效雳灾,適用于不同數(shù)據(jù)域(包括圖像和潛在代碼域)的擴散模型漠酿。
精選圖片
結(jié)論
我們提出了一種無需訓(xùn)練的能量引導(dǎo)條件擴散模型 FreeDoM,無需訓(xùn)練即可解決各種條件生成任務(wù)谎亩。我們的方法使用現(xiàn)成的預(yù)訓(xùn)練時間無關(guān)網(wǎng)絡(luò)來近似時間相關(guān)的能量函數(shù)炒嘲。然后,我們使用近似能量的梯度來指導(dǎo)生成過程团驱。我們的方法支持不同的擴散模型摸吠,包括圖像和潛在擴散模型。值得強調(diào)的是嚎花,本文中介紹的應(yīng)用程序只是 FreeDoM 支持的應(yīng)用程序的一個子集寸痢,不應(yīng)僅限于這些。在未來的工作中紊选,我們的目標是為更廣泛的任務(wù)探索更多的能量函數(shù)啼止。盡管有其優(yōu)點,但我們的 FreeDoM 方法有一些局限性:(1)采樣的時間成本仍然高于訓(xùn)練所需的方法兵罢,因為每次迭代都會增加能量函數(shù)的微分操作献烦,時間旅行策略引入了更多的采樣步驟。 (2) 在大數(shù)據(jù)域中難以使用能量函數(shù)來控制細粒度結(jié)構(gòu)特征卖词。例如巩那,即使我們使用時間旅行策略,使用 Canny 邊緣圖作為條件也可能導(dǎo)致引導(dǎo)不佳此蜈。在這種情況下即横,需要訓(xùn)練的方法將提供更好的選擇。 (3) 等式裆赵。 12處理多條件控制并假設(shè)提供的條件是獨立的东囚,這在實踐中不一定成立。當條件相互沖突時战授,F(xiàn)reeDoM 可能會產(chǎn)生低于標準的生成結(jié)果页藻。
CoDEPS: Online Continual Learning for Depth Estimation and Panoptic Segmentation
https://arxiv.org/pdf/2303.10147.pdf
摘要
在開放世界中操作機器人需要對以前未見過的環(huán)境具有高度的魯棒性桨嫁。理想情況下,機器人能夠在沒有人工監(jiān)督的情況下自行適應(yīng)新條件份帐,例如璃吧,自動調(diào)整其感知系統(tǒng)以適應(yīng)不斷變化的光照條件。在這項工作中废境,我們解決了在新環(huán)境中基于深度學(xué)習的單目深度估計和全景分割的持續(xù)學(xué)習任務(wù)以在線方式肚逸。我們引入 CoDEPS 來執(zhí)行涉及多個現(xiàn)實世界領(lǐng)域的持續(xù)學(xué)習,同時通過利用經(jīng)驗回放來減輕災(zāi)難性遺忘彬坏。特別是朦促,我們提出了一種新的域混合策略來生成偽標簽以適應(yīng)全景分割。此外栓始,我們通過提出基于稀有語義類采樣和圖像多樣性構(gòu)建固定大小重放緩沖區(qū)的采樣策略务冕,明確解決了機器人系統(tǒng)的有限存儲容量問題。我們在各種真實世界的數(shù)據(jù)集上對 CoDEPS 進行了廣泛的評估幻赚,證明它成功地適應(yīng)了看不見的環(huán)境禀忆,而不會犧牲先前領(lǐng)域的性能,同時實現(xiàn)了最先進的結(jié)果落恼。我們工作的代碼可在 http://codeps.cs.uni-freiburg.de 上公開獲得箩退。
精選圖片
結(jié)論
在本文中,我們將 CoDEPS 作為聯(lián)合單眼深度估計和全景分割的在線持續(xù)學(xué)習的第一種方法佳谦。 CoDEPS 使機器人平臺的視覺系統(tǒng)能夠以在線方式不斷提高其性能戴涝。特別是,我們提出了一種新的跨域混合策略钻蔑,以適應(yīng)將帶注釋的源數(shù)據(jù)與來自目標域的未標記圖像相結(jié)合的全景分割啥刻。為了減輕災(zāi)難性遺忘,CoDEPS 利用由源樣本和目標樣本組成的緩沖區(qū)來體驗重放咪笑。與之前的工作不同可帽,我們通過為回放緩沖區(qū)設(shè)置固定大小來明確解決機器人平臺的有限內(nèi)存容量問題。為了確保不同的重放樣本窗怒,我們在源集上使用稀有類采樣映跟,并在更新目標緩沖區(qū)時采用基于圖像的多樣性采樣。通過廣泛的評估扬虚,我們證明 CoDEPS 優(yōu)于競爭基線努隙,同時避免了在線持續(xù)學(xué)習環(huán)境中的災(zāi)難性遺忘。未來的工作將探索跨任務(wù)協(xié)同作用和使用前置任務(wù)進行領(lǐng)域適應(yīng)孔轴。
LION: Implicit Vision Prompt Tuning
https://arxiv.org/pdf/2303.09992.pdf
摘要
盡管最近在一系列視覺任務(wù)中表現(xiàn)出色剃法,但視覺變形金剛?cè)匀淮嬖谟嬎愠杀靖叩膯栴}碎捺。最近路鹰,視覺提示學(xué)習為這個問題提供了一種經(jīng)濟的解決方案贷洲,而無需對整個大型模型進行微調(diào)。然而晋柱,由于插入大量提示塊和技巧提示設(shè)計优构,現(xiàn)有模型的效率仍遠不能令人滿意。在本文中雁竞,我們提出了一種名為 impLicit vIsion proOmpt tuNing (LION) 的高效視覺模型钦椭,該模型由具有穩(wěn)定記憶的深度隱式模型驅(qū)動各種復(fù)雜任務(wù)的成本。特別是碑诉,我們只是在預(yù)訓(xùn)練主干的兩端插入兩個平衡隱式層彪腔,主干中的參數(shù)被凍結(jié)。此外进栽,我們根據(jù)彩票假設(shè)修剪這兩層中的參數(shù)德挣。我們的 LION 獲得的性能在廣泛的數(shù)據(jù)集上很有前途。特別是快毛,與最先進的基線 VPT 相比格嗅,我們的 LION 減少了高達 11.5% 的訓(xùn)練參數(shù)數(shù)量,同時獲得了更高的性能唠帝,尤其是在具有挑戰(zhàn)性的場景下屯掖。此外,我們發(fā)現(xiàn)我們提出的 LION 具有良好的泛化性能襟衰,使其成為未來促進遷移學(xué)習的一種簡單方法贴铜。
精選圖片
結(jié)論
總之,本文提出了一種名為 LION 的高效視覺模型瀑晒,它解決了與 ViT 相關(guān)的大量計算成本阀湿。通過從具有穩(wěn)定內(nèi)存成本的深度隱式模型中汲取靈感,LION 只需要在預(yù)訓(xùn)練的主干網(wǎng)的兩端有兩個平衡隱式層瑰妄,主干網(wǎng)中的參數(shù)被凍結(jié)陷嘴。此外,根據(jù)彩票假設(shè)修剪這兩層中的參數(shù)減少了訓(xùn)練參數(shù)的數(shù)量间坐。與最先進的基線 VPT 相比灾挨,LION 可以以更小的參數(shù)大小獲得更高的性能,尤其是在具有挑戰(zhàn)性的場景下竹宋。我們的實驗表明 LION 具有良好的泛化性能劳澄,使其成為未來提升應(yīng)用程序的簡便方法◎谄撸總的來說秒拔,LION 為視覺任務(wù)提供了一種經(jīng)濟的解決方案,并且有望用于廣泛的數(shù)據(jù)集飒硅。
DiffusionRet: Generative Text-Video Retrieval with Diffusion Model
https://arxiv.org/pdf/2303.09867.pdf
摘要
現(xiàn)有的文本-視頻檢索解決方案本質(zhì)上是專注于最大化條件似然性的判別模型砂缩,即 p(candidates|query)作谚。雖然簡單明了,但這種事實上的范式忽略了底層數(shù)據(jù)分布 p(query)庵芭,這使得識別分布外數(shù)據(jù)具有挑戰(zhàn)性妹懒。為了解決這個限制,我們創(chuàng)造性地從生成的角度處理這個任務(wù)双吆,并將文本和視頻之間的相關(guān)性建模為它們的聯(lián)合概率 p(candidates, query)眨唬。這是通過基于擴散的文本視頻檢索框架 (DiffusionRet) 實現(xiàn)的,該框架將檢索任務(wù)建模為從噪聲中逐漸生成聯(lián)合分布的過程好乐。在訓(xùn)練過程中匾竿,DiffusionRet 從生成和判別兩個角度進行優(yōu)化,生成器通過生成損失進行優(yōu)化蔚万,特征提取器通過對比損失進行訓(xùn)練搂橙。通過這種方式,DiffusionRet 巧妙地利用了生成方法和判別方法的優(yōu)勢笛坦。在五個常用的文本視頻檢索基準(包括 MSRVTT区转、LSMDC、MSVD版扩、ActivityNet Captions 和 DiDeMo)上進行的廣泛實驗證明了我們方法的有效性废离。更令人鼓舞的是,在沒有任何修改的情況下礁芦,DiffusionRet 甚至在域外檢索設(shè)置中也表現(xiàn)出色蜻韭。我們相信這項工作為相關(guān)領(lǐng)域帶來了基本的見解。代碼將在 https://github.com/jpthu17/DiffusionRet 上提供柿扣。
精選圖片
結(jié)論
在本文中肖方,我們提出了 DiffusionRet,這是第一個基于擴散的生成文本視頻檢索框架未状。通過顯式建模文本和視頻的聯(lián)合概率分布俯画,DiffusionRet 有望解決當前判別機制的內(nèi)在局限性。它從生成的角度和判別的角度成功地優(yōu)化了 DiffusionRet司草。這使得 DiffusionRet 在域內(nèi)檢索和域外檢索設(shè)置中具有原則性和適用性艰垂。我們相信這項工作為相關(guān)領(lǐng)域帶來了基本的見解。我們建議在未來的研究中進一步研究生成方法在判別任務(wù)中的潛力埋虹。
Simfluence: Modeling the Influence of Individual Training Examples by Simulating Training Runs
https://arxiv.org/pdf/2303.08114.pdf
摘要
訓(xùn)練數(shù)據(jù)歸因 (TDA) 方法可以將模型對任何給定示例的預(yù)測追溯到特定的有影響力的訓(xùn)練示例〔略鳎現(xiàn)有方法通過為每個訓(xùn)練示例分配一個標量影響分數(shù)來實現(xiàn),在一個簡化的假設(shè)下搔课,即影響是可加的胰柑,訓(xùn)練集的總影響是其部分的總和。但實際上,我們觀察到訓(xùn)練示例高度交互由于示例間冗余柬讨、訓(xùn)練順序和課程學(xué)習效果等因素而導(dǎo)致的非加性方式崩瓤。為了研究這種交互,我們提出了 Simfluence姐浮,這是一種新的 TDA 范例,其目標不是為每個示例產(chǎn)生一個單一的影響分數(shù)葬馋,而是訓(xùn)練運行模擬器:用戶問卖鲤,“如果我的模型已經(jīng)在示例 z1 上進行了訓(xùn)練,然后是 z2畴嘶,...蛋逾,然后是 zn,它在 ztest 上的表現(xiàn)如何窗悯?”区匣;然后模擬器應(yīng)該輸出一個模擬訓(xùn)練運行,這是一個時間序列蒋院,預(yù)測模擬運行每一步在 ztest 上的損失亏钩。這使用戶能夠回答關(guān)于他們的模型在不同的培訓(xùn)課程下會學(xué)到什么的反事實問題,并直接看到學(xué)習會在培訓(xùn)中的什么地方發(fā)生欺旧。在 Simfluence 范例下姑丑,我們提出了一個模擬器 (Simfluence-Linear),它捕獲重要的非加性交互使用馬爾可夫過程辞友。它通常能夠以驚人的保真度預(yù)測單個示例損失的尖峰軌跡栅哀,同時匹配先前 TDA 工作的可解釋性并在毫秒內(nèi)運行。此外称龙,我們表明現(xiàn)有的 TDA 方法(例如 TracIn 和影響函數(shù))可以看作是 Simfluence-Linear 的特例留拾。這使我們能夠直接比較方法的模擬精度,將幾種先前的 TDA 方法納入評估鲫尊。在大型語言模型 (LLM) 微調(diào)實驗中痴柔,我們表明我們的方法在幾個任務(wù)、模型和訓(xùn)練中預(yù)測損失軌跡的準確性比現(xiàn)有的 TDA 方法高得多(斯皮爾曼相關(guān)性加倍并將均方誤差降低 75%)方法疫向。
精選圖片
GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models
https://arxiv.org/pdf/2303.10130.pdf
摘要
我們調(diào)查了生成式預(yù)訓(xùn)練 Transformer (GPT) 模型和相關(guān)技術(shù)對美國勞動力市場的潛在影響竞帽。我們使用新的標準,根據(jù)職業(yè)與 GPT 能力的對應(yīng)關(guān)系評估職業(yè)鸿捧,結(jié)合人類專業(yè)知識和 GPT-4 的分類屹篓。我們的研究結(jié)果表明,大約 80% 的美國勞動力至少有 10% 的工作任務(wù)會受到引入的影響的 GPT匙奴,而大約 19% 的員工可能會看到至少 50% 的任務(wù)受到影響堆巧。這種影響涵蓋所有工資水平,高收入工作可能面臨更大的風險。值得注意的是谍肤,這種影響不僅限于近期生產(chǎn)率增長較高的行業(yè)啦租。我們得出結(jié)論,生成式預(yù)訓(xùn)練 Transformer 表現(xiàn)出通用技術(shù) (GPT) 的特征荒揣,表明這些模型可能具有顯著的經(jīng)濟篷角、社會和政策影響。
結(jié)論
總之系任,本研究考察了 LLM恳蹲,特別是 GPT,對美國經(jīng)濟中各種職業(yè)和行業(yè)的潛在影響俩滥。通過應(yīng)用新的規(guī)則來理解 LLM 能力及其對工作的潛在影響嘉蕾,我們觀察到大多數(shù)職業(yè)都表現(xiàn)出一定程度的 GPT 暴露,而高薪職業(yè)通常會呈現(xiàn)更多暴露程度高的任務(wù)霜旧。我們的分析表明错忱,在考慮當前模型功能和預(yù)期的 GPT 支持的軟件時,大約 19% 的工作至少有 50% 的任務(wù)暴露于 GPT挂据。我們的研究旨在強調(diào) GPT 的通用潛力及其對美國工人的可能影響以清。以前的文獻展示了迄今為止 GPT 令人印象深刻的改進(見 2.1)。我們的調(diào)查結(jié)果證實了這樣一個假設(shè)崎逃,即這些技術(shù)可以對美國的廣泛職業(yè)產(chǎn)生普遍影響玖媚,并且 GPT 主要通過軟件和數(shù)字工具支持的額外進步可以對一系列經(jīng)濟活動產(chǎn)生重大影響。然而婚脱,雖然 GPT 提高人類勞動效率的技術(shù)能力似乎很明顯今魔,但重要的是要認識到社會、經(jīng)濟障贸、監(jiān)管和其他因素會影響實際的勞動生產(chǎn)率結(jié)果错森。隨著能力的不斷發(fā)展,GPT 對經(jīng)濟的影響可能會持續(xù)存在并增加篮洁,這對決策者預(yù)測和監(jiān)管其軌跡提出了挑戰(zhàn)涩维。需要進一步研究以探索 GPT 進步的更廣泛影響,包括它們增加或取代人類勞動力的潛力袁波,它們對工作質(zhì)量的影響瓦阐、對不平等的影響、技能發(fā)展以及許多其他結(jié)果篷牌。通過尋求了解 GPT 對勞動力的能力和潛在影響睡蟋,政策制定者和利益相關(guān)者可以做出更明智的決策,以駕馭 AI 的復(fù)雜格局及其在塑造未來工作中的作用枷颊。
SVDiff: Compact Parameter Space for Diffusion Fine-Tuning
https://arxiv.org/pdf/2303.11305.pdf
摘要
擴散模型在文本到圖像生成方面取得了顯著的成功戳杀,能夠從文本提示或其他模式創(chuàng)建高質(zhì)量圖像该面。然而,現(xiàn)有的定制這些模型的方法受到處理多個個性化對象和過度擬合風險的限制信卡。此外隔缀,它們的大量參數(shù)對于模型存儲來說是低效的。在本文中傍菇,我們提出了一種新方法來解決現(xiàn)有文本到圖像擴散模型中的這些局限性以進行個性化猾瘸。我們的方法涉及對權(quán)重矩陣的奇異值進行微調(diào),從而形成一個緊湊高效的參數(shù)空間丢习,從而降低過度擬合和語言漂移的風險牵触。我們還提出了一種 Cut-Mix-Unmix 數(shù)據(jù)增強技術(shù)來提高多數(shù)據(jù)質(zhì)量-主題圖像生成和簡單的基于文本的圖像編輯框架。與現(xiàn)有方法(vanilla DreamBooth 3.66GB泛领,Custom Diffusion 73MB)相比荒吏,我們提出的 SVDiff 方法具有明顯更小的模型大辛簿(StableDiffusion 為 1.7MB)渊鞋,使其更實用-世界應(yīng)用。
精選圖片
結(jié)論
總之瞧挤,我們提出了一個緊湊的參數(shù)空間锡宋,光譜偏移,用于擴散模型微調(diào)特恬。我們的實驗結(jié)果表明执俩,與單對象生成和多對象生成中的全權(quán)重微調(diào)相比,在此參數(shù)空間中進行微調(diào)可獲得相似甚至更好的結(jié)果癌刽。我們提出的 Cut-Mix-Unmix 數(shù)據(jù)增強技術(shù)還提高了多對象生成的質(zhì)量役首,使得處理對象屬于相似類別的情況成為可能。此外显拜,spectralshift 作為一種正則化方法衡奥,支持單圖像編輯等新用例。局限性我們的方法有一定的局限性远荠,包括隨著添加更多對象矮固,Cut-Mix-Unmix 的性能下降,以及在單圖像編輯中背景可能保存不充分譬淳。盡管存在這些局限性档址,我們還是看到了我們微調(diào)擴散模型的方法的巨大潛力,并期待在未來的研究中進一步探索其功能邻梆,例如將光譜偏移與 LoRA 相結(jié)合或開發(fā)免訓(xùn)練方法以實現(xiàn)快速個性化概念守伸。
Zero-1-to-3: Zero-shot One Image to 3D Object
https://arxiv.org/pdf/2303.11328.pdf
摘要
我們介紹了 Zero-1-to-3,這是一個框架浦妄,用于在給定單個 RGB 圖像的情況下更改對象的相機視點含友。為了在這種欠約束的環(huán)境中執(zhí)行新穎的視圖合成替裆,我們利用了大規(guī)模擴散模型了解自然圖像的幾何先驗。我們的條件擴散模型使用合成數(shù)據(jù)集來學(xué)習相對相機視點的控制窘问,這允許在指定的相機變換下生成同一對象的新圖像辆童。盡管它是在合成數(shù)據(jù)集上訓(xùn)練的,但我們的模型對分布外數(shù)據(jù)集以及自然圖像(包括印象派繪畫)保留了強大的零樣本泛化能力惠赫。我們的視點條件擴散方法可以進一步用于從單個圖像進行 3D 重建的任務(wù)把鉴。定性和定量實驗表明,我們的方法通過利用互聯(lián)網(wǎng)規(guī)模的預(yù)訓(xùn)練儿咱,顯著優(yōu)于最先進的單視圖 3D 重建和新穎的視圖合成模型庭砍。
精選圖片
結(jié)論
在這項工作中,我們提出了一種新方法 Zero1-to-3混埠,用于零樣本怠缸、單圖像新視圖合成和 3D 重建。我們的方法利用了穩(wěn)定擴散模型钳宪,該模型在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進行了預(yù)訓(xùn)練揭北,并捕獲了豐富的語義和幾何先驗。為了提取此信息吏颖,我們對合成數(shù)據(jù)的模型進行了微調(diào)搔体,以學(xué)習對相機視點的控制。由于能夠利用 Stable Diffusion 學(xué)習的強對象形狀先驗半醉,因此產(chǎn)生的方法在多個基準測試中展示了最先進的結(jié)果疚俱。
COLT5: Faster Long-Range Transformers with Conditional Computation
https://arxiv.org/pdf/2303.09752.pdf
摘要
許多自然語言處理任務(wù)受益于長輸入,但使用 Transformers 處理長文檔非常昂貴——不僅因為二次注意力的復(fù)雜性缩多,而且還因為對每個標記應(yīng)用前饋和投影層呆奕。但是,并非所有標記都同等重要衬吆,尤其是對于較長的文檔梁钾。我們提出了 COLT5,沿輸入 Transformer 模型咆槽,該模型建立在這種直覺的基礎(chǔ)上陈轿,采用條件計算,將更多資源投入到前饋層和注意力層中的重要標記秦忿。我們表明麦射,COLT5 的性能比 LONGT5 更快,訓(xùn)練和推理速度更快灯谣,在長輸入 SCROLLS 基準測試中達到 SOTA供搀。此外刚盈,COLT5 可以有效且易于處理地利用極長的輸入男杈,顯示高達 64k 輸入長度的強大增益。
精選圖片
結(jié)論
我們提出了 COLT5罗售,這是一種用于遠程輸入的新模型,它采用條件計算以獲得更高的質(zhì)量和更快的速度钩述。 COLT5 具有適用于整個輸入的輕型前饋和注意層寨躁,以及僅適用于學(xué)習路由器選擇的重要令牌子集的重型分支。我們表明牙勘,與 LONGT5 相比职恳,COLT5 在各種長輸入數(shù)據(jù)集上在任何速度下都能實現(xiàn)更強的性能,并且可以有效且高效地利用高達 64k 令牌的極長輸入方面。
GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation
https://arxiv.org/pdf/2303.10056.pdf
摘要
基于擴散過程的文本到圖像 (T2I) 模型在使用用戶提供的說明的可控圖像生成方面取得了顯著成功放钦。然而,當前 T2I 模型中文本編碼器和圖像解碼器之間的緊密耦合使得替換或升級具有挑戰(zhàn)性恭金。此類更改通常需要進行大量微調(diào)操禀,甚至需要花費高昂的費用從頭開始進行培訓(xùn)。為了解決這個問題横腿,我們提出了 GlueGen颓屑,它應(yīng)用新提出的 GlueNet 模型來將單模態(tài)或多模態(tài)編碼器的特征與現(xiàn)有 T2I 模型的潛在空間對齊。該方法引入了一個新的訓(xùn)練目標蔑水,該目標利用并行語料庫來對齊不同編碼器的表示空間邢锯。實證結(jié)果表明扬蕊,GlueNet 可以得到有效的訓(xùn)練搀别,并具有超越以前最先進模型的各種能力:1)多語言語言模型,如 XLMRoberta 可以與現(xiàn)有的 T2I 模型對齊尾抑,允許從英語以外的字幕生成高質(zhì)量圖像; 2)GlueNet可以將AudioCLIP等多模態(tài)編碼器與Stable Diffusion模型對齊歇父,實現(xiàn)聲音到圖像的生成; 3)它還可以升級當前的潛在擴散模型的文本編碼器再愈,用于具有挑戰(zhàn)性的案例生成榜苫。通過對齊各種特征表示,GlueNet 允許將新功能靈活高效地集成到現(xiàn)有的 T2I 模型中翎冲,并闡明 X 到圖像 (X2I) 的生成垂睬。
精選圖片
結(jié)論
將預(yù)訓(xùn)練的條件編碼器注入現(xiàn)有的 T2I 圖像生成器是朝著更強大的 AI 系統(tǒng)邁進的一個令人興奮的方向。然而抗悍,目前的編碼器由于匹配緊密驹饺,不易升級。本文試圖打破相應(yīng)圖文模型的強約束缴渊,實現(xiàn)靈活模塊化和高效升級赏壹。為了解決嚴重的錯位問題,我們提出了 GlueNet衔沼,其目標是跨模型對齊和原創(chuàng)性保護蝌借。根據(jù)經(jīng)驗昔瞧,它有利于整體性能,并在有限的預(yù)算內(nèi)實現(xiàn) X-to-image 生成的多功能功能菩佑。我們希望這項工作能夠?qū)Υ笮?AI 系統(tǒng)設(shè)計領(lǐng)域的社區(qū)有所啟發(fā)自晰。