Atlas: Few-shot Learning with Retrieval Augmented Language Models
Aug 2022
Gautier Izacard, Patrick Lewis等
[Meta AI Research等]
https://arxiv.org/abs/2208.03299
https://github.com/facebookresearch/atlas
大型語(yǔ)言模型在廣泛的任務(wù)中顯示出令人印象深刻的few-shot結(jié)果柒莉。然而靠汁,當(dāng)知識(shí)是這些結(jié)果的關(guān)鍵時(shí)则酝,就像問(wèn)答和事實(shí)核查等任務(wù)一樣鳖枕,似乎需要大量的參數(shù)來(lái)存儲(chǔ)知識(shí)。眾所周知梅誓,檢索增強(qiáng)模型在不需要那么多參數(shù)的情況下就可以勝任知識(shí)密集型任務(wù)恰梢,但尚不清楚它們是否適用于few-shot設(shè)置佛南。在這項(xiàng)工作中,我們介紹了Atlas嵌言,這是一個(gè)精心設(shè)計(jì)和預(yù)先訓(xùn)練的檢索增強(qiáng)語(yǔ)言模型嗅回,能夠在很少的訓(xùn)練示例中學(xué)習(xí)知識(shí)密集型任務(wù)。我們對(duì)各種任務(wù)進(jìn)行了評(píng)估摧茴,包括MMLU绵载、KILT和NaturalQuestions,并研究了文檔索引內(nèi)容的影響苛白,表明它可以很容易地更新娃豹。值得注意的是,Atlas僅使用64個(gè)例子就在自然問(wèn)題上達(dá)到了42%以上的準(zhǔn)確率购裙,盡管參數(shù)減少了50倍懂版,但仍比540B參數(shù)模型高出3%。
開(kāi)源的概述:
該存儲(chǔ)庫(kù)包含預(yù)訓(xùn)練的模型缓窜、語(yǔ)料庫(kù)定续、索引和代碼,用于論文Atlas:帶檢索增強(qiáng)語(yǔ)言模型的few-shot學(xué)習(xí)的預(yù)訓(xùn)練禾锤、微調(diào)、檢索和評(píng)估
我們聯(lián)合預(yù)訓(xùn)練了一個(gè)檢索增強(qiáng)的seq2seq語(yǔ)言模型摹察,該模型由基于段落的密集檢索器和編碼器-解碼器語(yǔ)言模型組成恩掷。我們對(duì)各種任務(wù)進(jìn)行了評(píng)估,包括MMLU供嚎、KILT和NaturalQuestions黄娘,并研究了文檔索引內(nèi)容的影響,表明它可以很容易地更新克滴。值得注意的是逼争,從2018年起,Atlas在提供維基百科索引時(shí)劝赔,僅使用64個(gè)例子誓焦,在自然問(wèn)題上的準(zhǔn)確率就達(dá)到了45%以上,盡管參數(shù)減少了50倍着帽,但仍比540B參數(shù)模型高出6%杂伟。Atlas在更大的數(shù)據(jù)集上進(jìn)行微調(diào)時(shí)也能很好地工作——在完整的自然問(wèn)題數(shù)據(jù)上進(jìn)行微調(diào)后,Atlas創(chuàng)下了64%的最新水平仍翰,比目前的技術(shù)水平高出8個(gè)百分點(diǎn)赫粥。
此存儲(chǔ)庫(kù)支持對(duì)大型和小型數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練和微調(diào)。此存儲(chǔ)庫(kù)可以支持以下功能:
在解碼器seq2seq模型中訓(xùn)練大型融合予借,測(cè)試高達(dá)11B的參數(shù)
使用各種不同的提取方法將解碼器模型中的融合中的相關(guān)性信號(hào)提取到密集檢索模型中越平。
在用戶提供的文章語(yǔ)料庫(kù)上執(zhí)行端到端檢索增強(qiáng)訓(xùn)練(測(cè)試多達(dá)400M篇文章频蛔,約40B個(gè)單詞),在訓(xùn)練循環(huán)中進(jìn)行檢索
支持屏蔽語(yǔ)言建模秦叛、前綴語(yǔ)言建模帽驯、維基百科部分生成、開(kāi)放域問(wèn)答书闸、多選問(wèn)答尼变、事實(shí)核查和KILT(也可以支持任意seq2seq任務(wù))方面的培訓(xùn)
一種用于密集向量檢索的快速、并行分布式GPU精確和近似最大內(nèi)積搜索
支持快速就地刷新索引
各種內(nèi)存優(yōu)化和方法浆劲,用于在循環(huán)中訓(xùn)練檢索器的同時(shí)保持快速準(zhǔn)確的檢索嫌术。
此外,有關(guān)其他功能牌借,請(qǐng)參閱命令行參數(shù)或自述文件
大型語(yǔ)言模型(LLM)是令人印象深刻的few-shot學(xué)習(xí)者(Brown等人度气,2020年;Rae等人膨报,2021磷籍;Hoffmann等人,2022年现柠;Chowdhery等人院领,2022.)。他們能夠在很少的例子中學(xué)習(xí)新任務(wù)够吩,甚至只從指令中學(xué)習(xí)比然。為了實(shí)現(xiàn)這種泛化能力,關(guān)鍵因素是縮放模型的參數(shù)數(shù)量和訓(xùn)練數(shù)據(jù)的大小周循。大型語(yǔ)言模型的這種改進(jìn)歸功于更大的計(jì)算預(yù)算强法,實(shí)現(xiàn)了更復(fù)雜的推理,以及從更大的訓(xùn)練數(shù)據(jù)中記憶更多與下游任務(wù)相關(guān)的信息的能力湾笛。雖然直覺(jué)上認(rèn)為饮怯,推理能力的提高會(huì)導(dǎo)致更好的泛化,因此很少有鏡頭學(xué)習(xí)嚎研,但參數(shù)內(nèi)記憶卻并非如此蓖墅。具體而言,目前尚不清楚有效的few-shot學(xué)習(xí)在多大程度上需要大量的模型參數(shù)知識(shí)嘉赎。
在本文中置媳,我們研究了few-shot學(xué)習(xí)是否需要模型在其參數(shù)中存儲(chǔ)大量信息,以及記憶是否可以與泛化脫鉤公条。為此拇囊,我們利用了這樣一個(gè)事實(shí),即內(nèi)存可以外包靶橱,并通過(guò)使用檢索增強(qiáng)架構(gòu)由外部非參數(shù)知識(shí)源取代寥袭。這些模型使用非參數(shù)記憶路捧,例如,在大型传黄、外部杰扫、潛在的非靜態(tài)知識(shí)源上的神經(jīng)檢索器,以增強(qiáng)參數(shù)語(yǔ)言模型膘掰。除了記憶能力外章姓,這種結(jié)構(gòu)還具有吸引力,因?yàn)樵谶m應(yīng)性识埋、可解釋性和效率方面有許多其他既定優(yōu)勢(shì)(Guu等人凡伊,2020年;Lewis等人窒舟,2020系忙;Yogatama等人,2021惠豺;Borgeaud等人银还,2021)。然而洁墙,檢索增強(qiáng)模型尚未展示出令人信服的few-shot學(xué)習(xí)能力蛹疯。在這項(xiàng)工作中,我們解決了這一差距扫俺,并提出了Atlas苍苞,這是一種檢索增強(qiáng)語(yǔ)言模型,能夠進(jìn)行強(qiáng)大的few-shot學(xué)習(xí)狼纬,盡管它的參數(shù)計(jì)數(shù)比最近其他強(qiáng)大的多鏡頭學(xué)習(xí)者低。
Atlas通過(guò)使用基于Contriever的雙編碼器架構(gòu)的通用密集檢索器骂际,基于當(dāng)前上下文檢索相關(guān)文檔(Izacard et al.疗琉,2022)。檢索到的文檔以及當(dāng)前上下文由序列到序列模型處理歉铝,該模型使用解碼器中的融合架構(gòu)(Izacard&Grave盈简,2020)生成相應(yīng)的輸出。我們研究了訓(xùn)練Atlas的不同技術(shù)對(duì)其在一系列下游任務(wù)中的few-shot性能的影響太示,包括問(wèn)答和事實(shí)核查柠贤。我們發(fā)現(xiàn),對(duì)組件進(jìn)行聯(lián)合預(yù)訓(xùn)練對(duì)于few-shot性能至關(guān)重要类缤,為此臼勉,我們仔細(xì)評(píng)估了許多現(xiàn)有的和新穎的預(yù)訓(xùn)練任務(wù)和方案。Atlas在few-shot和資源豐富的環(huán)境中都實(shí)現(xiàn)了強(qiáng)大的下游性能餐弱。例如宴霸,在只有11B參數(shù)的情況下囱晴,Atlas使用64個(gè)訓(xùn)練示例在NaturalQuestions上實(shí)現(xiàn)了42.4%的準(zhǔn)確率(僅使用維基百科索引時(shí)為45.1%),比540B參數(shù)模型的PaLM(Chowdhery et al.瓢谢,2022)高出近3個(gè)點(diǎn)畸写,在使用維基百科索引的完整數(shù)據(jù)集設(shè)置中高出64.0%,以8個(gè)點(diǎn)的優(yōu)勢(shì)確立了新的技術(shù)水平氓扛。
總之枯芬,我們做出了以下貢獻(xiàn):
?深入研究如何設(shè)計(jì)和訓(xùn)練檢索增強(qiáng)語(yǔ)言模型,重點(diǎn)關(guān)注下游的few-shot學(xué)習(xí)和樣本效率采郎。
?這項(xiàng)研究的發(fā)現(xiàn)導(dǎo)致了一個(gè)名為Atlas的檢索增強(qiáng)語(yǔ)言模型千所,該模型很少表現(xiàn)出比標(biāo)準(zhǔn)LLM更低規(guī)模的few-shot能力。
?我們提供了微調(diào)策略的探索尉剩,以有效地使檢索器和語(yǔ)言模型適應(yīng)手頭的任務(wù)真慢。
?在few-shot設(shè)置中進(jìn)行徹底的下游實(shí)驗(yàn),在few-shotNaturalQuestions(+2.8%)理茎、TriviaQA(+3.3%)黑界、FEVER(+5.1%)上展示了最先進(jìn)的結(jié)果,結(jié)果與MMLU上參數(shù)增加15倍的模型不相上下或更強(qiáng)皂林。
?研究完整數(shù)據(jù)集微調(diào)的實(shí)驗(yàn)朗鸠,在NaturalQuestions(+8.1%)、TriviaQA(+9.3%)和5個(gè)KILT任務(wù)中創(chuàng)造了最先進(jìn)的新結(jié)果础倍。
?實(shí)驗(yàn)證明了Atlas的可更新性和可解釋性特征烛占。
?實(shí)驗(yàn)表明,使用產(chǎn)品量化的壓縮索引實(shí)現(xiàn)了與未壓縮索引相當(dāng)?shù)男阅芄灯簦瑫r(shí)減少了5倍的內(nèi)存忆家。
我們的代碼、經(jīng)過(guò)預(yù)訓(xùn)練的Atlas檢查點(diǎn)和各種支持?jǐn)?shù)據(jù)開(kāi)源
2方法
我們的方法遵循文本到文本的框架(Raffel et al.德迹,2019)芽卿。這意味著所有任務(wù)的框架如下:系統(tǒng)獲取一個(gè)文本查詢作為輸入,并生成一個(gè)文本輸出胳搞。例如卸例,在問(wèn)答的情況下,查詢對(duì)應(yīng)于問(wèn)題肌毅,模型需要生成答案筷转。在分類任務(wù)的情況下,查詢與文本輸入相對(duì)應(yīng)悬而,并且模型生成詞匯化的類標(biāo)簽呜舒,即與標(biāo)簽相對(duì)應(yīng)的單詞。我們從圖2中的KILT基準(zhǔn)中給出了更多下游任務(wù)的例子摊滔。由于許多自然語(yǔ)言處理任務(wù)都需要知識(shí)阴绢,我們的目標(biāo)是通過(guò)檢索來(lái)增強(qiáng)標(biāo)準(zhǔn)的文本到文本模型店乐,正如我們?cè)谝灾屑僭O(shè)的那樣,這對(duì)于賦予模型few-shot的能力可能至關(guān)重要呻袭。
2.1架構(gòu)
我們的模型基于兩個(gè)子模型:檢索器和語(yǔ)言模型眨八。在執(zhí)行任務(wù)時(shí),從回答問(wèn)題到生成維基百科文章左电,我們的模型首先用檢索器從一個(gè)大型文本語(yǔ)料庫(kù)中檢索前k個(gè)相關(guān)文檔廉侧。然后,這些文檔與查詢一起被提供給語(yǔ)言模型篓足,查詢反過(guò)來(lái)生成輸出段誊。檢索器和語(yǔ)言模型都基于預(yù)先訓(xùn)練的Transformer網(wǎng)絡(luò),我們將在下面更詳細(xì)地描述栈拖。
檢索器连舍。
我們的檢索器模塊基于Contriever(Izacard et al.,2022)涩哟,這是一種基于連續(xù)密集嵌入的信息檢索技術(shù)索赏。Contriever使用雙編碼器架構(gòu),其中查詢和文檔由Transformer編碼器獨(dú)立嵌入(Huang et al.贴彼,2013潜腻;Karpukhin et al.,2020)器仗。對(duì)最后一層的輸出應(yīng)用平均池化融涣,以獲得每個(gè)查詢或文檔的一個(gè)向量表示。然后精钮,通過(guò)計(jì)算查詢和每個(gè)文檔對(duì)應(yīng)嵌入之間的點(diǎn)積來(lái)獲得查詢和它們之間的相似性得分威鹿。Contriever模型是使用MoCo對(duì)比損失進(jìn)行預(yù)訓(xùn)練的(He et al.,2020)轨香,并且僅使用無(wú)監(jiān)督數(shù)據(jù)专普。如下一節(jié)所示,密集檢索器的一個(gè)優(yōu)點(diǎn)是弹沽,使用梯度下降和蒸餾等標(biāo)準(zhǔn)技術(shù),可以在沒(méi)有文檔注釋的情況下訓(xùn)練查詢和文檔編碼器筋粗。
語(yǔ)言模型策橘。
對(duì)于語(yǔ)言模型,我們依賴T5序列到序列架構(gòu)(Raffel et al.娜亿,2019)丽已。我們依靠Fusion in Decoder對(duì)序列到序列模型的修改,并在編碼器中獨(dú)立處理每個(gè)文檔(Izacard&Grave买决,2020)沛婴。然后吼畏,我們將對(duì)應(yīng)于不同文檔的編碼器的輸出連接起來(lái),并在解碼器中對(duì)這一單個(gè)序列進(jìn)行交叉關(guān)注嘁灯。根據(jù)Izacard&Grave(2020)泻蚊,我們將查詢連接到編碼器中的每個(gè)文檔。在語(yǔ)言模型中處理檢索到的文檔的另一種方法是將查詢和所有文檔連接起來(lái)丑婿,并使用這個(gè)長(zhǎng)序列作為模型的輸入性雄。不幸的是,這種方法不會(huì)隨著文檔數(shù)量的增加而增加羹奉,因?yàn)榫幋a器中的自注意導(dǎo)致了相對(duì)于文檔數(shù)量的二次復(fù)雜度秒旋。
2.2檢索器的訓(xùn)練目標(biāo)
在本節(jié)中,我們將討論四種不同的損失函數(shù)诀拭,以與語(yǔ)言模型一起訓(xùn)練檢索器迁筛。我們考慮利用語(yǔ)言模型提供監(jiān)督信號(hào)來(lái)訓(xùn)練檢索器的損失函數(shù)。換句話說(shuō)耕挨,如果語(yǔ)言模型在生成輸出時(shí)發(fā)現(xiàn)文檔有用细卧,那么檢索器的目標(biāo)應(yīng)該鼓勵(lì)檢索器將所述文檔排名更高。這使我們能夠僅使用感興趣任務(wù)的查詢和輸出對(duì)來(lái)訓(xùn)練模型俗孝,而不依賴于文檔注釋酒甸。例如,在事實(shí)核查的情況下赋铝,模型只需要成對(duì)的事實(shí)和相應(yīng)的核查插勤,而不需要包含支持核查的證據(jù)的文件。在實(shí)踐中革骨,我們可以將這種方法應(yīng)用于任何任務(wù)农尖,包括自監(jiān)督的預(yù)訓(xùn)練。如實(shí)驗(yàn)部分所示良哲,預(yù)訓(xùn)練對(duì)于獲得表現(xiàn)出很few-shot門(mén)學(xué)習(xí)能力的模型至關(guān)重要盛卡。
注意力蒸餾(ADist)。
我們考慮的第一個(gè)損失是基于語(yǔ)言模型的注意力得分筑凫,并受到Izacard&Grave(2021)的啟發(fā)滑沧。其主要思想是,在生成輸出時(shí)巍实,輸入文檔和輸出之間的交叉注意力得分可以用作每個(gè)輸入文檔重要性的代理滓技。特別是,Izacard&Grave(2021)表明棚潦,這些分?jǐn)?shù)可以在給定文檔的注意頭令漂、層次和標(biāo)記之間進(jìn)行聚合,以獲得每個(gè)文檔的單個(gè)分?jǐn)?shù)。然后叠必,可以通過(guò)在前K個(gè)文檔{dk}1荚孵,…上最小化具有概率分布pret的KL發(fā)散來(lái)將這些分?jǐn)?shù)提取到檢索器中,纬朝。收叶。。玄组,從檢索器獲得的K:
其中s是查詢和文檔向量之間的點(diǎn)積滔驾,θ是溫度超參數(shù)。在最初的論文中俄讹,提出使用解碼器交叉注意力的預(yù)softmax分?jǐn)?shù)哆致,并在頭部、層和令牌之間進(jìn)行平均患膛。在這里摊阀,我們提出了一種替代方案,它給出了稍微更強(qiáng)的結(jié)果踪蹬,這取決于以下觀察結(jié)果胞此。在注意力機(jī)制中,如
不能僅從注意力得分αn來(lái)評(píng)估特定令牌n對(duì)輸出y的貢獻(xiàn)跃捣,但也應(yīng)該考慮值vn的范數(shù)漱牵。因此,我們使用數(shù)量αnkvnk2作為標(biāo)記n的相關(guān)性度量疚漆。繼Izacard&Grave(2021)之后酣胀,我們對(duì)所有注意力、層次和標(biāo)記進(jìn)行平均娶聘,以獲得每個(gè)文檔的得分闻镶。我們?cè)谒梅謹(jǐn)?shù)上應(yīng)用Softmax算子,以獲得前K個(gè)檢索到的文檔上的分布模式(dk)丸升。然后铆农,我們最小化pattn(dk)和方程1中定義的來(lái)自檢索器的分布pret之間的KL發(fā)散:
在這里,這種損失只用于優(yōu)化檢索器的參數(shù)狡耻,而不是語(yǔ)言模型墩剖。當(dāng)使用最近的深度學(xué)習(xí)框架時(shí),這是通過(guò)在pattn上應(yīng)用StopGradient算子來(lái)實(shí)現(xiàn)的夷狰。
多文檔讀取器和檢索器(EMDR2)的端到端訓(xùn)練涛碑。
接下來(lái),我們考慮Sachan等人(2021)引入的方法孵淘,該方法受期望最大化算法的啟發(fā),將檢索到的文檔視為潛在變量歹篓。給定查詢q瘫证、對(duì)應(yīng)的輸出a和當(dāng)前檢索器的前K個(gè)檢索到的文檔的集合DK揉阎,訓(xùn)練檢索器的EMDR2損失為
其中pret再次是利用檢索器獲得的前K個(gè)文檔的概率,如等式1所定義背捌。同樣毙籽,通過(guò)在plm周?chē)鷳?yīng)用StopGradient運(yùn)算符,僅更新檢索器的參數(shù)毡庆。應(yīng)當(dāng)注意坑赡,使該損失函數(shù)最大化的文檔上的概率分布是對(duì)應(yīng)于根據(jù)語(yǔ)言模型的輸出的最高概率的文檔的指示符。最后么抗,在實(shí)踐中毅否,EMDR2損失函數(shù)應(yīng)用于令牌級(jí)別,而不是序列級(jí)別蝇刀。
困惑蒸餾(PDist)螟加。
第三,我們討論了一個(gè)更簡(jiǎn)單的損失函數(shù)吞琐,該函數(shù)受到了注意力蒸餾和EMDR2方法目標(biāo)的啟發(fā)(Izacard&Grave捆探,2021;Sachan等人站粟,2021)黍图。更確切地說(shuō),我們希望訓(xùn)練檢索器來(lái)預(yù)測(cè)在給定查詢的情況下奴烙,每個(gè)文檔將在多大程度上改善輸出的語(yǔ)言模型困惑助被。為此,我們使用統(tǒng)一先驗(yàn)缸沃,最小化檢索器的文檔分布(等式1)和根據(jù)語(yǔ)言模型的文檔后驗(yàn)分布之間的KL差異:
使用Softmax運(yùn)算符恰起,我們可以
省略一個(gè)困惑蒸餾(LOOP)。
最后趾牧,我們提出了一個(gè)目標(biāo)检盼,該目標(biāo)基于在刪除前k個(gè)檢索到的文檔時(shí)囚霸,語(yǔ)言模型的預(yù)測(cè)會(huì)變得多么糟糕押蚤。為此剧包,我們計(jì)算k-1文檔的每個(gè)子集的輸出的對(duì)數(shù)概率猾编,并使用負(fù)值作為每個(gè)文檔的相關(guān)性得分宪潮。根據(jù)前面的損失函數(shù)揣炕,我們使用softmax算子來(lái)獲得文檔上的概率分布:
如前所述钳宪,我們將該分布與使用檢索器獲得的分布之間的KL偏差最小化靠柑。這種損失的計(jì)算成本比PDist和EMDR更高认臊,但與ADist一樣圃庭,它更接近于語(yǔ)言模型的訓(xùn)練方式,即LM被訓(xùn)練為以一組K個(gè)文檔為條件。對(duì)于LOOP剧腻,語(yǔ)言模型以(K?1)個(gè)文檔為條件拘央,而不是像EMDR2和PDist那樣以單個(gè)文檔為條件。
對(duì)于所有損失书在,我們也可以在計(jì)算目標(biāo)或檢索器分布時(shí)使用溫度超參數(shù)來(lái)控制分布的峰值灰伟,這對(duì)一些任務(wù)或損失可能很重要。事實(shí)上儒旬,對(duì)于PDist和LOOP栏账,當(dāng)條件是不同的文檔時(shí),輸出的困惑可能不會(huì)有太大變化栈源,尤其是在長(zhǎng)輸出的情況下挡爵。
2.3文本前任務(wù)
在本節(jié)中,我們描述了可以用于僅使用無(wú)監(jiān)督數(shù)據(jù)聯(lián)合預(yù)訓(xùn)練檢索器和語(yǔ)言模型的借口任務(wù)凉翻。
前綴語(yǔ)言建模了讨。
首先,我們將標(biāo)準(zhǔn)語(yǔ)言建模任務(wù)視為潛在的預(yù)訓(xùn)練目標(biāo)制轰。為了在文本到文本框架中進(jìn)行語(yǔ)言建模前计,我們考慮一個(gè)由N個(gè)單詞組成的塊,并將該塊拆分為兩個(gè)子序列垃杖,長(zhǎng)度相等N/2男杈。然后,第一個(gè)子序列被用作查詢调俘,第二個(gè)子序列對(duì)應(yīng)于輸出伶棒。因此,我們通過(guò)使用N/2個(gè)令牌的第一個(gè)子序列來(lái)檢索相關(guān)文檔彩库,以生成輸出肤无。
掩碼語(yǔ)言建模。
其次骇钦,我們考慮了由Raffel等人(2019)制定的掩碼語(yǔ)言建模宛渐。同樣,從一組N個(gè)單詞開(kāi)始眯搭,我們對(duì)平均長(zhǎng)度為3個(gè)標(biāo)記的k個(gè)跨度進(jìn)行采樣窥翩,從而得到15%的掩碼率。然后鳞仙,我們用不同的特殊標(biāo)記替換每個(gè)跨度寇蚊。然后對(duì)模型進(jìn)行訓(xùn)練以生成掩碼跨度,每個(gè)跨度從插入輸入序列中的特殊哨兵掩碼令牌開(kāi)始棍好。我們使用掩碼查詢檢索文檔仗岸,但將特殊的掩碼令牌替換為檢索器詞匯表支持的掩碼令牌
章節(jié)生成的標(biāo)題允耿。
最后,我們考慮一個(gè)更抽象的生成任務(wù)爹梁,在給定文章和章節(jié)標(biāo)題的情況下右犹,從維基百科文章中生成章節(jié)。這里姚垃,查詢與文章的標(biāo)題以及小節(jié)的標(biāo)題相對(duì)應(yīng),輸出與小節(jié)的文本相對(duì)應(yīng)盼忌。我們排除了“另請(qǐng)參閱”积糯、“參考文獻(xiàn)”、“進(jìn)一步閱讀”和“外部鏈接”部分谦纱。
2.4高效檢索器微調(diào)
通過(guò)使用文檔索引來(lái)促進(jìn)檢索看成,文檔索引是檢索語(yǔ)料庫(kù)中所有文檔的文檔嵌入的預(yù)先計(jì)算的集合。當(dāng)聯(lián)合訓(xùn)練檢索器和語(yǔ)言模型時(shí)跨嘉,索引需要定期更新川慌,否則,存儲(chǔ)在索引中的文檔的嵌入相對(duì)于更新的檢索器會(huì)變得過(guò)時(shí)祠乃。這意味著我們需要在訓(xùn)練期間定期重新計(jì)算文檔的完整集合的嵌入梦重,以保持索引的新鮮性,這對(duì)于大型索引來(lái)說(shuō)可能在計(jì)算上很昂貴亮瓷。在微調(diào)時(shí)尤其如此琴拧,因?yàn)橄鄬?duì)于索引中的文檔數(shù)量,訓(xùn)練示例的數(shù)量可能很小嘱支。因此蚓胸,與標(biāo)準(zhǔn)語(yǔ)言模型微調(diào)相比,訓(xùn)練檢索器可能會(huì)增加重要的計(jì)算開(kāi)銷除师。在本節(jié)中沛膳,我們分析了可能使此過(guò)程更高效的策略,從而減少了過(guò)于頻繁地重新計(jì)算所有文檔嵌入的需要汛聚。
完整索引更新锹安。
讓我們從分析由于更新索引而產(chǎn)生的開(kāi)銷開(kāi)始,與使用固定的檢索器相比贞岭。為了比較不同模型的計(jì)算時(shí)間八毯,我們將做出以下假設(shè):對(duì)具有P參數(shù)模型的文檔執(zhí)行正向傳遞所需的時(shí)間為O(P)。雖然這種計(jì)算模型可能看起來(lái)很天真瞄桨,但主要假設(shè)是文檔大小是恒定的话速。1由于我們將長(zhǎng)文檔拆分為字?jǐn)?shù)相似的段落,并在處理不同大小的文檔時(shí)使用填充芯侥,因此這種假設(shè)在實(shí)踐中是合理的泊交。設(shè)K為語(yǔ)言模型檢索和處理的文檔數(shù)乳讥,Plm為語(yǔ)言模型的參數(shù)數(shù),B為批大小廓俭。每個(gè)訓(xùn)練步驟的復(fù)雜度為4×B×K×Plm云石。2.
接下來(lái),讓N是索引中的文檔數(shù)研乒,Pretr是檢索器的參數(shù)數(shù)汹忠。然后,重新計(jì)算完整索引的復(fù)雜度為N×Pretr雹熬。如果我們每R個(gè)訓(xùn)練步驟刷新一次索引宽菜,我們將獲得以下開(kāi)銷:
如果我們將BERT基礎(chǔ)架構(gòu)用于我們的檢索器,將T5-XL用于我們的語(yǔ)言模型竿报,我們得到Pretr Plm≈1 25铅乡,從而增加開(kāi)銷:
如果我們使用一個(gè)包含3700萬(wàn)個(gè)文檔的索引(相當(dāng)于維基百科索引的大小)烈菌,用64個(gè)批量大小的20個(gè)檢索到的文檔進(jìn)行訓(xùn)練阵幸,并每1000步刷新一次索引,這將導(dǎo)致約30%的開(kāi)銷芽世。
重新排名挚赊。
第二種策略是使用檢索器檢索更多的文檔L,并使用最新的檢索器重新嵌入和重新排列這些文檔捂襟,并將生成的top-K傳遞給語(yǔ)言模型咬腕。在這種情況下,對(duì)前L個(gè)文檔進(jìn)行重新排序的開(kāi)銷等于B×L×Pretr葬荷。由于我們?cè)诿總€(gè)時(shí)間步長(zhǎng)執(zhí)行此操作涨共,因此開(kāi)銷等于
使用與之前相同的假設(shè),我們最終得出開(kāi)銷為L(zhǎng) 100×K的數(shù)量級(jí)宠漩。如果我們對(duì)比語(yǔ)言模型處理的文檔多10倍的文檔進(jìn)行重新排序(即L=10×K)举反,我們將獲得10%的開(kāi)銷。但是扒吁,請(qǐng)注意火鼻,如果在檢索器上執(zhí)行了多次更新,則可能仍需要完全更新索引雕崩,因?yàn)榭赡軣o(wú)法在過(guò)時(shí)索引的top-L結(jié)果中檢索到真正的top-k文檔魁索。在實(shí)踐中,可以跟蹤前K個(gè)重新排序的文檔在前L個(gè)文檔中的位置盼铁,并估計(jì)何時(shí)需要更新索引粗蔚。
查詢端微調(diào)。
最后饶火,最后一種策略是將查詢和文檔的編碼解耦鹏控。在這種情況下致扯,我們固定與文檔編碼器相對(duì)應(yīng)的參數(shù),而只訓(xùn)練與查詢編碼器對(duì)應(yīng)的參數(shù)当辐。因此抖僵,文檔的嵌入是固定的,我們不需要刷新索引缘揪,因此沒(méi)有計(jì)算開(kāi)銷耍群。正如我們將在實(shí)踐中看到的那樣,當(dāng)有大型訓(xùn)練數(shù)據(jù)集可用時(shí)找筝,修復(fù)文檔編碼器對(duì)不同任務(wù)的影響差異很大世吨。對(duì)于我們考慮的大多數(shù)few-shot鏡頭設(shè)置,查詢端微調(diào)不會(huì)對(duì)性能產(chǎn)生很大影響呻征,有時(shí)甚至?xí)晕⑻岣咝阅堋?/p>
3相關(guān)工作
3.1自然語(yǔ)言處理中的檢索
知識(shí)密集型任務(wù)的檢索。先前的工作表明罢浇,檢索可以提高各種任務(wù)的性能陆赋,如問(wèn)答(Voorhees et al.,1999嚷闭;Chen et al.攒岛,2017;Kwiatkowski et al.胞锰,2019)灾锯、事實(shí)核查(Thorne et al.,2018)嗅榕、對(duì)話(Dinan等人顺饮,2019)或引文推薦(Petroni et al.,2022)凌那。從歷史上看兼雄,這一信息檢索步驟是使用術(shù)語(yǔ)匹配方法實(shí)現(xiàn)的,如TF-IDF或BM25(Jones帽蝶,1972赦肋;Robertson等人,1995年)励稳。對(duì)于開(kāi)放域問(wèn)答(Voorhees et al.佃乘,1999),文檔通常從維基百科中檢索(Chen et al.驹尼,2017)趣避。最近,基于神經(jīng)網(wǎng)絡(luò)的密集檢索器變得很流行扶欣。這些通常遵循雙編碼器架構(gòu)(Yih et al.鹅巍,2011千扶;Huang et al.,2013骆捧;Shen et al.澎羞,2014),其中查詢和段落被獨(dú)立地編碼為向量敛苇,并且相關(guān)性是使用內(nèi)積或歐幾里得距離計(jì)算的妆绞。流行的監(jiān)督檢索器包括DPR(Karpukhin et al.,2020)枫攀,它被訓(xùn)練來(lái)區(qū)分負(fù)面段落中的相關(guān)段落括饶,以及改進(jìn)硬負(fù)面挖掘過(guò)程的擴(kuò)展,如ANCE(Xiong et al.来涨,2017)图焰。我們建議讀者參考Yates等人(2021)對(duì)密集檢索技術(shù)的調(diào)查。檢索后蹦掐,對(duì)相關(guān)文檔進(jìn)行處理以產(chǎn)生最終輸出技羔。在開(kāi)放域QA中,模型可以從檢索到的文檔中提取一段文本作為答案(Chen et al.卧抗,2017藤滥;Clark&Gardner,2018社裆;Wang et al.拙绊,2019;Karpukhin et al.泳秀,2020)标沪,這是一種受閱讀理解啟發(fā)的方法(Richardson,2013晶默;Rajpurkar et al.谨娜,2016)。最近磺陡,使用以檢索到的文檔為條件的seq2seq模型將答案生成為自由格式文本已經(jīng)變得普遍(Lewis等人趴梢,2020;Izacard&Grave币他,2020坞靶;Min等人,2020)蝴悉。這些架構(gòu)也被證明可以減少對(duì)話代理的幻覺(jué)(Shuster等人彰阴,2021)。
檢索器訓(xùn)練拍冠。
通過(guò)利用來(lái)自語(yǔ)言模型的信號(hào)或使用無(wú)監(jiān)督學(xué)習(xí)尿这,可以繞過(guò)對(duì)用于訓(xùn)練檢索器的昂貴查詢文檔注釋的需求簇抵。REALM(Guu等人,2020)和RAG(Lewis et al.射众,2020)通過(guò)將文檔建模為潛在變量碟摆,并通過(guò)梯度下降最小化目標(biāo),聯(lián)合訓(xùn)練檢索器和語(yǔ)言模型叨橱。REALM使用MLM方法進(jìn)行端到端預(yù)訓(xùn)練典蜕,但使用提取式BERT模型(Devlin等人,2019)罗洗。Guu等人(2020)還探索了在微調(diào)時(shí)進(jìn)行查詢端微調(diào)愉舔,以避免索引刷新,Lee等人(2021b)也在基于短語(yǔ)的檢索中進(jìn)行了探索伙菜。Izacard&Grave(2020)提出使用交叉注意力得分作為知識(shí)提煉的監(jiān)督轩缤。Sachan等人(2021)利用讀者輸出的困惑,對(duì)讀者和檢索者進(jìn)行聯(lián)合訓(xùn)練贩绕。Sachan等人(2021)和Lee等人(2021a)都利用語(yǔ)言模型中的困惑和注意力得分典奉,對(duì)獵犬進(jìn)行了顯著跨度掩碼。Lee等人提出了反向完形填空任務(wù)丧叽。(2019)以無(wú)監(jiān)督的方式預(yù)先訓(xùn)練密集檢索器。Paranjape等人(2021)提出了一種方法公你,使用可訪問(wèn)輸出的第二個(gè)“知情”檢索器訓(xùn)練檢索增強(qiáng)生成器踊淳,測(cè)試時(shí)檢索器可以從中提取,Hofst?tter等人(2022年)最近提出了一個(gè)訓(xùn)練集過(guò)濾/加權(quán)方法陕靠,以訓(xùn)練更強(qiáng)的檢索增強(qiáng)生成器迂尝。Izacard等人(2022)探索了不同的對(duì)比學(xué)習(xí)方法來(lái)訓(xùn)練檢索器,而Ram等人(2022年)使用文檔中的重復(fù)跨度來(lái)創(chuàng)建偽陽(yáng)性查詢文檔對(duì)剪芥。
檢索增強(qiáng)語(yǔ)言模型垄开。
連續(xù)緩存模型(Grave et al.,2017b)通過(guò)計(jì)算代幣的先前和當(dāng)前表示之間的相似性税肪,定義了最近代幣的概率分布溉躲。然后將該分布與語(yǔ)言模型的分布進(jìn)行插值,以改進(jìn)預(yù)測(cè)益兄。后來(lái)锻梳,通過(guò)利用近似最近鄰居搜索,用于計(jì)算這種分布的令牌數(shù)量擴(kuò)展到了更大的內(nèi)存中(Grave et al.净捅,2017a)疑枯。相關(guān)的kNN-LM模型(Khandelwal et al.,2020)用Transformer網(wǎng)絡(luò)取代了LSTM蛔六,并將內(nèi)存擴(kuò)展到數(shù)十億個(gè)令牌荆永,從而大大提高了性能废亭。最近,RETRO(Borgeaud等人具钥,2021)通過(guò)將檢索內(nèi)存擴(kuò)展到數(shù)萬(wàn)億個(gè)令牌豆村,并更改模型體系結(jié)構(gòu)以將檢索到的文檔作為輸入,對(duì)這些進(jìn)行了擴(kuò)展氓拼。
利用搜索引擎增強(qiáng)檢索功能你画。
最近,不同的工作建議通過(guò)生成文本查詢并使用檢索到的文檔作為附加上下文來(lái)訓(xùn)練大型語(yǔ)言模型與搜索引擎進(jìn)行交互(Nakano等人桃漾,2021坏匪;Thoppilan等人,2022年撬统;Shuster等人适滓,2022.)。在few-shot問(wèn)答的背景下恋追,Lazaridou等人(2022)使用該問(wèn)題執(zhí)行搜索查詢凭迹,并將檢索到的文檔添加到執(zhí)行上下文學(xué)習(xí)的大型語(yǔ)言模型的提示中。
3.2few-shot學(xué)習(xí)
few-shot學(xué)習(xí)苦囱,即從極few-shot例子中學(xué)習(xí)的任務(wù)嗅绸,已經(jīng)研究了幾十年(Thrun&Pratt,1998撕彤;芬克鱼鸠,2005;Vinyals等人羹铅,2016)蚀狰,但最近隨著大型預(yù)訓(xùn)練模型的出現(xiàn),人們對(duì)NLP的興趣激增职员,這些模型表現(xiàn)出了涌現(xiàn)的few-shot學(xué)習(xí)能力(Wei等人麻蹋,2022)。
使用大型語(yǔ)言模型進(jìn)行上下文學(xué)習(xí)焊切。
正如Radford等人提出的那樣扮授,為語(yǔ)言模型提供任務(wù)的自然語(yǔ)言描述。(2019)導(dǎo)致了few-shot學(xué)習(xí)的重大發(fā)展专肪。GPT-3(Brown et al.糙箍,2020)證明了大型語(yǔ)言模型執(zhí)行few-shot預(yù)測(cè)的能力,其中該模型以自然語(yǔ)言描述了任務(wù)牵祟,幾乎沒(méi)有例子深夯。縮放模型大小、數(shù)據(jù)和計(jì)算對(duì)于實(shí)現(xiàn)這種學(xué)習(xí)能力至關(guān)重要咕晋,從而導(dǎo)致大型模型的進(jìn)一步發(fā)展(Lieber等人雹拄,2021;Rae等人掌呜,2021滓玖;Smith等人,2022年质蕉;Chowdhery等人势篡,2022.Smith等,2022)模暗。Hoffmann等人(2022)重新審視了Kaplan等人的比例定律禁悠。(2020),表明用較小的模型對(duì)更多數(shù)據(jù)進(jìn)行訓(xùn)練可能更有效兑宇,從而產(chǎn)生了參數(shù)效率提高的70B參數(shù)模型Chinchilla碍侦。
很少進(jìn)行微調(diào)和基于提示的學(xué)習(xí)。
上述模型在不訓(xùn)練語(yǔ)言模型的參數(shù)的情況下隶糕,利用上下文中的指令執(zhí)行few-shot學(xué)習(xí)瓷产。通過(guò)結(jié)合文本模板(“提示”)和各種形式的模型微調(diào),也可以實(shí)現(xiàn)few-shot學(xué)習(xí)枚驻,要么完全更新模型的參數(shù)濒旦,例如用于分類(Schick&Schütze,2021a再登;Schick&Schutze疤估,2021;Gao等人霎冯,2021;Tam等人钞瀑,2021)沈撞,要么生成(Schik&Schutse,2021b)雕什。提示本身可以優(yōu)化缠俺,例如通過(guò)搜索(Jiang等人,2020贷岸;Shin等人壹士,2020)或僅更新部分模型(Logan等人,2021)偿警,或?qū)W習(xí)“軟盈利”(Lester等人躏救,2021;Li和Liang,2021)盒使。由于其簡(jiǎn)單性崩掘,在這項(xiàng)工作中,我們要么使用簡(jiǎn)單的提示少办,要么在不進(jìn)行預(yù)處理的情況下直接輸入苞慢,然后執(zhí)行全模型微調(diào),這是一種類似于Le Scao&Rush(2021)的方法英妓。
4個(gè)實(shí)驗(yàn)
在本節(jié)中挽放,我們報(bào)告了對(duì)我們的語(yǔ)言模型在few-shot學(xué)習(xí)方面的實(shí)證評(píng)估。我們首先介紹了我們的實(shí)驗(yàn)設(shè)置蔓纠,在第4.1節(jié)中描述了我們的評(píng)估基準(zhǔn)辑畦,并在第4.2節(jié)中給出了我們模型的訓(xùn)練細(xì)節(jié)。然后贺纲,我們進(jìn)行消融研究航闺,以比較導(dǎo)致我們的主要模型的不同技術(shù)選擇。最后猴誊,我們?cè)趂ew-shot鏡頭和完整數(shù)據(jù)集設(shè)置中潦刃,在不同的自然語(yǔ)言理解任務(wù)上評(píng)估了這個(gè)名為Atlas的模型。
4.1基準(zhǔn)
為了評(píng)估我們的檢索增強(qiáng)語(yǔ)言模型懈叹,我們考慮了以下基準(zhǔn)乖杠,其中包括不同的任務(wù)。
知識(shí)密集型語(yǔ)言任務(wù)(KILT)澄成。
首先胧洒,我們使用KILT評(píng)估套件(Petroni et al.,2020)墨状,包含11個(gè)數(shù)據(jù)集卫漫,對(duì)應(yīng)于5項(xiàng)任務(wù):事實(shí)核查、問(wèn)答肾砂、對(duì)話生成列赎、實(shí)體鏈接和填充。這些不同的任務(wù)需要解決關(guān)于世界的知識(shí)镐确,這些知識(shí)可以在維基百科上找到包吝。我們?cè)贙ILT中包含的以下任務(wù)和數(shù)據(jù)集上評(píng)估了我們的模型:?jiǎn)柎穑篘aturalQuestions(Kwiatkowski et al.,2019)源葫、TriviaQA(Joshi et al.诗越,2017)和HotpotQA(Yang et al.,2018)息堂;空位填充:Zero Shot RE(Levy et al.嚷狞,2017)和T-REx(Elsahar et al.,2018);實(shí)體鏈接:AIDA CoNLL YAGO(Hoffart et al.感耙,2011)褂乍;對(duì)話:維基百科的向?qū)В―inan et al.,2019)即硼;以及事實(shí)核查:FEVER(Thorne等人逃片,2018)。這些數(shù)據(jù)集的KILT版本與其原始版本不同只酥,因?yàn)?019年8月維基百科轉(zhuǎn)儲(chǔ)中不存在的需要知識(shí)的實(shí)例已被刪除褥实。
大規(guī)模多任務(wù)語(yǔ)言理解(MMLU)。
我們的第二個(gè)主要評(píng)估基準(zhǔn)是MMLU(Hendrycks等人裂允,2021)损离,它包含57個(gè)多選問(wèn)答數(shù)據(jù)集(稱為域),這些數(shù)據(jù)源于為人類設(shè)計(jì)的真實(shí)考試绝编。這些涵蓋了非常廣泛的主題僻澎,例如高中數(shù)學(xué)、專業(yè)法十饥、邏輯謬誤和臨床知識(shí)窟勃,可以大致分為四個(gè)子類:人文科學(xué)、社會(huì)科學(xué)逗堵、STEM和“其他”秉氧。我們專注于few-shot學(xué)習(xí),基準(zhǔn)測(cè)試的作者建議每個(gè)領(lǐng)域使用5個(gè)訓(xùn)練示例蜒秤。除了5點(diǎn)設(shè)置之外汁咏,我們還考慮了三個(gè)額外的設(shè)置。第一種是零樣本設(shè)置作媚,根本沒(méi)有訓(xùn)練數(shù)據(jù)攘滩。第二種,我們稱之為多任務(wù)few-shot纸泡,是在所有任務(wù)的6-shot數(shù)據(jù)上訓(xùn)練單個(gè)模型漂问,從而產(chǎn)生285個(gè)例子的訓(xùn)練集。最后一種弟灼,我們稱之為遷移學(xué)習(xí),利用了MMLU作者提供的其他多項(xiàng)選擇QA任務(wù)中的額外訓(xùn)練示例冒黑,即MCTest(Richardson田绑,2013)、RACE(Lai et al.抡爹,2017)掩驱、ARC(Clark et al.,2018)和OBQA(Mihaylov et al.,2019)欧穴,從而形成了一組95k個(gè)示例的訓(xùn)練集民逼。
其他基準(zhǔn)。
此外涮帘,我們報(bào)告了流行的NaturalQuestions(Kwiatkowski et al.拼苍,2019)和TriviaQA(Joshi et al.,2017)數(shù)據(jù)集的原始開(kāi)放域版本的結(jié)果调缨。我們還根據(jù)FEVER的原始版本(Thorne et al.疮鲫,2018)評(píng)估了我們的模型,該模型將事實(shí)核查作為文本聲明的三方分類問(wèn)題(“支持”:文本在維基百科中得到證據(jù)支持弦叶,“反駁”:聲明與維基百科中的證據(jù)不一致俊犯,或者“信息不足”,沒(méi)有足夠的證據(jù)做出判斷)伤哺。我們還進(jìn)行了實(shí)驗(yàn)來(lái)評(píng)估我們模型的時(shí)間敏感性燕侠。在這里,我們從TempLAMA構(gòu)建了一個(gè)數(shù)據(jù)集(Dhingra et al.立莉,2022)绢彤,由一組關(guān)于一系列主題的時(shí)間敏感完形填空問(wèn)題組成,其中答案從2017年到2020年發(fā)生變化桃序。當(dāng)提供2017年與2020年的指數(shù)時(shí)杖虾,我們?cè)u(píng)估模型的準(zhǔn)確性,以評(píng)估模型在多大程度上忠實(shí)地反映了測(cè)試時(shí)提供給他們的指數(shù)的內(nèi)容媒熊,以及更新指數(shù)作為一種持續(xù)學(xué)習(xí)或模型可更新性方法的有效性奇适。
4.2技術(shù)細(xì)節(jié)
我們現(xiàn)在描述預(yù)訓(xùn)練和微調(diào)模型的過(guò)程。我們重點(diǎn)關(guān)注第4.3節(jié)和第4.4節(jié)中進(jìn)行的消融研究所使用的設(shè)置芦鳍。我們稍后會(huì)給出更多關(guān)于用于最終模型的超參數(shù)的詳細(xì)信息嚷往。
訓(xùn)練前。
對(duì)于預(yù)訓(xùn)練柠衅,我們使用無(wú)監(jiān)督的Contriever模型初始化檢索器模塊皮仁,該模型使用BERT基礎(chǔ)架構(gòu)。我們使用T5預(yù)訓(xùn)練的權(quán)重來(lái)初始化語(yǔ)言模型菲宴。由于最初的T5預(yù)訓(xùn)練模型在訓(xùn)練集中包括監(jiān)督數(shù)據(jù)贷祈,我們使用僅在未標(biāo)記文本上訓(xùn)練的1.1版本模型。具體來(lái)說(shuō)喝峦,我們從T5 lm自適應(yīng)變體開(kāi)始初始化势誊,因?yàn)樗鼈兊姆€(wěn)定性得到了提高。
對(duì)于第4.3節(jié)和第4.4節(jié)中進(jìn)行的消融研究谣蠢,我們使用包含3B重量的T5-XL粟耻。我們使用AdamW對(duì)所有模型進(jìn)行10000次迭代的預(yù)訓(xùn)練查近,批處理大小為64蛛碌,讀取器的學(xué)習(xí)率為10-4瞻颂,檢索器的學(xué)習(xí)率是10-5,具有線性衰減和1000個(gè)預(yù)shot步驟粹舵。我們每1000步刷新一次索引册烈。這意味著戈泼,與使用固定檢索器進(jìn)行訓(xùn)練相比,在預(yù)訓(xùn)練期間重新計(jì)算該指數(shù)10次茄厘,導(dǎo)致約30%的開(kāi)銷矮冬。我們將檢索到的文檔數(shù)設(shè)置為20。我們?cè)诘?.5節(jié)開(kāi)始時(shí)詳細(xì)介紹了用于最終模型訓(xùn)練的超參數(shù)次哈。
微調(diào)胎署。
當(dāng)執(zhí)行下游任務(wù)時(shí),無(wú)論是在few-shot鏡頭設(shè)置中還是在大型訓(xùn)練集中窑滞,我們都會(huì)進(jìn)行微調(diào)琼牧,使我們的模型適應(yīng)這些任務(wù)。對(duì)于少量KILT消融實(shí)驗(yàn)哀卫,我們執(zhí)行固定數(shù)量的微調(diào)迭代巨坊,而不是使用早期停止。更確切地說(shuō)此改,我們決定對(duì)64次拍攝設(shè)置使用50次迭代趾撵,對(duì)1024次拍攝設(shè)置則使用200次迭代。在這兩種情況下共啃,我們都使用了32個(gè)示例的批量大小占调,具有線性衰減的4×10?5的學(xué)習(xí)率,以及讀取器和檢索器的5個(gè)預(yù)shot步驟移剪。
未標(biāo)記的數(shù)據(jù)集究珊。
最后,我們討論了用于訓(xùn)練模型的未標(biāo)記文本數(shù)據(jù)集纵苛,這些數(shù)據(jù)集形成了檢索索引剿涮。首先,我們考慮2021 12月20日的維基百科轉(zhuǎn)儲(chǔ)攻人,我們保留了列表和信息框取试,通過(guò)在條目之間添加分號(hào)分隔符將其線性化。我們將文章按節(jié)拆分怀吻,并將長(zhǎng)段拆分為大小相等且包含不到200個(gè)單詞的段落瞬浓。這導(dǎo)致了總共37M個(gè)段落,平均包含78個(gè)單詞烙博。我們還使用了來(lái)自2020-10常見(jiàn)爬網(wǎng)轉(zhuǎn)儲(chǔ)的文檔瑟蜈,這些文檔經(jīng)過(guò)CCNet管道預(yù)處理(Wenzek et al.,2020)渣窜。我們以與Gopher類似的方式執(zhí)行額外的文檔過(guò)濾(Rae等人铺根,2021)。更準(zhǔn)確地說(shuō)乔宿,我們根據(jù)文檔長(zhǎng)度位迂、平均單詞長(zhǎng)度、字母數(shù)字字符的比例和重復(fù)標(biāo)記的數(shù)量來(lái)過(guò)濾文檔详瑞。這導(dǎo)致總共有350M個(gè)通道掂林。相同的段落用于索引和模型預(yù)訓(xùn)練。在預(yù)訓(xùn)練期間坝橡,我們確保從檢索到的文檔中篩選出我們正在訓(xùn)練的段落泻帮,以防止模型簡(jiǎn)單地檢索它正在去挖掘/生成的段落,并簡(jiǎn)單地使用它來(lái)解決預(yù)訓(xùn)練任務(wù)计寇。
4.3訓(xùn)練前損失和任務(wù)
我們通過(guò)比較不同的預(yù)訓(xùn)練任務(wù)和目標(biāo)函數(shù)來(lái)聯(lián)合訓(xùn)練檢索器和語(yǔ)言模型锣杂,從而開(kāi)始我們的消融研究。我們的目標(biāo)是回答以下研究問(wèn)題:
(RQ 1)對(duì)整個(gè)模型進(jìn)行聯(lián)合預(yù)訓(xùn)練是否會(huì)帶來(lái)更好的少桿表現(xiàn)番宁?
(RQ 2)檢索器的最佳目標(biāo)函數(shù)和最佳借口任務(wù)是什么元莫?
我們首先通過(guò)使用掩碼語(yǔ)言建模任務(wù)對(duì)模型進(jìn)行預(yù)訓(xùn)練來(lái)比較第2.2節(jié)中介紹的檢索器的訓(xùn)練目標(biāo)。我們?cè)?4次和1024次KILT基準(zhǔn)的子集上評(píng)估了這些模型:NaturalQuestions蝶押、FEVER和維基百科的Wizard踱蠢,以及兩個(gè)基線:“閉卷”(即非增強(qiáng)T5)基線,在相同數(shù)據(jù)上預(yù)訓(xùn)練棋电,并從Contriever和T5 lm adapt初始化茎截。我們?cè)诒?中報(bào)告了結(jié)果。首先离陶,我們注意到閉卷基線的較差性能稼虎,這表明了擴(kuò)充的重要性。接下來(lái)招刨,我們觀察到霎俩,用檢索對(duì)我們的模型進(jìn)行預(yù)訓(xùn)練對(duì)于在少量拍攝任務(wù)中獲得良好性能很重要。事實(shí)上沉眶,所有在預(yù)訓(xùn)練期間包括檢索的模型都大大優(yōu)于沒(méi)有聯(lián)合預(yù)訓(xùn)練的基線打却。接下來(lái),我們比較了一個(gè)使用固定檢索器預(yù)先訓(xùn)練的模型谎倔,以及使用各種檢索器訓(xùn)練目標(biāo)的模型柳击。在與預(yù)訓(xùn)練目標(biāo)相對(duì)應(yīng)的MLM驗(yàn)證指標(biāo)上,我們觀察到聯(lián)合訓(xùn)練檢索器會(huì)帶來(lái)很大的改進(jìn)片习。在64次shot的下游任務(wù)中捌肴,這種效果往往不太明顯蹬叭,在1024次shot中幾乎不存在。我們認(rèn)為状知,這證明了預(yù)訓(xùn)練的最大影響是對(duì)語(yǔ)言模型的影響秽五,該模型學(xué)習(xí)使用和聚合檢索到的文檔中的信息。最后饥悴,我們沒(méi)有觀察到不同的檢索器訓(xùn)練目標(biāo)之間存在顯著的系統(tǒng)差異坦喘。因此,我們決定在隨后的實(shí)驗(yàn)中使用困惑蒸餾西设,因?yàn)樗菶MDR2或ADist更穩(wěn)定瓣铣,并且比LOOP更高效。
接下來(lái)贷揽,我們比較表2中第2.3節(jié)中介紹的不同的自監(jiān)督借口任務(wù)棠笑。在這里,我們觀察到所有三個(gè)任務(wù)都有類似的結(jié)果禽绪,掩碼語(yǔ)言建模有一個(gè)小優(yōu)勢(shì)腐晾。因此,在接下來(lái)的內(nèi)容中丐一,我們采用掩碼語(yǔ)言建模進(jìn)行預(yù)訓(xùn)練藻糖。
最后,我們?cè)陬A(yù)訓(xùn)練期間考慮了索引和訓(xùn)練數(shù)據(jù)的數(shù)據(jù)源Wikipedia和普通爬網(wǎng)的不同組合库车。在所有情況下巨柒,當(dāng)執(zhí)行少量微調(diào)時(shí),我們都使用2021維基百科轉(zhuǎn)儲(chǔ)作為索引柠衍。我們?cè)诒?中報(bào)告了結(jié)果洋满。首先,我們觀察到珍坊,使用基于維基百科的索引可以帶來(lái)更好的下游性能牺勾。對(duì)此可能有兩種解釋:首先,當(dāng)我們使用維基百科進(jìn)行few-shot拍攝任務(wù)時(shí)阵漏,當(dāng)使用相同的數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)驻民,模型可能會(huì)更好地適應(yīng)。另一種解釋可能是履怯,維基百科是一個(gè)比普通爬行更高質(zhì)量回还、更密集的知識(shí)來(lái)源。其次叹洲,當(dāng)使用通用爬網(wǎng)索引時(shí)柠硕,我們觀察到維基百科數(shù)據(jù)上的預(yù)訓(xùn)練會(huì)導(dǎo)致比使用通用爬網(wǎng)數(shù)據(jù)更低的性能。我們認(rèn)為运提,主要原因是兩個(gè)域之間的分布不匹配導(dǎo)致檢索到的文檔通常不太相關(guān)蝗柔。反過(guò)來(lái)闻葵,這可能意味著預(yù)訓(xùn)練的效率較低,因?yàn)檎Z(yǔ)言模型沒(méi)有充分利用文檔中的信息癣丧。因此笙隙,在下文中,我們決定將來(lái)自兩個(gè)域的數(shù)據(jù)組合用于索引和預(yù)訓(xùn)練數(shù)據(jù)坎缭。
4.4微調(diào)
在本節(jié)中,我們對(duì)如何將我們的模型應(yīng)用于下游任務(wù)進(jìn)行了消融研究签钩,這依賴于微調(diào)掏呼。特別是,我們想調(diào)查以下研究問(wèn)題:
(RQ 3)如何在訓(xùn)練數(shù)據(jù)有限的任務(wù)中有效地微調(diào)Atlas铅檩?
為了回答這個(gè)問(wèn)題憎夷,我們比較了不同的策略來(lái)微調(diào)檢索器模塊,如第2.4節(jié)所述昧旨。我們?cè)诒?中報(bào)告了結(jié)果拾给。首先,關(guān)于預(yù)訓(xùn)練兔沃,我們觀察到蒋得,在微調(diào)過(guò)程中保持檢索器固定會(huì)導(dǎo)致64次和1024次few-shot設(shè)置的性能顯著下降。其次乒疏,重新排序策略(第2行)導(dǎo)致與完全更新索引(第1行)非常相似的結(jié)果额衙,同時(shí)顯著提高了效率。最后怕吴,僅對(duì)查詢編碼器進(jìn)行微調(diào)也會(huì)產(chǎn)生強(qiáng)大的結(jié)果:特別是窍侧,在64鏡頭設(shè)置中,這比執(zhí)行完全微調(diào)略強(qiáng)转绷,我們將其歸因于過(guò)度擬合的機(jī)會(huì)較少伟件。另一方面,在1024鏡頭的設(shè)置中议经,進(jìn)行全面的微調(diào)會(huì)產(chǎn)生更強(qiáng)的結(jié)果斧账,尤其是在NaturalQuestions上。因此煞肾,在下文中其骄,我們對(duì)少量示例的實(shí)驗(yàn)使用查詢端微調(diào),對(duì)較大數(shù)據(jù)集使用標(biāo)準(zhǔn)微調(diào)扯旷。
4.5訓(xùn)練和評(píng)估Atlas
在本節(jié)中拯爽,我們應(yīng)用前幾節(jié)消融的結(jié)果來(lái)訓(xùn)練一系列Atlas模型,參數(shù)范圍從770M到11B钧忽。更具體地說(shuō)毯炮,我們使用困惑提取目標(biāo)函數(shù)逼肯,以及掩碼語(yǔ)言建模借口任務(wù)。我們使用Wikipedia和Common Crawl數(shù)據(jù)的組合對(duì)這些模型進(jìn)行預(yù)訓(xùn)練桃煎,用于訓(xùn)練數(shù)據(jù)和索引內(nèi)容篮幢。我們檢索20個(gè)文檔,每2500步更新一次索引为迈,并對(duì)前100個(gè)文檔進(jìn)行重新排序三椿。我們使用批量大小為128的AdamW預(yù)訓(xùn)練10000次迭代的模型。
4.5.1 MMLU結(jié)果
如第4.1節(jié)所述葫辐,我們考慮MMLU的四種設(shè)置:1)零樣本設(shè)置搜锰,我們直接應(yīng)用預(yù)處理模型,無(wú)需進(jìn)行少量的shot微調(diào)耿战;2)五shot設(shè)置蛋叼,我們針對(duì)57個(gè)域中的每個(gè)域使用5個(gè)訓(xùn)練示例微調(diào)模型;3)五shot多任務(wù)設(shè)置剂陡,其中狈涮,不是針對(duì)每個(gè)域獨(dú)立微調(diào)模型,我們訓(xùn)練單個(gè)模型來(lái)執(zhí)行所有任務(wù)鸭栖,4)訪問(wèn)多個(gè)輔助數(shù)據(jù)集的設(shè)置歌馍,總共有95K個(gè)訓(xùn)練示例。我們訓(xùn)練模型生成與正確答案選項(xiàng)(“A”晕鹊、“B”骆姐、“C”或“D”)相對(duì)應(yīng)的字母,并在測(cè)試時(shí)從4個(gè)字母中選擇最有可能的答案捏题。完整的技術(shù)細(xì)節(jié)見(jiàn)附錄A.1玻褪。
性能與參數(shù)。
首先公荧,我們將Atlas與不同尺寸的5shot带射、5shot多任務(wù)和完整設(shè)置的閉卷模型進(jìn)行比較,并在表5中報(bào)告結(jié)果循狰。在這些設(shè)置中窟社,Atlas比閉卷基線高出6.6到15.6分,證明了檢索在57個(gè)領(lǐng)域中對(duì)few-shot語(yǔ)言理解的一致實(shí)用性绪钥。在770M參數(shù)的少量拍攝設(shè)置中灿里,閉卷T5的表現(xiàn)很難明顯優(yōu)于隨機(jī)(25%),而等效的Atlas實(shí)現(xiàn)了約40%的表現(xiàn)程腹,盡管其尺寸較小匣吊,但明顯優(yōu)于隨機(jī)。所有模型都會(huì)隨著更多的數(shù)據(jù)而改進(jìn),但有趣的是色鸳,與較大的模型相比社痛,770M模型并沒(méi)有從few-shot多任務(wù)學(xué)習(xí)中受益那么多(對(duì)于閉卷模型,它實(shí)際上損失了3分)命雀,這表明較小的模型很難在few-shot設(shè)置中把握任務(wù)之間的協(xié)同作用蒜哀。較大的模型很好地利用了多任務(wù)設(shè)置,Atlas的改進(jìn)程度超過(guò)了閉卷吏砂。例如撵儿,Atlas-11B提高了13分(43.4→ 56.4),但等效的閉式書(shū)本只提高了7(36.1→ 43.5)狐血。最后淀歇,在遷移學(xué)習(xí)環(huán)境中,所有模型都有所改進(jìn)氛雪,但Atlas封閉式模型之間的相對(duì)差距仍然相似。
去偏置耸成。
在微調(diào)時(shí)报亩,我們將哪個(gè)答案選項(xiàng)與哪個(gè)答案字母排列在一起,以減少過(guò)度擬合井氢,并鼓勵(lì)在答案字母上使用統(tǒng)一的先驗(yàn)弦追。然而,該模型可能仍然對(duì)一些字母表現(xiàn)出偏見(jiàn)花竞,特別是在few-shot鏡頭設(shè)置中劲件,因此除了上述標(biāo)準(zhǔn)推理之外,我們還包括第二種“去偏見(jiàn)”推理模式约急。在這里零远,我們運(yùn)行4次正向傳遞,每個(gè)循環(huán)排列一次問(wèn)題中的答案字母-答案選項(xiàng)分配厌蔽,例如牵辣,分配給字母“A”的答案選項(xiàng)變?yōu)椤癇”,原來(lái)的“B”變?yōu)椤癈”等等奴饮。3然后纬向,我們將4個(gè)概率求和,以獲得最終預(yù)測(cè)戴卜,這減少了對(duì)其中一個(gè)答案字母的偽偏差(更多細(xì)節(jié)見(jiàn)附錄A.1)逾条。結(jié)果如表6所示。我們發(fā)現(xiàn)投剥,在零樣本和五拍設(shè)置中师脂,去偏非常有效,分別提高了10.3和4.5個(gè)點(diǎn)。當(dāng)有更多的訓(xùn)練數(shù)據(jù)可用時(shí)危彩,對(duì)去偏的需求就會(huì)減少攒磨,導(dǎo)致多任務(wù)和完整數(shù)據(jù)設(shè)置僅提高0.2點(diǎn)。
與已出版作品的比較
接下來(lái)汤徽,我們將帶有去偏的Atlas-11B結(jié)果與最近報(bào)道的具有最先進(jìn)的大型語(yǔ)言模型(如GPT-3或Chinchilla)的結(jié)果進(jìn)行比較娩缰,這些模型需要大量的計(jì)算來(lái)訓(xùn)練。我們?cè)诒?中報(bào)告了結(jié)果谒府。我們發(fā)現(xiàn)拼坎,Atlas在零樣本方面的表現(xiàn)明顯優(yōu)于隨機(jī),結(jié)合去偏倚推理完疫,獲得的零樣本分?jǐn)?shù)超過(guò)文獻(xiàn)中報(bào)告的GPT3五shot結(jié)果(47.1%比43.9%)(Hendrycks等人泰鸡,2021)。對(duì)于5shot點(diǎn)設(shè)置壳鹤,Atlas比GPT-3高4%盛龄,同時(shí)使用的參數(shù)減少了15倍,預(yù)訓(xùn)練計(jì)算減少了10倍芳誓。4當(dāng)在組合的5shot點(diǎn)數(shù)據(jù)上進(jìn)行多任務(wù)訓(xùn)練時(shí)余舶,Atlas提高到56.6%,接近Gopher的5shot點(diǎn)性能(60.0%)锹淌。最后匿值,在全數(shù)據(jù)設(shè)置上,我們?cè)贛MLU作者推薦的輔助數(shù)據(jù)上進(jìn)行訓(xùn)練赂摆,Atlas的總體準(zhǔn)確率達(dá)到65.6%挟憔,接近最先進(jìn)水平。有趣的是烟号,在這種設(shè)置中绊谭,Atlas顯著優(yōu)于GPT-3,而在5shot設(shè)置中汪拥,它們的性能相似龙誊。
4.5.2開(kāi)放域問(wèn)答結(jié)果
接下來(lái),我們?cè)趦蓚€(gè)開(kāi)放領(lǐng)域問(wèn)答基準(zhǔn)上評(píng)估Atlas:NaturalQuestions和TriviaQA喷楣。我們與之前的工作進(jìn)行了比較趟大,包括在使用64個(gè)示例的few-shot鏡頭設(shè)置中,以及使用完整的訓(xùn)練集铣焊,并在表8中報(bào)告了結(jié)果逊朽。在這些需要高度記憶的基準(zhǔn)上,我們清楚地看到了檢索增強(qiáng)的好處曲伊。Atlas-11B在NaturalQuestions和TriviaQA的64次問(wèn)答中都獲得了最先進(jìn)的結(jié)果叽讳。特別是追他,它的性能明顯優(yōu)于更大的模型,如PaLM岛蚤,或需要更多訓(xùn)練計(jì)算的模型邑狸,例如Chinchilla。在使用完整的訓(xùn)練集時(shí)涤妒,Atlas還獲得了最先進(jìn)的結(jié)果单雾,例如,將NaturalQuestions的準(zhǔn)確率從55.9%提高到60.4%她紫。該結(jié)果是通過(guò)使用CCNet和2021 12月的維基百科語(yǔ)料庫(kù)(我們的默認(rèn)索引設(shè)置)組成的索引獲得的硅堆。在第5.2節(jié)中,我們考慮使用由不同日期存檔的維基百科語(yǔ)料庫(kù)組成的索引贿讹,并在使用與NaturalQuestions在時(shí)間上匹配的索引時(shí)渐逃,證明NaturalQuentions的額外+3.6%。我們?cè)诟戒沘.2中報(bào)告了作為模型大小函數(shù)的性能以及詳細(xì)的超參數(shù)民褂。
Atlas還與最近探索檢索的工作相比較茄菊,后者用非常大的模型增強(qiáng)了few-shot問(wèn)答。Lazaridou等人(2022)使用Gopher在15個(gè)鏡頭的設(shè)置中探索NaturalQuestions赊堪,使用谷歌搜索檢索到的50個(gè)段落來(lái)增加問(wèn)題面殖。該方法包括從每個(gè)檢索到的段落中生成4個(gè)候選答案,然后使用受RAG啟發(fā)的分?jǐn)?shù)(Lewis et al.雹食,2020)或更昂貴的方法重新排序畜普。這種方法(未在我們的表格中顯示)實(shí)現(xiàn)了32.7%(RAG)和38.4%(Ensemble)的精確匹配分?jǐn)?shù)期丰,每個(gè)測(cè)試時(shí)間問(wèn)題需要50次(RAG或450次(Ensembles)Gopher-280B的前向傳球群叶。Atlas使用相同的15個(gè)訓(xùn)練示例和50個(gè)段落,實(shí)現(xiàn)了38.7 EM钝荡,盡管參數(shù)減少了25倍街立,并且需要相對(duì)可以忽略不計(jì)的計(jì)算。
4.5.3發(fā)shot結(jié)果
我們?cè)诒?中報(bào)告了原始3類FEVER事實(shí)核查測(cè)試集的結(jié)果埠通。我們考慮64鏡頭設(shè)置赎离,其中訓(xùn)練示例從整個(gè)訓(xùn)練集中均勻采樣。與開(kāi)發(fā)集和測(cè)試集不同端辱,訓(xùn)練集是不平衡的梁剔,陽(yáng)性標(biāo)簽比陰性標(biāo)簽多,這對(duì)few-shot學(xué)習(xí)構(gòu)成了挑戰(zhàn)舞蔽。在這種情況下荣病,我們獲得了64.3%的準(zhǔn)確率。我們還報(bào)告了一個(gè)15桿的設(shè)置渗柿,從每個(gè)類中均勻抽樣5個(gè)示例个盆,以與Gopher(Rae等人,2021)發(fā)布的結(jié)果進(jìn)行比較,其中Atlas得分56.2%颊亮,比Gopher高5.1分柴梆。最后,我們?cè)谕暾挠?xùn)練集上對(duì)模型進(jìn)行了微調(diào)终惑,在ProoFVer的1.5%范圍內(nèi)取得了78%的分?jǐn)?shù)绍在,ProoFVer使用了一種特殊的體系結(jié)構(gòu),一種經(jīng)過(guò)句子級(jí)注釋訓(xùn)練的檢索器狠鸳,并提供了用FEVER發(fā)布的維基百科語(yǔ)料庫(kù)揣苏,而Atlas則從CCNet和2021 12月的Wikipedia轉(zhuǎn)儲(chǔ)中檢索。如果我們給Atlas一個(gè)由FEVER維基百科語(yǔ)料庫(kù)組成的索引件舵,我們就設(shè)定了80.1%的最新水平
4.5.4KILT結(jié)果
最后卸察,我們對(duì)KILT上的Atlas進(jìn)行了評(píng)估,KILT是一個(gè)由幾個(gè)不同的知識(shí)密集型任務(wù)組成的基準(zhǔn)铅祸,如第4.1節(jié)所述坑质。我們?cè)诒?0中報(bào)告了測(cè)試集的結(jié)果,其評(píng)估可在線獲取5临梗。數(shù)據(jù)集的KILT版本被過(guò)濾涡扼,因此我們?cè)谄渌胤皆u(píng)估的數(shù)據(jù)集的結(jié)果在KILT上無(wú)法直接比較(即FEVER、NQ和TQA)盟庞。我們同時(shí)考慮64鏡頭設(shè)置和完全微調(diào)設(shè)置吃沪,在這兩種情況下,我們?cè)诿總€(gè)數(shù)據(jù)集上單獨(dú)訓(xùn)練Atlas什猖。有關(guān)超參數(shù)和開(kāi)發(fā)集結(jié)果的更多詳細(xì)信息票彪,請(qǐng)參見(jiàn)附錄A.3。對(duì)于64shot不狮,我們大大超過(guò)了隨機(jī)性能降铸,甚至與排行榜上的一些完全調(diào)整過(guò)的模型相競(jìng)爭(zhēng),例如對(duì)于FEVER摇零,我們的64shotAtlas僅落后于Sphere推掸、SEAL和Re2G 2-2.5點(diǎn),在零樣本RE上優(yōu)于Sphere和SEAL驻仅。在全數(shù)據(jù)集設(shè)置中谅畅,Atlas與3個(gè)數(shù)據(jù)集的最先進(jìn)水平相差3%,并在剩下的五個(gè)數(shù)據(jù)集中設(shè)置了最先進(jìn)的技術(shù)噪服。
5分析
5.1可解釋性和泄漏
Atlas這樣的半?yún)?shù)模型的一個(gè)優(yōu)點(diǎn)是能夠檢查檢索到的項(xiàng)目毡泻,以幫助解釋。為了更好地了解Atlas檢索的效果芯咧,以及它如何使用檢索到的段落牙捉,我們檢查了多任務(wù)few-shotMMLU的檢索到的章節(jié)竹揍。如圖3的左側(cè)面板所示,該模型從CCNet檢索其大部分段落(平均85%)邪铲。維基百科約占檢索段落的15%芬位,這高于我們?cè)诮y(tǒng)一先驗(yàn)下的預(yù)期,因?yàn)榫S基百科只占索引的10%左右带到。維基百科檢索的比例在MMLU領(lǐng)域之間有所不同昧碉,該模型在STEM領(lǐng)域更大程度上使用維基百科,在社會(huì)科學(xué)領(lǐng)域使用最少揽惹。維基百科使用最多的領(lǐng)域是“抽象代數(shù)”(73%)被饿,最少的是“道德場(chǎng)景”(3%)。我們還注意到搪搏,MMLU微調(diào)后的Atlas并沒(méi)有大量使用維基百科信息框中的段落狭握。
我們還可以分析段落的內(nèi)容,以評(píng)估它們對(duì)完成下游任務(wù)的用處疯溺。圖3的中間面板顯示了檢索到的文檔包含正確答案選項(xiàng)文本的頻率论颅。在前25段中,30%的試題中至少有一個(gè)提到了正確答案囱嫩。6右側(cè)面板顯示恃疯,當(dāng)正確答案選項(xiàng)文本在檢索到的段落中出現(xiàn)得更頻繁時(shí),MMLU的準(zhǔn)確性會(huì)提高墨闲,從沒(méi)有出現(xiàn)答案選項(xiàng)時(shí)的55%上升到提及15次以上的77%今妄。
對(duì)檢索到的文檔進(jìn)行的人工分析表明,文檔有助于以多種不同的方式回答問(wèn)題鸳碧。對(duì)50個(gè)正確回答的問(wèn)題樣本進(jìn)行的手動(dòng)檢查顯示盾鳞,44%的問(wèn)題至少包含部分有用的背景信息。這些文件將提高非專業(yè)人員正確回答的可能性杆兵,例如圍繞問(wèn)題引用的上下文線索雁仲,或基于數(shù)量的問(wèn)題的有用數(shù)字仔夺,這有助于將答案選項(xiàng)縮小到更小的范圍琐脏。在另外26%的案例中,一段話包含了回答問(wèn)題的所有必要信息缸兔,以直截了當(dāng)?shù)姆绞疥愂鋈杖埂H绻喿x得當(dāng),這些段落會(huì)使問(wèn)題變得簡(jiǎn)單惰蜜,并且通常包括規(guī)范定義或問(wèn)題中要求的確切數(shù)字答案等信息昂拂。28%的檢索集不包含明顯的信息,這會(huì)使問(wèn)題變得更容易抛猖。最后格侯,2%的人在一段話中包含了逐字逐句的問(wèn)題及其答案鼻听。
鑒于MMLU是由預(yù)先存在的考試創(chuàng)建的,這些問(wèn)題可能會(huì)出現(xiàn)在開(kāi)放網(wǎng)絡(luò)上联四。根據(jù)網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練的模型(或者撑碴,在我們的情況下,從中檢索)冒著不是通過(guò)概括而是通過(guò)逐字記憶來(lái)正確回答的風(fēng)險(xiǎn)朝墩,這可能會(huì)導(dǎo)致誤導(dǎo)性的高分。在一些非常大的語(yǔ)言模型中收苏,它們可以逐字記憶和回憶大部分的預(yù)訓(xùn)練數(shù)據(jù)(Carlini等人亿卤,2021),有時(shí)會(huì)努力從預(yù)訓(xùn)練數(shù)據(jù)中過(guò)濾出現(xiàn)的下游實(shí)例鹿霸,但這在文獻(xiàn)中尚未針對(duì)MMLU執(zhí)行排吴。為了評(píng)估我們索引中MMLU泄漏的普遍性,我們手動(dòng)檢查了問(wèn)題的檢索結(jié)果懦鼠,其中問(wèn)題(沒(méi)有答案選項(xiàng))和文章之間最長(zhǎng)的n-gram重疊至少是問(wèn)題長(zhǎng)度的75%傍念。這導(dǎo)致我們的CC-Net語(yǔ)料庫(kù)中2.8%的問(wèn)題被泄露。
Atlas等檢索增強(qiáng)模型的一個(gè)好處是其知識(shí)的可編輯性(其他分析見(jiàn)第5.2節(jié))葛闷。為了估計(jì)純粹的憋槐、未泄漏的性能,我們可以從檢索到的結(jié)果中篩選出任何可能泄漏的段落淑趾,并重新運(yùn)行語(yǔ)言模型阳仔。當(dāng)控制這種泄漏時(shí),MMLU得分略有下降扣泊,從56.4%降至55.8%(-5.5%)近范。我們注意到,與最近非常大的模型的預(yù)訓(xùn)練語(yǔ)料庫(kù)相比延蟹,我們的CC網(wǎng)絡(luò)語(yǔ)料庫(kù)相對(duì)較小评矩,這些模型在多達(dá)1.4萬(wàn)億個(gè)代幣上訓(xùn)練(Hoffmann et al.,2022)阱飘,是我們指數(shù)的35倍斥杜,這使得在這種大小的語(yǔ)料庫(kù)上訓(xùn)練的模型可能會(huì)觀察到更多的MMLU泄漏示例,但在非檢索增強(qiáng)模型中檢測(cè)這種泄漏是具有挑戰(zhàn)性的沥匈。
5.2時(shí)間敏感性和可更新性
檢索增強(qiáng)模型的一個(gè)好處是蔗喂,通過(guò)在測(cè)試時(shí)更新或交換索引,它們可以保持最新高帖,而無(wú)需重新訓(xùn)練缰儿。為了評(píng)估Atlas中這一機(jī)制的有效性,我們首先構(gòu)建了一個(gè)從TempLAMA導(dǎo)出的時(shí)間敏感問(wèn)題數(shù)據(jù)集(Dhingra et al.散址,2022)乖阵。TempLAMA是一個(gè)模板化完形填空問(wèn)題的集合宣赔,源于Wikidata和Wikidata,其中正確答案會(huì)隨著時(shí)間的推移而變化瞪浸。我們從這個(gè)數(shù)據(jù)集中選擇了一個(gè)子集的問(wèn)題拉背,這些問(wèn)題在2017年和2020年有不同的答案,例如默终,問(wèn)題:西奧·沃爾科特效力于___答案:阿森納足球俱樂(lè)部(2017)椅棺,埃弗頓足球俱樂(lè)部(2020),并形成了一個(gè)由248個(gè)訓(xùn)練齐蔽、112個(gè)發(fā)展和806個(gè)測(cè)試問(wèn)題組成的小訓(xùn)練集两疚。
使用這個(gè)數(shù)據(jù)集,我們使用問(wèn)題和2017年的答案對(duì)閉卷T5-XXL和Atlas進(jìn)行了微調(diào)含滴,為Atlas提供了2017年維基百科索引诱渤,然后在2017年的測(cè)試集上測(cè)量精確匹配的準(zhǔn)確性。結(jié)果可以在表11的第一行和前兩列中找到谈况。我們首先觀察到勺美,正如預(yù)期的那樣,Atlas大大優(yōu)于T5(57.7%c.f.12.1%)碑韵。我們還注意到赡茸,正如所期望的那樣,T5和Atlas在使用2017年的答案進(jìn)行訓(xùn)練時(shí)祝闻,幾乎從未從2020年開(kāi)始生成答案占卧,得分分別為2.8%和1.5%(表11的第一行和第二列)。然而联喘,如第2行所示华蜒,我們可以將Atlas索引轉(zhuǎn)換為2020年維基百科索引,而無(wú)需重新訓(xùn)練豁遭,并發(fā)現(xiàn)Atlas相應(yīng)地更新了其預(yù)測(cè)叭喜,2020年的準(zhǔn)確率上升到與其2017年的性能(53.1%)相似的水平,而純參數(shù)T5沒(méi)有這樣的可更新性機(jī)制蓖谢。
這表明Atlas可以忠實(shí)地使用其提供的索引捂蕴。此外,這種零樣本可更新性機(jī)制具有保持最新的有用特性蜈抓,而無(wú)需最新的注釋數(shù)據(jù)启绰,也無(wú)需持續(xù)昂儒、終身的預(yù)訓(xùn)練沟使,這對(duì)于大型僅參數(shù)模型可能是必需的。表11的第3行和第4行完成了這幅圖渊跋,這次我們用2020年的答案進(jìn)行了訓(xùn)練腊嗡,并證明阿特拉斯也可以有效地將零樣本及時(shí)向后轉(zhuǎn)移到2017年(50.1%)着倾。有趣的是,T5無(wú)法很好地回答2020年的問(wèn)題燕少,即使是用2020年答案進(jìn)行了訓(xùn)練(3.6%)卡者,很可能是因?yàn)樗歉鶕?jù)2020年之前的數(shù)據(jù)進(jìn)行的預(yù)訓(xùn)練(Dodge等人,2021)客们。
我們還研究了NaturalQuestions的時(shí)間效應(yīng)崇决。NaturalQuestions是一個(gè)由谷歌搜索引擎在短時(shí)間內(nèi)收集的搜索查詢組成的數(shù)據(jù)集。因此底挫,數(shù)據(jù)具有很強(qiáng)的時(shí)間偏見(jiàn)恒傻,例如,2018年世界杯有很多問(wèn)題建邓。此外盈厘,在沒(méi)有具體說(shuō)明時(shí)間上下文的情況下,有些問(wèn)題是模棱兩可的官边。例如沸手,對(duì)于“愛(ài)爾蘭上一次在特威克納姆擊敗英格蘭是什么時(shí)候”的問(wèn)題,NaturalQuestions的預(yù)期答案是2018年注簿,而愛(ài)爾蘭也在2022年以及之前的許多其他時(shí)間在特威肯納姆擊敗了英格蘭契吉。在表12中,我們報(bào)告了使用不同的維基百科轉(zhuǎn)儲(chǔ)對(duì)Atlas進(jìn)行微調(diào)所獲得的結(jié)果诡渴。我們觀察到栅隐,2018年12月的維基百科轉(zhuǎn)儲(chǔ)接近數(shù)據(jù)收集日期,無(wú)論是少量微調(diào)還是完全微調(diào)玩徊,都會(huì)產(chǎn)生最佳結(jié)果租悄。特別是,它帶來(lái)了一個(gè)新的最先進(jìn)的64 EM自然問(wèn)題恩袱。
5.2.1指數(shù)壓縮
保持密集的檢索索引可能會(huì)占用大量?jī)?nèi)存泣棋,尤其是當(dāng)索引項(xiàng)的數(shù)量被縮放時(shí)。在本節(jié)中畔塔,我們簡(jiǎn)要分析了在a)維基百科索引和b)上述大多數(shù)實(shí)驗(yàn)中使用的CC和維基百科索引組合的情況下潭辈,Atlas索引的內(nèi)存需求。
Atlas的檢索組件有兩個(gè)記憶壓力來(lái)源——段落本身和文檔嵌入索引澈吨。標(biāo)記化的段落一旦二進(jìn)制化把敢,維基百科和組合索引分別需要11GB和130GB的存儲(chǔ)空間。這些段落不需要存儲(chǔ)在昂貴的GPU RAM中谅辣,甚至可以將內(nèi)存映shot到磁盤(pán)修赞,在節(jié)點(diǎn)之間進(jìn)行分片,或者在需要時(shí)進(jìn)行壓縮呼伸,因此在這種情況下不代表限制性的硬件挑戰(zhàn)彪标。然而甫男,嵌入索引本身必須存儲(chǔ)在GPU RAM中以進(jìn)行快速搜索琳袄,因此其大小更敏感仁卷。在上面的實(shí)驗(yàn)中蚤吹,我們對(duì)索引執(zhí)行精確搜索舆瘪,這是通過(guò)在所有可用的GPU上分割索引并并行計(jì)算搜索來(lái)實(shí)現(xiàn)的臊岸。索引以fp16精度存儲(chǔ)荔泳,導(dǎo)致維基百科和組合索引的GPU總內(nèi)存需求分別為49 GB和587 GB蕉饼。
對(duì)索引的這種大GPU內(nèi)存需求限制了可訪問(wèn)性和部署的簡(jiǎn)易性。然而玛歌,許多索引壓縮技術(shù)可用于最近鄰搜索椎椰,這通常可以以一定的檢索精度為代價(jià)顯著降低內(nèi)存需求沾鳄。繼Izacard等人(2020)之后慨飘,我們探討了乘積量化(PQ,Jégou等人译荞,2011)瓤的,這是一種流行的有損壓縮技術(shù),在不同壓縮級(jí)別下對(duì)Atlas-3B 64次NQ任務(wù)精度的影響吞歼。
結(jié)果如圖4所示圈膏。我們發(fā)現(xiàn),在性能顯著下降之前篙骡,可以進(jìn)行實(shí)質(zhì)性壓縮稽坤。也就是說(shuō),維基百科索引可以從49GB壓縮到4GB糯俗,檢索精度和精確匹配的下降可以忽略不計(jì)尿褪。同樣,組合索引可以從587GB壓縮到50GB得湘,而不會(huì)嚴(yán)重退化杖玲,這表明組合索引可以加載到單個(gè)80GB GPU上。
6討論
在本文中淘正,我們介紹了一個(gè)大型檢索增強(qiáng)語(yǔ)言模型Atlas摆马。通過(guò)聯(lián)合預(yù)訓(xùn)練檢索器模塊和語(yǔ)言模型,我們表明Atlas在各種知識(shí)密集型任務(wù)上具有強(qiáng)大的few-shot學(xué)習(xí)能力鸿吆,包括NaturalQuestions囤采、TriviaQA、FEVER惩淳、8個(gè)KILT任務(wù)和57個(gè)MMLU任務(wù)蕉毯。例如,當(dāng)對(duì)64個(gè)例子進(jìn)行訓(xùn)練時(shí),Atlas-11B在NaturalQuestions上的準(zhǔn)確率達(dá)到42%以上恕刘,在TriviaQA上的準(zhǔn)確度達(dá)到84.7%缤谎,與需要50倍訓(xùn)練前計(jì)算的540B參數(shù)模型PaLM相比抒倚,這提高了近3分褐着。我們還提供了詳細(xì)的消融和分析,以確定在訓(xùn)練這種檢索增強(qiáng)模型時(shí)哪些因素是重要的托呕,并展示了Atlas的可更新性含蓉、可解釋性和可控制性能力。最后项郊,我們證明了Atlas在完整的數(shù)據(jù)集設(shè)置中也很強(qiáng)大馅扣,在NaturalQuestions、TriviaQA着降、FEVER和5 KILT任務(wù)中獲得了最先進(jìn)的新結(jié)果差油。