UL2: Unifying Language Learning Paradigms
https://arxiv.org/abs/2205.05131v3
Yi Tay, Mostafa Dehghani, Vinh Q. Tran, Xavier Garcia, Jason Wei, Xuezhi Wang, Hyung Won Chung, Siamak Shakeri, Dara Bahri, Tal Schuster, Huaixiu Steven Zheng, Denny Zhou, Neil Houlsby, Donald Metzler
[Google Brain]
現(xiàn)有的預(yù)訓(xùn)練模型通常針對(duì)特定類別的問(wèn)題躏升。到目前為止喜鼓,對(duì)于正確的架構(gòu)和預(yù)訓(xùn)練設(shè)置應(yīng)該是什么猜谚,似乎還沒(méi)有達(dá)成共識(shí)共螺。本文為預(yù)訓(xùn)練模型提供了一個(gè)統(tǒng)一的框架救斑,該框架在數(shù)據(jù)集和設(shè)置中普遍有效悼粮。我們首先將架構(gòu)原型與預(yù)訓(xùn)練的目標(biāo)——這兩個(gè)概念通常被混為一談细诸。接下來(lái)绿贞,我們對(duì)NLP中的自監(jiān)督提出了一個(gè)普遍而統(tǒng)一的觀點(diǎn),并展示了不同的預(yù)訓(xùn)練目標(biāo)如何相互投射炫刷,以及不同目標(biāo)之間的插值如何有效擎宝。然后,我們提出了混合去噪器(MoD)浑玛,這是一個(gè)將不同的預(yù)訓(xùn)練范式結(jié)合在一起的預(yù)訓(xùn)練目標(biāo)绍申。我們進(jìn)一步引入了模式切換的概念,其中下游微調(diào)與特定的預(yù)訓(xùn)練方案相關(guān)聯(lián)顾彰。我們進(jìn)行了廣泛的消融實(shí)驗(yàn)來(lái)比較多個(gè)預(yù)訓(xùn)練目標(biāo)极阅,并發(fā)現(xiàn)我們的方法通過(guò)在多個(gè)不同的設(shè)置中優(yōu)于T5和/或GPT樣模型,推動(dòng)了Pareto前沿涨享。最后筋搏,通過(guò)將我們的模型擴(kuò)展到20B參數(shù),我們?cè)?0個(gè)成熟的監(jiān)督NLP任務(wù)上實(shí)現(xiàn)了SOTA性能厕隧,這些任務(wù)包括語(yǔ)言生成(具有自動(dòng)和人工評(píng)估)奔脐、語(yǔ)言理解、文本分類吁讨、問(wèn)題回答髓迎、常識(shí)推理、長(zhǎng)文本推理建丧、結(jié)構(gòu)化知識(shí)基礎(chǔ)和信息檢索排龄。我們的模型在上下文學(xué)習(xí)方面也取得了強(qiáng)大的結(jié)果,在零樣本SuperGLUE上優(yōu)于175B GPT-3(已發(fā)表的論文結(jié)果)翎朱,在一次摘要上的性能提高了T5-XXL的三倍橄维。在零樣本MMLU上,UL2 20B的性能優(yōu)于T0和T5型號(hào)拴曲。此外挣郭,我們還表明,UL2 20B在思維鏈提示和推理方面效果良好疗韵,這使其成為研究中小型20B參數(shù)推理的一個(gè)有吸引力的選擇兑障。最后,我們將FLAN指令調(diào)優(yōu)應(yīng)用于UL2 20B模型,實(shí)現(xiàn)了與FLAN PaLM 62B相比具有競(jìng)爭(zhēng)力的MMLU和Big Bench分?jǐn)?shù)流译。我們?cè)趆ttps://github.com/google-research/google-research/tree/master/ul2.
1簡(jiǎn)介
如今逞怨,NLP研究人員和從業(yè)者有各種各樣的預(yù)訓(xùn)練模型選擇(Devlin等人,2018福澡;Brown等人叠赦,2020;Raffel等人革砸,2019除秀;Radford等人,2019年算利;劉等人册踩,2019,楊等人效拭,2019)暂吉;Thoppilan等人,2022缎患;Fedus等人慕的,2021;Du等人挤渔,2021年肮街;Chowdhery等人,2022)判导。當(dāng)面對(duì)一個(gè)人應(yīng)該使用什么模型的問(wèn)題時(shí)嫉父,答案往往是取決于任務(wù),然后是什么任務(wù)骡楼?
回答這個(gè)問(wèn)題可能是壓倒性的,包括許多細(xì)粒度的后續(xù)問(wèn)題稽鞭,如“僅編碼器還是編碼器-解碼器鸟整?”span損壞或語(yǔ)言模型?'朦蕴。進(jìn)一步追問(wèn)篮条,答案似乎總是取決于目標(biāo)下游任務(wù)。本文對(duì)這一思維過(guò)程進(jìn)行了質(zhì)疑和反思吩抓,特別回答了為什么預(yù)訓(xùn)練的LM的選擇要取決于下游任務(wù)的問(wèn)題涉茧?以及我們?nèi)绾晤A(yù)訓(xùn)練在許多任務(wù)中普遍良好工作的模型?疹娶。
本文提出了一個(gè)步驟伴栓,使一個(gè)普遍適用的語(yǔ)言模型成為可能。我們提出了一個(gè)統(tǒng)一語(yǔ)言學(xué)習(xí)范式(簡(jiǎn)稱UL2)的框架,該框架在一系列不同的任務(wù)和設(shè)置中始終有效钳垮。圖1顯示了一個(gè)UL2如何普遍良好地執(zhí)行的示例惑淳,這與其他經(jīng)常需要權(quán)衡的模型不同。
圖1:在僅解碼器和編碼器-解碼器設(shè)置中饺窿,與以前的方法相比歧焦,UL2在微調(diào)的判別任務(wù)和基于提示的1-shot開放式文本生成之間的性能平衡顯著提高。注意:Dec和EncDec是計(jì)算匹配的肚医,但EncDec模型的參數(shù)是原來(lái)的兩倍绢馍。
通用模型的吸引力是顯而易見(jiàn)的,即這不僅允許集中精力改進(jìn)和擴(kuò)展單個(gè)模型肠套,而不是在N個(gè)模型之間實(shí)現(xiàn)資源多樣化舰涌。此外,在資源受限的設(shè)置下糠排,只有少數(shù)模型可以得到服務(wù)(例如舵稠,在設(shè)備上),最好是有一個(gè)單獨(dú)的預(yù)訓(xùn)練模型入宦,它可以在許多類型的任務(wù)上很好地執(zhí)行哺徊。
UL2的核心是新提出的混合去噪器(MoD),這是一個(gè)預(yù)訓(xùn)練目標(biāo)乾闰,可以在任務(wù)中實(shí)現(xiàn)強(qiáng)大的性能落追。MoD是幾個(gè)公認(rèn)的去噪目標(biāo)和新目標(biāo)的混合體;即考慮極端跨度長(zhǎng)度和破壞率的X去噪(極端去噪)涯肩、嚴(yán)格遵循序列順序的S去噪(順序去噪)和作為標(biāo)準(zhǔn)跨度破壞目標(biāo)的R去噪(規(guī)則去噪)(Raffel et al.轿钠,2019)。我們表明病苗,MoD在概念上很簡(jiǎn)單疗垛,但對(duì)一系列不同的任務(wù)非常有效。
我們的方法利用了這樣一個(gè)認(rèn)識(shí)硫朦,即大多數(shù)(如果不是全部的話)經(jīng)過(guò)充分研究的預(yù)訓(xùn)練目標(biāo)在模型所依賴的上下文類型上有所不同贷腕。例如,跨度損壞目標(biāo)類似于調(diào)用前綴語(yǔ)言建模(PLM)的多個(gè)區(qū)域(Liu et al.咬展,2018泽裳;Raffel et al.,2019)破婆,其中前綴是未損壞token的連續(xù)段涮总,并且目標(biāo)可以完全訪問(wèn)所有PLM段的前綴〉灰ǎ跨度接近整個(gè)序列長(zhǎng)度的設(shè)置近似于一個(gè)以長(zhǎng)程上下文為條件的語(yǔ)言建模目標(biāo)瀑梗。因此烹笔,我們能夠設(shè)計(jì)一個(gè)預(yù)訓(xùn)練目標(biāo),平滑地插入這些不同的范式(跨度損壞與語(yǔ)言建模與前綴語(yǔ)言建模)夺克。
也很容易看出箕宙,每個(gè)去噪器都有不同的困難。它們?cè)谕馔疲ɑ虿逯担┑男再|(zhì)上也有所不同铺纽。例如柬帕,通過(guò)雙向上下文(或未來(lái))(即跨度損壞)對(duì)模型進(jìn)行綁定可以使任務(wù)變得更容易,更類似于事實(shí)完成狡门。同時(shí)陷寝,PrefixLM/LM的目標(biāo)通常更為“開放式”。通過(guò)監(jiān)測(cè)這些不同去噪目標(biāo)的交叉熵?fù)p失其馏,可以很容易地觀察到這些行為凤跑。
給定MoD公式,我們推測(cè)我們的模型不僅在預(yù)訓(xùn)練期間區(qū)分不同的去噪器叛复,而且在學(xué)習(xí)下游任務(wù)時(shí)自適應(yīng)地切換模式是有益的仔引。我們引入了模式切換,這是一個(gè)新概念褐奥,將預(yù)訓(xùn)練任務(wù)與專用哨兵token相關(guān)聯(lián)咖耘,并允許通過(guò)離散提示進(jìn)行動(dòng)態(tài)模式切換。我們的模型能夠在經(jīng)過(guò)預(yù)訓(xùn)練后按需在R撬码、S和X去噪器之間切換模式儿倒。
然后,我們將架構(gòu)從自監(jiān)督方案中分離出來(lái)呜笑。正如Raffel等人先前所指出的夫否,預(yù)訓(xùn)練模型的主干架構(gòu)(例如,僅解碼器與編碼器-解碼器)具有很強(qiáng)的特征叫胁,這可能是一種常見(jiàn)的誤解凰慈。(2019),我們發(fā)現(xiàn)去噪器的選擇具有更大的影響驼鹅。MoD支持任何一種主干微谓,類似于T5的跨度破壞可以用僅解碼器模型來(lái)訓(xùn)練。因此谤民,UL2對(duì)體系結(jié)構(gòu)是不可知的堰酿。我們認(rèn)為疾宏,主干架構(gòu)的選擇主要是在不同的效率指標(biāo)之間進(jìn)行權(quán)衡张足。
我們對(duì)一套9種不同的任務(wù)進(jìn)行了系統(tǒng)和消融實(shí)驗(yàn),旨在捕捉不同的問(wèn)題公式(基于上下文few-shot學(xué)習(xí)的監(jiān)督和提示)坎藐。我們用SuperGLUE套件(Wang et al.为牍,2019)和GEM基準(zhǔn)的三項(xiàng)任務(wù)(Gehrmann et al.哼绑,2021)進(jìn)行了實(shí)驗(yàn)。此外碉咆,我們還評(píng)估了開放文本生成抖韩,以及所有任務(wù)的基于提示的一次性設(shè)置。在這種消融設(shè)置中疫铜,我們的實(shí)驗(yàn)結(jié)果表明茂浮,UL2在所有9種設(shè)置中都優(yōu)于T5和GPT樣基線。平均而言壳咕,UL2的性能優(yōu)于T5基線+43.6%席揽,語(yǔ)言模型的性能優(yōu)于+76.1%。在考慮的所有其他競(jìng)爭(zhēng)性基線中谓厘,UL2是唯一在所有任務(wù)上都優(yōu)于T5和GPT類模型的方法幌羞。
我們將UL2擴(kuò)展到大約20B(準(zhǔn)確地說(shuō)是19.5)參數(shù)的中等規(guī)模設(shè)置,并在50多項(xiàng)NLP任務(wù)中進(jìn)行實(shí)驗(yàn)竟稳,這些任務(wù)包括語(yǔ)言生成(具有自動(dòng)和人工評(píng)估)属桦、語(yǔ)言理解、文本分類他爸、問(wèn)題回答聂宾、常識(shí)推理、長(zhǎng)文本推理讲逛、結(jié)構(gòu)化知識(shí)基礎(chǔ)和信息檢索亏吝。我們的結(jié)果表明,UL2在絕大多數(shù)任務(wù)和設(shè)置中都能實(shí)現(xiàn)SOTA盏混。
最后蔚鸥,我們用UL2進(jìn)行了零次/少次激發(fā)實(shí)驗(yàn),并表明UL2在零次激發(fā)SuperGLUE上優(yōu)于GPT-3 175B许赃。與GLaM(Du et al.止喷,2021)、PaLM(Chowdhery et al.混聊,2022)和ST MoE(Zoph et al.弹谁,2020)等最新的最先進(jìn)模型相比,UL2在計(jì)算匹配的設(shè)置中仍然具有競(jìng)爭(zhēng)力句喜,盡管只在C4語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練预愤,已知C4語(yǔ)料庫(kù)的有效性不如中使用的特別策劃的數(shù)據(jù)集(Du等人,2021咳胃;Chowdherry et al.植康,2018)。我們深入理解零樣本和微調(diào)性能之間的權(quán)衡展懈,并表明UL2在兩種學(xué)習(xí)范式方面都是帕雷托效率的销睁。在一次性總結(jié)中供璧,UL2將LM適應(yīng)的T5 XXL模型的性能提高了三倍,并且在相同的計(jì)算成本下與PaLM和LaMDA競(jìng)爭(zhēng)(或優(yōu)于)冻记。我們發(fā)布了基于T5X的Flax-chec
2.1預(yù)訓(xùn)練的語(yǔ)言模型
學(xué)習(xí)預(yù)訓(xùn)練的語(yǔ)言表征是現(xiàn)代NLP研究的一個(gè)意義深遠(yuǎn)的支柱睡毒,可以追溯到(Mikolov等人,2013冗栗;Pennington等人演顾,2014;Neumann等人隅居,2018偶房;戴和樂(lè),2015军浆;霍華德和魯?shù)拢?018)棕洋。第一個(gè)預(yù)訓(xùn)練的Transformer GPT由(Radford et al.,2019)提出乒融,并被訓(xùn)練為因果語(yǔ)言模型掰盘。隨后,BERT(Devlin等人赞季,2018)證明了雙向建模對(duì)許多下游任務(wù)的重要性愧捕。BERT引入了掩碼語(yǔ)言建模(MLM),這是一種使用雙向感受野重建輸入的去噪目標(biāo)申钩。XLNet Yang等人(2019)引入了置換語(yǔ)言建模來(lái)解釋訓(xùn)練過(guò)程中屏蔽token之間的依賴關(guān)系次绘。許多其他論文(例如,RoBERTA(Liu et al.撒遣,2019)邮偎、SpanBERT(Joshi et al.,2020))建議對(duì)預(yù)訓(xùn)練過(guò)程進(jìn)行進(jìn)一步改進(jìn)义黎。
與此同時(shí)禾进,T5(Raffel et al.,2019)等兩棧編碼器-解碼器架構(gòu)因其在分類和序列到序列(“seq2seq”)任務(wù)上的性能提高而廣受歡迎廉涕。然而泻云,到目前為止,這些模型在開放文本生成和基于提示的推理(即狐蜕,在上下文學(xué)習(xí)中)方面表現(xiàn)出有限的性能宠纯,這促使使用僅針對(duì)解碼器的模型,這些模型是用不同的目標(biāo)訓(xùn)練的(例如层释,GPT-3(Brown et al.婆瓜,2020)、GLaM(Du et al.湃累,2021)勃救、LaMDa(Thoppilan et al.,2022)和PaLM(Chowdhery等人治力,2022))蒙秒。在這項(xiàng)工作中,我們的目標(biāo)是通過(guò)適合兩種架構(gòu)的通用訓(xùn)練范式來(lái)彌合兩者之間的性能差距宵统。
僅解碼器與僅編碼器
僅解碼器和僅編碼器架構(gòu)的關(guān)鍵相似之處在于晕讲,如果使用CausalLM而不是使用PrefixLM,則僅解碼器架構(gòu)使用輸入到目標(biāo)范式或僅目標(biāo)范式進(jìn)行操作马澈。對(duì)于這兩種架構(gòu)瓢省,目標(biāo)始終是預(yù)測(cè)下一個(gè)token(LM),因此都是自回歸模型痊班。值得注意的是勤婚,這與位置掩碼LM去噪(有時(shí)稱為自動(dòng)編碼)不同,后者已由僅編碼器的BERT風(fēng)格模型推廣涤伐。這類模型的生成能力非常有限馒胆。除此之外,特定任務(wù)的分類頭通常也用于下游任務(wù)凝果。由于特定任務(wù)分類頭的復(fù)雜性祝迂,我們強(qiáng)烈不建議使用此類自動(dòng)編碼模型,并認(rèn)為它們有些過(guò)時(shí)器净。注意事項(xiàng)確實(shí)適用型雳。例如,回歸可能是增加特定任務(wù)負(fù)責(zé)人的唯一原因(Lees et al.山害,2022)纠俭,或者從消除完整詞匯中擠出一些效率收益。無(wú)論哪種方式浪慌,都可以從編碼器-解碼器開始柑晒,然后砍掉解碼器,因此沒(méi)有充分的理由使用僅編碼器模型眷射。因此匙赞,這里唯一真正客觀的考慮是在僅解碼器和編碼器-解碼器架構(gòu)之間。
僅解碼器與編碼器解碼器
僅解碼器和編碼器-解碼器模型之間的界限不太清楚妖碉。PrefixLM模型幾乎是具有共享參數(shù)的編碼器-解碼器模型(但不完全是)涌庭。從歸納偏差的角度來(lái)看,存在多種差異欧宜。編碼器-解碼器模型使用不同的參數(shù)集獨(dú)立處理輸入和目標(biāo)坐榆。這是一種稀疏性形式,其中不同的參數(shù)集用于不同的token冗茸。編碼器-解碼器模型還具有將輸入token連接到目標(biāo)token的交叉關(guān)注組件席镀。同時(shí)匹中,僅解碼器模型通過(guò)連接輸入和目標(biāo)來(lái)處理它們。因此豪诲,當(dāng)輸入/目標(biāo)在網(wǎng)絡(luò)上傳播時(shí)顶捷,輸入和目標(biāo)的表示同時(shí)逐層構(gòu)建。相反屎篱,編碼器-解碼器模型中的解碼器通常只查看完全處理的編碼器輸入服赎。總的來(lái)說(shuō)交播,僅PrefixLM解碼器模型和編碼器-解碼器模型的電感偏差可能非常相似重虑,模化了上述細(xì)微的差異秦士。不同的特性是缺厉,當(dāng)計(jì)算匹配時(shí),編碼器-解碼器模型通常是僅解碼器模型的大約2x參數(shù)隧土。
稀疏模型
另一方面芽死,稀疏預(yù)訓(xùn)練模型也出現(xiàn)了一種新趨勢(shì),可以實(shí)現(xiàn)最先進(jìn)的性能次洼。稀疏混合的專家模型关贵,如開關(guān)Transformer(Fedus等人,2021)卖毁、GLaM(Du et al.揖曾,2021)和/或GShard(Lepikhin等人,2020)也顯示出了很大的前景亥啦。雖然與預(yù)訓(xùn)練目標(biāo)的主題正交炭剪,但與密集模型相比,稀疏模型實(shí)現(xiàn)了非常不同的每參數(shù)觸發(fā)率——這是圍繞編碼器-解碼器模型與僅解碼器模型的爭(zhēng)論中反復(fù)出現(xiàn)的核心主題翔脱。
2.2大型語(yǔ)言模型的預(yù)訓(xùn)練目標(biāo)
雖然最近的研究證明了大型監(jiān)督多任務(wù)預(yù)訓(xùn)練的潛力(Aribandi等人奴拦,2021;Sanh等人届吁,2021年错妖;Wang等人,2022a)疚沐,但大多數(shù)預(yù)訓(xùn)練目標(biāo)都依賴于無(wú)監(jiān)督數(shù)據(jù)的大量可用性暂氯,并使用自訓(xùn)練技術(shù)。如上所述亮蛔,不同的體系結(jié)構(gòu)通常利用不同的目標(biāo)痴施。僅解碼器模型通常使用因果語(yǔ)言模型目標(biāo)進(jìn)行訓(xùn)練,以模擬自回歸生成(Radford等人,2019)辣吃。Raffel等人(2019)探討了編碼器-解碼器模型的許多目標(biāo)动遭,并發(fā)現(xiàn)跨度破壞是有效的孙援。(Wang et al.诺核,2022a)結(jié)合三種不同的預(yù)訓(xùn)練目標(biāo)(因果LM吭服、前綴LM和跨度破壞)盏阶,對(duì)不同的體系結(jié)構(gòu)進(jìn)行了系統(tǒng)研究,并分析了它們對(duì)零樣本泛化的影響孔祸。與我們提出的X去噪器有關(guān),(Wettig等人,2022)研究了BERT風(fēng)格的掩碼語(yǔ)言建模中損壞率的影響卡骂,并假設(shè)這提高了樣本效率,同時(shí)有利于更大的模型形入。值得注意的是全跨,正如(Raffel et al.,2019)所指出的亿遂,損壞率上升作為一種獨(dú)立的去噪器的好處仍然不清楚浓若,在我們自己的研究中也很明顯。預(yù)訓(xùn)練(或去噪)通常應(yīng)用于子詞級(jí)別(Raffel等人蛇数,2019挪钓;Devlin等人,2018)耳舅,但值得注意的是碌上,它也應(yīng)用于字符或字節(jié)級(jí)別(Xue等人,2021浦徊;Tay等人馏予,2021c)。在這些設(shè)置中盔性,損壞的跨度通常比基于子詞的去噪大得多霞丧。
2.3統(tǒng)一的預(yù)訓(xùn)練建議書
UniLM(Dong et al.,2019)提出使用單個(gè)Transformer模型對(duì)多個(gè)語(yǔ)言建模目標(biāo)進(jìn)行訓(xùn)練冕香。具體而言蛹尝,UniLM在單向LM、雙向LM和seq2seq LM上進(jìn)行訓(xùn)練悉尾。這與將自回歸LM與BERT和前綴LM模型相結(jié)合非常相似箩言。值得注意的是,UniLM使用完形填空型公式進(jìn)行訓(xùn)練焕襟,該公式將顯式掩碼標(biāo)記添加到輸入中陨收。然后,通過(guò)預(yù)測(cè)token和目標(biāo)token的差值以位置方式計(jì)算損失。除了預(yù)訓(xùn)練的統(tǒng)一外务漩,最近還出現(xiàn)了主題統(tǒng)一的趨勢(shì)拄衰,即將常見(jiàn)任務(wù)統(tǒng)一到一個(gè)模型中。這些例子包括用于常識(shí)推理的UNICORN(Lourie et al.饵骨,2021)翘悉、用于問(wèn)答的UnifiedQA(Khashabi et al.,202022)和用于結(jié)構(gòu)化知識(shí)基礎(chǔ)的UnifiedSKG(Xie et al.居触,2022)妖混。
3統(tǒng)一語(yǔ)言學(xué)習(xí)范式(UL2)
本節(jié)介紹了UL2框架和擬議的預(yù)訓(xùn)練目標(biāo),我們將在論文的剩余部分進(jìn)行研究轮洋。
3.1預(yù)訓(xùn)練
本節(jié)討論擬議的預(yù)訓(xùn)練目標(biāo)制市。
3.1.1預(yù)訓(xùn)練任務(wù)的統(tǒng)一視角
許多預(yù)訓(xùn)練任務(wù)可以簡(jiǎn)單地公式化為“目標(biāo)輸入”任務(wù),其中輸入指的是模型所依賴的任何形式的記憶或上下文弊予,目標(biāo)是模型的預(yù)期輸出祥楣。語(yǔ)言模型使用所有以前的時(shí)間步驟作為模型的輸入來(lái)預(yù)測(cè)下一個(gè)token,即目標(biāo)汉柒。在跨度損壞中误褪,該模型利用過(guò)去和未來(lái)所有未損壞的token作為預(yù)測(cè)損壞跨度(目標(biāo))的輸入。前綴LM是使用過(guò)去的token作為輸入碾褂,但雙向消耗輸入的LM:這比普通LM中的輸入單向編碼提供了更多的建模能力兽间。
從這個(gè)角度來(lái)看,我們可以大致將一個(gè)預(yù)訓(xùn)練目標(biāo)減少到另一個(gè)正塌。例如渡八,在跨度損壞目標(biāo)中,當(dāng)損壞的跨度(即目標(biāo))等于整個(gè)序列時(shí)传货,該問(wèn)題有效地變?yōu)?語(yǔ)言建模問(wèn)題屎鳍。考慮到這一點(diǎn)问裕,使用跨度損壞逮壁,通過(guò)將跨度長(zhǎng)度設(shè)置為較大,我們可以在局部區(qū)域中有效地模擬LM目標(biāo)粮宛。
我們定義了一個(gè)符號(hào)窥淆,涵蓋了我們?cè)诒疚闹惺褂玫乃胁煌娜ピ肴蝿?wù)。去噪任務(wù)的輸入和目標(biāo)由SpanCorrupt函數(shù)生成巍杈,該函數(shù)由三個(gè)值(μ忧饭,r,n)參數(shù)化筷畦,其中μ是平均跨度長(zhǎng)度词裤,r是損壞率刺洒,n是損壞跨度的數(shù)量。請(qǐng)注意吼砂,n可能是輸入長(zhǎng)度L和跨度長(zhǎng)度μ的函數(shù)逆航,例如L/μ,但在某些情況下渔肩,我們使用固定值n因俐。給定輸入文本,SpanCorpt會(huì)對(duì)從平均值為μ的(正態(tài)或均勻)分布中提取的長(zhǎng)度跨度進(jìn)行破壞周偎。在損壞之后抹剩,輸入文本然后被饋送到去噪任務(wù),并且損壞的跨度被用作要恢復(fù)的目標(biāo)蓉坎。
例如澳眷,要使用該公式構(gòu)建類似于因果語(yǔ)言建模的目標(biāo),只需設(shè)置(μ=L袍嬉,r=1.0境蔼,n=1)灶平,即跨度長(zhǎng)度等于序列長(zhǎng)度的單個(gè)跨度伺通。為了表達(dá)類似于前綴LM目標(biāo)的目標(biāo),可以設(shè)置(μ=L?P逢享,r=1.0?P/L罐监,n=1),其中P是前綴的長(zhǎng)度瞒爬,附加的約束條件是單個(gè)損壞的跨度總是到達(dá)序列的末尾弓柱。
我們注意到,這種目標(biāo)輸入公式可以應(yīng)用于編碼器-解碼器模型和單堆棧變換器模型(例如侧但,解碼器模型)矢空。我們選擇預(yù)測(cè)下一個(gè)目標(biāo)token的模型,而不是那些原地預(yù)測(cè)的模型(例如禀横,預(yù)測(cè)BERT中的當(dāng)前掩碼token)屁药,因?yàn)橄乱粋€(gè)對(duì)象公式更通用,可以包含更多任務(wù)柏锄,而不是使用特殊的“CLS”token和任務(wù)特定的投影頭酿箭。
3.1.2去噪器混合物
我們推測(cè),在預(yù)訓(xùn)練過(guò)程中趾娃,一個(gè)強(qiáng)大的通用模型必須暴露于解決各種各樣的問(wèn)題缭嫡。鑒于預(yù)訓(xùn)練是使用自監(jiān)督進(jìn)行的,我們認(rèn)為應(yīng)該將這種多樣性注入模型的目標(biāo)中抬闷,否則模型可能會(huì)缺乏一定的能力妇蛀,比如長(zhǎng)時(shí)間連貫的文本生成。
受此啟發(fā),以及當(dāng)前類別的目標(biāo)函數(shù)讥耗,我們定義了預(yù)培訓(xùn)期間使用的三個(gè)主要范式:
?R-去噪器-常規(guī)去噪是Raffel等人(2019)中引入的標(biāo)準(zhǔn)跨度破壞有勾,使用2到5個(gè)token作為跨度長(zhǎng)度,這屏蔽了約15%的輸入token古程。這些跨度很短蔼卡,可能有助于獲得知識(shí),而不是學(xué)習(xí)生成流暢的文本挣磨。
?S-去噪器-去噪的一種特殊情況雇逞,在這種情況下,我們?cè)跇?gòu)建目標(biāo)任務(wù)的輸入時(shí)茁裙,觀察到嚴(yán)格的順序塘砸,即前綴語(yǔ)言建模。為此晤锥,我們只需將輸入序列劃分為兩個(gè)子token序列掉蔬,作為上下文和目標(biāo),這樣目標(biāo)就不依賴于未來(lái)的信息矾瘾。這與標(biāo)準(zhǔn)跨度損壞不同女轿,標(biāo)準(zhǔn)跨度損壞可能存在位置早于上下文標(biāo)記的目標(biāo)標(biāo)記。請(qǐng)注意壕翩,與前綴LM設(shè)置類似蛉迹,上下文(前綴)保留雙向感受野。我們注意到放妈,記憶非常短或沒(méi)有記憶的S-去噪與標(biāo)準(zhǔn)因果語(yǔ)言建模具有相似的精神北救。
?X-Denoiser-一種極端的去噪版本,在這種情況下芜抒,模型必須恢復(fù)輸入的大部分珍策,給定輸入的小到中等部分。這模擬了模型需要從信息相對(duì)有限的存儲(chǔ)器中生成長(zhǎng)目標(biāo)的情況宅倒。為此攘宙,我們選擇包括具有積極去噪的示例,其中大約50%的輸入序列被屏蔽唉堪。這是通過(guò)增加跨度長(zhǎng)度和/或損壞率實(shí)現(xiàn)的模聋。如果預(yù)訓(xùn)練任務(wù)的跨度很長(zhǎng)(例如,≥12個(gè)token)或損壞率很大(例如唠亚,≤30%)链方,我們認(rèn)為它是極端的。X去噪的動(dòng)機(jī)是在規(guī)則跨度損壞和類似語(yǔ)言模型的目標(biāo)之間進(jìn)行插值灶搜。
這組去噪器與以前使用的目標(biāo)函數(shù)有很強(qiáng)的聯(lián)系:R-去噪是T5跨度損壞目標(biāo)祟蚀,S-去噪與類似GPT的因果語(yǔ)言模型相連工窍,X-去噪可以將模型暴露于T5和因果LM的目標(biāo)組合。值得注意的是前酿,X去噪器也被連接以提高樣本效率患雏,因?yàn)橐灶愃朴贚Ms的精神,在每個(gè)樣本中學(xué)習(xí)到更多的token被預(yù)測(cè)罢维。我們建議以統(tǒng)一的方式混合所有這些任務(wù)淹仑,并具有混合自監(jiān)督目標(biāo)。最終目標(biāo)是7個(gè)去噪器的混合物肺孵,其配置如下:
對(duì)于X和R去噪器匀借,跨度長(zhǎng)度是從平均值為μ的正態(tài)分布中采樣的。對(duì)于S Denoisers平窘,我們使用均勻分布吓肋,將損壞跨度的數(shù)量固定為1,并有一個(gè)額外的約束瑰艘,即損壞跨度應(yīng)在原始輸入文本的末尾結(jié)束是鬼,即損壞部分之后不應(yīng)出現(xiàn)未裁剪的標(biāo)記。這大致相當(dāng)于seq2seq去噪或Prefix LM預(yù)訓(xùn)練目標(biāo)紫新。
由于LM是前綴LM的特殊情況均蜜,我們發(fā)現(xiàn)沒(méi)有必要將臨時(shí)LM任務(wù)包含在混合物中。所有任務(wù)在混合中的參與程度大致相等弊琴。我們還探索了一種替代方案兆龙,將S-去噪器的數(shù)量增加到混合物中去噪器數(shù)量的50%杖爽,所有其他去噪器占據(jù)剩余部分敲董。我們將在后面的章節(jié)中介紹各種設(shè)計(jì)選擇的詳細(xì)消融研究。最后慰安,混合在混合的詆毀是什么使它普遍強(qiáng)大腋寨。單獨(dú)來(lái)看,某些去噪器類型的性能并不好化焕。例如萄窜,最初的T5論文探索了一個(gè)損壞率為50%的選項(xiàng)(X去噪),發(fā)現(xiàn)效果不佳撒桨。
使用類似seqio2的庫(kù)查刻,UL2的混合去噪器的實(shí)現(xiàn)簡(jiǎn)單且易于實(shí)現(xiàn)(Roberts等人,2022)凤类。有關(guān)實(shí)施的更多詳細(xì)信息穗泵,請(qǐng)參閱附錄。
3.1.3模式切換
我們引入了通過(guò)模式轉(zhuǎn)換實(shí)現(xiàn)范式轉(zhuǎn)換的概念谜疤。在預(yù)訓(xùn)練期間佃延,我們向模型提供一個(gè)額外的范式標(biāo)記现诀,即{[R]、[S]履肃、[X]}仔沿,幫助模型切換并在更適合給定任務(wù)的模式下操作。對(duì)于微調(diào)和下游少量學(xué)習(xí)尺棋,為了觸發(fā)模型學(xué)習(xí)更好的解決方案封锉,我們還添加了關(guān)于下游任務(wù)的設(shè)置和要求的范式標(biāo)記。事實(shí)上膘螟,模式轉(zhuǎn)換將下游行為與我們?cè)谏嫌斡?xùn)練中使用的模式之一綁定在一起烘浦。
3.2模型架構(gòu)
UL2采用了一種與體系結(jié)構(gòu)無(wú)關(guān)的哲學(xué)。我們認(rèn)為萍鲸,在兩種架構(gòu)(僅編碼器-解碼器與解碼器)之間的選擇更像是一種效率權(quán)衡闷叉,架構(gòu)選擇不應(yīng)與預(yù)訓(xùn)練目標(biāo)混為一談。因此脊阴,我們有一個(gè)UL2解碼器和UL2編碼器解碼器握侧,其精神與每個(gè)模型有多個(gè)大小相似。我們?cè)趯?shí)驗(yàn)部分詳細(xì)討論了這種效率權(quán)衡嘿期。UL2采用了一種非常標(biāo)準(zhǔn)的香草T5Transformer品擎,經(jīng)過(guò)改進(jìn),經(jīng)受住了時(shí)間的考驗(yàn)备徐,即GLU層(Shazeer萄传,2020)和T5風(fēng)格的相對(duì)關(guān)注。為了不進(jìn)一步將架構(gòu)修改與預(yù)訓(xùn)練貢獻(xiàn)混為一談蜜猾,模型的主干與T5類模型保持相似秀菱。這也是根據(jù)(Narang等人,2021)等結(jié)果得出的蹭睡。
4消融實(shí)驗(yàn)
本節(jié)描述了我們的消融實(shí)驗(yàn)設(shè)置(例如衍菱,基線、數(shù)據(jù)集肩豁、實(shí)施細(xì)節(jié))和結(jié)果脊串。我們的總體發(fā)現(xiàn)表明,UL2在9項(xiàng)任務(wù)中有9項(xiàng)優(yōu)于T5類和GPT類模型清钥。
4.1基線
對(duì)于預(yù)訓(xùn)練目標(biāo)琼锋,我們將其與以下預(yù)訓(xùn)練基線進(jìn)行比較:
?因果語(yǔ)言模型(CLM)-這是標(biāo)準(zhǔn)的從左到右自回歸語(yǔ)言模型預(yù)訓(xùn)練,用于許多標(biāo)準(zhǔn)的預(yù)訓(xùn)練模型祟昭,如GPT(Radford等人缕坎,2019;Brown等人从橘,2020)念赶。在我們的實(shí)驗(yàn)中础钠,我們將這個(gè)模型稱為類似GPT的模型。
?前綴LM(PLM)-這是因果LM的一個(gè)輕微變化叉谜,其中M具有雙向感受野旗吁,在中引入(Liu等人,2018停局;Raffel等人很钓,2019)。我們對(duì)M的長(zhǎng)度進(jìn)行均勻采樣董栽,并且只計(jì)算自回歸目標(biāo)處的損失码倦。
?跨度損壞(SC)-這是T5中提出的標(biāo)準(zhǔn)去噪目標(biāo)(Raffel等人,2019)锭碳。其想法是清空某些文本部分袁稽,并用sentinel標(biāo)記替換它們。用sentinel標(biāo)記替換的文本隨后被復(fù)制到目標(biāo)擒抛,并由模型自動(dòng)回歸生成推汽。在默認(rèn)T5設(shè)置之后,我們使用3的平均跨度和15%的去噪率歧沪。
?Span Corruption+LM(SCLM)-我們以相等的混合比例對(duì)CLM和Span Corrumption進(jìn)行混合訓(xùn)練歹撒。對(duì)于該目標(biāo)的SC分量,我們對(duì)SC使用相同的超參數(shù)诊胞。
?UniLM(ULM)-這是Dong等人(2019)提出的目標(biāo)暖夭。與最初的UniLM類似,我們混合了因果語(yǔ)言建模撵孤、前綴LM(序列到序列LM)和雙向i.i.d去噪迈着。我們選擇生成掩碼標(biāo)記,而不是用完形填空或BERT風(fēng)格訓(xùn)練UniLM早直。這允許該目標(biāo)僅適用于解碼器和編碼器-解碼器架構(gòu)寥假,并且消除了對(duì)用于微調(diào)的任務(wù)專用線性頭的需要市框。
對(duì)于所有目標(biāo)霞扬,我們探索單堆棧和編碼器-解碼器架構(gòu)。所有架構(gòu)都是在編碼器-解碼器或僅解碼器模型結(jié)構(gòu)中實(shí)現(xiàn)的目標(biāo)的輸入枫振,因?yàn)槲覀冋J(rèn)為BERT風(fēng)格的掩碼語(yǔ)言建模預(yù)訓(xùn)練已經(jīng)被這種風(fēng)格的預(yù)訓(xùn)練有效地包含在內(nèi)喻圃,正如(Raffel等人,2019)中的經(jīng)驗(yàn)所表明的那樣粪滤。也不建議使用特定任務(wù)的分類頭斧拍,因?yàn)樗鼈冿@然違背了通用模型的原則(而且非常繁瑣)。
4.2實(shí)驗(yàn)設(shè)置
我們?cè)谝唤M不同的監(jiān)督和基于提示的few-shot學(xué)習(xí)任務(wù)上進(jìn)行實(shí)驗(yàn)杖小。
4.2.1數(shù)據(jù)集和任務(wù)
我們使用的數(shù)據(jù)集是SuperGLUE(Wang et al.肆汹,2019)愚墓,由8個(gè)子任務(wù)組成。我們還在GEM基準(zhǔn)(Gehrmann et al.昂勉,2021)的3個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)浪册,重點(diǎn)研究語(yǔ)言生成問(wèn)題。我們從GEM基準(zhǔn)中任意選擇XSUM(摘要)岗照、ToTTo(表到文本生成)(Parikh等人村象,2020)和模式引導(dǎo)對(duì)話框(SGD)(Rastogi等人,2019)攒至。對(duì)于所有這些任務(wù)厚者,我們?cè)u(píng)估了監(jiān)督微調(diào)和基于提示的一次性學(xué)習(xí)。最后迫吐,我們還使用C4驗(yàn)證集上的困惑分?jǐn)?shù)比較了我們的模型在文本生成方面的一般能力库菲。我們相信,我們的一套任務(wù)可以很好地涵蓋文獻(xiàn)中的許多設(shè)置志膀,包括監(jiān)督和有條件的few-shot學(xué)習(xí)蝙昙。
4.2.2指標(biāo)和整體評(píng)價(jià)
對(duì)于SuperGLUE,我們會(huì)在適當(dāng)?shù)臅r(shí)候報(bào)告完善的指標(biāo)梧却,如準(zhǔn)確性奇颠、F1或精確匹配。對(duì)于GEM基準(zhǔn)放航,我們使用Rouge-L度量烈拒。對(duì)于語(yǔ)言建模,我們報(bào)告了負(fù)對(duì)數(shù)困惑广鳍。模型的普遍性荆几,即它們?cè)谒腥蝿?wù)范圍內(nèi)的集體表現(xiàn),是這里的主要評(píng)估標(biāo)準(zhǔn)赊时。為了能夠從這個(gè)角度對(duì)模型進(jìn)行比較吨铸,我們需要一個(gè)綜合性能分?jǐn)?shù)。然而祖秒,我們所包含的不同任務(wù)的指標(biāo)在本質(zhì)上有很大的不同——例如F1和困惑诞吱。為了解決這一問(wèn)題,我們選擇報(bào)告并使用相對(duì)于基線的歸一化相對(duì)增益作為總體指標(biāo)竭缝。為此房维,我們使用標(biāo)準(zhǔn)語(yǔ)言模型(僅解碼器)(類似GPT)和標(biāo)準(zhǔn)跨度去噪編碼器-解碼器(T5)作為主要基線,并報(bào)告所有方法相對(duì)于這些公認(rèn)候選者的相對(duì)性能抬纸。我們認(rèn)為這是比較這些模型的最合適方法咙俩,因?yàn)楹苋菀淄茢喑鲆粋€(gè)新模型通常比流行設(shè)置(例如GPT或T5類)好多少。我們還強(qiáng)調(diào)了一個(gè)事實(shí)湿故,即總體收益是標(biāo)準(zhǔn)化的阿趁,因此這變得更難利用或容易受到基準(zhǔn)彩票效應(yīng)的影響(Dehghani等人膜蛔,2021b)。
4.2.3實(shí)施細(xì)節(jié)
我們的實(shí)驗(yàn)都是在JAX/Flex(Bradbury等人脖阵,2018)中使用開源T5X3框架(Roberts等人飞几,2022)和Flaxformer4進(jìn)行的。我們使用C4語(yǔ)料庫(kù)為500K個(gè)步驟預(yù)訓(xùn)練所有模型独撇,批量大小為128屑墨,序列長(zhǎng)度為512個(gè)輸入和512個(gè)目標(biāo)。在預(yù)訓(xùn)練期間看到的近似token總數(shù)約為320億個(gè)token纷铣。每次預(yù)訓(xùn)練跑步通常使用64到128個(gè)TPU4芯片進(jìn)行訓(xùn)練(Jouppi等人卵史,2020)。我們使用Adafactor(Shazeer&Stern搜立,2018)優(yōu)化器以平方根學(xué)習(xí)率的倒數(shù)來(lái)優(yōu)化我們的模型以躯。為了理解不同骨干架構(gòu)的權(quán)衡,我們使用僅解碼器架構(gòu)和編碼器-解碼器架構(gòu)運(yùn)行所有基線預(yù)訓(xùn)練目標(biāo)啄踊。我們報(bào)告了使用解碼器模型的大約167M個(gè)參數(shù)和編碼器-解碼器模型的335M個(gè)參數(shù)的基本架構(gòu)的關(guān)鍵實(shí)驗(yàn)結(jié)果忧设。所有型號(hào)都使用標(biāo)準(zhǔn)Transformer,該Transformer使用SwiGLU層颠通,如(Shazeer址晕,2020)所述。我們對(duì)所有型號(hào)都使用默認(rèn)的T5英語(yǔ)32K句子顿锰。在僅解碼器模型的背景下谨垃,除了在因果LM上訓(xùn)練的解碼器模型的情況外,我們的實(shí)驗(yàn)總是僅在其輸入段使用雙向感受野硼控,并在目標(biāo)段使用自回歸解碼刘陶。這本質(zhì)上是PrefixLM類型的架構(gòu)5(Raffel等人,2019)牢撼,我們發(fā)現(xiàn)它始終比完全因果解碼器模型更好匙隔。
表4:與標(biāo)準(zhǔn)解碼器因果語(yǔ)言模型(類似GPT)相比的相對(duì)性能。本表中的結(jié)果以相對(duì)于基線的相對(duì)百分比改善表示熏版。模型與纷责?表示主要比較基線∧删觯總體得分列被標(biāo)準(zhǔn)化碰逸,以便在任務(wù)之間平均加權(quán)。
4.3消融實(shí)驗(yàn)結(jié)果概述
表2報(bào)告了所有基準(zhǔn)任務(wù)和數(shù)據(jù)集的原始結(jié)果阔加。為了便于在設(shè)置之間進(jìn)行更容易的比較,我們還報(bào)告了與T5和GPT模型等公認(rèn)基線的相對(duì)比較满钟。這分別在表3和表4中報(bào)告胜榔。
4.3.1解碼器與編碼器解碼器
在我們深入研究這一部分的結(jié)果之前胳喷,我們想提醒讀者,將純解碼器模型與編碼器-解碼器模型進(jìn)行比較是不容易的夭织。簡(jiǎn)言之吭露,我們可以用計(jì)算匹配的設(shè)置或參數(shù)匹配的方式對(duì)它們進(jìn)行比較。因此尊惰,這些結(jié)果集合中的編碼器-解碼器模型具有大約解碼器模型的兩倍數(shù)量的參數(shù)讲竿,但具有相似的速度。
我們注意到弄屡,這可能稍微有利于編碼器-解碼器题禀,因?yàn)檫@可以被解釋為模型稀疏性的形式“蚪荩回到結(jié)果迈嘹,當(dāng)使用T5作為參考基線時(shí),我們注意到全庸,除了UL2解碼器之外秀仲,沒(méi)有一個(gè)預(yù)訓(xùn)練的解碼器模型優(yōu)于T5。此外壶笼,整體相對(duì)性能會(huì)降低10%至30%神僵。這里最好的解碼器基線模型是前綴LM解碼器模型,其比T5基線差大約10%覆劈。從這些結(jié)果中可以清楚地看出挑豌,當(dāng)且僅當(dāng)不關(guān)心存儲(chǔ)時(shí),編碼器-解碼器模型應(yīng)優(yōu)于僅解碼器模型墩崩,即氓英,參數(shù)計(jì)數(shù)通常不如實(shí)際吞吐量重要(詳細(xì)討論見(jiàn)(Dehghani等人,2021a))鹦筹。
當(dāng)存在參數(shù)約束時(shí)铝阐,前綴LM解碼器做出合適的替代方案。最后铐拐,一個(gè)有趣的數(shù)據(jù)點(diǎn)是徘键,我們?nèi)绾瓮苿?dòng)UL2解碼器比T5編碼器-解碼器設(shè)置好+14.6%。也就是說(shuō)遍蟋,這個(gè)UL2解碼器并不比我們的UL2編碼器-解碼器好吹害。然而,這強(qiáng)化了我們的觀點(diǎn)虚青,即自監(jiān)督目標(biāo)本質(zhì)上可能比骨干架構(gòu)更重要它呀,而協(xié)商架構(gòu)選擇主要是關(guān)于可以獨(dú)立研究的效率權(quán)衡。
4.3.2 GPT和/或T5是最佳設(shè)置嗎?
基于與類GPT(因果LM+解碼器)和類T5(跨度損壞+編碼器-解碼器)設(shè)置的相對(duì)比較纵穿,我們能夠容易地確定已建立的設(shè)置是否確實(shí)是最優(yōu)的或已經(jīng)接近最優(yōu)下隧。首先,因果LM(類似GPT)設(shè)置似乎是更糟糕的配置谓媒,因?yàn)樗男阅鼙晃覀兯械幕€超過(guò)了淆院。因此,我們直接建議盡可能至少使用前綴LM或UniLM進(jìn)行訓(xùn)練句惯。最好的僅解碼器模型(UL2除外)是前綴LM預(yù)訓(xùn)練土辩,它為語(yǔ)言模型保留了一個(gè)內(nèi)存前綴。關(guān)于前綴LM預(yù)培訓(xùn)抢野,有趣的是拷淘,前綴LM實(shí)際上比T5跨度損壞設(shè)置好+16.7%。前綴LM編碼器-解碼器模型確實(shí)不如SuperGLUE上的默認(rèn)T5模型有效蒙保,但總體而言辕棚,更強(qiáng),尤其是當(dāng)涉及到一次性或開放文本生成時(shí)邓厕∈藕浚總的來(lái)說(shuō),在前綴LM和跨度損壞編碼器-解碼器模型(T5)之間详恼,不清楚哪一個(gè)是普遍優(yōu)越的模型补君,因?yàn)樵诓煌淖尤蝿?wù)之間存在給予和接受,盡管值得注意的是昧互,前綴LM EncDec模型只犧牲了某些任務(wù)中的微小退化挽铁,而犧牲了其他任務(wù)中的巨大數(shù)倍增長(zhǎng)。
4.3.3關(guān)于UniLM和SCLM的性能
在編碼器-解碼器設(shè)置上敞掘,UniLM和SCLM目標(biāo)在聚合和歸一化總增益方面都比標(biāo)準(zhǔn)跨度損壞目標(biāo)表現(xiàn)更好叽掘。這表明,總的來(lái)說(shuō)玖雁,混合預(yù)訓(xùn)練的目標(biāo)是有幫助的更扁。在解碼器設(shè)置上,與基線因果LM相比,UniLM和SCLM的總增益分別為+9.4%和+16.1%。就單個(gè)任務(wù)而言蜕企,UniLM和SCLM在9項(xiàng)任務(wù)中的6項(xiàng)都優(yōu)于T5。同樣值得注意的是膛薛,SCLM在第一代(SGD和TOTTO)上的表現(xiàn)是所有型號(hào)中最好的。
4.3.4關(guān)于擬議UL2的性能
最后补鼻,我們注意到哄啄,與類似GPT的模型和類似T5的模型相比雅任,UL2表現(xiàn)最好≡鲅停總體而言椿访,與類似GPT的CLM解碼器模型相比乌企,UL2的性能分別提高了T5+43.4%和+76.2%虑润。與所有其他備選方案相比,這是最高的相對(duì)(總體)增益加酵。我們還注意到拳喻,在所有單獨(dú)的任務(wù)中,UL2在9個(gè)考慮的任務(wù)中的9個(gè)任務(wù)中都優(yōu)于T5猪腕。因此冗澈,與跨度損壞T5模型相比,UL2是一個(gè)普遍更好的選擇陋葡。雖然UL2在所有單個(gè)任務(wù)上并不總是優(yōu)于所有基線亚亲,但UL2是非常一致的。即使在一項(xiàng)任務(wù)中輸給了另一種方法腐缤,損失也相對(duì)較邪乒椤(例如,一次TOTTO的損失為6.5比7.3)岭粤。相反惜索,當(dāng)UL2優(yōu)于T5這樣的基線時(shí),增益可以大到+363%剃浇。UL2仍然是最強(qiáng)的方法巾兆。持續(xù)的改進(jìn)還表明,它可以作為T5和GPT類模型的更一致的替代品虎囚。
4.4模式切換消融
為了確定我們的模式切換能力具有有效的性能角塑,我們進(jìn)行了消融實(shí)驗(yàn)。我們?cè)谝淮涡訶Sum和一次性SuperGLUE上進(jìn)行了實(shí)驗(yàn)淘讥。表5報(bào)告了將范例提示更改為模型的結(jié)果圃伶。首先,我們觀察到提示對(duì)模型性能有相當(dāng)大的影響——即适揉,使用正確或錯(cuò)誤的提示可能會(huì)導(dǎo)致48%的性能差距(在XSum留攒、Rouge-1上)。另一方面嫉嘀,SuperGLUE對(duì)提示不那么敏感炼邀。在SuperGLUE上,在一次性評(píng)估中使用提示幾乎總是比不使用提示好剪侮。然而拭宁,對(duì)于XSum來(lái)說(shuō)洛退,正確的提示似乎對(duì)良好的性能至關(guān)重要。
4.5去噪器混合物
我們進(jìn)行了廣泛的實(shí)驗(yàn)來(lái)驗(yàn)證MoD目標(biāo)中各個(gè)目標(biāo)的有效性杰标。表6報(bào)告了這些消融的結(jié)果兵怯。我們報(bào)告了改變平均跨度和損壞率的結(jié)果,以及使用的S-去噪百分比(用%SD表示)腔剂。請(qǐng)注意媒区,混合物中去噪器的總數(shù)為kSpank×kCorrupt_Ratek+1。我們將這些配置標(biāo)記為從Var-A到Var-J掸犬,以方便參考袜漩。
X去噪是互補(bǔ)有效的,但作為一個(gè)獨(dú)立的去噪是不夠的
我們觀察到混合極端去噪是有效的湾碎。大多數(shù)全面的最佳結(jié)果來(lái)自于具有長(zhǎng)跨度的混合物(例如宙攻,32或64)。與沒(méi)有長(zhǎng)跨度的變體(Var-D與Var-C)相比介褥,我們發(fā)現(xiàn)Var-D絕對(duì)更好座掘。我們還提請(qǐng)讀者注意Var-H,它是一種只使用長(zhǎng)跨度的變體柔滔。一般來(lái)說(shuō)溢陪,Var-H表現(xiàn)不佳,這表明極端去噪補(bǔ)充了常規(guī)去噪廊遍,但單獨(dú)去噪還不夠嬉愧。這也證實(shí)了Raffel等人的結(jié)果。(2019)表明喉前,50%的損壞率表現(xiàn)不佳没酣。這與(Wettig et al.,2022)的發(fā)現(xiàn)略有沖突卵迂,盡管我們的體系結(jié)構(gòu)使用輸入到目標(biāo)形式的預(yù)訓(xùn)練裕便,而不是BERT風(fēng)格的掩碼語(yǔ)言建模。
優(yōu)選少量S-去噪器
我們探索了一種設(shè)置见咒,在該設(shè)置中偿衰,我們將S-去噪器縮放到整個(gè)MoD混合物的50%。我們發(fā)現(xiàn)這通常會(huì)影響性能改览。因此下翎,我們得出結(jié)論,S-去噪器是必要的宝当,但只有少量的S-去噪劑(≈20%)是優(yōu)選的视事。Var-K和Var-L還探討了根本不存在S-去噪的情況。雖然一項(xiàng)任務(wù)的性能顯著提高(SuperGLUE)庆揩,但另一項(xiàng)任務(wù)性能顯著下降(一次性XSUM)俐东。同時(shí)跌穗,對(duì)于與Var-F相同(但沒(méi)有S-去噪)的Var-L,總體上表現(xiàn)得更差虏辫。因此蚌吸,我們證明了S-去噪是至關(guān)重要的。
4.6適度縮放模型大小和預(yù)訓(xùn)練數(shù)據(jù)
我們通過(guò)擴(kuò)大1)模型大小和2)預(yù)訓(xùn)練數(shù)據(jù)集大小來(lái)進(jìn)行額外的實(shí)驗(yàn)砌庄。具體來(lái)說(shuō)羹唠,我們將UL2編碼器-解碼器模型擴(kuò)展到大約1B個(gè)參數(shù),并將預(yù)訓(xùn)練token的數(shù)量增加到0.5萬(wàn)億個(gè)token鹤耍。我們的動(dòng)機(jī)是對(duì)所提出的公式在不同的模型規(guī)模下也有效進(jìn)行健全性檢查肉迫,并觀察在更大的規(guī)模下運(yùn)行是否存在差異和影響验辞。此外稿黄,推導(dǎo)比例定律也已成為語(yǔ)言模型研究的主要內(nèi)容(Kaplan等人,2020跌造;Tay等人杆怕,2021b)。表7報(bào)告了這種縮放設(shè)置的結(jié)果壳贪。在大規(guī)模應(yīng)用中陵珍,我們發(fā)現(xiàn)所提出的UL2編解碼器模型仍然具有競(jìng)爭(zhēng)力。現(xiàn)在的一個(gè)關(guān)鍵區(qū)別是UL2在與T5(1B)的比賽中放棄了SuperGLUE套件违施。然而互纯,這不僅通過(guò)在8項(xiàng)任務(wù)中的7項(xiàng)任務(wù)中表現(xiàn)不佳來(lái)彌補(bǔ),而且還通過(guò)一次性評(píng)估將性能提高2-4倍來(lái)彌補(bǔ)磕蒲。監(jiān)督微調(diào)的收益較小留潦,但在XSUM、SGD和TOT上仍然明顯辣往。表7:根據(jù)模型計(jì)算(例如兔院,EncDec為1B,解碼器為0.5B)和數(shù)據(jù)集大姓鞠鳌(0.5Ttoken)坊萝,適度放大模型的實(shí)驗(yàn)。
5縮放到20B參數(shù)
我們也有興趣在擴(kuò)大規(guī)模的環(huán)境中評(píng)估UL2许起。根據(jù)我們從消融實(shí)驗(yàn)中獲得的見(jiàn)解十偶,我們?cè)谶@次運(yùn)行中使用了編碼器-解碼器架構(gòu)。雖然UL2與體系結(jié)構(gòu)無(wú)關(guān)园细,但由于固有的稀疏性惦积,我們?cè)谶@里的軟建議可能是默認(rèn)使用編碼器-解碼器體系結(jié)構(gòu)。
我們以大約20B總參數(shù)的規(guī)模來(lái)訓(xùn)練UL2珊肃。與真正的大型語(yǔ)言模型相比(Du et al.荣刑,2021馅笙;Chowdhery et al.,2022)厉亏,20B代表了一個(gè)中等規(guī)模的模型董习,我們將其訓(xùn)練為概念驗(yàn)證,類似于UL2在比我們的消融實(shí)驗(yàn)相對(duì)更大的規(guī)模上可以做什么的暗示爱只。誠(chéng)然皿淋,我們對(duì)這個(gè)模型的確切參數(shù)計(jì)數(shù)沒(méi)有太多考慮,也就是說(shuō)恬试,我們已經(jīng)訓(xùn)練了一段時(shí)間的20B模型窝趣,并決定讓它收斂。此外训柴,我們注意到哑舒,在擴(kuò)展模型時(shí),由于潛在的一系列原因(數(shù)據(jù)損壞幻馁、搶占等間歇性硬件問(wèn)題)洗鸵,峰值和不穩(wěn)定性很常見(jiàn)。在這次運(yùn)行中仗嗦,我們沒(méi)有具體控制或?qū)嵤┤魏尉徑獠呗员毂酰缗紶栔匦聠?dòng),因?yàn)槲覀儧](méi)有認(rèn)真監(jiān)控工作稀拐。因此火邓,我們?cè)谶@個(gè)20B模型的訓(xùn)練中偶爾會(huì)發(fā)現(xiàn)損失峰值。然而德撬,由于許多使用這些檢查點(diǎn)的微調(diào)實(shí)驗(yàn)仍然經(jīng)常會(huì)導(dǎo)致sota性能铲咨,我們現(xiàn)在就順其自然,并為未來(lái)的工作留下適當(dāng)?shù)谋O(jiān)控運(yùn)行砰逻。盡管在50多個(gè)NLP基準(zhǔn)上獲得了sota性能鸣驱,但我們預(yù)計(jì)目前呈現(xiàn)的結(jié)果仍然低估了模型的真正潛力。我們將適當(dāng)擴(kuò)展UL2到真正的大規(guī)模蝠咆,以供未來(lái)工作使用踊东。
5.1預(yù)訓(xùn)練和模型配置
我們遵循早期實(shí)驗(yàn)中的相同訓(xùn)練協(xié)議,在C4語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練刚操,但也通過(guò)縮放模型在預(yù)訓(xùn)練期間看到的token數(shù)量闸翅。我們使用批量大小為1024和512的TPU4芯片對(duì)該模型進(jìn)行預(yù)訓(xùn)練。該模型在C4上總共訓(xùn)練了1萬(wàn)億個(gè)token(200萬(wàn)步)菊霜。對(duì)于輸入和目標(biāo)坚冀,序列長(zhǎng)度設(shè)置為512/512。在預(yù)訓(xùn)練期間鉴逞,Dropout設(shè)置為0记某。大約1萬(wàn)億個(gè)token的預(yù)培訓(xùn)花費(fèi)了大約一個(gè)多月的時(shí)間司训。我們使用與前面部分相同的去噪器混合物。該模型有32個(gè)編碼器層和32個(gè)解碼器層液南,dmodel為4096壳猜,dff為16384。對(duì)于總共16個(gè)頭部滑凉,每個(gè)頭部的尺寸為256统扳。我們的模型使用了8的模型并行度。我們保留了與T5相同的32k人聲大小的句子片段標(biāo)記器畅姊。因此咒钟,UL20B可以被解釋為一個(gè)與T5非常相似的模型,但使用不同的目標(biāo)和略有不同的縮放旋鈕進(jìn)行訓(xùn)練若未。與早期的實(shí)驗(yàn)類似朱嘴,UL20B使用Jax和T5X基礎(chǔ)設(shè)施進(jìn)行訓(xùn)練。我們發(fā)布并開源了這個(gè)20B模型的基于T5X的模型檢查點(diǎn)陨瘩。
5.2 20B規(guī)模的實(shí)驗(yàn)
本節(jié)介紹了UL20B實(shí)驗(yàn)的實(shí)驗(yàn)設(shè)置腕够。
5.2.1設(shè)置和實(shí)施細(xì)節(jié)
我們對(duì)微調(diào)和上下文學(xué)習(xí)進(jìn)行了實(shí)驗(yàn)。對(duì)于監(jiān)督微調(diào)舌劳,我們的模型在N個(gè)預(yù)訓(xùn)練步驟后不斷微調(diào),其中N通常從50k到100k玫荣。換句話說(shuō)甚淡,在預(yù)訓(xùn)練的每個(gè)Nk步驟之后,我們對(duì)每個(gè)下游任務(wù)進(jìn)行微調(diào)并記錄其結(jié)果捅厂。這通常是以手動(dòng)方式完成的贯卦。雖然由于模型仍在預(yù)訓(xùn)練,一些任務(wù)在早期預(yù)訓(xùn)練的檢查點(diǎn)上進(jìn)行了微調(diào)焙贷,但許多任務(wù)在我們發(fā)布的更接近收斂的檢查點(diǎn)進(jìn)行了微調(diào)撵割。當(dāng)我們不斷地微調(diào)時(shí),一旦任務(wù)到達(dá)sota辙芍,我們就停止對(duì)其進(jìn)行微調(diào)以節(jié)省計(jì)算啡彬。微調(diào)通常是在每個(gè)任務(wù)的基礎(chǔ)上進(jìn)行的,而不是聯(lián)合訓(xùn)練故硅。執(zhí)行聯(lián)合培訓(xùn)的任務(wù)詳情見(jiàn)附錄庶灿。我們將大規(guī)模多任務(wù)訓(xùn)練(Aribandi et al.,2021)和UL2的組合留給未來(lái)的工作吃衅。
對(duì)于監(jiān)督微調(diào)往踢,我們通常使用Adafactor優(yōu)化器采用在{5×10?5,1×10?51×10?4}范圍內(nèi)的學(xué)習(xí)率徘层。一般的方法是峻呕,我們重置Adafactor優(yōu)化器狀態(tài)和/或采用基于真實(shí)目標(biāo)token數(shù)量的損失歸一化利职。這讓人想起了PaLM微調(diào)設(shè)置(Chowdhery等人,2022)瘦癌。批量大小通常在32到128之間眼耀,盡管我們沒(méi)有發(fā)現(xiàn)批量大小對(duì)微調(diào)性能的影響太大。許多評(píng)估的任務(wù)都沒(méi)有進(jìn)行太多調(diào)整佩憾,在執(zhí)行排行榜提交之前哮伟,我們只運(yùn)行了一兩次。
5.2.2監(jiān)督微調(diào)的數(shù)據(jù)集
為了證明該方法的普遍性妄帘,我們總共考慮了近50多項(xiàng)NLP任務(wù)楞黄。我們?cè)谙旅媪谐隽宋覀兊娜蝿?wù)分類。請(qǐng)注意抡驼,任務(wù)的分類通常本質(zhì)上是軟的鬼廓,一些任務(wù)可能會(huì)跨越不同的分類邊界。
?語(yǔ)言生成-我們考慮摘要和數(shù)據(jù)到文本的生成任務(wù)致盟。我們使用CNN/Dailymail(Hermann et al.碎税,2015)、XSUM(Narayan et al.馏锡,2018)雷蹂、MultiNews(Fabbri et al.,2019)杯道、SAMSum(Gliwa et al.匪煌,2017)、WebNLG(Castro Ferreira et al.党巾,2020)(英語(yǔ))萎庭、E2E(Du?ek et al.,2016)和CommonGen(Lin et al.齿拂。驳规,2020)來(lái)評(píng)估我們的模型。對(duì)于WebNLG署海、E2E和CommonGen吗购,我們使用GEM基準(zhǔn)測(cè)試的版本(Gehrmann等人,2021)叹侄。
?使用人工評(píng)估的語(yǔ)言生成-我們通過(guò)GENIE排行榜使用人工評(píng)估對(duì)各種文本生成任務(wù)進(jìn)行評(píng)估(Khashabi等人巩搏,2021)。這些任務(wù)包括aNLG(Bhagavatula等人趾代,2019)贯底、ARC-DA(Clark等人,2018)、WMT19(基金會(huì))和XSUM(Narayan等人禽捆,2018年)笙什。
?語(yǔ)言理解、分類和問(wèn)答-我們使用閱讀理解胚想、問(wèn)答琐凭、文本分類和自然語(yǔ)言推理數(shù)據(jù)集。具體而言浊服,我們使用RACE(閱讀理解)(Lai et al.统屈,2017)、QASC(Khot et al.牙躺,2020)愁憔、OpenBookQA(Mihaylov et al.,2018)孽拷、TweetQA(Xiong et al.吨掌,2019)、QuAIL(Rogers et al.脓恕,20 20 20)膜宋、IMDB(Maas et al.,2011)炼幔、Agnews(Zhang et al.秋茫,2015)、DocNLI(Yin et al.江掩,2021)学辱、對(duì)抗性NLI(Nie et al.,19)环形、VitaminC(Schuster et al.,21)衙傀,Civil Comments和維基百科毒性檢測(cè)數(shù)據(jù)集(Borkan等人抬吟,2019)。我們還使用了標(biāo)準(zhǔn)的SuperGLUE(Wang等人统抬,2019)和GLUE(王等人火本,2018)數(shù)據(jù)集。
?常識(shí)推理-我們使用HellaSwag(Zellers等人聪建,2019)钙畔、SocialIQA/SIQA(Sap等人,2019金麸。
?長(zhǎng)期推理-我們使用Scrolls基準(zhǔn)(Shaham等人擎析,2022),該基準(zhǔn)由七個(gè)組成任務(wù)組成挥下,包括GovReport(Huang等人揍魂,2021)桨醋、SumScr(Chen等人,2021现斋。
?結(jié)構(gòu)化知識(shí)基礎(chǔ)-我們使用了UnifiedSKG(Xie et al.喜最,2022)的幾個(gè)組件任務(wù),即WikiTQ(Pasupat&Liang庄蹋,2015)瞬内、CompWQ(Talmor&Berant,2018)限书、FetaQA(Nan et al.虫蝶,2021)、HybridQA(Chen et al.蔗包,2020)秉扑、WikiSQL(Zhong et al.,2017)调限、TabFat(Chen et al.舟陆,2019)、Feverous(Aly et al.耻矮,2019)秦躯,SQA(Iyyer et al.,2018)裆装,MTOP(Li et al.踱承,2016)和DART(Nan等人,2020)哨免。我們選擇相對(duì)方便進(jìn)行評(píng)估的數(shù)據(jù)集茎活,并使用主流指標(biāo),如準(zhǔn)確性或精確匹配琢唾,而不是模糊的數(shù)據(jù)集或需要重要的特定領(lǐng)域后處理的數(shù)據(jù)集载荔。
?信息檢索-IR是在給定查詢的情況下檢索相關(guān)文檔的任務(wù)。我們使用最新的下一代IR范式的設(shè)置采桃,即可微搜索索引(Tay et al.懒熙,2022)進(jìn)行實(shí)驗(yàn)。我們?cè)贒SI論文中使用了相同的NQ(Kwiatkowski et al.普办,2019)拆分工扎。
對(duì)于每個(gè)數(shù)據(jù)集,我們報(bào)告以前最好的sota結(jié)果衔蹲。對(duì)于生成任務(wù)肢娘,我們通常按照(Gehrmann等人,2022)的建議報(bào)告ROUGE-2。對(duì)于其余數(shù)據(jù)集蔬浙,我們報(bào)告了先前工作中報(bào)告的主要指標(biāo)猪落。對(duì)于BLEU分?jǐn)?shù),我們使用sacrebleu畴博。對(duì)于常識(shí)性推理任務(wù)笨忌,我們不與使用外部知識(shí)庫(kù)的方法進(jìn)行比較,因?yàn)樗鼈兪钦坏木悴。隽吮疚牡姆秶倨!T诖蠖鄶?shù)情況下,GLUE通常被認(rèn)為是飽和的亮隙,在GLUE排行榜上有許多未發(fā)表的結(jié)果途凫。因此,我們做出了一個(gè)非常合理的決定溢吻,認(rèn)為(Raffel等人维费,2019)是最先進(jìn)的,因?yàn)槲覀冋J(rèn)為自T5模型(Raffer等人促王,2019年)以來(lái)犀盟,GLUE基準(zhǔn)沒(méi)有任何真正的進(jìn)步。GLUE的結(jié)果蝇狼,考慮到它已經(jīng)飽和的程度阅畴,作為參考,應(yīng)該謹(jǐn)慎對(duì)待迅耘。
一般來(lái)說(shuō)贱枣,我們會(huì)盡最大努力向任何排行榜(未公布的測(cè)試集)提交分?jǐn)?shù),但在提交此類分?jǐn)?shù)的人力成本過(guò)高的情況下颤专,尤其是當(dāng)現(xiàn)有的最先進(jìn)方法已經(jīng)提供了他們的開發(fā)分?jǐn)?shù)時(shí)纽哥,或者當(dāng)報(bào)告此特定數(shù)據(jù)集只是為了完整性時(shí)(例如,GLUE)栖秕,我們會(huì)避免這樣做昵仅。我們建議讀者不要過(guò)度思考dev/test的差異,因?yàn)椋?)在大多數(shù)學(xué)術(shù)排行榜中累魔,dev/test不僅與我們自己的經(jīng)驗(yàn)一致,而且可以通過(guò)經(jīng)驗(yàn)觀察到够滑,因?yàn)椋?)真正的測(cè)試無(wú)論如何都是生產(chǎn)垦写。每當(dāng)在排行榜上報(bào)道時(shí),我們都會(huì)將表現(xiàn)最好的已發(fā)表作品視為SOTA彰触,并在結(jié)果中使用#符號(hào)表示可能有一些匿名提交的作品得分更高梯投。為此,我們認(rèn)為具有上述合理質(zhì)量的arxiv預(yù)印本可以算作已發(fā)表的作品。截至2022年4月15日分蓖,這些結(jié)果和比較是準(zhǔn)確的尔艇,當(dāng)時(shí)我們停止了實(shí)驗(yàn),專注于拋光這篇論文么鹤。我們后來(lái)意識(shí)到终娃,在準(zhǔn)備將這篇論文發(fā)表在arxiv上時(shí),使用16k序列長(zhǎng)度的模型(Guo et al.蒸甜,2021)在Scrolls基準(zhǔn)上有了新的結(jié)果棠耕,而我們的模型(2k)在獲得sota后將其保持在2k。預(yù)計(jì)將長(zhǎng)度增加到UL2將大大提高我們的分?jǐn)?shù)柠新,可能會(huì)超過(guò)目前的索塔窍荧,但出于后勤和時(shí)間表的考慮,我們將這一點(diǎn)留給未來(lái)的工作恨憎。
5.2.3監(jiān)督微調(diào)結(jié)果匯總
本節(jié)介紹了我們實(shí)驗(yàn)的總體結(jié)果蕊退。
表8:UL20B結(jié)果與現(xiàn)有技術(shù)的對(duì)比匯總。(l) 表示提交排行榜憔恳。(])表示我們能在排行榜上找到的最好的出版物瓤荔。(e) 表示SOTA采用了整體方法。因?yàn)槲覀冊(cè)u(píng)估了SuperGLUE的微調(diào)和上下文權(quán)衡喇嘱,所以SuperGLUE分?jǐn)?shù)在下面有自己的專用部分茉贡。
5.2.4監(jiān)督微調(diào)結(jié)果
我們的實(shí)驗(yàn)結(jié)果表明,UL2在大約50多個(gè)NLP任務(wù)和設(shè)置上實(shí)現(xiàn)了最先進(jìn)的性能者铜。對(duì)許多人來(lái)說(shuō)腔丧,利潤(rùn)率相當(dāng)大,而對(duì)于那些UL2沒(méi)有實(shí)現(xiàn)SOTA的人來(lái)說(shuō)作烟,UL2的性能通常相當(dāng)有競(jìng)爭(zhēng)力愉粤。值得注意的是,在每個(gè)基準(zhǔn)上獲得sota的困難程度有很大不同拿撩。對(duì)一些人來(lái)說(shuō)衣厘,sota模型是一個(gè)32B密度的等價(jià)物(Zoph等人,2022)压恒。對(duì)其他一些人來(lái)說(shuō)影暴,這是一個(gè)基礎(chǔ)模型。還值得注意的是探赫,許多基準(zhǔn)都有一個(gè)強(qiáng)大的相對(duì)較大的模型型宙,例如3B或11B T5、UnifiedQA(Khashabi et al.伦吠,2020)或Unicorn(Lourie et al.妆兑,2021)魂拦,因?yàn)楝F(xiàn)有的SOTA模型的性能優(yōu)于這些模型也不是最容易做的事「樯ぃ總的來(lái)說(shuō)芯勘,我們敦促讀者自己判斷這些SOTA結(jié)果的價(jià)值。最后腺逛,我們注意到UL2 20B在GENIE任務(wù)的人工評(píng)估方面做得很好荷愕,在幾個(gè)指標(biāo)上優(yōu)于sota。這確定了UL2的生成質(zhì)量是相當(dāng)可靠的屉来。
5.2.5微調(diào)和基于提示的零樣本學(xué)習(xí)(SuperGLUE)之間的權(quán)衡
在本節(jié)中路翻,我們將探討SuperGLUE基準(zhǔn)測(cè)試的微調(diào)和上下文學(xué)習(xí)權(quán)衡。我們用UL20B對(duì)SuperGLUE進(jìn)行了實(shí)驗(yàn)茄靠。雖然UL20B在該基準(zhǔn)上沒(méi)有實(shí)現(xiàn)SOTA茂契,但我們注意到,UL20B至少保持競(jìng)爭(zhēng)力慨绳,并優(yōu)于T5-11B掉冶。本節(jié)保證UL2確實(shí)在SuperGLUE上擴(kuò)展和匹配/略優(yōu)于T5-11B(而在許多其他上下文任務(wù)上則大大優(yōu)于T5-XXL)。由于兩個(gè)主要原因脐雪,UL20B仍然落后于SOTA型號(hào)ST-MoE-32B厌小。首先,ST-MoE-32B具有200B+個(gè)參數(shù)战秋,成本相當(dāng)于32B密集模型璧亚。其次,ST-MoE-32B使用編碼器-解碼器架構(gòu)僅針對(duì)跨度損壞進(jìn)行訓(xùn)練脂信,已知該架構(gòu)在NLU微調(diào)方面非常有利癣蟋。
表9:SuperGLUE開發(fā)集的結(jié)果。我們與T5-11B(Raffel et al.狰闪,2019)疯搅、ST-MoE-32B(Zoph et al.,2022)和PaLM-8B埋泵、PaLM-62B和PaLM-540B(Chowdhery et al.幔欧,2021)進(jìn)行了比較。報(bào)告的分?jǐn)?shù)是每個(gè)任務(wù)的峰值驗(yàn)證分?jǐn)?shù)丽声。
5.2.6生成few-shot:XSUM摘要
最后礁蔗,我們使用XSum數(shù)據(jù)集進(jìn)行了額外的few-shot上下文1-shot學(xué)習(xí)。我們將我們的模型與基線T5-XXL雁社、T5-XXL與LM自適應(yīng)(Lester et al.瘦麸,2021)、LaMDA 137B(Thoppilan et al.歧胁,2022)和PaLM(8B滋饲,62B,540B)(Chowdhery et al.喊巍,2020)進(jìn)行了比較屠缭。我們?cè)谙嗤膶?shí)驗(yàn)設(shè)置中運(yùn)行T5-XXL,但報(bào)告了其他模型的結(jié)果(Chowdhery等人崭参,2022)呵曹。
表10:SuperGLUE數(shù)據(jù)集上零樣本學(xué)習(xí)的結(jié)果。我們與GPT-3何暮、GLaM和PaLM進(jìn)行了比較(Chowdhery等人奄喂,2022)。我們還包括與UL20B相對(duì)計(jì)算匹配的模型海洼,如具有LM自適應(yīng)的T5-XXL(Lester et al.跨新,2021)、GPT-3 13B和GLaM-8B密集型坏逢。值得注意的是域帐,UL20B在平均得分上優(yōu)于GPT-3175B和類似計(jì)算類中的所有其他模型。
表11報(bào)告了單次匯總的結(jié)果是整。我們的結(jié)果表明肖揣,UL2 20B的性能大約是LM適應(yīng)的T5 XXL型號(hào)性能的3倍。此外浮入,UL2 20B的性能優(yōu)于LaMDA 137B龙优,并且與與UL2近似計(jì)算匹配的PaLM 8B相比具有更好的性能。然而事秀,最好的結(jié)果仍然是更大的540B和62B PaLM型號(hào)彤断。
5.2.7思想鏈提示的UL2
最近的研究表明,大規(guī)模的語(yǔ)言模型可以通過(guò)思維鏈提示執(zhí)行多步驟推理任務(wù)秽晚,如數(shù)學(xué)單詞問(wèn)題或常識(shí)推理瓦糟,這會(huì)促使模型在給出最終答案之前生成一條循序漸進(jìn)的推理路徑(Wei et al.,2022b)赴蝇。值得注意的是菩浙,思想鏈(CoT)提示不需要對(duì)模型進(jìn)行任何額外的微調(diào)。
CoT提示的一個(gè)關(guān)鍵考慮因素是句伶,它是一種突發(fā)的規(guī)模能力(Wei et al.劲蜻,2022a)——它需要一個(gè)足夠大的語(yǔ)言模型來(lái)提高性能,而實(shí)際上會(huì)損害小型語(yǔ)言模型的性能考余。因此先嬉,思維鏈提示的成功用例使用了LaMDA 137B(Thoppilan et al.,2022)楚堤、PaLM 540B(Chowdhery et al.疫蔓,2021)或OpenAI模型(Brown et al.含懊,2020停忿;歐陽(yáng)等人范抓,2022)。然而咖熟,這些模型是計(jì)算密集型的滚躯,不能用作公共檢查點(diǎn)雏门。
在這里,我們證明了UL2 20B是第一個(gè)公開可用的預(yù)訓(xùn)練模型(沒(méi)有任何微調(diào))掸掏,可以成功地利用CoT提示來(lái)解決多步驟算術(shù)和常識(shí)任務(wù)茁影。我們使用與Wei等人相同的基準(zhǔn)任務(wù)和提示。(2022b)丧凤。在下面的表12中募闲,我們看到,在五個(gè)算術(shù)推理數(shù)據(jù)集上息裸,對(duì)于UL2 20B蝇更,CoT提示優(yōu)于標(biāo)準(zhǔn)提示(無(wú)需思考鏈即可直接輸出答案)。與Wei等人類似呼盆。(2022b)年扩,我們還表明,可以通過(guò)使用外部計(jì)算器(“calc.”)僅執(zhí)行算術(shù)計(jì)算(+访圃,?厨幻,×,/)來(lái)增強(qiáng)CoT提示腿时,以進(jìn)一步大幅提高性能况脆。此外,我們?cè)贑oT提示的基礎(chǔ)上增加了自一致性(Wang et al.批糟,2022b)(表示為“SC”)格了,并在所有基準(zhǔn)中觀察到持續(xù)的顯著提高,與標(biāo)準(zhǔn)提示相比平均提高了22.5%徽鼎。表12:五個(gè)算術(shù)推理基準(zhǔn)點(diǎn)的思維鏈提示和自洽性(SC)結(jié)果盛末。GSM8K:(Cobbe等人,2021)否淤。SVAMP:(Patel等人悄但,2021)。ASDiv:(Miao等人石抡,2020)檐嚣。AQuA:(Ling et al.,2017)啰扛。MAWPS:(Koncel Kedziorski等人嚎京,2016)嗡贺。
除了算術(shù)推理之外,表13還顯示了在五個(gè)常識(shí)性推理基準(zhǔn)上挖藏,使用UL2 20B的CoT提示與標(biāo)準(zhǔn)提示相比的性能暑刃。CoT提示加自一致性在五個(gè)基準(zhǔn)中的四個(gè)方面優(yōu)于標(biāo)準(zhǔn)提示,平均改善14.4%膜眠。
表13:五個(gè)常識(shí)性推理基準(zhǔn)的思維鏈提示和自洽性(SC)結(jié)果。CSQA:(Talmor等人溜嗜,2019)宵膨。StrategyQA:(Geva等人,2021)炸宵。日期理解和運(yùn)動(dòng)理解:(Srivastava等人辟躏,2022)。ARC輕松/挑戰(zhàn):(Clark等人土全,2018)捎琐。
總體而言,我們已經(jīng)表明裹匙,盡管先前的CoT工作需要大型預(yù)訓(xùn)練模型瑞凑,如PaLM 540B,但UL2 20B是一個(gè)相對(duì)較小的模型概页,也可以執(zhí)行多步驟推理籽御。我們假設(shè)去噪因子的混合物可能有助于UL2在20B參數(shù)下利用CoT提示的能力,盡管我們將如何解鎖突發(fā)思維鏈推理的進(jìn)一步研究留給未來(lái)的工作惰匙。
5.2.8大規(guī)模多任務(wù)語(yǔ)言理解
大規(guī)模多任務(wù)語(yǔ)言理解(MMLU)(Hendrycks et al.技掏,2021)是一個(gè)由57個(gè)任務(wù)組成的集合,涵蓋了廣泛的主題(人文项鬼、社會(huì)科學(xué)哑梳、硬科學(xué)等)。在MMLU上取得優(yōu)異成績(jī)需要廣泛的世界知識(shí)和解決問(wèn)題的技能绘盟。
對(duì)于MMLU鸠真,我們與T5模型變體進(jìn)行了比較,包括語(yǔ)言模型自適應(yīng)變體Lester等人(2021)和T0(Sanh等人奥此,2019)弧哎。對(duì)于后者,我們使用“T0草莓”和“T0香草”稚虎,因?yàn)檫@些是推薦用于研究目的的模型撤嫩。我們報(bào)告了0次注射的性能。T0模型專門針對(duì)0次注射進(jìn)行了微調(diào)蠢终,因此我們認(rèn)為這是測(cè)試UL2療效的保守設(shè)置序攘。表14顯示茴她,LM適配的T5-XXL模型幾乎沒(méi)有給出以上的隨機(jī)性能(25%)。UL2的性能優(yōu)于T0和T5型號(hào)程奠。
5.3帶FLAN的指令調(diào)諧UL2 20B
受Chung等人的啟發(fā)7丈牢。(2022),我們?cè)赨L2 20B檢查點(diǎn)上應(yīng)用了Flan指令調(diào)優(yōu)瞄沙。我們幾乎使用了與Flan2論文相同的設(shè)置和Flan混合物(Chung et al.己沛,2022)。由于flan混合物沒(méi)有模式切換提示距境,我們選擇在沒(méi)有模式token的情況下再訓(xùn)練UL2 100K步申尼。這次我們將長(zhǎng)度增加到1024/1024,以適應(yīng)更大的上下文長(zhǎng)度垫桂。側(cè)方訓(xùn)練的長(zhǎng)度為2048/512师幕。我們發(fā)現(xiàn)原始UL2檢查點(diǎn)的“模式切換凈化”是有用的,盡管更優(yōu)化的方法是向FLAN任務(wù)添加模式token诬滩。由于我們懶得這么做霹粥,我們只是選擇再次繼續(xù)訓(xùn)練UL2,以獲得更多的步驟疼鸟。我們?cè)谂c原始UL2檢查點(diǎn)相同的url上發(fā)布了此Flan-UL2 20B檢查點(diǎn)后控。
5.3.1 UL2側(cè)身訓(xùn)練后的少桿MMLU和大板凳成績(jī)
表15報(bào)告了MMLU和BBH的結(jié)果(Suzgun等人,2022)愚臀。一般來(lái)說(shuō)忆蚀,F(xiàn)LAN UL2 20B的性能非常有競(jìng)爭(zhēng)力,在測(cè)試集上優(yōu)于FLAN-T5 XXL+1.8%姑裂,在MMLU開發(fā)上優(yōu)于4.7%馋袜。Big Bench的硬得分仍然具有競(jìng)爭(zhēng)力,最佳檢查點(diǎn)略微優(yōu)于FLAN-T7 XXL舶斧。值得注意的是欣鳖,F(xiàn)LAN-UL2的最佳開發(fā)分?jǐn)?shù)幾乎達(dá)到了FLAN PaLM 62B在MMLU和BBH上的性能,這表明結(jié)果相當(dāng)可靠茴厉。
5.3.2使用思維鏈與直接提示的比較
我們比較了Flan模型在直接和思想鏈設(shè)置上的差異泽台。我們使用與T5-XXL完全相同的協(xié)議對(duì)Flan-UL2進(jìn)行微調(diào),并根據(jù)所有四種設(shè)置(具有直接和CoT的MMLU/BBH)中最強(qiáng)的平均值8選擇最佳分?jǐn)?shù)矾缓。我們發(fā)現(xiàn)Flan-UL2在所有四項(xiàng)任務(wù)上都優(yōu)于Flan-T5-XXL怀酷。值得注意的是,CoT任務(wù)有更大的增益嗜闻,例如蜕依,特別是MMLU CoT,其中增益相對(duì)為+7.4%。通常样眠,這些任務(wù)的CoT變體仍然比直接任務(wù)表現(xiàn)更差友瘤,這也可以在PaLM 62B模型中觀察到。這似乎也適用于Flan PaLM 62B檐束”柩恚總體而言,在所有設(shè)置中被丧,側(cè)面-UL2的平均值接近Flan PaLM 62B(49.1對(duì)49.9)盟戏。然而,它仍然被Flan PaLM 540B的強(qiáng)勁表現(xiàn)所超越甥桂。
我們還嘗試了一些自一致性(Wang et al.抓半,2022b)實(shí)驗(yàn)與CoT相結(jié)合。從簡(jiǎn)短的實(shí)驗(yàn)中格嘁,CoT得分從53.9提高到57.1(當(dāng)相應(yīng)的直接得分為55.4時(shí))。這表明廊移,在20B量表中糕簿,CoT+自一致性可以優(yōu)于直接提示。我們沒(méi)有進(jìn)行進(jìn)一步的實(shí)驗(yàn)狡孔,因?yàn)檫@會(huì)增加搜索空間懂诗,使其比我們想要的(或喜歡的)更耗時(shí)。我們把未來(lái)的任何實(shí)驗(yàn)留給讀者練習(xí)苗膝。
6結(jié)論
我們提出了一種訓(xùn)練普遍有效模型的新范式殃恒。UL2有兩個(gè)關(guān)鍵思想。首先辱揭,我們提出了一種新的混合去噪器(MoD)預(yù)訓(xùn)練离唐,該預(yù)訓(xùn)練將多個(gè)預(yù)訓(xùn)練任務(wù)框定為跨度損壞,將其多樣化问窃,然后混合亥鬓。其次,我們引入了模式切換域庇,這是一種將下游任務(wù)行為與上游預(yù)訓(xùn)練相關(guān)聯(lián)的方法嵌戈。廣泛的燒蝕實(shí)驗(yàn)表明,UL2在各種監(jiān)督和少量射擊任務(wù)中始終優(yōu)于GPT和T5模型听皿,在9項(xiàng)任務(wù)中的9項(xiàng)任務(wù)上優(yōu)于T5熟呛,歸一化總增益為+76.1%。最后尉姨,我們將UL2參數(shù)擴(kuò)展到20B庵朝,并在50到60個(gè)NLP任務(wù)和設(shè)置的不同套件上進(jìn)行實(shí)驗(yàn)。UL2在其中50臺(tái)上實(shí)現(xiàn)了sota性能。UL2和側(cè)面-UL2 20B的預(yù)訓(xùn)練檢查站于https://github.com/google-research/google-research/tree/master/ul2.
9附錄
9.1型號(hào)發(fā)布
作為這項(xiàng)工作的一部分偿短,我們發(fā)布了20B檢查點(diǎn)的權(quán)重欣孤。模型的權(quán)重可以在這個(gè)GCP bucket中找到(gs://scenture-backet/ul2)。這些檢查站使用T5X(Roberts等人昔逗,2022)進(jìn)行訓(xùn)練https://github.com/google-research/t5x并在JAX/Flex中實(shí)現(xiàn)降传。由于我們的持續(xù)微調(diào)設(shè)置,微調(diào)結(jié)果通常不是來(lái)自單個(gè)檢查點(diǎn)勾怒,因此我們發(fā)布了三個(gè)不同的檢查點(diǎn)(1.87M婆排、2.05M、2.65M)笔链,我們發(fā)現(xiàn)它們一直都很好段只。
一個(gè)輕微的免責(zé)聲明是,我們?cè)趦?nèi)部系統(tǒng)的TPU4芯片上對(duì)該模型進(jìn)行了微調(diào)和訓(xùn)練鉴扫。即便如此赞枕,微調(diào)有時(shí)也會(huì)導(dǎo)致nan,這可能需要一些護(hù)理和手動(dòng)調(diào)整才能解決坪创。因此炕婶,如果將檢查點(diǎn)移植到另一個(gè)系統(tǒng),我們不能保證這些檢查點(diǎn)也能正常工作莱预。我們總體上是樂(lè)觀的柠掂,但我們不能通過(guò)外部硬件和GPU等加速器來(lái)保證其穩(wěn)定性。
對(duì)于這個(gè)特定的檢查點(diǎn)依沮,請(qǐng)注意涯贞,我們使用的模式標(biāo)簽是[NLG](X-去噪器)、[NLU](R-去噪器危喉,R-denoiser)和[S2S](S-去噪器宋渔。所以在你的例子輸入的開頭加上這個(gè)。
9.2實(shí)施細(xì)節(jié)和UL2代碼
本節(jié)旨在深入了解UL2預(yù)訓(xùn)練是如何實(shí)現(xiàn)的姥饰。我們的實(shí)現(xiàn)實(shí)際上非常簡(jiǎn)單傻谁。這只是seqio9中實(shí)現(xiàn)的不同預(yù)訓(xùn)練目標(biāo)的混合。我們的大多數(shù)實(shí)驗(yàn)都是通過(guò)簡(jiǎn)單地將不同的seqio任務(wù)與seqio的混合注冊(cè)表混合來(lái)進(jìn)行的列粪。然而审磁,也可以使用以下函數(shù)來(lái)實(shí)現(xiàn)廣義UL2目標(biāo),該函數(shù)可能更干凈
9.3監(jiān)督微調(diào)SOTA運(yùn)行的詳細(xì)信息
我們大多數(shù)受監(jiān)督的微調(diào)運(yùn)行都是作為單個(gè)任務(wù)進(jìn)行微調(diào)的岂座。唯一的例外是:
?我們通過(guò)比例采樣將GLUE微調(diào)為單一混合物态蒂。這已經(jīng)成為標(biāo)準(zhǔn)和事實(shí)上的設(shè)置(Raffel等人,2019费什;He等人钾恢,2022;Tay等人,2020221b)瘩蚪。
?我們將SuperGLUE微調(diào)為單一混合物泉懦,這也是目前的標(biāo)準(zhǔn)設(shè)置(Fedus等人,2021疹瘦;Raffel等人崩哩,2019;Chowdhery等人言沐,2022)邓嘹。
?在彩虹基準(zhǔn)下,SIQA险胰、PIQA汹押、AbdectiveLI、Winogrande XL和CosmosQA在類似于(Lourie等人起便,2021)的比例混合物中共同訓(xùn)練棚贾。
?對(duì)于CSQA,CSQA2榆综。OBQA和ARC-DA鸟悴,我們與彩虹混合物共同訓(xùn)練,以在這三個(gè)數(shù)據(jù)集上獲得結(jié)果奖年。
?所有其他任務(wù)都是經(jīng)過(guò)微調(diào)的單個(gè)任務(wù)。
9.4少發(fā)和零樣本提示的詳細(xì)信息
我們報(bào)道了零樣本SuperGLUE實(shí)驗(yàn)的最佳提示沛贪。
蘇老師關(guān)于這篇論文的討論
為什么現(xiàn)在的LLM都是Decoder-only的架構(gòu)陋守?https://spaces.ac.cn/archives/9529
《為什么現(xiàn)在的LLM都是Decoder-only的架構(gòu)?》FAQ https://spaces.ac.cn/archives/9547