研究了公開可用的指令調(diào)優(yōu)方法的設(shè)計(jì)決策否彩,并分解了Flan 2022模型篮昧。通過對指令調(diào)優(yōu)任務(wù)和方法的Flan集合的仔細(xì)研究榄笙,我們梳理了設(shè)計(jì)決策的影響柳刮,使FlanT5在評估設(shè)置中優(yōu)于之前的工作3-17%以上搭盾。我們發(fā)現(xiàn)任務(wù)平衡和豐富技術(shù)被忽視了咳秉,但對有效的指令調(diào)優(yōu)至關(guān)重要;特別是鸯隅,混合提示設(shè)置(zero-shot澜建、few-shot和思想鏈)的訓(xùn)練實(shí)際上在所有設(shè)置中都能產(chǎn)生更強(qiáng)的(2%以上)性能。在進(jìn)一步的實(shí)驗(yàn)中,表明Flan-T5需要更少的微調(diào)才能在單個(gè)下游任務(wù)上比T5收斂得更高和更快——激勵(lì)指令調(diào)優(yōu)模型作為新任務(wù)的更有效的計(jì)算啟動(dòng)檢查點(diǎn)炕舵。最后户誓,為了加速指令調(diào)優(yōu)的研究,我們公開了Flan 2022數(shù)據(jù)集幕侠、模板和方法集合帝美。
Flan 2022集合提供了最廣泛的公開可用的指令調(diào)優(yōu)任務(wù)和方法集,我們在一個(gè)地方編譯了這些任務(wù)和方法晤硕。我們還補(bǔ)充了數(shù)百個(gè)我們自己的高質(zhì)量模板悼潭、更豐富的格式模式和數(shù)據(jù)增強(qiáng)。我們表明舞箍,在這個(gè)集合上訓(xùn)練的模型在所有測試的評估基準(zhǔn)上都優(yōu)于其他公共集合舰褪,包括原始的Flan 2021 (Wei等人,2021)疏橄,T0++ (Sanh等人占拍,2021),Super-Natural Instructions (Wang等人捎迫,2022c)晃酒,以及OPT-IML上的并發(fā)工作(Iyer等人,2022)窄绒。如圖1所示贝次,對于同等大小的模型,這包括MMLU (Hendrycks等人彰导,2020年)和BIG-Bench Hard (Suzgun等人蛔翅,2022年)評估基準(zhǔn)分別提高4.2%和8.5%。
對Flan 2022方法的分析表明位谋,強(qiáng)大的結(jié)果既源于更大山析、更多樣化的任務(wù)集,也源于一組簡單的微調(diào)和數(shù)據(jù)增強(qiáng)技術(shù)掏父。特別是笋轨,在模板化的示例中進(jìn)行訓(xùn)練,這些示例包含zero-shot损同、few-shott和cot翩腐,可以一起提高每種設(shè)置下的性能鸟款。 adding just 10% few-shot prompts improves zero-shot prompting results by 2%+膏燃。此外,通過反轉(zhuǎn)輸入-輸出對來豐富任務(wù)多樣性何什,如在(Sanh等人组哩,2021;Min等人,2022),以及平衡任務(wù)源伶贰,都被證明對性能至關(guān)重要蛛砰。由此產(chǎn)生的Flan-T5模型在單任務(wù)微調(diào)中收斂更快,性能比T5模型更高黍衙,這表明指令調(diào)優(yōu)模型為下游應(yīng)用程序提供了更高效的starting checkpoint泥畅,證實(shí)了Aribandi等人(2021)和Liu等人(2022b)。
貢獻(xiàn)
方法:證明使用zero-shot和few-shot prompts的訓(xùn)練在兩種情況下都能產(chǎn)生更好的表現(xiàn)\
方法:度量和演示指令調(diào)優(yōu)的關(guān)鍵技術(shù):用輸入反轉(zhuǎn)豐富任務(wù)種類琅翻,添加思維鏈訓(xùn)練數(shù)據(jù)位仁,平衡不同的數(shù)據(jù)源
結(jié)果:演示Flan-T5作為單任務(wù)優(yōu)化的更強(qiáng)大、計(jì)算效率更高的starting checkpoint
結(jié)果:開源新的Flan 2022任務(wù)集方椎、模板和公共研究方法聂抢。
Flan 2022 Instruction Tuning Experiments
我們開源了一個(gè)新的集合,表示為“Flan 2022”棠众,它結(jié)合了Flan 2021琳疏、P3++3、超自然指令闸拿,以及一些額外的推理空盼、對話和程序合成數(shù)據(jù)集
我們將評估Flan中的設(shè)計(jì)決策,并特別討論對指令調(diào)優(yōu)配方產(chǎn)生強(qiáng)大改進(jìn)的四個(gè)設(shè)計(jì)決策新荤。這些設(shè)計(jì)組件在第2節(jié)中概述:(I)在訓(xùn)練中使用混合的zero-shot我注、few-shot和cot(第3.2節(jié)),(II)將t5大小的模型縮放到1800多個(gè)任務(wù)(第3.3節(jié))迟隅,(III)用輸入反轉(zhuǎn)豐富任務(wù)(第3.4節(jié))但骨,以及(IV)平衡這些任務(wù)混合(第3.5節(jié))。在3.1節(jié)中智袭,我們首先測量每個(gè)組件的值奔缠,并將最終模型與替代指令調(diào)優(yōu)集合(及其方法)進(jìn)行比較。
1.Training with Mixed Prompt Settings
在InstructGPT(歐陽等人吼野,2022)中校哎,一個(gè)被低估的設(shè)計(jì)決策是為每個(gè)提示設(shè)置混合訓(xùn)練模板,而不是針對單個(gè)設(shè)置瞳步。然而闷哆,由于歐陽等人(2022)沒有研究這一選擇,我們預(yù)計(jì)在對zero-shot或few-shot提示性能進(jìn)行微調(diào)時(shí)存在性能權(quán)衡-特別是對于較小的模型单起。相反抱怔,我們發(fā)現(xiàn)混合使用zero-shot和few-shot提示的訓(xùn)練在兩種設(shè)置下都顯著提高了性能——最令人驚訝的是,即使對于只有3B參數(shù)的模型也是如此嘀倒。
2. Scaling Small Models to 1.8k+ Tasks
圖4展示了hold - in和hold - out任務(wù)似乎都可以從添加數(shù)百個(gè)微調(diào)任務(wù)中獲益屈留。固定任務(wù)評估的峰值約為200個(gè)任務(wù)局冰,隨著更多任務(wù)的加入,性能下降灌危,盡管較大的模型峰值較晚康二,下降較少。hold -out任務(wù)性能隨任務(wù)數(shù)量呈對數(shù)線性增長勇蝙,在所有1836個(gè)任務(wù)中達(dá)到最高性能沫勿。
3. Task Enrichment with Input Inversion
例如,一個(gè)數(shù)據(jù)集最初可能是為給定一個(gè)問題x而設(shè)計(jì)的味混,評估一個(gè)模型是否可以回答y藕帜。輸入反轉(zhuǎn)則為一個(gè)模型提供答案y,并訓(xùn)練它生成問題x惜傲。這是一種簡單的方法洽故,可以在給定有限的數(shù)據(jù)源集的情況下豐富任務(wù)種類。然而盗誊,當(dāng)已有100個(gè)唯一數(shù)據(jù)源和1000個(gè)任務(wù)可用時(shí)时甚,這種方法是否仍然有用還不清楚。
為了評估這一點(diǎn)哈踱,我們用輸入倒置任務(wù)來豐富我們的混合(附錄B中的細(xì)節(jié)和示例)并測量效果荒适。在表1中,我們發(fā)現(xiàn)這對hold -In性能沒有好處开镣,但對hold - out性能有很大好處刀诬。這些好處為LLM微調(diào)的數(shù)據(jù)增強(qiáng)技術(shù)帶來了前景,此前已被證明邪财,預(yù)訓(xùn)練模型的時(shí)間越長陕壹,收益就越遞減
4. Balancing Data Sources
混合加權(quán)值得同樣重視優(yōu)化結(jié)果。為了收斂于平衡的權(quán)重树埠,我們省略了不同的任務(wù)源集糠馆,一次一個(gè)(Flan 2021, T0-SF,超自然指令怎憋,思維鏈又碌,對話和程序合成)
如表2所示,F(xiàn)lan 2021和T0-SF是最有益的混合物绊袋,其次是超自然指令和思想鏈毕匀,最后是對話框和程序合成。這些發(fā)現(xiàn)得到了Iyer等人(2022)的證實(shí)癌别,他們廣泛測試了數(shù)據(jù)混合比例皂岔,并確定他們的Flan 2021、T0-SF和T5混合物是最廣泛有益的规个。此外凤薛,他們發(fā)現(xiàn)Super-Natural指令在hold - out任務(wù)執(zhí)行方面的擴(kuò)展優(yōu)勢有限姓建,這與其獨(dú)特的輸入格式和指令設(shè)計(jì)有關(guān)诞仓。值得注意的是缤苫,思維鏈微調(diào)似乎對我們所有的評估設(shè)置都是有益的,特別是考慮到它們包含的任務(wù)比Flan 2021墅拭、T0-SF或Natural Instructions少得多活玲。
我們使用這些發(fā)現(xiàn)來顯著縮小混合權(quán)重搜索空間,并從那里使用我們從業(yè)者的直覺谍婉。這個(gè)策略簡單而有效舒憾,如表1所示,但是為將來更復(fù)雜的工作留下了足夠的空間穗熬。