The Flan Collection: Designing Data and Methods for Effective Instruction Tuning

研究了公開可用的指令調(diào)優(yōu)方法的設(shè)計(jì)決策否彩，并分解了Flan 2022模型篮昧。通過對指令調(diào)優(yōu)任務(wù)和方法的Flan集合的仔細(xì)研究榄笙，我們梳理了設(shè)計(jì)決策的影響柳刮，使FlanT5在評估設(shè)置中優(yōu)于之前的工作3-17%以上搭盾。我們發(fā)現(xiàn)任務(wù)平衡和豐富技術(shù)被忽視了咳秉，但對有效的指令調(diào)優(yōu)至關(guān)重要；特別是鸯隅，混合提示設(shè)置(zero-shot澜建、few-shot和思想鏈)的訓(xùn)練實(shí)際上在所有設(shè)置中都能產(chǎn)生更強(qiáng)的(2%以上)性能。在進(jìn)一步的實(shí)驗(yàn)中，表明Flan-T5需要更少的微調(diào)才能在單個(gè)下游任務(wù)上比T5收斂得更高和更快——激勵(lì)指令調(diào)優(yōu)模型作為新任務(wù)的更有效的計(jì)算啟動(dòng)檢查點(diǎn)炕舵。最后户誓，為了加速指令調(diào)優(yōu)的研究，我們公開了Flan 2022數(shù)據(jù)集幕侠、模板和方法集合帝美。

Flan 2022集合提供了最廣泛的公開可用的指令調(diào)優(yōu)任務(wù)和方法集，我們在一個(gè)地方編譯了這些任務(wù)和方法晤硕。我們還補(bǔ)充了數(shù)百個(gè)我們自己的高質(zhì)量模板悼潭、更豐富的格式模式和數(shù)據(jù)增強(qiáng)。我們表明舞箍，在這個(gè)集合上訓(xùn)練的模型在所有測試的評估基準(zhǔn)上都優(yōu)于其他公共集合舰褪，包括原始的Flan 2021 (Wei等人，2021)疏橄，T0++ (Sanh等人占拍，2021)，Super-Natural Instructions (Wang等人捎迫，2022c)晃酒，以及OPT-IML上的并發(fā)工作(Iyer等人，2022)窄绒。如圖1所示贝次，對于同等大小的模型，這包括MMLU (Hendrycks等人彰导，2020年)和BIG-Bench Hard (Suzgun等人蛔翅，2022年)評估基準(zhǔn)分別提高4.2%和8.5%。

對Flan 2022方法的分析表明位谋，強(qiáng)大的結(jié)果既源于更大山析、更多樣化的任務(wù)集，也源于一組簡單的微調(diào)和數(shù)據(jù)增強(qiáng)技術(shù)掏父。特別是笋轨，在模板化的示例中進(jìn)行訓(xùn)練，這些示例包含zero-shot损同、few-shott和cot翩腐，可以一起提高每種設(shè)置下的性能鸟款。 adding just 10% few-shot prompts improves zero-shot prompting results by 2%+膏燃。此外，通過反轉(zhuǎn)輸入-輸出對來豐富任務(wù)多樣性何什，如在(Sanh等人组哩，2021;Min等人，2022)，以及平衡任務(wù)源伶贰，都被證明對性能至關(guān)重要蛛砰。由此產(chǎn)生的Flan-T5模型在單任務(wù)微調(diào)中收斂更快，性能比T5模型更高黍衙，這表明指令調(diào)優(yōu)模型為下游應(yīng)用程序提供了更高效的starting checkpoint泥畅，證實(shí)了Aribandi等人(2021)和Liu等人(2022b)。

貢獻(xiàn)

方法:證明使用zero-shot和few-shot prompts的訓(xùn)練在兩種情況下都能產(chǎn)生更好的表現(xiàn)\

方法:度量和演示指令調(diào)優(yōu)的關(guān)鍵技術(shù)：用輸入反轉(zhuǎn)豐富任務(wù)種類琅翻，添加思維鏈訓(xùn)練數(shù)據(jù)位仁，平衡不同的數(shù)據(jù)源

結(jié)果：演示Flan-T5作為單任務(wù)優(yōu)化的更強(qiáng)大、計(jì)算效率更高的starting checkpoint

結(jié)果：開源新的Flan 2022任務(wù)集方椎、模板和公共研究方法聂抢。

Flan 2022 Instruction Tuning Experiments

我們開源了一個(gè)新的集合，表示為“Flan 2022”棠众，它結(jié)合了Flan 2021琳疏、P3++3、超自然指令闸拿，以及一些額外的推理空盼、對話和程序合成數(shù)據(jù)集

我們將評估Flan中的設(shè)計(jì)決策，并特別討論對指令調(diào)優(yōu)配方產(chǎn)生強(qiáng)大改進(jìn)的四個(gè)設(shè)計(jì)決策新荤。這些設(shè)計(jì)組件在第2節(jié)中概述:(I)在訓(xùn)練中使用混合的zero-shot我注、few-shot和cot(第3.2節(jié))，(II)將t5大小的模型縮放到1800多個(gè)任務(wù)(第3.3節(jié))迟隅，(III)用輸入反轉(zhuǎn)豐富任務(wù)(第3.4節(jié))但骨，以及(IV)平衡這些任務(wù)混合(第3.5節(jié))。在3.1節(jié)中智袭，我們首先測量每個(gè)組件的值奔缠，并將最終模型與替代指令調(diào)優(yōu)集合(及其方法)進(jìn)行比較。

1.Training with Mixed Prompt Settings

在InstructGPT(歐陽等人吼野，2022)中校哎，一個(gè)被低估的設(shè)計(jì)決策是為每個(gè)提示設(shè)置混合訓(xùn)練模板，而不是針對單個(gè)設(shè)置瞳步。然而闷哆，由于歐陽等人(2022)沒有研究這一選擇，我們預(yù)計(jì)在對zero-shot或few-shot提示性能進(jìn)行微調(diào)時(shí)存在性能權(quán)衡-特別是對于較小的模型单起。相反抱怔，我們發(fā)現(xiàn)混合使用zero-shot和few-shot提示的訓(xùn)練在兩種設(shè)置下都顯著提高了性能——最令人驚訝的是，即使對于只有3B參數(shù)的模型也是如此嘀倒。

2. Scaling Small Models to 1.8k+ Tasks

圖4展示了hold - in和hold - out任務(wù)似乎都可以從添加數(shù)百個(gè)微調(diào)任務(wù)中獲益屈留。固定任務(wù)評估的峰值約為200個(gè)任務(wù)局冰，隨著更多任務(wù)的加入，性能下降灌危，盡管較大的模型峰值較晚康二，下降較少。hold -out任務(wù)性能隨任務(wù)數(shù)量呈對數(shù)線性增長勇蝙，在所有1836個(gè)任務(wù)中達(dá)到最高性能沫勿。

3. Task Enrichment with Input Inversion

例如，一個(gè)數(shù)據(jù)集最初可能是為給定一個(gè)問題x而設(shè)計(jì)的味混，評估一個(gè)模型是否可以回答y藕帜。輸入反轉(zhuǎn)則為一個(gè)模型提供答案y，并訓(xùn)練它生成問題x惜傲。這是一種簡單的方法洽故，可以在給定有限的數(shù)據(jù)源集的情況下豐富任務(wù)種類。然而盗誊，當(dāng)已有100個(gè)唯一數(shù)據(jù)源和1000個(gè)任務(wù)可用時(shí)时甚，這種方法是否仍然有用還不清楚。

為了評估這一點(diǎn)哈踱，我們用輸入倒置任務(wù)來豐富我們的混合(附錄B中的細(xì)節(jié)和示例)并測量效果荒适。在表1中，我們發(fā)現(xiàn)這對hold -In性能沒有好處开镣，但對hold - out性能有很大好處刀诬。這些好處為LLM微調(diào)的數(shù)據(jù)增強(qiáng)技術(shù)帶來了前景，此前已被證明邪财，預(yù)訓(xùn)練模型的時(shí)間越長陕壹，收益就越遞減

4. Balancing Data Sources

混合加權(quán)值得同樣重視優(yōu)化結(jié)果。為了收斂于平衡的權(quán)重树埠，我們省略了不同的任務(wù)源集糠馆，一次一個(gè)(Flan 2021, T0-SF，超自然指令怎憋，思維鏈又碌，對話和程序合成)

如表2所示，F(xiàn)lan 2021和T0-SF是最有益的混合物绊袋，其次是超自然指令和思想鏈毕匀，最后是對話框和程序合成。這些發(fā)現(xiàn)得到了Iyer等人(2022)的證實(shí)癌别，他們廣泛測試了數(shù)據(jù)混合比例皂岔，并確定他們的Flan 2021、T0-SF和T5混合物是最廣泛有益的规个。此外凤薛，他們發(fā)現(xiàn)Super-Natural指令在hold - out任務(wù)執(zhí)行方面的擴(kuò)展優(yōu)勢有限姓建，這與其獨(dú)特的輸入格式和指令設(shè)計(jì)有關(guān)诞仓。值得注意的是缤苫，思維鏈微調(diào)似乎對我們所有的評估設(shè)置都是有益的，特別是考慮到它們包含的任務(wù)比Flan 2021墅拭、T0-SF或Natural Instructions少得多活玲。

我們使用這些發(fā)現(xiàn)來顯著縮小混合權(quán)重搜索空間，并從那里使用我們從業(yè)者的直覺谍婉。這個(gè)策略簡單而有效舒憾，如表1所示，但是為將來更復(fù)雜的工作留下了足夠的空間穗熬。

Instruction Tuning Enhances Single-Task Finetuning

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末镀迂，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子唤蔗，更是在濱河造成了極大的恐慌探遵，老刑警劉巖，帶你破解...
沈念sama閱讀 217,277評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件妓柜，死亡現(xiàn)場離奇詭異箱季，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)棍掐，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,689評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門藏雏，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人作煌，你說我怎么就攤上這事掘殴。” “怎么了粟誓？”我有些...
開封第一講書人閱讀 163,624評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵杯巨，是天一觀的道長。經(jīng)常有香客問我努酸，道長服爷，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,356評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任获诈，我火速辦了婚禮仍源，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘舔涎。我一直安慰自己笼踩，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,402評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布亡嫌。她就那樣靜靜地躺著嚎于，像睡著了一般掘而。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上于购，一...
開封第一講書人閱讀 51,292評論 1贊 301
城市分裂傳說
那天袍睡，我揣著相機(jī)與錄音，去河邊找鬼肋僧。笑死斑胜，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的嫌吠。我是一名探鬼主播止潘，決...
沈念sama閱讀 40,135評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼辫诅！你這毒婦竟也來了凭戴？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,992評論 0贊 275
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤炕矮，失蹤者是張志新（化名）和其女友劉穎么夫，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體吧享，經(jīng)...
沈念sama閱讀 45,429評論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡魏割，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,636評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了钢颂。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片钞它。...
茶點(diǎn)故事閱讀 39,785評論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖殊鞭，靈堂內(nèi)的尸體忽然破棺而出遭垛，到底是詐尸還是另有隱情，我是刑警寧澤操灿，帶...
沈念sama閱讀 35,492評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布锯仪，位于F島的核電站，受9級特大地震影響趾盐，放射性物質(zhì)發(fā)生泄漏庶喜。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,092評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一救鲤、第九天我趴在偏房一處隱蔽的房頂上張望久窟。院中可真熱鬧，春花似錦本缠、人聲如沸斥扛。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,723評論 0贊 22
一樁弒父案丹锹，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽稀颁。三九已至芬失，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間匾灶，已是汗流浹背棱烂。一陣腳步聲響...
開封第一講書人閱讀 32,858評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留粘昨，地道東北人垢啼。一個(gè)月前我還...
沈念sama閱讀 47,891評論 2贊 370
代替公主和親
正文我出身青樓窜锯，卻偏偏與公主長得像张肾，于是被迫代替她去往敵國和親。傳聞我的和親對象是個(gè)殘疾皇子锚扎，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,713評論 2贊 354