The Flan Collection: Designing Data and Methods for Effective Instruction Tuning

研究了公開可用的指令調(diào)優(yōu)方法的設(shè)計(jì)決策否彩,并分解了Flan 2022模型篮昧。通過對指令調(diào)優(yōu)任務(wù)和方法的Flan集合的仔細(xì)研究榄笙,我們梳理了設(shè)計(jì)決策的影響柳刮,使FlanT5在評估設(shè)置中優(yōu)于之前的工作3-17%以上搭盾。我們發(fā)現(xiàn)任務(wù)平衡和豐富技術(shù)被忽視了咳秉,但對有效的指令調(diào)優(yōu)至關(guān)重要;特別是鸯隅,混合提示設(shè)置(zero-shot澜建、few-shot和思想鏈)的訓(xùn)練實(shí)際上在所有設(shè)置中都能產(chǎn)生更強(qiáng)的(2%以上)性能。在進(jìn)一步的實(shí)驗(yàn)中,表明Flan-T5需要更少的微調(diào)才能在單個(gè)下游任務(wù)上比T5收斂得更高和更快——激勵(lì)指令調(diào)優(yōu)模型作為新任務(wù)的更有效的計(jì)算啟動(dòng)檢查點(diǎn)炕舵。最后户誓,為了加速指令調(diào)優(yōu)的研究,我們公開了Flan 2022數(shù)據(jù)集幕侠、模板和方法集合帝美。

Flan 2022集合提供了最廣泛的公開可用的指令調(diào)優(yōu)任務(wù)和方法集,我們在一個(gè)地方編譯了這些任務(wù)和方法晤硕。我們還補(bǔ)充了數(shù)百個(gè)我們自己的高質(zhì)量模板悼潭、更豐富的格式模式和數(shù)據(jù)增強(qiáng)。我們表明舞箍,在這個(gè)集合上訓(xùn)練的模型在所有測試的評估基準(zhǔn)上都優(yōu)于其他公共集合舰褪,包括原始的Flan 2021 (Wei等人,2021)疏橄,T0++ (Sanh等人占拍,2021),Super-Natural Instructions (Wang等人捎迫,2022c)晃酒,以及OPT-IML上的并發(fā)工作(Iyer等人,2022)窄绒。如圖1所示贝次,對于同等大小的模型,這包括MMLU (Hendrycks等人彰导,2020年)和BIG-Bench Hard (Suzgun等人蛔翅,2022年)評估基準(zhǔn)分別提高4.2%和8.5%。

對Flan 2022方法的分析表明位谋,強(qiáng)大的結(jié)果既源于更大山析、更多樣化的任務(wù)集,也源于一組簡單的微調(diào)和數(shù)據(jù)增強(qiáng)技術(shù)掏父。特別是笋轨,在模板化的示例中進(jìn)行訓(xùn)練,這些示例包含zero-shot损同、few-shott和cot翩腐,可以一起提高每種設(shè)置下的性能鸟款。 adding just 10% few-shot prompts improves zero-shot prompting results by 2%+膏燃。此外,通過反轉(zhuǎn)輸入-輸出對來豐富任務(wù)多樣性何什,如在(Sanh等人组哩,2021;Min等人,2022),以及平衡任務(wù)源伶贰,都被證明對性能至關(guān)重要蛛砰。由此產(chǎn)生的Flan-T5模型在單任務(wù)微調(diào)中收斂更快,性能比T5模型更高黍衙,這表明指令調(diào)優(yōu)模型為下游應(yīng)用程序提供了更高效的starting checkpoint泥畅,證實(shí)了Aribandi等人(2021)和Liu等人(2022b)。

貢獻(xiàn)

方法:證明使用zero-shot和few-shot prompts的訓(xùn)練在兩種情況下都能產(chǎn)生更好的表現(xiàn)\

方法:度量和演示指令調(diào)優(yōu)的關(guān)鍵技術(shù):用輸入反轉(zhuǎn)豐富任務(wù)種類琅翻,添加思維鏈訓(xùn)練數(shù)據(jù)位仁,平衡不同的數(shù)據(jù)源

結(jié)果:演示Flan-T5作為單任務(wù)優(yōu)化的更強(qiáng)大、計(jì)算效率更高的starting checkpoint

結(jié)果:開源新的Flan 2022任務(wù)集方椎、模板和公共研究方法聂抢。

Flan 2022 Instruction Tuning Experiments

我們開源了一個(gè)新的集合,表示為“Flan 2022”棠众,它結(jié)合了Flan 2021琳疏、P3++3、超自然指令闸拿,以及一些額外的推理空盼、對話和程序合成數(shù)據(jù)集

我們將評估Flan中的設(shè)計(jì)決策,并特別討論對指令調(diào)優(yōu)配方產(chǎn)生強(qiáng)大改進(jìn)的四個(gè)設(shè)計(jì)決策新荤。這些設(shè)計(jì)組件在第2節(jié)中概述:(I)在訓(xùn)練中使用混合的zero-shot我注、few-shot和cot(第3.2節(jié)),(II)將t5大小的模型縮放到1800多個(gè)任務(wù)(第3.3節(jié))迟隅,(III)用輸入反轉(zhuǎn)豐富任務(wù)(第3.4節(jié))但骨,以及(IV)平衡這些任務(wù)混合(第3.5節(jié))。在3.1節(jié)中智袭,我們首先測量每個(gè)組件的值奔缠,并將最終模型替代指令調(diào)優(yōu)集合(及其方法)進(jìn)行比較。

1.Training with Mixed Prompt Settings

在InstructGPT(歐陽等人吼野,2022)中校哎,一個(gè)被低估的設(shè)計(jì)決策是為每個(gè)提示設(shè)置混合訓(xùn)練模板,而不是針對單個(gè)設(shè)置瞳步。然而闷哆,由于歐陽等人(2022)沒有研究這一選擇,我們預(yù)計(jì)在對zero-shot或few-shot提示性能進(jìn)行微調(diào)時(shí)存在性能權(quán)衡-特別是對于較小的模型单起。相反抱怔,我們發(fā)現(xiàn)混合使用zero-shot和few-shot提示的訓(xùn)練在兩種設(shè)置下都顯著提高了性能——最令人驚訝的是,即使對于只有3B參數(shù)的模型也是如此嘀倒。

2. Scaling Small Models to 1.8k+ Tasks

圖4展示了hold - in和hold - out任務(wù)似乎都可以從添加數(shù)百個(gè)微調(diào)任務(wù)中獲益屈留。固定任務(wù)評估的峰值約為200個(gè)任務(wù)局冰,隨著更多任務(wù)的加入,性能下降灌危,盡管較大的模型峰值較晚康二,下降較少。hold -out任務(wù)性能隨任務(wù)數(shù)量呈對數(shù)線性增長勇蝙,在所有1836個(gè)任務(wù)中達(dá)到最高性能沫勿。

3. Task Enrichment with Input Inversion

例如,一個(gè)數(shù)據(jù)集最初可能是為給定一個(gè)問題x而設(shè)計(jì)的味混,評估一個(gè)模型是否可以回答y藕帜。輸入反轉(zhuǎn)則為一個(gè)模型提供答案y,并訓(xùn)練它生成問題x惜傲。這是一種簡單的方法洽故,可以在給定有限的數(shù)據(jù)源集的情況下豐富任務(wù)種類。然而盗誊,當(dāng)已有100個(gè)唯一數(shù)據(jù)源和1000個(gè)任務(wù)可用時(shí)时甚,這種方法是否仍然有用還不清楚。

為了評估這一點(diǎn)哈踱,我們用輸入倒置任務(wù)來豐富我們的混合(附錄B中的細(xì)節(jié)和示例)并測量效果荒适。在表1中,我們發(fā)現(xiàn)這對hold -In性能沒有好處开镣,但對hold - out性能有很大好處刀诬。這些好處為LLM微調(diào)的數(shù)據(jù)增強(qiáng)技術(shù)帶來了前景,此前已被證明邪财,預(yù)訓(xùn)練模型的時(shí)間越長陕壹,收益就越遞減

4. Balancing Data Sources

混合加權(quán)值得同樣重視優(yōu)化結(jié)果。為了收斂于平衡的權(quán)重树埠,我們省略了不同的任務(wù)源集糠馆,一次一個(gè)(Flan 2021, T0-SF,超自然指令怎憋,思維鏈又碌,對話和程序合成)

如表2所示,F(xiàn)lan 2021和T0-SF是最有益的混合物绊袋,其次是超自然指令和思想鏈毕匀,最后是對話框和程序合成。這些發(fā)現(xiàn)得到了Iyer等人(2022)的證實(shí)癌别,他們廣泛測試了數(shù)據(jù)混合比例皂岔,并確定他們的Flan 2021、T0-SF和T5混合物是最廣泛有益的规个。此外凤薛,他們發(fā)現(xiàn)Super-Natural指令在hold - out任務(wù)執(zhí)行方面的擴(kuò)展優(yōu)勢有限姓建,這與其獨(dú)特的輸入格式和指令設(shè)計(jì)有關(guān)诞仓。值得注意的是缤苫,思維鏈微調(diào)似乎對我們所有的評估設(shè)置都是有益的,特別是考慮到它們包含的任務(wù)比Flan 2021墅拭、T0-SF或Natural Instructions少得多活玲。

我們使用這些發(fā)現(xiàn)來顯著縮小混合權(quán)重搜索空間,并從那里使用我們從業(yè)者的直覺谍婉。這個(gè)策略簡單而有效舒憾,如表1所示,但是為將來更復(fù)雜的工作留下了足夠的空間穗熬。

Instruction Tuning Enhances Single-Task Finetuning

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末镀迂,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子唤蔗,更是在濱河造成了極大的恐慌探遵,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件妓柜,死亡現(xiàn)場離奇詭異箱季,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)棍掐,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進(jìn)店門藏雏,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人作煌,你說我怎么就攤上這事掘殴。” “怎么了粟誓?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵杯巨,是天一觀的道長。 經(jīng)常有香客問我努酸,道長服爷,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任获诈,我火速辦了婚禮仍源,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘舔涎。我一直安慰自己笼踩,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布亡嫌。 她就那樣靜靜地躺著嚎于,像睡著了一般掘而。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上于购,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天袍睡,我揣著相機(jī)與錄音,去河邊找鬼肋僧。 笑死斑胜,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的嫌吠。 我是一名探鬼主播止潘,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼辫诅!你這毒婦竟也來了凭戴?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤炕矮,失蹤者是張志新(化名)和其女友劉穎么夫,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體吧享,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡魏割,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了钢颂。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片钞它。...
    茶點(diǎn)故事閱讀 39,785評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖殊鞭,靈堂內(nèi)的尸體忽然破棺而出遭垛,到底是詐尸還是另有隱情,我是刑警寧澤操灿,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布锯仪,位于F島的核電站,受9級特大地震影響趾盐,放射性物質(zhì)發(fā)生泄漏庶喜。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一救鲤、第九天 我趴在偏房一處隱蔽的房頂上張望久窟。 院中可真熱鬧,春花似錦本缠、人聲如沸斥扛。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽稀颁。三九已至芬失,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間匾灶,已是汗流浹背棱烂。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留粘昨,地道東北人垢啼。 一個(gè)月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓窜锯,卻偏偏與公主長得像张肾,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子锚扎,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容