今天小編在查看paperswithcode熱門(mén)榜時(shí)邑闺,發(fā)現(xiàn)一個(gè)對(duì)LLaMA和BLOOM做指令微調(diào),以改善中文表達(dá)的開(kāi)源昼蛀。這個(gè)開(kāi)源一推出就收獲上千星宴猾,非常有意思。地址在這里:
https://paperswithcode.com/paper/exploring-the-impact-of-instruction-data
https://github.com/lianjiatech/belle???????????????★★★★★? ? (>2.5 stars)
并且作者還給出了量化版本叼旋,在issue中還提出計(jì)劃做LLaMA和BLOOM的評(píng)測(cè)仇哆,以及更大參數(shù)量模型的中文化。一起期待吧~
另外夫植,這個(gè)開(kāi)源也對(duì)應(yīng)于一篇技術(shù)報(bào)告
探索指令數(shù)據(jù)縮放對(duì)大語(yǔ)言模型的影響——基于真實(shí)世界用例的實(shí)證研究
Exploring the Impact of Instruction Data Scaling on Large Language Models: An Empirical Study on Real-World Use Cases
Mar 2023
Yunjie Ji, Yong Deng, Yan Gong, Yiping Peng, Qiang Niu, Lei Zhang, Baochang Ma, Xiangang Li
[Beike Inc., Beijing, China]
https://arxiv.org/abs/2303.14742
最近讹剔,ChatGPT的成功吸引了許多復(fù)制它的努力,指令微調(diào)策略是取得顯著成果的關(guān)鍵因素详民。指令微調(diào)不僅顯著提高了模型的性能和泛化能力延欠,而且使模型生成的結(jié)果更符合人類(lèi)的語(yǔ)音模式。然而沈跨,目前的研究很少研究不同數(shù)量的指令數(shù)據(jù)對(duì)模型性能的影響由捎,尤其是在真實(shí)世界的用例中。在本文中饿凛,我們探討了基于不同規(guī)模的指令數(shù)據(jù)的指令調(diào)優(yōu)的大型語(yǔ)言模型的性能。實(shí)驗(yàn)中構(gòu)建了一個(gè)由12個(gè)主要在線用例組成的評(píng)估數(shù)據(jù)集。以Bloomz-7B1-mt為基礎(chǔ)模型簿废,結(jié)果表明:1)僅增加指令數(shù)據(jù)量就可以持續(xù)改進(jìn)開(kāi)放式生成等任務(wù),2)在數(shù)學(xué)和代碼等任務(wù)中锭亏,模型性能曲線在增加數(shù)據(jù)量的同時(shí)保持相當(dāng)平坦。我們進(jìn)一步分析了這些現(xiàn)象的可能原因蒙畴,并提出了未來(lái)潛在的研究方向贰镣,如有效選擇高質(zhì)量的訓(xùn)練數(shù)據(jù)、擴(kuò)展基礎(chǔ)模型和專(zhuān)門(mén)用于硬任務(wù)的訓(xùn)練方法膳凝。我們將發(fā)布我們的訓(xùn)練和評(píng)估數(shù)據(jù)集,以及模型檢查點(diǎn)恭陡。
1簡(jiǎn)介
指令微調(diào)的目的Wei等人(2021)蹬音;Sanh等人(2021);Chung等人(2022)休玩;歐陽(yáng)等人(2022)旨在使模型能夠理解并正確響應(yīng)各種人類(lèi)指令著淆。關(guān)鍵是通過(guò)在輸入文本之前將描述任務(wù)的文本連接為指令,來(lái)引導(dǎo)模型理解任務(wù)需求拴疤。與微調(diào)模型以解決特定的NLP任務(wù)不同永部,指令調(diào)優(yōu)旨在提高模型對(duì)看不見(jiàn)的任務(wù)的泛化能力,這是通過(guò)用各種類(lèi)型的指令生成和訓(xùn)練的方式處理所有任務(wù)來(lái)實(shí)現(xiàn)的呐矾。
最近苔埋,用人類(lèi)反饋訓(xùn)練的模型Ouyang等人(2022);Bai等人(2022)蜒犯;齊格勒等人(2020)组橄;Stiennon等人(2022);Ganguli等人罚随。玉工;Nakano等人(2022);Korbak等人(2023)(尤其是ChatGPT和GPT-4)引起了人工智能領(lǐng)域研究人員的極大關(guān)注淘菩,因?yàn)樗梢詫?duì)人類(lèi)輸入產(chǎn)生高質(zhì)量的響應(yīng)遵班,甚至可以根據(jù)隨后的對(duì)話自我糾正之前的錯(cuò)誤。指令調(diào)優(yōu)策略是ChatGPT取得顯著效果的關(guān)鍵因素之一潮改。為了復(fù)制ChatGPT狭郑,研究社區(qū)Taori等人(2023);Computer(2023)主要通過(guò)在多樣化和高質(zhì)量的指令數(shù)據(jù)集上微調(diào)大型語(yǔ)言模型來(lái)獲得有能力的指令跟隨模型进陡。
然而愿阐,指令數(shù)據(jù)大小的影響尚未得到很好的探討,尤其是對(duì)于來(lái)自在線ChatGPT用戶(hù)的典型用例的評(píng)估趾疚。Liang等人(2022)缨历;Qin等人(2023)以蕴;Ye等人(2023);Bang等人(2023年)辛孵;斯里瓦斯塔瓦等人(2022)丛肮;Suzgun等人(2022)評(píng)估了可用的大型語(yǔ)言模型,但沒(méi)有注意到訓(xùn)練策略的影響魄缚。同時(shí)宝与,大多數(shù)評(píng)估集中在傳統(tǒng)的NLP任務(wù)上,并使用英語(yǔ)數(shù)據(jù)集進(jìn)行冶匹。為了填補(bǔ)這些空白习劫,我們構(gòu)建了一個(gè)多樣化、高質(zhì)量的中文教學(xué)訓(xùn)練和評(píng)估數(shù)據(jù)集嚼隘,并進(jìn)行了廣泛的實(shí)驗(yàn)來(lái)分析模型在不同規(guī)模的教學(xué)數(shù)據(jù)上的性能诽里。最后,我們獲得了以下重要的實(shí)驗(yàn)結(jié)果:
?在頭腦風(fēng)暴和翻譯等任務(wù)中飞蛹,200萬(wàn)個(gè)樣本的數(shù)據(jù)集谤狡,甚至更少,可以使模型獲得令人滿(mǎn)意的性能卧檐。
?不斷增加的數(shù)據(jù)量仍然會(huì)提高開(kāi)放式QA和提取等任務(wù)的性能墓懂,這表明瓶頸尚未達(dá)到。但改進(jìn)的潛力可能是有限的霉囚。
?該模型在數(shù)學(xué)和代碼方面的性能仍然很差捕仔,數(shù)據(jù)大小的增加不再帶來(lái)性能的提高。這表明了一些未來(lái)的研究方向佛嬉,如有效選擇高質(zhì)量的訓(xùn)練數(shù)據(jù)逻澳,在參數(shù)和基本能力方面擴(kuò)展基礎(chǔ)模型,以及專(zhuān)門(mén)用于數(shù)學(xué)和代碼等任務(wù)的訓(xùn)練方法暖呕。
總之斜做,我們對(duì)訓(xùn)練數(shù)據(jù)大小對(duì)指令跟隨模型性能的影響進(jìn)行了實(shí)驗(yàn),并得出了一些初步結(jié)論湾揽,為未來(lái)的工作提供了方向瓤逼。同時(shí),我們將開(kāi)源我們的訓(xùn)練和評(píng)估數(shù)據(jù)库物,以及我們模型的檢查點(diǎn)霸旗。
2相關(guān)工作
2.1大型語(yǔ)言模型
基于Transformer的語(yǔ)言模型,特別是生成型大型語(yǔ)言模型戚揭,極大地推動(dòng)了自然語(yǔ)言處理Vaswani等人的發(fā)展诱告。(2017);Devlin等人(2018)民晒;Lan等人(2019)精居;Yang等人(2019)锄禽;Dong等人(2019);Clark等人(2020)靴姿;Raffel等人(2020)沃但;Brown等人(2020);Zhang等人(2022)佛吓;Chowdhery等人(2022)宵晚;Black等人(2022);Hoffmann等人(2022)维雇;Glaese等人(2022)淤刃;斯里瓦斯塔瓦等人(2022)。GPT(Generative Pre-trained Transformer)模型家族就是一個(gè)顯著的例子谆沃,RLHF Ouyang等人增強(qiáng)了其理解和遵守人類(lèi)指令的能力钝凶。(2022);Bai等人(2022)唁影;齊格勒等人(2020);Stiennon等人(2022)掂名;Ganguli等人据沈。;Nakano等人(2022)饺蔑;Korbak等人(2023)在ChatGPT锌介。因此,ChatGPT已經(jīng)從一個(gè)基本的NLP任務(wù)求解器發(fā)展成為一個(gè)完整的自然語(yǔ)言助手猾警,可以執(zhí)行生成對(duì)話和檢測(cè)代碼中的錯(cuò)誤等任務(wù)孔祸。
2.2指令微調(diào)
教學(xué)微調(diào)是Wei等人(2021)提出的一個(gè)新趨勢(shì);Sanh等人(2021)发皿;Mishra等人(2021)試圖通過(guò)教語(yǔ)言模型遵循自然語(yǔ)言來(lái)提高語(yǔ)言模型的性能崔慧。通過(guò)將所有任務(wù)格式化為自然語(yǔ)言,生成語(yǔ)言模型能夠處理幾乎所有的NLP任務(wù)穴墅。早期的研究集中在對(duì)通用NLP任務(wù)求解器進(jìn)行指令調(diào)優(yōu)惶室,并且有一種趨勢(shì)是將越來(lái)越多的NLP數(shù)據(jù)集轉(zhuǎn)換為統(tǒng)一的數(shù)據(jù)集,然后進(jìn)行多任務(wù)訓(xùn)練Xu等人(2022)玄货;Xie等人(2022)皇钞;Wang等人(2022a);Khashabi等人(2020)松捉;Min等人(2021)夹界;Ye等人(2021);Liu等人(2019)隘世;Zhong等人(2021)可柿;Chung等人(2022)鸠踪。然而,這些模型仍然難以理解一般的人類(lèi)指令趾痘,尤其是在現(xiàn)實(shí)世界的用例中慢哈。直到RLHF Ouyang等人(2022)等訓(xùn)練方法的出現(xiàn);Bai等人(2022)永票;齊格勒等人(2020)卵贱;Stiennon等人(2022),模型真正開(kāi)始理解各種人類(lèi)指令并產(chǎn)生良好的反應(yīng)侣集。最近键俱,研究界在復(fù)制ChatGPT Taori等人方面做出了巨大努力。(2023)世分;計(jì)算機(jī)(2023)编振。在他們的工作中,數(shù)據(jù)量和任務(wù)類(lèi)型差異很大臭埋,這些因素對(duì)模型性能的影響尚未得到很好的探討踪央。
2.3 LLM的評(píng)估
有許多對(duì)大型語(yǔ)言模型的評(píng)估,如OPT Zhang等人(2022)瓢阴、BLOOM Workshop等人(2022年)畅蹂、GLM Zeng等人(2023年)和GPT-3 Brown等人(2020年),在各種任務(wù)中荣恐。Liang等人(2022)對(duì)30個(gè)大型語(yǔ)言模型進(jìn)行了全面評(píng)估液斜。Qin等人(2023)評(píng)估了ChatGPT在各種NLP任務(wù)上的性能。Ye等人(2023)比較了GPT和GPT-3.5系列模型的性能叠穆。Bang等人(2023)比較了ChatGPT在多種語(yǔ)言和模式下的推理少漆、減少幻覺(jué)和互動(dòng)能力。然而硼被,這些評(píng)估主要關(guān)注現(xiàn)有模型的性能示损,而不是評(píng)估模型在不同教學(xué)數(shù)據(jù)規(guī)模下的性能。此外祷嘶,許多評(píng)估數(shù)據(jù)由傳統(tǒng)的NLP任務(wù)組成屎媳,這與現(xiàn)實(shí)世界中的人類(lèi)使用場(chǎng)景不同。斯里瓦斯塔瓦等人(2022)提供了204個(gè)任務(wù)论巍,這些任務(wù)被認(rèn)為超出了當(dāng)前大型語(yǔ)言模型的能力烛谊。Suzgun等人(2022)從BIG Bench中選擇了23項(xiàng)最困難的任務(wù),形成了BIG BenchHard(BBH)嘉汰。我們提出的評(píng)估數(shù)據(jù)集更接近真實(shí)世界的人類(lèi)使用場(chǎng)景丹禀,專(zhuān)門(mén)針對(duì)中國(guó)社區(qū)。
3方法
在本節(jié)中,我們將介紹獲得高質(zhì)量指令調(diào)優(yōu)數(shù)據(jù)的方法双泪,以及構(gòu)建多樣化測(cè)試指令的方法持搜。與我們之前的工作Ji等人(2023)相同,ChatGPT也需要評(píng)估指令遵循模型生成的響應(yīng)焙矛。提示列在附錄6.1中葫盼。
3.1生成訓(xùn)練數(shù)據(jù)
高質(zhì)量指令數(shù)據(jù)的手動(dòng)注釋需要大量資源。鑒于強(qiáng)大的上下文學(xué)習(xí)能力村斟,大型語(yǔ)言模型可以基于高質(zhì)量的種子集Wang et al.(2022b)生成大量多樣的教學(xué)數(shù)據(jù)贫导。在本文中,我們采用了與Taori等人相同的方法蟆盹。(2023)孩灯。我們將Taori等人(2023)提供的開(kāi)源種子數(shù)據(jù)翻譯成中文,并修改了一些大量涉及西方文化和背景知識(shí)的數(shù)據(jù)逾滥,使其更符合中國(guó)的文化和背景信息峰档。然后,使用這些種子數(shù)據(jù)作為上下文示例寨昙,我們需要ChatGPT生成更多的樣本讥巡。
3.2生成評(píng)估數(shù)據(jù)
我們選擇從ChatGPT生成的一部分?jǐn)?shù)據(jù)進(jìn)行評(píng)估。注釋人員被要求更正ChatGPT的響應(yīng)舔哪,以獲得測(cè)試指令的黃金響應(yīng)尚卫。我們的測(cè)試說(shuō)明分為12種類(lèi)型,涵蓋了在線用戶(hù)最常見(jiàn)的用例尸红。表1顯示了這些測(cè)試說(shuō)明的詳細(xì)信息。此外刹泄,我們計(jì)劃繼續(xù)擴(kuò)大我們的評(píng)估數(shù)據(jù)集外里,因?yàn)楦嗟臄?shù)據(jù)會(huì)帶來(lái)更可靠的評(píng)估結(jié)果。
4個(gè)實(shí)驗(yàn)
4.1型號(hào)說(shuō)明
本文主要研究中文文本的模型性能特石。雖然LLAMA Touvron等人(2023年)盅蝗、OPT Zhang等人(2022年)以及GPT-J Wang和Komatsuzaki(2021)沒(méi)有針對(duì)中國(guó)人進(jìn)行特別優(yōu)化,但我們選擇Bloomz-7b1-mtWorkshop等人(2021年)姆蘸;Muennighoff等人(2022)作為我們的基礎(chǔ)模型墩莫,該模型有71億個(gè)參數(shù),并在基于Bloom-7b1的xP3mt數(shù)據(jù)集上進(jìn)一步微調(diào)逞敷。如表2所示狂秦,我們用20萬(wàn)、60萬(wàn)推捐、100萬(wàn)和200萬(wàn)個(gè)指令示例訓(xùn)練Bloomz-7b1-mt裂问,分別獲得BELLE-7B-0.2M、BELLE-7B-0.6M、BELLE-7B-1M和BELLE-7B-2M堪簿。在本文中痊乾,我們只探討了數(shù)據(jù)規(guī)模的影響,并將模型規(guī)模的影響留給未來(lái)的工作椭更。我們用64個(gè)批量哪审、2個(gè)時(shí)期、3e-6的恒定學(xué)習(xí)率虑瀑、0.001的權(quán)重衰減來(lái)訓(xùn)練這些模型湿滓。對(duì)于每條指令,我們的指令遵循模型需要生成一次響應(yīng)缴川。盡管模型對(duì)同一指令產(chǎn)生的反應(yīng)可能不同茉稠,但我們認(rèn)為這種波動(dòng)對(duì)實(shí)驗(yàn)結(jié)果幾乎沒(méi)有影響。
4.2指標(biāo)
如6.1所述把夸,ChatGPT被要求評(píng)估指令遵循模型生成的響應(yīng)而线。對(duì)于所有指令,ChatGPT給出的分?jǐn)?shù)在0到1之間恋日,其中0分是最差的膀篮,1分是最好的。對(duì)于每種類(lèi)型的教學(xué)岂膳,我們計(jì)算模型在測(cè)試示例上的平均分?jǐn)?shù)誓竿。此外,考慮到ChatGPT幾個(gè)版本的波動(dòng)性谈截,每個(gè)模型的響應(yīng)都會(huì)被評(píng)估三次筷屡,并將分?jǐn)?shù)取平均值。值得注意的是簸喂,我們沒(méi)有采用自一致性Wang等人(2022b)毙死,因?yàn)槲覀儨y(cè)試集中的許多類(lèi)型的指令沒(méi)有唯一的標(biāo)準(zhǔn)答案。通過(guò)在2023年3月25日調(diào)用gpt-3.5-turbo API來(lái)實(shí)現(xiàn)評(píng)估喻鳄。
4.3分析
就總體得分而言扼倘,隨著數(shù)據(jù)量的增加,模型的性能不斷提高除呵,而這種持續(xù)改進(jìn)并不總是可以在所有類(lèi)型的指令中預(yù)期的再菊。同時(shí),我們發(fā)現(xiàn)該模型僅用了200k個(gè)訓(xùn)練實(shí)例就已經(jīng)取得了良好的性能颜曾。
數(shù)學(xué)纠拔、代碼和COT
對(duì)于Math、Code和COT指令泛啸,該模型的性能較差绿语,有20萬(wàn)個(gè)訓(xùn)練示例秃症。在將訓(xùn)練示例的數(shù)量增加到100萬(wàn)個(gè)之后,模型的性能得到了提高吕粹,然后很難進(jìn)一步提高性能种柑,而且遠(yuǎn)未達(dá)到令人滿(mǎn)意的水平。這可能有兩個(gè)原因:1)這三種類(lèi)型的訓(xùn)練數(shù)據(jù)的質(zhì)量較差匹耕,因此隨著數(shù)據(jù)量的增加聚请,錯(cuò)誤的訓(xùn)練數(shù)據(jù)抑制了性能的提高。2) 模型大小不足以實(shí)現(xiàn)能力的出現(xiàn)稳其,因此無(wú)法對(duì)這三類(lèi)需要推理能力的指令進(jìn)行進(jìn)一步改進(jìn)驶赏。
提取、分類(lèi)既鞠、封閉式QA和摘要
對(duì)于提取煤傍、分類(lèi)、封閉QA和摘要等常見(jiàn)的NLP任務(wù)的指令嘱蛋,增加訓(xùn)練數(shù)據(jù)量可以不斷提高性能蚯姆。這表明,我們?nèi)匀豢梢酝ㄟ^(guò)在未來(lái)的訓(xùn)練計(jì)劃中增加訓(xùn)練示例來(lái)獲得進(jìn)一步的績(jī)效改進(jìn)洒敏。然而龄恋,重要的是要注意增加這些類(lèi)型數(shù)據(jù)的比例是否會(huì)導(dǎo)致其他類(lèi)型指令的性能下降。
Open QA
對(duì)于Open QA凶伙,隨著數(shù)據(jù)量的增加郭毕,模型的性能會(huì)不斷提高。解決這項(xiàng)任務(wù)需要模型的參數(shù)知識(shí)函荣,因此我們可以得出結(jié)論显押,增加訓(xùn)練數(shù)據(jù)量使模型能夠更好地產(chǎn)生事實(shí)答案,并減少幻覺(jué)傻挂。
翻譯
在翻譯任務(wù)中煮落,Belle-7b-0.2m取得了良好的性能,表明該模型的翻譯能力可能來(lái)自Bloomz-7b1-mt的多語(yǔ)言能力踊谋。
重寫(xiě)
在重寫(xiě)任務(wù)中,模型需要糾正語(yǔ)法錯(cuò)誤或?qū)υ倪M(jìn)行轉(zhuǎn)述旋讹,使其更加流暢和簡(jiǎn)潔殖蚕。這種類(lèi)型的任務(wù)相對(duì)簡(jiǎn)單,并且該模型僅用60萬(wàn)個(gè)訓(xùn)練示例就表現(xiàn)良好沉迹,因此我們可以在未來(lái)專(zhuān)注于其他任務(wù)睦疫。
生成
在生成任務(wù)中(例如,生成一篇關(guān)于某個(gè)主題的文章鞭呕,寫(xiě)一封電子郵件)蛤育,將數(shù)據(jù)大小從20萬(wàn)增加到100萬(wàn)會(huì)顯著提高性能,之后性能會(huì)趨于平穩(wěn)。
Brainstorming
在頭腦風(fēng)暴任務(wù)中瓦糕,20萬(wàn)的數(shù)據(jù)集被證明是模型性能的最佳大小底洗。這可能是由于對(duì)這類(lèi)指令的響應(yīng)是多樣的,并且缺乏判斷響應(yīng)質(zhì)量的明確標(biāo)準(zhǔn)咕娄,導(dǎo)致ChatGPT在評(píng)分時(shí)往往給出更高的分?jǐn)?shù)亥揖。它還表明,大型語(yǔ)言模型善于對(duì)這類(lèi)指令做出響應(yīng)圣勒。
總之费变,對(duì)于翻譯、重寫(xiě)圣贸、生成和頭腦風(fēng)暴任務(wù)挚歧,200萬(wàn)甚至更少的數(shù)據(jù)大小可以使模型表現(xiàn)良好。對(duì)于提取吁峻、分類(lèi)滑负、封閉式QA和摘要任務(wù),模型的性能可以隨著數(shù)據(jù)大小的增加而不斷提高锡搜,這表明我們?nèi)匀豢梢酝ㄟ^(guò)簡(jiǎn)單地增加訓(xùn)練數(shù)據(jù)大小來(lái)提高模型的性能橙困。但改進(jìn)的潛力可能是有限的。模型在數(shù)學(xué)耕餐、代碼和COT指令方面的性能仍然很差凡傅,需要在數(shù)據(jù)質(zhì)量、模型規(guī)模和訓(xùn)練策略方面進(jìn)行進(jìn)一步的探索肠缔。
5結(jié)論和未來(lái)工作
在本文中夏跷,我們?cè)u(píng)估了不同數(shù)量的指令數(shù)據(jù)對(duì)模型性能的影響。我們發(fā)現(xiàn)明未,數(shù)十萬(wàn)個(gè)訓(xùn)練示例可以在翻譯槽华、重寫(xiě)、生成和頭腦風(fēng)暴任務(wù)上取得良好的效果趟妥。數(shù)據(jù)大小的增加仍然會(huì)導(dǎo)致提取猫态、分類(lèi)、封閉式QA和摘要等任務(wù)的性能提高披摄,這表明瓶頸尚未達(dá)到亲雪。然而,在數(shù)學(xué)疚膊、代碼和COT等任務(wù)中义辕,模型性能較差,并且數(shù)據(jù)大小的增加不再帶來(lái)性能的提高寓盗。
上述發(fā)現(xiàn)為我們未來(lái)的工作指明了三個(gè)方向灌砖。首先璧函,我們將繼續(xù)探索在提取、分類(lèi)基显、封閉式QA和摘要任務(wù)中增加數(shù)據(jù)量的極限蘸吓。其次,我們將提高訓(xùn)練數(shù)據(jù)的質(zhì)量续镇,以進(jìn)一步提高模型性能美澳,特別是在數(shù)學(xué)、代碼和COT方面摸航,其中ChatGPT生成的訓(xùn)練數(shù)據(jù)質(zhì)量較低制跟。此外,有效選擇高質(zhì)量的數(shù)據(jù)也值得研究酱虎。最后雨膨,我們將評(píng)估基礎(chǔ)模型對(duì)性能的影響,包括模型參數(shù)的數(shù)量和預(yù)先訓(xùn)練的語(yǔ)言模型的基礎(chǔ)能力读串。
6附錄A
6.1提示ChatGPT作為評(píng)估者
我們之前的工作Ji等人(2023)已經(jīng)證明聊记,ChatGPT的排名偏好在一定程度上與人類(lèi)一致。因此恢暖,在本文中排监,我們也將ChatGPT作為一個(gè)注釋器來(lái)評(píng)估指令跟隨模型生成的響應(yīng)。表3列出了我們用于不同類(lèi)型指令的提示杰捂。