BloombergGPT: A Large Language Model for Finance
Mar 2023
Shijie Wu, Ozan Irsoy, Steven Lu, Vadim Dabravolski, Mark Dredze, Sebastian Gehrmann, Prabhanjan Kambadur, David Rosenberg, Gideon Mann
[Bloomberg搬设,Johns Hopkins University]
https://arxiv.org/abs/2303.17564
摘要:NLP在金融技術(shù)領(lǐng)域的應(yīng)用廣泛而復(fù)雜倦沧,其應(yīng)用范圍從情緒分析滨攻、命名實體識別到問答。大型語言模型(LLM)已被證明對各種任務(wù)都是有效的;然而,文獻中沒有專門針對金融領(lǐng)域的LLM的報道。在這項工作中菲饼,我們介紹了BloombergGPT,這是一個500億參數(shù)(50B)的語言模型列赎,基于廣泛的財務(wù)數(shù)據(jù)進行訓(xùn)練宏悦。我們基于Bloomberg的廣泛數(shù)據(jù)源構(gòu)建了3630億個token數(shù)據(jù)集(363B),這可能是迄今為止最大的特定領(lǐng)域數(shù)據(jù)集,并增加了3450億個來自通用數(shù)據(jù)集的token饼煞。我們在標(biāo)準(zhǔn)LLM基準(zhǔn)源葫、開放式財務(wù)基準(zhǔn)和一套最準(zhǔn)確反映我們預(yù)期用途的內(nèi)部基準(zhǔn)上驗證BloombergGPT。我們的混合數(shù)據(jù)集訓(xùn)練使模型在財務(wù)任務(wù)上顯著優(yōu)于現(xiàn)有模型砖瞧,而不會犧牲通用LLM基準(zhǔn)的性能息堂。此外,我們還解釋了我們的建模選擇块促、訓(xùn)練過程和評估方法荣堰。作為下一步,我們計劃發(fā)布訓(xùn)練日志(Chronicles)竭翠,詳細介紹我們在訓(xùn)練BloombergGPT方面的經(jīng)驗振坚。
1? ? 引言
GPT-3在2020年的發(fā)布(Brown et al.,2020)證明了訓(xùn)練非常大的自回歸語言模型(LLM)的強大優(yōu)勢斋扰。GPT-3有1750億個參數(shù)渡八,比以前的GPT-2模型增加了一百倍,并且在現(xiàn)在流行的一系列LLM任務(wù)中表現(xiàn)出色传货,包括閱讀理解呀狼、開放式問答和代碼生成。這種性能已經(jīng)在其他幾個模型中復(fù)制(Chowdhery等人损离,2022;Scao等人绝编,2022年僻澎;Zhang等人,2022a十饥,分別是PalM窟勃,Bloom,OPT)逗堵。此外秉氧,有證據(jù)表明,大型模型表現(xiàn)出涌現(xiàn)行為蜒秤;涌現(xiàn)使它們能夠獲得較小模型中沒有的能力(Wei等人汁咏,2022a)。涌現(xiàn)行為的一個顯著例子是通過少樣本提示執(zhí)行任務(wù)的能力作媚,在這種情況下攘滩,模型可以從幾個例子中學(xué)習(xí)任務(wù)。隨著增加語言模型的大小纸泡,這種能力的提高遠遠超過了隨機性漂问。從廣義上講,少樣本提示極大地擴展了模型支持的任務(wù)范圍,并降低了用戶尋求新語言任務(wù)自動化的門檻蚤假。
在GPT-3之后栏饮,模型的規(guī)模增加到2800億(Gopher,Rae等人磷仰,2021)袍嬉、5400億(PaLM,Chowdhery等人芒划,2022年)和1萬億參數(shù)(Megatron冬竟,Korthikanti等人,2022.)民逼。工作還探討了實現(xiàn)高性能LLM的其他重要方面泵殴,如不同的訓(xùn)練目標(biāo)(Tay et al.智玻,2022b)咬荷、多語言模型(Scao et al.齿诉,2022)晴弃、更高效和更小的模型(Black et al.栋盹,2021焰络,GPT-NeoX-20B)胧后,以及尋找數(shù)據(jù)和參數(shù)有效的訓(xùn)練規(guī)模(Hoffmann et al.尊沸,2020)俊犯。
這些工作幾乎完全集中在通用LLM上妇多,在涵蓋廣泛主題和領(lǐng)域的數(shù)據(jù)集上進行訓(xùn)練。雖然這些數(shù)據(jù)集包括一些專門領(lǐng)域的數(shù)據(jù)集(例如燕侠,代碼(Chen等人者祖,2021a)或生物醫(yī)學(xué)文章Gao等人(2021)),但重點是構(gòu)建具有廣泛能力的LLM绢彤。最近七问,僅使用特定領(lǐng)域數(shù)據(jù)訓(xùn)練模型的工作已經(jīng)產(chǎn)生了一些模型,這些模型雖然小得多茫舶,但在這些領(lǐng)域內(nèi)的任務(wù)上擊敗了通用LLM械巡,例如科學(xué)Taylor等人(2022,Galactica饶氏,https://arxiv.org/abs/2211.09085)和醫(yī)學(xué)Bolton等人(2023讥耗,BioMedLM, https://github.com/stanford-crfm/BioMedLM);Luo等人(2022嚷往,BioGPT)葛账;Lehman等人(2023)。這些發(fā)現(xiàn)推動了專注于特定領(lǐng)域的模型的進一步發(fā)展皮仁。
金融科技(FinTech)是一個龐大且不斷發(fā)展的領(lǐng)域籍琳,NLP技術(shù)發(fā)揮著越來越重要的作用菲宴。Xing等人(2018);Fisher等人(2016)趋急;Dredze等人(2016)喝峦。Shah等人(2022)的金融NLP任務(wù)包括情緒分析Araci(2019)、命名實體識別Salinas Alvarado等人(2015)呜达、新聞分類Sinha和Khandait(2020)以及問答Chen等人(2021b谣蠢,2022)。雖然任務(wù)范圍與一般NLP基準(zhǔn)中的任務(wù)范圍相似查近,但金融領(lǐng)域的復(fù)雜性和術(shù)語使得特定領(lǐng)域的系統(tǒng)是必要的眉踱。出于所有這些原因,生成LLM在一般情況下是有吸引力的——少樣本學(xué)習(xí)霜威、文本生成谈喳、會話系統(tǒng)等——將LLM專注于金融領(lǐng)域?qū)⑹怯袃r值的。雖然有針對金融領(lǐng)域調(diào)整的掩碼語言模型Araci(2019)戈泼,但尚未針對該領(lǐng)域的任務(wù)調(diào)整或評估LLM婿禽。
1.1????BloombergGPT
我們訓(xùn)練BloombergGPT,這是一個500億參數(shù)的語言模型大猛,支持金融行業(yè)的各種任務(wù)扭倾。我們不是構(gòu)建通用LLM,也不是專門針對特定領(lǐng)域數(shù)據(jù)的小LLM挽绩,而是采用混合方法膛壹。通用模型涵蓋了許多領(lǐng)域,能夠在各種各樣的任務(wù)中高水平地執(zhí)行唉堪,并且在訓(xùn)練期間不需要專業(yè)化恢筝。然而,現(xiàn)有領(lǐng)域特定模型的結(jié)果表明巨坊,通用模型無法取代它們。在Bloomberg此改,我們支持一組非常龐大和多樣化的任務(wù)趾撵,由通用模型很好地服務(wù),但我們的絕大多數(shù)應(yīng)用程序都在金融領(lǐng)域共啃,由特定模型更好地服務(wù)占调。因此,我們著手建立一個模型移剪,在財務(wù)基準(zhǔn)上實現(xiàn)同類最佳結(jié)果究珊,同時在通用LLM基準(zhǔn)上保持有競爭力的性能。
我們利用Bloomberg現(xiàn)有的數(shù)據(jù)創(chuàng)建纵苛、收集和管理資源剿涮,構(gòu)建了迄今為止最大的特定領(lǐng)域數(shù)據(jù)集言津,從而實現(xiàn)了這一目標(biāo)。由于Bloomberg主要是一家金融數(shù)據(jù)公司取试,我們的數(shù)據(jù)分析師在40年的時間里收集和整理了金融語言文件悬槽。我們擁有廣泛的財務(wù)數(shù)據(jù)檔案,涵蓋了一系列主題瞬浓,并仔細跟蹤數(shù)據(jù)來源和使用權(quán)初婆。我們的這些數(shù)據(jù)加公共數(shù)據(jù)集,創(chuàng)建一個包含7000多億個token的大型訓(xùn)練語料庫猿棉。使用該訓(xùn)練語料庫的一部分磅叛,我們訓(xùn)練了一個BLOOM-style的500億參數(shù)模型,該模型是根據(jù)Hoffmann等人(2022)和Le Scao等人(2022)的指導(dǎo)方針設(shè)計的萨赁。我們在標(biāo)準(zhǔn)LLM基準(zhǔn)弊琴、開放式財務(wù)基準(zhǔn)和一套彭博內(nèi)部基準(zhǔn)上驗證了該模型,這些基準(zhǔn)最準(zhǔn)確地反映了我們的預(yù)期用例位迂。我們的結(jié)果表明访雪,我們的混合訓(xùn)練方法導(dǎo)致了一個在域內(nèi)財務(wù)任務(wù)上大大優(yōu)于現(xiàn)有模型的模型,同時在一般NLP基準(zhǔn)上達到或更好掂林。
1.2????更廣泛的貢獻
除了構(gòu)建財務(wù)數(shù)據(jù)LLM之外臣缀,我們的目標(biāo)是為更廣泛的研究社區(qū)做出貢獻。具體而言泻帮,本文記錄的經(jīng)驗提供了證據(jù)精置,進一步發(fā)展了社區(qū)對文獻中幾個懸而未決問題的理解。
特定于領(lǐng)域的LLM锣杂。????少數(shù)現(xiàn)有的特定領(lǐng)域LLM專門針對特定領(lǐng)域的數(shù)據(jù)源進行訓(xùn)練(Luo et al.脂倦,2022;Bolton et al.元莫,2023赖阻;Taylor et al.,2021)踱蠢,或?qū)⒎浅4蟮耐ㄓ媚P蛻?yīng)用于特定領(lǐng)域的任務(wù)(Singhal et al.火欧,2020;Lewkowycz et al.茎截,2018)苇侵。到目前為止,我們的替代方法——在特定領(lǐng)域和一般數(shù)據(jù)源上訓(xùn)練LLM——尚未得到研究企锌。生成的模型在特定于領(lǐng)域的任務(wù)上做得很好榆浓,但在通用基準(zhǔn)測試上也保持了強大的性能。
訓(xùn)練數(shù)據(jù)撕攒。????幾乎所有的語言模型都在很大程度上依賴于網(wǎng)絡(luò)抓取的數(shù)據(jù)陡鹃,例如C4(Raffel等人烘浦,2020)和The Pile(Gao等人,2021)(其中包括OpenWebText2)杉适。在使用Touvron等人(2023)谎倔、Rae等人(2020)、Scao等人(2022)猿推、Jernite等人(2022年)之前片习,這些數(shù)據(jù)以不同的方式清理或細分,但數(shù)據(jù)重復(fù)問題Carlini等人(2020年)和有毒語言問題Welbl等人(2021)仍然存在蹬叭。我們的訓(xùn)練數(shù)據(jù)對于LLM訓(xùn)練來說是不尋常的藕咏,因為它包括大量來自可靠來源的精心策劃和準(zhǔn)備的數(shù)據(jù)。
評價秽五。????LLM評估仍然是一個具有挑戰(zhàn)性和不斷發(fā)展的問題孽查,Gehrmann等人(2022);Goyal等人(2022)坦喘,新的基準(zhǔn)試圖標(biāo)準(zhǔn)化跨模型的評估(Liang等人盲再,2022;Srivastava等人瓣铣,2022)答朋。然而,對于特定于領(lǐng)域的任務(wù)棠笑,評估和實際用例之間仍然不匹配梦碗。評估建立在可用的數(shù)據(jù)集上,而不一定是基于模型在實踐中的使用方式蓖救。我們提供了在一些公共財政NLP基準(zhǔn)(Shah et al.洪规,2022;Chen et al.循捺,2021b)上的結(jié)果斩例,以及Bloomberg內(nèi)部任務(wù)的選擇,這些任務(wù)更符合我們的預(yù)期用例从橘,并直接評估我們的模型執(zhí)行感興趣任務(wù)的能力樱拴。
模型大小。????早期的LLM在2000-4000億個token的語料庫上進行了一次訓(xùn)練(a single training pass)(Brown等人洋满,2020),Hoffmann等人(2022)認(rèn)為模型訓(xùn)練不足珍坊,而專注于用更多數(shù)據(jù)訓(xùn)練更小的模型牺勾,這是Touvron等人最近采用的策略。(2023)阵漏。我們選擇了一個受Hoffmann等人(2022)啟發(fā)的模型大小驻民,并在我們7000多億個token的語料庫中的5690億個token上訓(xùn)練了一個500億個參數(shù)模型翻具,以產(chǎn)生一個與更大模型競爭的模型。
Tokenizer回还。????在組裝訓(xùn)練數(shù)據(jù)后裆泳,Tokenizer的關(guān)鍵步驟將文本轉(zhuǎn)換為適合語言模型的格式。這一步驟的重要性常常被Mielke等人忽視(2021)柠硕,許多較老的LLM使用相同的標(biāo)記器和詞匯工禾,這意味著我們幾乎沒有證據(jù)支持其他標(biāo)記器。我們采取了一種不同的方法蝗柔,使用Unigram模型闻葵,而不是基于貪婪合并的子詞標(biāo)記器,因為它保存了概率癣丧,允許在推理時進行更智能的Tokenizer(Kudo槽畔,2018)。(and many older LLMs use the same tokenizer and vocabulary, meaning that we have little evidence to support other tokenizers. We take a different approach and use a Unigram model instead of greedy merge-based sub-word tokenizers since it saves probabilities allowing for smarter tokenization at inference time)
建模挑戰(zhàn)胁编。????GPT-3和隨后的模型是大型團隊的工作厢钧,需要大量的計算。再現(xiàn)這些結(jié)果的初步工作嬉橙,如OPT Zhang等人(2022a)早直,與原始模型的性能不匹配。隨著每個后續(xù)模型的發(fā)布憎夷,社區(qū)的理解莽鸿、經(jīng)驗和軟件工具都在增加。在開發(fā)BloombergGPT時拾给,我們受益于作為BLOOM工作(Scao等人(2022))的一部分開發(fā)的現(xiàn)有代碼祥得,表明中等規(guī)模的團隊可以在特定領(lǐng)域的數(shù)據(jù)上生成有競爭力的模型。我們詳細描述了我們訓(xùn)練BloombergGPT的經(jīng)驗蒋得,以支持未來的訓(xùn)練工作级及,并解決上述每個主題。
2????數(shù)據(jù)集
為了訓(xùn)練BloombergGPT额衙,我們構(gòu)建了“FinPile”饮焦,這是一個由一系列英文財務(wù)文件組成的綜合數(shù)據(jù)集,包括新聞窍侧、文件县踢、新聞稿、網(wǎng)絡(luò)抓取的財務(wù)文件和從彭博檔案中提取的社交媒體伟件。這些文件是在過去二十年中通過我們的業(yè)務(wù)流程獲得的硼啤。我們使用廣泛用于訓(xùn)練LLM的公共數(shù)據(jù)來增強FinPile。結(jié)果是一個訓(xùn)練語料庫斧账,大約一半是特定領(lǐng)域的文本谴返,一半是通用文本煞肾。有關(guān)完整訓(xùn)練集的細分,請參見表1嗓袱。根據(jù)Lee等人(2022a)的說法籍救,為了提高數(shù)據(jù)質(zhì)量,我們對每個數(shù)據(jù)集(The Pile渠抹、C4蝙昙、Wikipedia、FinPile)進行了去重處理逼肯;作為副作用耸黑,表1中報告的統(tǒng)計數(shù)據(jù)可能與其他論文中報告的數(shù)據(jù)不同。
2.1????金融數(shù)據(jù)集(363B tokens– 54.2%of training)
在過去的四十年里缺菌,彭博終端提供了一套全面的結(jié)構(gòu)化和非結(jié)構(gòu)化金融數(shù)據(jù)和分析。在履行這一使命的過程中搜锰,Bloomberg分析師策劃了一套內(nèi)部創(chuàng)建或從外部來源獲取的財務(wù)文件伴郁。我們利用這些精心策劃和維護的大量文件來創(chuàng)建FinPile,其中包括公司文件蛋叼、金融新聞和其他與金融市場相關(guān)的數(shù)據(jù)焊傅。
FinPile中包含的一些文件,如公司文件狈涮,可供公眾使用狐胎,盡管收集這些文件并對其進行預(yù)處理以進行LLM訓(xùn)練是一項不平凡的任務(wù)。其他文件歌馍,如彭博新聞社的(一個子集)握巢,必須購買。其余文件松却,private and available, among other sources暴浦,可通過彭博終端獲取。最后晓锻,我們清理這些數(shù)據(jù)歌焦,去掉markup、特殊格式和模板砚哆。
請注意独撇,F(xiàn)inPile中的每份文件都有時間戳,日期范圍為2007-03-01至2022-07-31;在這個時間范圍券勺,文檔的質(zhì)量和數(shù)量都在增加。雖然我們在這項工作中沒有使用日期信息灿里,但我們計劃在未來使用它关炼,例如評估模型對不同時間段的了解。雖然我們無法發(fā)布FinPile匣吊,但我們在大型儒拂、精心策劃和干凈的特定領(lǐng)域數(shù)據(jù)集上的經(jīng)驗訓(xùn)練可能會為社區(qū)提供關(guān)于構(gòu)建金融LLM的優(yōu)勢和挑戰(zhàn)的有用見解,尤其是構(gòu)建特定領(lǐng)域模型色鸳。我們在表2中提供了FinPile的細分和分析社痛,并對以下數(shù)據(jù)類型進行了簡要描述。
2.1.1????Web(298B tokens–42.01%of training)
Bloomberg通過識別包含財務(wù)相關(guān)信息的網(wǎng)站來收集網(wǎng)絡(luò)內(nèi)容。雖然這一類別占FinPile的大部分吏砂,但其分類是粗略的撵儿,內(nèi)容主要根據(jù)web domain的位置進行分類。在這些特定于位置的來源中狐血,例如“美國”(占總數(shù)的15.95%)淀歇、“亞太地區(qū)”(占總額的4.72%)和“英國”(占總總數(shù)的1.98%),文檔類型千差萬別匈织,正如網(wǎng)絡(luò)抓取所預(yù)期的那樣浪默。雖然網(wǎng)絡(luò)資源在現(xiàn)有的公共LLM訓(xùn)練數(shù)據(jù)集中很常見,但Bloomberg的網(wǎng)絡(luò)抓取側(cè)重于具有財務(wù)相關(guān)信息的高質(zhì)量網(wǎng)站缀匕,而不是通用的網(wǎng)絡(luò)抓取纳决。
2.1.2????News(38B tokens-5.31%of training)
新聞類包括所有新聞來源,不包括Bloomberg記者撰寫的新聞文章弦追≡懒矗總的來說,F(xiàn)inPile有數(shù)百個英文新聞來源劲件,包括“Bloomberg Transcripts”(占總數(shù)的0.41%)掸哑,這是彭博電視新聞的文字記錄。通常零远,該數(shù)據(jù)集中的內(nèi)容來自與金融界相關(guān)的信譽良好的新聞來源紧唱,以保持真實性并減少偏見。
2.1.3????備案 Filings(14B tokens–2.04% of training)
公司備案是由(上市)公司編制并向公眾提供的財務(wù)報表镶柱。在美國等一些國家姑曙,上市公司被要求定期編制和提交財務(wù)報表;例如10-K年度報告和10-Q季度報告。在我們的數(shù)據(jù)集中择浊,大多數(shù)文件來自美國證券交易委員會的在線數(shù)據(jù)庫EDGAR(占總數(shù)的1.90%)戴卜。提交的文件通常是長PDF文檔,其中包含財務(wù)信息密集的表格和圖表琢岩,這些信息在Bloomberg中進行處理和規(guī)范化投剥。備案與通常用于訓(xùn)練LLM的文件類型有很大不同,但包含對財務(wù)決策至關(guān)重要的信息担孔。
2.1.4????Press(9B tokens–1.21%?of training)
新聞類(Press)包含通常由財務(wù)相關(guān)公司發(fā)布的新聞稿江锨。新聞稿與文件一起代表了一家公司的大部分公開傳播。然而糕篇,與備案不同的是啄育,新聞稿在內(nèi)容和風(fēng)格上與新聞報道相似。
2.1.5????Bloomberg(5B tokens–0.70%?of training)
這一類別包括Bloomberg撰寫的新聞和其他文件拌消,如意見和分析挑豌。最大的來源是“Bloomberg News”(占總數(shù)的0.44%)和“Bloomberg First Word”(占總數(shù)的0.13%),這是Bloomberg撰寫的實時新聞通訊拼坎。雖然彭博新聞社涵蓋了廣泛的主題浮毯,但通常側(cè)重于與金融界相關(guān)的內(nèi)容。此數(shù)據(jù)集包含不同長度的文檔泰鸡。
2.2????公共數(shù)據(jù)集(345B tokens–48.73%?of training)
我們在訓(xùn)練語料庫中使用了三個廣為人知且可用的公共數(shù)據(jù)集债蓝。
2.2.1????The Pile(184B tokens–25.9%?of training)
Pile(Gao等人,2021)是GPT-Neo(Black等人盛龄,2021)饰迹、GPTJ(Wang和Komatsuzaki,2021)和GPT-NeoX(20B)(Black等余舶,2022)中使用的數(shù)據(jù)集啊鸭。由于以下原因,我們將The Pile納入訓(xùn)練數(shù)據(jù)匿值。首先赠制,它已被用于成功地訓(xùn)練LLM。其次挟憔,它經(jīng)過了重要的數(shù)據(jù)清理和預(yù)處理钟些。第三,它包括多個領(lǐng)域绊谭,我們相信這種多樣的數(shù)據(jù)將有助于推廣到新的領(lǐng)域政恍,甚至可能支持金融數(shù)據(jù)的訓(xùn)練。例如达传,F(xiàn)reeLaw和GitHub等領(lǐng)域?qū)loomberg分別從事法律文件和軟件開發(fā)的團隊很有用篙耗。The Pile的創(chuàng)作者有意選擇包含重復(fù)內(nèi)容迫筑,重復(fù)因素與內(nèi)容的感知質(zhì)量成正比。然而宗弯,當(dāng)我們對每個數(shù)據(jù)集進行重復(fù)數(shù)據(jù)消除時脯燃,the Pile的大小顯著減小。此外蒙保,請注意曲伊,我們的tokenizer(§2.3)是在The Pile上訓(xùn)練的。(with the duplication factor being proportional to the perceived quality of the content)
2.2.2????C4(138B tokens–19.48% of training)
Colossal Clean Crawled Corpus(C4)是一個用于訓(xùn)練LLM的常見數(shù)據(jù)集追他,并被引入以支持訓(xùn)練T5(Raffel等人,2020)岛蚤。盡管它與Pile-CC重疊邑狸,但C4的清潔和處理方式不同;因此涤妒,我們認(rèn)為单雾,除了The Pile之外,還包括C4她紫,可以增加更多價值(相比文檔重復(fù))硅堆。我們發(fā)現(xiàn)C4由于層層清理而包含高質(zhì)量的自然語言文檔,盡管其他人已經(jīng)注意到跨web域的分布是不尋常的贿讹,其中很大一部分?jǐn)?shù)據(jù)來自專利Dodge等人(2021)渐逃。
2.2.3????維基百科(24B tokens-3.35%?of training)
The Pile和C4都包含了過時的維基百科副本,因此包含最新的維基百科頁面可能有利于模型的真實性民褂。因此茄菊,我們收錄了2022年7月1日起的英語維基百科。該數(shù)據(jù)集的Tokenizer效率很低(每個標(biāo)記3.06個字符)赊堪,表明markup量高于平均水平面殖,這表明進一步的清理可能有利于未來的模型訓(xùn)練。
2.3????Tokenization
基于Kudo和Richardson(2018)以及Bostrom和Durrett(2020)的有希望的結(jié)果哭廉,我們選擇了Unigram標(biāo)記器(Kudo脊僚,2018),而不是基于貪婪合并的子詞標(biāo)記器(greedy merge-based sub-word tokenizer)遵绰,如字節(jié)對編碼(Byte Pair Encoding辽幌,BPE)(Sennrich et al.,2016)或Wordpiece(Schuster和Nakajima街立,2012舶衬;Wu et al.,2015)赎离。繼GPT-2 Radford等人(2019)之后逛犹,我們將數(shù)據(jù)視為字節(jié)(bytes)序列,而不是Unicode字符,并將256個字節(jié)中的每一個作為tokens虽画。在預(yù)標(biāo)記(pretokenization)步驟中舞蔽,通過貪婪地匹配以下正則表達式,將輸入字節(jié)序列分解為chunks:[A-Za-z]+ | [0-9] | [^A-Za-z0-9]+码撰。這遵循GPT-2防止多個字符類出現(xiàn)在單個token中渗柿。然而,我們在字母塊中包含空格脖岛,這允許學(xué)習(xí)多單詞標(biāo)記朵栖,從而增加信息密度并減少上下文長度。pretokenization遵循了PaLM Chowdhery等人的方法(2022)將每個數(shù)字放在自己的區(qū)塊中柴梆,希望這將導(dǎo)致更好地處理數(shù)字陨溅。我們在The Pile Gao等人(2021)的基礎(chǔ)上訓(xùn)練我們的tokenizer,因為它從不同的領(lǐng)域中提取绍在,包括代碼和學(xué)術(shù)論文门扇,其比例適合我們的用例(in proportions that suit our use case)。
并行Tokenizer訓(xùn)練偿渡。????Unigram Tokenizer的實現(xiàn)效率太低臼寄,無法同時處理整個Pile數(shù)據(jù)集,因此我們使用了劃分和合并的方法溜宽。我們將Pile中的22個域中的每一個劃分為256個大小大致相等的塊(chunks)吉拳。然后,我們在22×256(總共=5632)個塊中的每一個塊上訓(xùn)練一個詞匯大小為65536(2^16)的Unigram標(biāo)記器适揉。我們分層地合并各個標(biāo)記器合武,首先合并來自每個域的256個標(biāo)記器,然后合并22個生成的標(biāo)記器來獲得最終的標(biāo)記器涡扼。
Unigram Tokenizer相當(dāng)于token上的概率分布(即Unigram語言模型)稼跳,我們通過對相應(yīng)token的概率進行加權(quán)平均來合并Tokenizer,其中權(quán)重由用于訓(xùn)練Tokenizer的數(shù)據(jù)的相對大谐曰Α(以字節(jié)為單位)確定汤善。結(jié)果是一個擁有700萬個tokens的tokenizer。為了將詞匯表的大小減少到2^17個token票彪,我們丟棄概率最小的token并renormalize红淡。為了確保我們不需要an out-of-vocabulary token,我們還添加了36個(256個可能的)字節(jié)作為token降铸,這些字節(jié)沒有出現(xiàn)在the Pile中在旱,以及一個<|endoftext|>token。
在選擇詞匯量(vocabulary size)時有各種各樣的考慮因素推掸。LLM的大量詞匯表的一個優(yōu)點是可以在上下文窗口中容納更多的信息桶蝎。另一方面驻仅,更大的詞匯表也會帶來開銷:更大比例的模型參數(shù)被用來token嵌入。
我們根據(jù)25000至550000個詞匯的實驗選擇了2^17個token的詞匯大小登渣。對于每個詞匯大小噪服,我們對C4數(shù)據(jù)集進行Tokenizer,并計算數(shù)據(jù)集的總大惺ぜ搿(以字節(jié)為單位)粘优,其中每個標(biāo)記使用log2(詞匯大小)位表示呻顽。我們的啟發(fā)是選擇導(dǎo)致C4的最小編碼表示的詞匯表大小雹顺。這給了我們125000的詞匯大小,然后我們將其四舍五入到最接近的2次方(2^17廊遍,或131072個token)无拗。我們的tokenizer很大,相對于大約50000個tokens的標(biāo)準(zhǔn)詞匯大小昧碉。有關(guān)tokenization效率的分析,請參見表3揽惹。
3? ? 模型
3.1????架構(gòu)
我們的模型是一個基于BLOOM的僅解碼器因果語言模型(Scao et al.,2022)囱嫩。我們對體系結(jié)構(gòu)進行了概述恃疯,詳細信息見附錄A。
該模型包含70層Transformer解碼器塊墨闲,定義如下:
其中SA是多頭自注意今妄,LN是層歸一化,F(xiàn)FN是具有1個隱藏層的前饋網(wǎng)絡(luò)鸳碧。在FFN內(nèi)部盾鳞,非線性函數(shù)是GELU(Hendrycks和Gimpel,2016)瞻离。ALiBi位置編碼是通過在Transformer網(wǎng)絡(luò)的自注意分量處的加性偏置來應(yīng)用的(Le Scao等人腾仅,2022)。在最終softmax之前套利,輸入token嵌入被綁定到線性映射推励。繼Le Scao等人(2022)之后鹤耍,并首次在Dettmers等人中使用(2022),該模型在token嵌入后有一個額外的層規(guī)范化吹艇,形式上是:
其中是初始token嵌入惰蜜,是嵌入層歸一化的新分量。請注意受神,第二項包括兩個連續(xù)的層歸一化抛猖。
3.2????模型縮放
大小????我們模型的大小是基于Chinchilla比例定律(Hoffmann et al.,2022)鼻听,特別是他們的方法1和方法2财著。我們從40GB A100 GPU上130萬GPU小時的總計算預(yù)算開始。由于我們采用激活檢查點來減少內(nèi)存占用撑碴,由于重復(fù)的前向傳遞撑教,每次迭代會額外花費0.33x TFLOP。為了說明這一額外成本醉拓,我們在Chinchilla方程中插入了0.75×1.3M伟姐,而不是全量。
對于Hoffmann等人(2022)中的方法1亿卤,我們使用表3報告的數(shù)據(jù)愤兵,對于方法2,我們使用Table A3排吴,并將回歸線fit到其對數(shù)比例版本秆乳。這給了我們:
這些計算表明,考慮到我們的計算預(yù)算(假設(shè)只有一次通過數(shù)據(jù))钻哩,我們的約700B tokens數(shù)據(jù)集對于“Chinchilla最優(yōu)”配置來說太小了屹堰。(注釋1)雖然我們可以增加通用訓(xùn)練數(shù)據(jù)的數(shù)量,但我們可支配的特定領(lǐng)域訓(xùn)練數(shù)據(jù)的量有限街氢。FinPile已經(jīng)是最大的特定領(lǐng)域訓(xùn)練集之一扯键,我們不希望它只占我們總訓(xùn)練的一半以下。
(注釋1:Chinchilla導(dǎo)出的縮放定律是特定于tokenizer的珊肃。由于支持多詞表達式和更大的詞匯表大小忧陪,我們的標(biāo)記器可以更緊湊地對同一文檔進行編碼。這些縮放定律在不同tokenizers之間的遷移效果如何近范,以及假設(shè)固定計算嘶摊,詞匯表大小如何影響token和參數(shù)的權(quán)衡,這仍然是一個懸而未決的問題评矩。我們把這次探索留給未來的工作)
由于我們的數(shù)據(jù)有限叶堆,我們盡可能選擇最大的模型,同時確保我們可以在所有token上進行訓(xùn)練斥杜,并且仍然保留約30%的總計算預(yù)算作為意外故障虱颗、重試和重新啟動的緩沖區(qū)沥匈。這使我們得出了一個50B的參數(shù)模型,這也是我們計算預(yù)算的Chinchilla最優(yōu)大小忘渔。圖1提供了縮放定律的摘要高帖,以及BloombergGPT與其他模型的比較。
形狀????為了確定如何將50B參數(shù)分配給不同的模型組件(即宣赔,模型的“形狀”)预麸,我們遵循Levine(2020)等人的觀點。他提出儒将,假如自注意層的總數(shù)為吏祸,最佳隱藏維度通過以下方式獲得:
我們在一系列整數(shù)值上掃描,并選擇產(chǎn)生50B參數(shù)的組合钩蚊。這導(dǎo)致選擇L=70和D=7510作為我們的目標(biāo)形狀參數(shù)贡翘。然而,我們也希望遵循這樣的傳統(tǒng)砰逻,即隱藏維度可以被注意力頭部的數(shù)量整除鸣驱,商給出注意力頭部的維度。此外诱渤,我們希望維度為8的倍數(shù),以在Tensor Core操作NVIDIA(2023)中實現(xiàn)更高的性能谈况。我們確定了40個頭部勺美,每個頭部的維度為192,得到了D=7680的總隱藏維度和50.6B的參數(shù)碑韵。表4提供了BloombergGPT中使用的超參數(shù)摘要赡茸。
3.3????訓(xùn)練配置
訓(xùn)練????BloombergGPT是一個PyTorch模型祝闻,使用標(biāo)準(zhǔn)的從左到右因果語言建模目標(biāo)進行訓(xùn)練占卧。繼Brown等人(2020)之后,我們希望所有訓(xùn)練序列的長度完全相同联喘,在我們的情況下為2048個token华蜒,以最大限度地提高GPU利用率。為了實現(xiàn)這一點豁遭,我們將所有的經(jīng)過 tokenized的訓(xùn)練文檔拼接起來叭喜,用<|endoftext|>作為文檔分隔符。然后蓖谢,我們將這個token序列分解為長度為2048token的塊(chunks)捂蕴。請注意譬涡,使用這種方法,每個訓(xùn)練序列可能包含來自不同域的多個文檔啥辨。還要注意的是涡匀,因為我們使用的是ALiBi位置編碼,推理時溉知,BloombergGPT可以應(yīng)用于超過2048的序列陨瘩。為了提高優(yōu)化效率,將訓(xùn)練序列分組為批次(are grouped together into batches)着倾,如下面更詳細描述的那樣拾酝。
優(yōu)化。????我們使用AdamW優(yōu)化器(Loshchilov和Hutter卡者,2019)蒿囤。我們將β1設(shè)置為0.9,將β2設(shè)置為0.95崇决,并將權(quán)重衰減設(shè)置為0.1材诽。繼Brown等人(2020)之后,我們將最大學(xué)習(xí)率設(shè)置為6e-5恒傻,并使用具有線性預(yù)熱的余弦衰減學(xué)習(xí)率調(diào)度器脸侥,在前1800 steps中升高學(xué)習(xí)率。根據(jù)Hoffmann等人(2022)盈厘,最終學(xué)習(xí)率是最大學(xué)習(xí)率的0.1倍睁枕,即6e-6。我們還采用了批量大小預(yù)熱(batchsize warmup沸手,Brown et al.外遇,2020):在前7200個步驟中,我們使用1024(210萬個token)的批量大小契吉,然后在剩余的訓(xùn)練中切換到2048(420萬個token的批量大刑隆)。
在最初的運行中捐晶,我們將所有層的dropout設(shè)置為0.0菲语,盡管我們稍后會添加dropout,如§4所述惑灵。模型參數(shù)隨機初始化為正態(tài)分布山上,均值為零,標(biāo)準(zhǔn)差(Smith等人,2022)。繼Megatron-LM(Shoeybi et al.泵琳,2019)之后论寨,我們將MLP中第二層和注意力輸出層的標(biāo)準(zhǔn)差用重新縮放匾乓。我們使用query key layer scaling技術(shù)(Shoeybi et al.忘晤,2019)窃判,該技術(shù)旨在提高FP16混合精度訓(xùn)練的數(shù)值穩(wěn)定性燥爷,但也可能有助于BF16寄摆。
訓(xùn)練不穩(wěn)定谅辣。????LLM優(yōu)化需要在極其復(fù)雜的非凸損失表面上運行凸優(yōu)化算法。先前的工作報告了在訓(xùn)練LLM時的各種不穩(wěn)定性婶恼。例如桑阶,Chowdhery等人(2022)發(fā)現(xiàn),盡管啟用了梯度修剪勾邦,但在訓(xùn)練PaLM時蚣录,損失增加了大約20倍。他們在峰值開始前大約100步從檢查點重新開始訓(xùn)練眷篇,然后跳過200-500個數(shù)據(jù)批次萎河,從而緩解了這些問題。他們假設(shè)尖峰是由于特定數(shù)據(jù)批次與特定模型參數(shù)狀態(tài)的組合而發(fā)生的蕉饼。類似地虐杯,在OPT訓(xùn)練過程中,Zhang等人(2022a)注意到梯度和激活范數(shù)中的尖峰昧港,或訓(xùn)練困惑中的divergences擎椰。在這些行為之后,他們降低了學(xué)習(xí)率创肥,這穩(wěn)定了這些范數(shù)达舒,并允許訓(xùn)練繼續(xù)進行。有趣的是叹侄,Scao等人(2022)只報告了一次損失峰值巩搏,模型從中自行恢復(fù)。
硬件堆棧圈膏。????我們使用AWS提供的AmazonSageMaker服務(wù)來訓(xùn)練和評估BloombergGPT塔猾。我們在訓(xùn)練時使用最新版本篙骡,并在總共64個p4d.24xlarge實例上進行訓(xùn)練稽坤。每個p4d.24xlarge實例都有8個NVIDIA 40GB A100 GPU,具有NVIDIA NVSwitch節(jié)點內(nèi)連接(600 GB/s)和NVIDIA GPUDirect糯俗,使用AWS彈性結(jié)構(gòu)適配器(EFA)節(jié)點間連接(400 GB/s)尿褪。這總共產(chǎn)生512個40GB A100 GPU。為了快速訪問數(shù)據(jù)得湘,我們使用Amazon FSX For Lustre杖玲,它支持每個TiB存儲單元高達1000 MB/s的讀寫吞吐量。
3.4????大規(guī)模優(yōu)化
為了訓(xùn)練BloombergGPT淘正,它的內(nèi)存占用比云實例上可用GPU內(nèi)存更大摆马,我們依賴于ZeRO優(yōu)化的第3階段(Rajbhandari et al.臼闻,2020)。我們使用AWS的專有SageMaker模型并行(SMP)庫囤采,該庫支持在多個GPU設(shè)備和實例之間自動分發(fā)大型模型(Karakus等人述呐,2021)。在試驗了各種技術(shù)后蕉毯,我們平均達到102個TFLOP乓搬,每個訓(xùn)練步驟需要32.5秒。我們發(fā)現(xiàn)以下設(shè)置是我們訓(xùn)練中表現(xiàn)最好的代虾。
ZeRO優(yōu)化(第3階段)进肯。????ZeRO在一組GPU中分割訓(xùn)練狀態(tài)(模型參數(shù)、梯度和優(yōu)化器狀態(tài))棉磨。我們將一個模型分為128個GPU江掩,在訓(xùn)練過程中我們有4個模型副本。
MiCS含蓉。Zhang等人(2022b)降低了云訓(xùn)練集群的訓(xùn)練通信開銷和內(nèi)存需求频敛。MiCS包括分層通信、2-hop梯度更新馅扣、規(guī)模感知的模型劃分等功能斟赚。
激活檢查點。????Chen等人(2016)通過消除激活差油,以犧牲反向傳播過程中的額外計算為代價拗军,最大限度地減少了訓(xùn)練內(nèi)存消耗。當(dāng)一個層啟用了激活檢查點時蓄喇,只有層的輸入和輸出在前向傳遞后保留在內(nèi)存中发侵,而任何中間張量都會從內(nèi)存中丟棄。在反向通過期間妆偏,可以重新計算這些中間張量刃鳄。我們將激活檢查點應(yīng)用于每個Transformer層。
混合精度訓(xùn)練钱骂。????為了減少內(nèi)存需求叔锐,在BF16中進行正向和反向傳遞,同時以全精度(FP32)存儲和更新參數(shù)见秽。ALiBi矩陣是以全精度計算的愉烙,并存儲在BF16中。我們還使用FP32來計算注意力塊中的fused softmax解取,并將其結(jié)果存儲在BF16中步责。最后,在FP32中計算損失函數(shù)中的softmax計算。
Fused Kernels蔓肯。????優(yōu)化的另一種可能性是將幾個操作的組合組合成單個GPU操作遂鹊。這既可以通過避免在計算圖中存儲中間結(jié)果來減少峰值內(nèi)存使用,也有助于提高速度蔗包。類似于Megatron-LM Shoeybi等人(2019)稿辙,我們在自注意模塊的SMP中使用了一個masked-causal-softmax fused kernel。在實踐中气忠,我們觀察到4-5個TFLOP的速度改進邻储,并在給定其余配置的情況下避免內(nèi)存不足錯誤。
4????訓(xùn)練運行
訓(xùn)練BloombergGPT的過程涉及基于模型訓(xùn)練進度的決策旧噪。我們分享了這一過程的一些亮點吨娜。圖2顯示了訓(xùn)練集和驗證集的學(xué)習(xí)曲線。實線顯示(平滑過的)訓(xùn)練損失淘钟,虛線顯示保留驗證集的損失宦赠。線條顏色的變化表示優(yōu)化超參數(shù)配置的變化,如計劃的那樣米母,或者響應(yīng)于不斷增加或停滯的驗證損失勾扭。此圖顯示了成功的模型訓(xùn)練運行所采取的路徑。為了呈現(xiàn)清晰的圖表铁瞒,該圖沒有顯示具有不同模型配置的其他嘗試妙色、overwritten的部分運行、或最終模型中未使用的其他訓(xùn)練策略慧耍。
我們在當(dāng)前批次中每五步測量一次訓(xùn)練損失(measured training loss every five steps on the current batch)。原始值變化很大泌豆,繪制時會產(chǎn)生較大的抖動定庵。該圖通過顯示運行平均來平滑訓(xùn)練損失,其中=0.001踪危。驗證損失不需要平滑蔬浙,因為每300步在整個驗證集上測量一次。
我們總共訓(xùn)練了139200步(~53天)陨倡,并在通過我們的訓(xùn)練數(shù)據(jù)完成一個epoch的~80%后結(jié)束了模型訓(xùn)練(709B個可用token中的569B個token)敛滋。我們提前結(jié)束了訓(xùn)練许布,因為我們預(yù)留的開發(fā)集上(our held-out development set)的損失不再改善兴革,盡管更長時間的訓(xùn)練也可能會帶來進一步的改善。
在運行的開始時,我們用warm-up?batch size杂曲,大小為1024庶艾,運行7200步,之后我們切換到2048的常規(guī)批量大星婵薄(顏色從黑色變?yōu)樗{色)咱揍。在步驟7200,批量大小的變化表現(xiàn)為驗證損失中的可見曲率變化棚饵。剩余的大部分訓(xùn)練都表現(xiàn)穩(wěn)定煤裙,訓(xùn)練和驗證損失減少。在第115500步之后的后期階段噪漾,當(dāng)我們觀察到驗證損失持平或增加時硼砰,需要進行干預(yù)。然后欣硼,我們依次應(yīng)用以下糾正性修改:
?????步驟115500(藍色到橙色):將學(xué)習(xí)率降低到三分之二
?????步驟129900(橙色到綠色):將學(xué)習(xí)率減半题翰,并加上dropout(概率為0.1)
?????步驟137100(綠色到紅色):再次將學(xué)習(xí)率減半
基于驗證損失方面缺乏可觀察到的進展,我們在步驟146000結(jié)束了運行诈胜”希基于驗證損失和下游評估,我們在步驟139200選擇檢查點作為最終模型焦匈。
5????評估
我們評估了BloombergGPT在兩大類任務(wù)上的性能:金融領(lǐng)域任務(wù)和通用領(lǐng)域任務(wù)血公。金融任務(wù)有助于我們檢驗我們的假設(shè),即對高質(zhì)量金融特定數(shù)據(jù)進行訓(xùn)練將在金融任務(wù)中產(chǎn)生更好的結(jié)果缓熟。通用任務(wù)調(diào)查我們模型的性能是否與之前公布的結(jié)果直接可比坞笙。對于財務(wù)任務(wù),我們收集了公開可用的財務(wù)數(shù)據(jù)集荚虚,其中包括一系列NLP任務(wù)薛夜。然后,為了直接測試BloombergGPT在感興趣的Bloomberg任務(wù)上的能力版述,我們還包括了從Bloomberg內(nèi)部高質(zhì)量評估集中提取的任務(wù)梯澜,用于情緒分析和命名實體識別。對于通用任務(wù)渴析,我們從多個現(xiàn)有的基準(zhǔn)和小組結(jié)果中得出以下類別:BIG bench Hard晚伙、知識評估、閱讀理解和語言任務(wù)俭茧。每種類型的任務(wù)數(shù)量和組的定義如表5所示咆疗。
我們將BloombergGPT與§7中描述的三個最接近的模型(根據(jù)模型大小、訓(xùn)練數(shù)據(jù)類型框咙、總體性能咕痛,以及最重要的可訪問性)進行了比較。表6提供了模型規(guī)模和計算量的概述喇嘱。
1. GPT NeoX(Black et al.,2022):根據(jù)Liang et al.(2022)绷雏,該模型是50B參數(shù)下性能最好的可用模型头滔。
2. OPT-66B(Zhang et al.,2022a):我們選擇與OPT66B進行比較涎显,因為我們的模型大小和結(jié)構(gòu)大致匹配坤检,盡管我們的模型較小。
3. BLOOM-176B(Scao et al.期吓,2022):雖然這個模型比BloombergGPT大得多早歇,但我們使用相同的模型架構(gòu)和軟件堆棧。我們注意到BLOOM176B是多語言的讨勤,所以雖然它要大得多箭跳,但它也基于來自更多語言的數(shù)據(jù)進行訓(xùn)練。
這三個模型都使用了一些與我們在訓(xùn)練語料庫中使用的通用數(shù)據(jù)集相同的數(shù)據(jù)集潭千。只要外部可用谱姓,我們也報告原始GPT-3(Brown等人,2020)的結(jié)果刨晴。(注釋2:另一個規(guī)模相當(dāng)?shù)南嚓P(guān)通用模型(LLaMA屉来,Touvron et al.路翻,2023)在本手稿的準(zhǔn)備過程中發(fā)布,但第三方評估結(jié)果無法獲得奶躯,我們也沒有收到模型權(quán)重的訪問權(quán)限。)
我們更喜歡自己運行模型亿驾,以確保相同的評估設(shè)置嘹黔,并且我們將其他地方報告的、沒有由我們運行的任何結(jié)果放在一個單獨的組中莫瞬。為了公平地比較模型儡蔓,我們避免對提示和其他技術(shù)進行任何調(diào)整,這些調(diào)整可能會導(dǎo)致某些(但不是所有)模型的結(jié)果得到改善疼邀。因此喂江,每個任務(wù)都是通過“標(biāo)準(zhǔn)”提示進行測試的(如表7所示),即在沒有對基礎(chǔ)模型進行任何參數(shù)更改的情況下旁振,沒有任務(wù)描述获询,也沒有思維鏈提示(Wei et al.,2022b)拐袜。呈現(xiàn)給模型的few-shot示例的數(shù)量取決于任務(wù)吉嚣,我們在相應(yīng)的章節(jié)中包括了這些細節(jié)。對于每組結(jié)果蹬铺,我們進一步給出了一個類似于Liang等人(2022)的獲勝率尝哆,它代表了在我們自己進行評估的所有模型對之間對單個任務(wù)進行的side-by-side比較中“獲勝”的分?jǐn)?shù)。
5.1?Few-shot方法
對于給定了一組候選者的任務(wù)甜攀,我們執(zhí)行基于可能性的分類秋泄,遵循Brown等人(2020)。我們考慮三種分類方法:常規(guī)规阀、校準(zhǔn)和歸一化恒序。正式地
?????Regular:
?????Calibration:
?????Normalization:
其中,是候選者谁撼,是上下文奸焙,len測量sub-word tokens的數(shù)量。我們報告了每個模型和任務(wù)的最佳方法的性能彤敛。對于其他任務(wù)与帆,我們通過貪婪解碼執(zhí)行生成。
我們盡可能使用官方的劃分并報告測試集的性能墨榄。如果測試標(biāo)簽不公開玄糟,我們會報告開發(fā)集的性能。如果數(shù)據(jù)集的官方劃分不存在袄秩,我們通過選擇20%的示例作為測試阵翎,其余作為訓(xùn)練來創(chuàng)建訓(xùn)練和測試劃分逢并。所有少樣本上下文示例都是從訓(xùn)練集中采樣的。為了減少少樣本評估的方差郭卫,我們?yōu)槊總€測試樣本采樣不同的shots砍聊,除非另有說明。為了一致性贰军,對于每個測試示例玻蝌,所有模型都有相同的表面形式(identical surface form)作為我們評估的輸入。
5.2????Heldout損失
我們首先測試BloombergGPT對分部內(nèi)財務(wù)數(shù)據(jù)的語言分布建模的效果(how well BloombergGPT models the language distribution of the indistribution finance data)词疼。我們在heldout數(shù)據(jù)集上評估不同模型的每字節(jié)比特數(shù)(bits per byte)俯树,該數(shù)據(jù)集包含的示例來自FinPile的所有的節(jié)(如§2所述)(that contains examples from all sections of FinPile)。
為了限制數(shù)據(jù)泄露并更好地模擬LLM的真實世界使用贰盗,我們選擇了一個strictly further in the future than the training set的臨時heldout數(shù)據(jù)集许饿,并在訓(xùn)練集和heldout集之間執(zhí)行重復(fù)數(shù)據(jù)消除。在評估過程中舵盈,對于長度超過2048個token的文檔陋率,我們使用半窗口大小作為上下文的滑動窗口方法。這意味著超過第一個2048的任何token在預(yù)測期間具有至少1024個token作為上下文秽晚。我們在FinPile中按文件類型報告損失明細翘贮。
圖3顯示BloombergGPT始終優(yōu)于其他模型。雖然這是意料之中的爆惧,主要用作健全性檢查狸页,但它也為其他模型的泛化能力提供了寶貴的見解。例如扯再,與BloombergGPT的差距在Filings類別中最為顯著芍耘,這可能是因為這些文檔雖然是公開的,但通常是PDF格式的熄阻,因此不包括在任何現(xiàn)有的數(shù)據(jù)集中斋竞。
5.3????金融任務(wù)
金融學(xué)中最常考慮的NLP任務(wù)在更廣泛的NLP文獻中也很常見樱哼;但是哀九,這些任務(wù)在對財務(wù)數(shù)據(jù)執(zhí)行時具有不同的特點和挑戰(zhàn)剿配。以情緒分析為例,“公司將裁員10000人”等標(biāo)題描繪了一般意義上的負(fù)面情緒阅束,但有時可以被視為對公司的財務(wù)情緒是積極的呼胚,因為這可能會導(dǎo)致股價或投資者信心的上升。我們結(jié)合使用公共和內(nèi)部基準(zhǔn)來評估BloombergGPT息裸、BLOOM176B蝇更、GPT-NeoX和OPT66B的性能。所考慮的所有任務(wù)類型及其相應(yīng)的提示模板如表7所示界牡。
5.3.1????外部金融任務(wù)
我們的公共金融基準(zhǔn)包括來自FLUE基準(zhǔn)(Shah et al.漾抬,2022)和ConvFinQA數(shù)據(jù)集(Chen et al.宿亡,2021)的四項任務(wù)。由于LLM在大多數(shù)財務(wù)任務(wù)中的表現(xiàn)尚未得到廣泛報道纳令,因此沒有標(biāo)準(zhǔn)的測試框架挽荠。因此,我們將其調(diào)整為few-shot設(shè)置(見第5.1節(jié))平绩。我們設(shè)計實驗的指導(dǎo)原則是選擇shots數(shù)量,使所有模型的平均性能最佳。雖然這些任務(wù)可以使用非LLM數(shù)量的自定義模型焕檬,但由于評估設(shè)置的差異唠帝,我們在此不報告這些模型。因此性湿,我們的報告僅限于LLM的比較纬傲。我們對以下任務(wù)進行評估(更多細節(jié)見附錄B):
?????FPB(Malo et al.,2014):金融短語庫數(shù)據(jù)集包括對金融新聞句子的情感分類任務(wù)肤频。任何可能對投資者有利/有害的消息都被認(rèn)為是正面/負(fù)面的叹括,否則是中性的。我們創(chuàng)建了自己的劃分宵荒,并在5-shot設(shè)置中報告F1 score weighted by support汁雷。
?????FiQA SA(Maia et al.,2018):第二項情緒分析任務(wù)是預(yù)測英語財經(jīng)新聞和microblog頭條中的特定方面情緒报咳,這些新聞和microblog標(biāo)題是作為2018年金融問答和意見挖掘挑戰(zhàn)的一部分發(fā)布的侠讯。原始數(shù)據(jù)集在連續(xù)尺度上進行注釋的(annotated on a continuous scale),我們將數(shù)據(jù)離散化為具有負(fù)類暑刃、中性類和正類的分類設(shè)置继低。與FPB一樣,我們創(chuàng)建了自己的劃分稍走,包括microblog和news袁翁,并使用5-shot設(shè)置柴底,報告加權(quán)F1。
?????Headline(Sinha和Khandait粱胜,2020):這是一項二分類任務(wù)柄驻,用于判斷黃金商品領(lǐng)域(gold commodity domain)的新聞標(biāo)題是否包括某些信息。這個人工注釋的數(shù)據(jù)集由關(guān)于“黃金”的英文新聞標(biāo)題組成焙压。每一篇新聞文章都有以下標(biāo)簽的子集:“價格與否”鸿脓、“價格上漲”、“物價下跌”涯曲、“穩(wěn)定價格”野哭、“過去價格”、“未來價格”幻件、“past general”拨黔、“future general”和“資產(chǎn)比較asset comparison”。我們使用官方文檔將每個標(biāo)簽表述為一個問題绰沥,使用5-shot篱蝇,并報告所有類別的平均加權(quán)F1得分。
?????NER(Salinas Alvarado et al.徽曲,2015):這是一項命名實體識別任務(wù)零截,針對從向美國證券交易委員會提交的金融協(xié)議中收集的用于信用風(fēng)險評估的金融數(shù)據(jù)。注釋實體類型遵循標(biāo)準(zhǔn)CoNLL格式(Tjong Kim Sang和De Meulder秃臣,2003)涧衙,并用PER、LOC奥此、ORG和MISC進行注釋弧哎。由于在few-shot設(shè)置中學(xué)習(xí)預(yù)測空輸出是nontrivial的,我們放棄了不包含任何實體的句子得院。由于定義不明確傻铣,我們進一步刪除了MISC標(biāo)簽。所有模型都需要更多的shots才能表現(xiàn)出色祥绞,因此我們選擇了20-shot并報告實體級別(entity-level)的F1分?jǐn)?shù)非洲。
?????ConvFinQA(Chen et al.,2022):給定標(biāo)準(zhǔn)普爾500指數(shù)盈利報告的輸入蜕径,其中包括文本和至少一個財務(wù)數(shù)據(jù)表两踏,任務(wù)是回答需要對輸入進行數(shù)字推理的對話問題。這項任務(wù)需要數(shù)字推理兜喻、對結(jié)構(gòu)化數(shù)據(jù)和財務(wù)概念的理解梦染,并且模型需要將后續(xù)問題與對話轉(zhuǎn)折(dialog turns)聯(lián)系起來。
對于ConvFinQA,我們使用了一個完整的黃金對話帕识,它的上下文被用作模型的輸入泛粹。當(dāng)對話的每一個“turn”結(jié)束時,“turn”以及該turn的答案都會被附加為未來轉(zhuǎn)折的上下文肮疗。我們在公共開發(fā)集上報告了精確的匹配精度晶姊。
BloombergGPT在五項任務(wù)中的四項(ConvFinQA、FiQA SA伪货、FPB和Headline)的所有模型中表現(xiàn)最好们衙,在NER中排名第二(表8)。因此碱呼,BloombergGPT在我們測試的所有模型中的勝率也是最高的蒙挑。對于ConvFinQA來說,與同等大小模型的差距尤其明顯愚臀,這是一項具有挑戰(zhàn)性的工作忆蚀,因為需要使用對話輸入來對表格進行推理并生成答案。
5.3.2????內(nèi)部任務(wù):情緒分析
對于Bloomberg的內(nèi)部任務(wù)蜓谋,我們考慮特定方面的情緒分析梦皮,這在金融文獻中很普遍炭分。我們使用的所有數(shù)據(jù)集都是英文的。
我們的標(biāo)注過程包括一個發(fā)現(xiàn)階段(discovery phase)剑肯,在此階段捧毛,我們建立標(biāo)注和采樣程序,了解每個示例通常需要多少標(biāo)注人員(annotators)让网,并確定標(biāo)注人員所需的訓(xùn)練水平(Tseng et al.呀忧,2020)。根據(jù)任務(wù)的復(fù)雜性溃睹,我們的標(biāo)注人員是Bloomberg的一個專門的財務(wù)專家團隊而账、顧問員工,或兩者結(jié)合因篇。在每種情況下泞辐,聯(lián)系都是通過額外標(biāo)注人員的裁決來解決的(ties are resolved by adjudication from additional annotators),不明確的例子也被排除在外竞滓。本節(jié)中的所有數(shù)據(jù)集都由2個標(biāo)注人員進行了標(biāo)注咐吼,第三個標(biāo)注人員打破了任何聯(lián)系( breaking any ties)。
與外部數(shù)據(jù)集類似商佑,我們使用5-shot評估來測量內(nèi)部數(shù)據(jù)集的LLM性能锯茄。由于數(shù)據(jù)集很大,我們最多隨機抽取1k個測試示例。我們報告按每個標(biāo)簽的支持度加權(quán)F1肌幽。請注意晚碾,與外部數(shù)據(jù)集類似,我們的內(nèi)部數(shù)據(jù)集中使用的數(shù)據(jù)的未標(biāo)記版本很可能出現(xiàn)在FinPile中喂急,因此BloombergGPT在訓(xùn)練期間可以看到迄薄。然而,由于一些FinPile也可以在網(wǎng)絡(luò)上獲得煮岁,我們比較的其他LLM可能也已經(jīng)在該數(shù)據(jù)的未標(biāo)記版本上進行了訓(xùn)練讥蔽。表9提供了數(shù)據(jù)集統(tǒng)計數(shù)據(jù)。
?????股市新聞情緒(Equity News Sentiment):這項任務(wù)是預(yù)測新聞報道中對公司表達的特定方面的情緒。該數(shù)據(jù)集由Bloomberg的英文新聞報道步氏、高級新聞報道和網(wǎng)絡(luò)內(nèi)容組成响禽。“正面”荚醒、“負(fù)面”或“中性”的注釋表明芋类,新聞報道可能會增加、減少或不會改變投資者對公司的長期信心界阁。
?????股市社交媒體情緒:這項任務(wù)類似于“股市新聞情緒”侯繁,但我們使用的不是新聞,而是與財務(wù)相關(guān)的英語社交媒體內(nèi)容泡躯。
?????股市成績單情緒:這項任務(wù)也類似于“股市新聞情緒”贮竟,但我們使用的不是新聞,而是公司新聞發(fā)布會的成績單较剃。通過使用語音識別咕别,有時還通過人工編輯,可以獲得轉(zhuǎn)錄本写穴。長轉(zhuǎn)錄物被分塊處理惰拱,我們數(shù)據(jù)集中的每個塊通常包含70到80個token。
?????ES新聞情緒:雖然這項任務(wù)是預(yù)測新聞報道中對公司(方面)表達的特定方面的情緒啊送,但目標(biāo)不是表明對投資者信心的影響偿短。如果新聞報道包含反映公司環(huán)境和社會政策的好、壞或中性新聞的內(nèi)容删掀,則這些報道被注釋為“正面”翔冀、“負(fù)面”或“中性”。
?????國家新聞情緒:這項任務(wù)與其他情緒任務(wù)的不同之處在于披泪,其目標(biāo)是預(yù)測新聞報道中對一個國家表達的情緒纤子。該數(shù)據(jù)集由Bloomberg的英文新聞報道、高級新聞報道和網(wǎng)絡(luò)內(nèi)容組成。如果新聞報道暗示了該國經(jīng)濟的增長控硼、萎縮或現(xiàn)狀泽论,則這些報道被注釋為“積極”、“消極”或“中性”卡乾。
表10顯示翼悴,在四個內(nèi)部方面特定的情緒任務(wù)中,BloombergGPT的表現(xiàn)比所有其他測試模型都要好幔妨,差距很大鹦赎。這些模型唯一表現(xiàn)相似的任務(wù)是社交媒體情緒任務(wù),而BloombergGPT在其他三個模型中的表現(xiàn)至少優(yōu)于其他模型25分误堡,最高超過60分古话。
5.3.3????探索性任務(wù):NER
盡管NER是一項公認(rèn)的NLP任務(wù)锁施,使用BERT (Wu和Dredze陪踩,2019)、Luoma和Pyysalo(2020)以及T5等人(?Liu悉抵,2022)風(fēng)格的模型取得了最先進的結(jié)果肩狂,NER在很大程度上是生成LLM尚未探索的任務(wù)。HELM(?Liang姥饰,2022)等人中沒有NER傻谁,BIG bench (Srivastava等人,2022年)中有一項(波蘭語)任務(wù)媳否,我們研究的LLM論文中沒有一篇報告NER性能栅螟。因此荆秦,鑒于NER任務(wù)在金融領(lǐng)域的重要性篱竭,我們將其視為一項探索性任務(wù),并報告初步NER結(jié)果步绸。
對于生成性LLM來說掺逼,NER可能是一項艱巨的任務(wù),這有幾個原因瓤介。NER是一項信息提取任務(wù)吕喘,更適合于編碼器-解碼器或僅編碼器架構(gòu)。LLM的生成性并沒有給NER帶來優(yōu)勢刑桑。我們發(fā)現(xiàn)氯质,與其他任務(wù)相比,NER需要大量的prompt工程和更多的shots才能獲得合理的結(jié)果祠斧。特定于財務(wù)的NER有一些微妙之處闻察,這使得zero-shot或 few-shot學(xué)習(xí)變得特別困難。
例如,考慮一下(捏造的)標(biāo)題"Bloomberg: Mr. Musk adds new features to Twitter and comments on China"辕漂。根據(jù)我們的注釋指南和下游任務(wù)需求:(a)報道新聞機構(gòu)“Bloomberg”是否可以被標(biāo)記呢灶,這取決于我們是否只想要顯著實體,(b)"Mr. Musk"或僅僅是"Musk"是要被標(biāo)記的PER钉嘹,(c)“"Twitter"”可以被標(biāo)記為ORG或PRD(產(chǎn)品)鸯乃,因為features are added to the Twitter product and not the organization,和(d)“China”可以標(biāo)記為ORG或LOC跋涣,盡管正確的標(biāo)記可能是ORG缨睡。如果沒有在提示中添加廣泛的注釋指南,LLM就不知道預(yù)期的標(biāo)記行為(intended tagging behavior)陈辱。
基于初步測試宏蛉,我們確定了以下設(shè)置,以在所有模型的內(nèi)部NER任務(wù)中獲得最佳性能性置。首先拾并,我們將要預(yù)測的實體類型限制為ORG、PER和LOC鹏浅⌒嵋澹總的來說,我們過濾掉的實體不到1%隐砸。我們還刪除了所有不包含實體的文檔(即所有“O”)之碗。這兩種修改都是為了增加few-shot提示中所見例子的有用性。我們預(yù)計季希,在NER的提示工程方面的進一步工作可以產(chǎn)生更好的結(jié)果褪那。
我們考慮了來自不同領(lǐng)域的七個Bloomberg內(nèi)部NER數(shù)據(jù)集。
?????BN NER:這是一項命名實體識別任務(wù)式塌,針對2017年至2020年間Bloomberg英文長篇新聞內(nèi)容(“BN wire”)中出現(xiàn)的實體博敬。
?????BFW NER:與“BN NER”類似,但我們在2018年至2020年間使用了“Bloomberg First Word”中的short-form stories峰尝,而不是使用long-form BN wire偏窝。
?????FilingsNER:這項任務(wù)的目標(biāo)是識別公司提交的強制性財務(wù)披露中出現(xiàn)的實體。該數(shù)據(jù)集包含2016年至2019年間采樣的文件武学。
?????Headlines NER:本任務(wù)的目標(biāo)是識別Bloomberg英文新聞內(nèi)容頭條中出現(xiàn)的實體祭往。該數(shù)據(jù)集包含2016年至2020年間的頭條新聞樣本。
?????Premium?NER:本任務(wù)的目標(biāo)是識別Bloomberg獲取的第三方英語新聞內(nèi)容子集中出現(xiàn)的實體火窒。數(shù)據(jù)集包含2019年至2021之間采樣的stories硼补。
?????Transcripts NER:本任務(wù)的目標(biāo)是識別公司新聞發(fā)布會成績單中出現(xiàn)的實體。該數(shù)據(jù)集包含2019年的轉(zhuǎn)錄本熏矿。
?????社交媒體NER:這項任務(wù)的目標(biāo)是識別英語社交媒體內(nèi)容中出現(xiàn)的與財務(wù)相關(guān)的實體已骇。該數(shù)據(jù)集包含2009年至2020年間采樣的社交媒體內(nèi)容缆八。
由于我們的數(shù)據(jù)集是substantive,我們從每個過濾的內(nèi)部數(shù)據(jù)集中隨機抽取4000個訓(xùn)練和500個測試示例疾捍。我們使用20-shot提示奈辰,并使用F1進行評估。內(nèi)部NER任務(wù)的結(jié)果喜憂參半(表12)乱豆。更大的BLOOM176B贏得了大部分NER任務(wù)奖恰。相當(dāng)體量模型中(Of the like-sized models,編者注宛裕,應(yīng)該包含BLOOM176B)瑟啃,BloombergGPT拿到1次第1名(Headlines),4次第2名(BN揩尸、Premium蛹屿、Transcripts、Social media)岩榆,1次第3名(BFW)错负,1次墊底(Filings)。
探索性任務(wù):NER+NED????命名實體歧義消除(Named entity disambiguation祥款,NED)將實體提及鏈接到知識庫或其他結(jié)構(gòu)化信息源中的已知實體(links entity mentions to known entities in knowledge bases or other structured information sources.)。在金融界月杉,我們試圖將公司的文本提及(text mentions of companies)與其股票代碼聯(lián)系起來刃跛,股票代碼是一種縮寫,可以唯一識別特定股票市場上特定股票的公開交易股票沙合。
我們通過評估NER+NED聯(lián)合任務(wù)來直接測試LLM完成這項任務(wù)的能力:識別文件中提到的公司的股票行情奠伪。這需要模型首先識別公司提及(company mentions),然后生成相應(yīng)的股票行情首懈。例如,給定“AAPL宣布他們將在未來的產(chǎn)品中停止使用英特爾芯片”谨敛。正確的NER輸出將是“AAPL究履,英特爾”,而正確的NER+NED輸出將是”AAPL脸狸,INTC“最仑。
該任務(wù)的優(yōu)點之一是藐俺,它對提取精確文本跨度的變化具有魯棒性(robust to variations in extracting the exact text span)。雖然NER評估需要精確匹配泥彤,但可以在不首先識別跨度的情況下成功生成tickers(tickers may be successfully produced without first identifying spans)欲芹。此外,它還評估了模型對公司的知識吟吝、公司的各種表面形式以及公司到股票行情的映射菱父。
我們通過在每個領(lǐng)域的Bloomberg內(nèi)部NER注釋文檔上為財務(wù)數(shù)據(jù)中的公司運行最先進的實體鏈接系統(tǒng),為該任務(wù)創(chuàng)建具有鏈接報價器的評估數(shù)據(jù)剑逃。我們刪除沒有鏈接股票代碼的文檔浙宜。在我們的NER評估之后,我們從每個過濾的內(nèi)部數(shù)據(jù)集中隨機抽取4000個訓(xùn)練和500個測試示例蛹磺。我們使用20-shot提示粟瞬,并使用F1進行評估。
表12顯示萤捆,BloombergGPT在很大程度上優(yōu)于所有其他模型裙品,但在社交媒體數(shù)據(jù)上,它排名第二俗或,僅次于BLOOM176B清酥。在我們的社交媒體數(shù)據(jù)中,公司經(jīng)常被其股票代碼引用蕴侣,從而取消了模型鏈接提及的要求焰轻,并將任務(wù)恢復(fù)為NER。這些結(jié)果進一步強調(diào)了BloombergGPT在財務(wù)任務(wù)方面的優(yōu)勢昆雀。
5.4????BIG-bench Hard
現(xiàn)在我們來評估標(biāo)準(zhǔn)通用NLP任務(wù)上的BloombergGPT辱志。雖然我們模型的重點是財務(wù)任務(wù),但我們納入通用訓(xùn)練數(shù)據(jù)不僅有助于改進財務(wù)任務(wù)狞膘,還可以使我們的模型在更標(biāo)準(zhǔn)的NLP數(shù)據(jù)集上表現(xiàn)良好揩懒。我們從BIG bench Hard(Suzgun et al.,2022)開始挽封,這是BIG bench中最具挑戰(zhàn)性的任務(wù)的子集(Srivastava et al.已球,2021)。它只包括構(gòu)建時的最佳可用模型無法通過標(biāo)準(zhǔn)提示技術(shù)實現(xiàn)高于平均人工評分者的性能的任務(wù)辅愿。
每個任務(wù)的結(jié)果如表13所示智亮。總的來說点待,雖然BloombergGPT落后于更大的PaLM540B(10倍參數(shù))和BLOOM176B(3.5倍參數(shù))阔蛉,但它是同類型號中性能最好的。事實上癞埠,它的性能更接近BLOOM176B状原,而不是GPT NeoX或OPT66B聋呢。它進一步實現(xiàn)了所有模型在日期理解、hyperbaton(形容詞排序)和跟蹤混亂對象方面的最佳性能颠区∠髅蹋總之,根據(jù)這個基準(zhǔn)毕莱,我們發(fā)現(xiàn)開發(fā)特定于財務(wù)的BloombergGPT并沒有以犧牲其通用能力為代價器贩。
5.5????知識評估
接下來稳摄,我們通過讓模型在不提供額外上下文或資源的情況下回答問題的場景(閉卷問答)來評估知識,我們將其定義為回憶模型訓(xùn)練期間看到的信息的能力饲宿。這包括多項選擇題厦酬,我們報告準(zhǔn)確性。我們遵循Brown等人(2020)的模板瘫想。場景列表如下:
?????ARC(Clark et al.仗阅,2018):從3至9年級的科學(xué)考試中收集的多選題,包括簡單的国夜、有挑戰(zhàn)性的劃分减噪。
?????常識QA(Talmor等人,2019):多選QA數(shù)據(jù)集车吹,需要不同類型的常識知識筹裕。
?????MMLU(Hendrycks等人,2021):手動收集57個學(xué)科的多項選擇知識問題窄驹。
?????PhysicalQA(PiQA朝卒,Bisk等人,2020):關(guān)于物理世界如何運作的問題乐埠。
BloombergGPT在一項任務(wù)中的性能在BLOOM176B抗斤、GPT-NeoX和OPT66B中最高朵夏,在其他三項任務(wù)中排名第二(表14)忘分。與上一節(jié)類似,它的性能優(yōu)于類似尺寸的模型玛界,同時幾乎與更大的模型不相上下扯罐。大規(guī)模多任務(wù)語言理解(MMLU负拟,Hendrycks等人,2021)涵蓋57個不同的學(xué)科歹河,因此比上述任務(wù)的覆蓋面更廣掩浙。表15中的匯總結(jié)果描繪了一幅更加一致的畫面,并遵循了BIG bench hard中看到的見解秸歧。BloombergGPT始終優(yōu)于OPT66B厨姚,而OPT66B又優(yōu)于GPT-NeoX,而GPT-3表現(xiàn)最好键菱。不同于前幾節(jié)谬墙,BloombergGPT在這一類別中的表現(xiàn)優(yōu)于BLOOM176B,盡管差距很小经备。它落后于GPT-3的報告表現(xiàn)拭抬,尤其是在社會科學(xué)領(lǐng)域。在STEM和“其他”領(lǐng)域(包括財務(wù)和會計相關(guān)問題)侵蒙,與GPT-3的差距最為接近造虎。
5.6????閱讀理解
我們將閱讀理解基準(zhǔn)定義為模型可以根據(jù)輸入文本中包含的信息生成正確答案的任務(wù)。我們的分組包括開卷QA任務(wù)萤皂,而Brown等人(2020)將其分為不同的類別撒穷。我們遵循Brown等人的模板。(2020)裆熙,并報告準(zhǔn)確性端礼。我們包括以下任務(wù):
?????BoolQ(Clark et al.,2019):對維基百科上的一段文章提出是/否問題入录。
?????OpenBookQA(Mihaylov et al.蛤奥,2018):多選初級科學(xué)問題,給定一本科學(xué)事實書僚稿,應(yīng)用于新情況凡桥。
?????RACE(Lai et al.,2017):中學(xué)和高中英語考試的多選數(shù)據(jù)集蚀同。
?????多句閱讀理解(MultiRC缅刽,Khashabi et al.啊掏,2018):短文和多句問題。
?????閱讀理解與常識推理(ReCoRD衰猛,Zhang et al.迟蜜,2018):自動生成關(guān)于CNN和《每日郵報》新聞文章的問題。
表16反映了與上述評估類似的排名:雖然GPT-3的性能最高啡省,但BloombergGPT緊隨其后娜睛。除OpenBookQA外,BloombergGPT的性能在BLOOM176B卦睹、GPT-NeoX和OPT66B中最高畦戒。令人驚訝的是,BLOOM176B在這一類別中明顯落后结序。
5.7????語言任務(wù)
我們將那些與用戶應(yīng)用程序沒有直接聯(lián)系的場景定義為語言任務(wù)。其中包括評估消除歧義凳干、語法或暗示的任務(wù)(disambiguation, grammar, or entailment)晴裹。這些任務(wù)旨在直接評估模型理解語言的能力。我們遵循Brown等人的模板救赐。(2020)涧团,并報告準(zhǔn)確性。任務(wù)列表如下:
?????識別文本含義(RTE经磅,Dagan等人泌绣,2007;Haim等人预厌,2006年阿迈;Giampicolo等人,2007年轧叽;Bentivogli等人苗沧,2009年):給定兩個文本片段,確定是否包含一個文本的含義炭晒。(Given two text fragments, identify whether the meaning of one text is entailed.)
?????對抗性NLI(ANLI待逞,Nie et al.,2020):對抗性構(gòu)建的隱含檢測网严。(Adversarially constructed entailment detection.)
?????CommitmentBank(CB识樱,De Marneffe et al.,2019):自然發(fā)生的話語,其最后一句包含嵌入謂詞的從句怜庸。(Naturally occurring discourses whose final sentence contains a clause-embedding predicate.)
?????合理備選方案的選擇(COPA当犯,Gordon et al.,2011):前提和兩個備選方案休雌,其中的任務(wù)是選擇與前提更有因果關(guān)系的備選方案灶壶。(Premise and two alternatives, where the task is to select the alternative that more plausibly has a causal relation with the premise.)
?????上下文中的單詞(WIC Pilehvar和Camacho Collados肝断,2019):確定一個單詞在兩個句子中是否使用相同的含義杈曲。(Determine if a word is being used with the same meaning in two sentences.)
?????Winograd(Levsque et al.,2011):當(dāng)代詞語義明確時胸懈,確定它指的是哪個詞担扑。
?????Winograde(Sakaguchi等人,2019):對抗性挖掘的具有挑戰(zhàn)性的Winograd實例趣钱。
?????HellaSWAG(Zellers等人涌献,2019):為一個故事或一組指令選擇最佳結(jié)尾。
?????StoryCloze(Mostafazadeh et al.首有,2016):為五句長的故事選擇正確的結(jié)束句燕垃。
語言任務(wù)的結(jié)果(表17)與知識類別的趨勢相似。BloombergGPT略微落后于GPT-3井联,表現(xiàn)優(yōu)于其他型號卜壕。與閱讀理解類別類似,BLOOM176B落后于BloombergGPT烙常。
5.8????概述
在許多基準(zhǔn)中的數(shù)十項任務(wù)中,出現(xiàn)了一幅清晰的畫面驼鞭。在我們比較的具有數(shù)百億個參數(shù)的模型中秦驯,BloombergGPT表現(xiàn)最好。此外挣棕,在某些情況下译隘,它具有競爭力或超過了更大模型(數(shù)千億個參數(shù))的性能。雖然我們對BloombergGPT的目標(biāo)是成為財務(wù)任務(wù)的最佳模型穴张,并且我們包含了通用訓(xùn)練數(shù)據(jù)來支持特定領(lǐng)域的訓(xùn)練细燎,但該模型在通用數(shù)據(jù)上仍然具有超過類似大小模型的能力,在某些情況下與更大的模型相匹配或優(yōu)于更大的數(shù)據(jù)皂甘。
6????定性例子
我們現(xiàn)在分享我們模型中的定性例子玻驻,這些例子突出了我們領(lǐng)域?qū)I(yè)化的好處。
彭博查詢語言的生成。????BloombergGPT的一個用例是使與財務(wù)數(shù)據(jù)的交互更加自然¤邓玻現(xiàn)有的檢索數(shù)據(jù)的方法是通過彭博查詢語言(Bloomberg Query Language户辫,BQL)。BQL可用于與不同類別的證券進行交互嗤锉,每種證券都有自己的字段渔欢、函數(shù)和參數(shù)。BQL是一個非常強大但復(fù)雜的工具瘟忱。如圖4所示奥额,BloombergGPT可以通過將自然語言查詢轉(zhuǎn)換為有效的BQL來提高BQL的可訪問性。
新聞標(biāo)題的建議????其他得到很好支持的用例在新聞空間中。由于它是針對許多新聞文章進行訓(xùn)練的催蝗,因此可以用于許多新聞應(yīng)用程序切威,并幫助記者進行日常工作。例如生逸,在撰寫時事通訊時牢屋,記者可能必須為每個新的部分寫下簡短的標(biāo)題。雖然幫助完成這項任務(wù)的專用模型可能過于昂貴槽袄,無法維護烙无,但BloombergGPT的開箱即用表現(xiàn)良好(圖5)。
財務(wù)問答乾戏。????由于金融領(lǐng)域的訓(xùn)練數(shù)據(jù)迂苛,我們能夠查詢BloombergGPT以獲取與金融世界相關(guān)的知識。例如鼓择,它在識別公司首席執(zhí)行官方面表現(xiàn)良好三幻。圖6顯示了幾個示例,包括其他模型的輸出呐能。雖然BloombergGPT正確地識別了首席執(zhí)行官念搬,但GPT-NeoX沒有抑堡,F(xiàn)LAN-T5-XXL完全失敗了,始終忽略了公司朗徊,而是預(yù)測了Cirrus Logic的首席執(zhí)行官首妖。雖然BloombergGPT不能完美地解決這項任務(wù),并且會出錯爷恳,但我們無法找到任何其他模型解決了這項任務(wù)而BloombergGPT沒有解決的例子有缆。
7????相關(guān)工作
語言模型。????語言建模在NLP社區(qū)有悠久的歷史逆害。訓(xùn)練概率語言模型對單詞序列進行評分的想法可能由Jelinek(1976)首次提出头镊。N-gram模型流行了幾十年(Brown等人,1992)魄幕,并在多達2萬億個token的語料庫進行訓(xùn)練(Brants等人相艇,2007)。由于機器學(xué)習(xí)纯陨、數(shù)據(jù)可用性和計算方面的創(chuàng)新坛芽,過去十年中,訓(xùn)練語言模型的研究加速了翼抠。自回歸語言建模的早期工作(例如咙轩,Mikolov等人,2010阴颖;Sutskever等人活喊,2011)用遞歸神經(jīng)網(wǎng)絡(luò),但都是在小數(shù)據(jù)集上訓(xùn)練的小模型量愧。Transformer架構(gòu)的引入(Vaswani et al.钾菊,2017)促進了這些模型在數(shù)據(jù)、計算和參數(shù)數(shù)量方面的縮放偎肃。
開發(fā)可以更好近似大型語料庫中語言分布的模型的過程煞烫,導(dǎo)致發(fā)現(xiàn)這些模型產(chǎn)生的表示是許多下游任務(wù)的有用起點。Radford等人(2018)以及Howard和Ruder(2018)證明了這一點累颂,他們表明滞详,具有自回歸語言建模目標(biāo)的生成預(yù)訓(xùn)練在遷移學(xué)習(xí)中取得了很強的性能。Radford等人(2019)進一步表明,縮放模型大小和訓(xùn)練數(shù)據(jù)會導(dǎo)致自回歸語言模型在不同的下游任務(wù)中表現(xiàn)良好茵宪,而無需任何額外的監(jiān)督微調(diào)最冰。
Brown等人(2020)表明,模型的進一步擴展導(dǎo)致了新模型能力的出現(xiàn)和模型穩(wěn)健性的提高稀火。自Brown等人發(fā)布GPT-3以來暖哨,許多其他研究人員建立了大型語言模型來研究數(shù)據(jù)量、數(shù)據(jù)質(zhì)量凰狞、網(wǎng)絡(luò)架構(gòu)篇裁、參數(shù)縮放、數(shù)據(jù)縮放赡若、Tokenizer达布,和開源戰(zhàn)略(Raffel等人,2020年逾冬;Zhang等人黍聂,2022a;Black等人身腻,2022年产还;Rae等人,2021嘀趟;Hoffmann等人脐区,2022.Chowdhery等人,2022,Lieber等人她按,2021牛隅;Zeng等人,2022:Tafjord和Clark酌泰,2021媒佣;Smith等人,2022.Scao等人宫莱,2020丈攒;Sanh等人,2022授霸;Roller等人巡验,2021;Glaese等人碘耳,2022.Wang等显设,2021;Peng等人辛辨,2022等)捕捂。
特定于領(lǐng)域的大型語言模型瑟枫。????掩碼(僅編碼器)語言模型的領(lǐng)域特定訓(xùn)練的價值已經(jīng)得到了很好的證實。通常接受的方法是在特定領(lǐng)域的數(shù)據(jù)上從頭開始訓(xùn)練BERT模型(Devlin et al.指攒,2019)慷妙,或者在新的特定領(lǐng)域數(shù)據(jù)上繼續(xù)預(yù)訓(xùn)練現(xiàn)有模型(Gururangan et al.,2020)允悦。根據(jù)這些策略膝擂,BioBERT(Lee et al.,2020)將BERT應(yīng)用于生物醫(yī)學(xué)領(lǐng)域隙弛,SciBERT接受科學(xué)出版物訓(xùn)練(Beltagy et al.架馋,2019)。這些論文的結(jié)果表明全闷,領(lǐng)域內(nèi)訓(xùn)練使模型在各種生物醫(yī)學(xué)文本挖掘任務(wù)中的表現(xiàn)優(yōu)于以前最先進的模型叉寂。這種范式的進一步例子是臨床領(lǐng)域的ClinicalBERT(Huang et al.,2019)总珠,科學(xué)生物醫(yī)學(xué)論文的BioMedRoBERTa(Gururangan et al.屏鳍,2020),以及Twitter數(shù)據(jù)的BERTweet和Bernice(Nguyen et al.姚淆,2017孕蝉;DeLucia et al.,2022)腌逢。
由于超過10B參數(shù)的僅自回歸解碼器語言模型的訓(xùn)練比在1B參數(shù)下訓(xùn)練掩蔽的LM成本高得多,因此領(lǐng)域特定自回歸模型的例子少得多超埋。然而搏讶,現(xiàn)有的方法遵循相同的兩種策略。Adapting現(xiàn)有模型霍殴,medPaLM(Singhal等人媒惕,2022)將PaLM應(yīng)用于生物醫(yī)學(xué)領(lǐng)域,Minerva(Lewkowycz et al.来庭,2022)應(yīng)用于數(shù)學(xué)推理任務(wù)妒蔚。
最近,出現(xiàn)了幾個針對特定領(lǐng)域數(shù)據(jù)的從頭開始訓(xùn)練的僅解碼器模型的例子月弛。一個流行的領(lǐng)域是蛋白質(zhì)序列肴盏,因為它們可以用類語言序列表示,但不被自然語言模型覆蓋(例如帽衙,Lin等人菜皂,2022;Xiao等人厉萝,2021恍飘;Nijkamp等人榨崩,2022.)。然而章母,即使是在自然語言領(lǐng)域中的模型也有好處母蛛。Galactica專門在大量科學(xué)數(shù)據(jù)集上進行訓(xùn)練,并包括處理科學(xué)符號的特殊處理(Taylor et al.乳怎,2022)彩郊。盡管Galactica在科學(xué)任務(wù)上表現(xiàn)出色,但令人驚訝的是舞肆,它在更標(biāo)準(zhǔn)的NLP任務(wù)上也表現(xiàn)出色焦辅。BioGPT(Luo等人,2022)和BioMedLM(Bolton等人椿胯,2023)都是在生物醫(yī)學(xué)數(shù)據(jù)上訓(xùn)練的較小的GPT類型的模型筷登。Lehman等人(2023)比較了專門針對領(lǐng)域特定數(shù)據(jù)訓(xùn)練的編碼器/解碼器模型與根據(jù)通用訓(xùn)練adapted的編碼器/解碼器模型。研究大型生成性語言對話模型的研究人員就使用特定領(lǐng)域訓(xùn)練數(shù)據(jù)的益處得出了類似的結(jié)論(Zhang等人哩盲,2020年前方;Roller等人,2021廉油;Thoppilan等人惠险,2022年)。
這些發(fā)現(xiàn)突出了域內(nèi)預(yù)訓(xùn)練的優(yōu)勢抒线,尤其是在有足夠數(shù)據(jù)可用的情況下班巩,就像我們的情況一樣。受Galactica通用功能的啟發(fā)嘶炭,我們用公共數(shù)據(jù)增強了我們的私有數(shù)據(jù)抱慌,目的是研究模型是否可以在不犧牲通用域性能的情況下獲得域內(nèi)功能。
訓(xùn)練數(shù)據(jù)眨猎。????原始文本數(shù)據(jù)的大型語料庫對于LLM的訓(xùn)練至關(guān)重要抑进。因此,現(xiàn)在有幾個語料庫可供使用睡陪,涵蓋了廣泛的來源寺渗。
Colossal Clean Crawled Corpus(C4,Raffel et al.兰迫,2020)借鑒了Common Crawl來創(chuàng)建經(jīng)過處理的訓(xùn)練語料庫信殊。The Pile是一個精心策劃的語料庫,包含廣泛的數(shù)據(jù)源Gao等人(2021)逮矛。這些數(shù)據(jù)集建立在或包括網(wǎng)絡(luò)爬蟲(OpenWebText2)上鸡号,并添加了來自高質(zhì)量來源(Pubmed,Arxiv)的一系列數(shù)據(jù)须鼎。各種努力旨在通過刪除不需要的或有害的文本來清理數(shù)據(jù)集鲸伴,尤其是網(wǎng)絡(luò)數(shù)據(jù)(Touvron等人府蔗,2023;Rae等人汞窗,2020)姓赤。BLOOM Scao等人(2022)仔細選擇了數(shù)據(jù)源,并包括了各種過濾機制Jernite等人仲吏。(2022)不铆。
雖然網(wǎng)絡(luò)數(shù)據(jù)是獲取大量不同數(shù)據(jù)的有效策略,但強大的清理工作仍會導(dǎo)致數(shù)據(jù)偽影裹唆,重復(fù)Carlini等人(2020年)誓斥、各種有毒語言Welbl等人(2021),并可能導(dǎo)致少數(shù)民族聲音的無意邊緣化(Xu等人许帐,2021)劳坑。Dodge等人(2021)研究了C4,以更好地理解元數(shù)據(jù)以及包含和排除的數(shù)據(jù)成畦。他們的發(fā)現(xiàn)表明距芬,C4包含機器生成的文本,由于濾除器而有偏見循帐,并且可能包含從NLP任務(wù)的評估數(shù)據(jù)集中提取的示例框仔。Zeng(2022)等人也做出了類似的努力,記錄了他們?yōu)橛?xùn)練漢語大語言模型而進行的預(yù)處理拄养。
Lee等人(2022a)研究了重復(fù)數(shù)據(jù)消除對幾個數(shù)據(jù)集的模型性能的影響离斩,發(fā)現(xiàn)重復(fù)數(shù)據(jù)消除減少了存儲的訓(xùn)練數(shù)據(jù)的排放,允許更好地估計泛化誤差瘪匿,并在不影響性能的情況下提高了訓(xùn)練時間和成本捐腿。這些見解突顯了構(gòu)建高質(zhì)量訓(xùn)練語料庫的重要性和挑戰(zhàn)。如§2所述柿顶,Bloomberg的核心業(yè)務(wù)策劃并提供對數(shù)據(jù)集的訪問,我們使用這些數(shù)據(jù)集構(gòu)建高質(zhì)量的數(shù)據(jù)集FinPile來訓(xùn)練BloombergGPT操软,從而獲得一流的金融領(lǐng)域的性能嘁锯。
評估????語言模型所處理的任務(wù)已經(jīng)大大增加,并且需要與傳統(tǒng)的特定任務(wù)系統(tǒng)截然不同的評估過程聂薪。LLM評估有兩種范式:第一種是在許多不同場景中自動評估(Liang et al.家乘,2022;Srivastava et al.藏澳,2021)卦绣,第二種是通過將其集成到用戶工作流程中來執(zhí)行外部和任務(wù)特定的評估(例如龄坪,Lee et al.,2022b盲链;Goyal et al.,2020)缕允。
雖然第二種策略對于評估產(chǎn)品中模型的部署是必要的,但很難像第一種策略那樣的大規(guī)模來運行這些人工評估,因此在引入新模型時遵循第一種策略是標(biāo)準(zhǔn)的狞悲。在我們的案例中,我們結(jié)合了來自多個具有不同目標(biāo)的現(xiàn)有基準(zhǔn)的多個通用評估妇斤。Srivastava等人(2022)旨在通過向整個研究社區(qū)征集任務(wù)來實現(xiàn)最大覆蓋率摇锋,而HELM(Liang et al.,2022)建議在通過特定數(shù)據(jù)集表示的各種“場景”中進行評估站超。早期的語言模型論文開發(fā)了自己的評估模式(Brown et al.荸恕,2020)。雖然這些基準(zhǔn)可以在模型之間進行并排比較死相,但要確保所有實驗參數(shù)(提示融求、解碼策略、少鏡頭示例等)都是相同的媳纬,這是一項挑戰(zhàn)双肤。因此,我們在評估中區(qū)分了報告的數(shù)字和已驗證的數(shù)字(§5)钮惠。
除了通用評估之外茅糜,我們還需要有針對性的領(lǐng)域評估。之前的領(lǐng)域特定模型素挽,如 Galactica(Taylor et al.蔑赘,2022),選擇了一組模型可能表現(xiàn)良好的任務(wù)预明。在他們的情況下缩赛,這些是各種科學(xué)任務(wù)。然而撰糠,金融NLP領(lǐng)域沒有標(biāo)準(zhǔn)的基準(zhǔn)酥馍。雖然最近關(guān)于FLUE的工作(Shah et al.,2022)旨在提供這樣一個基準(zhǔn)阅酪,但它對相關(guān)任務(wù)的覆蓋范圍有限旨袒,沒有針對few-shot學(xué)習(xí)的建議評估策略,并且一些注釋的質(zhì)量較低术辐。為了提供外部可比較的結(jié)果砚尽,我們?yōu)镕LUE開發(fā)了一個few-shot策略,但也決定用公司內(nèi)部基準(zhǔn)來補充公開可用的評估任務(wù)辉词。
模型大小必孤。????就計算成本和組裝數(shù)據(jù)和訓(xùn)練模型的人力而言,大型語言模型訓(xùn)練仍然是昂貴的瑞躺。為了資源的最佳利用敷搪,確定訓(xùn)練數(shù)據(jù)的最佳數(shù)量以及模型的形狀和大小變得很重要兴想。
Kaplan等人(2020)首次研究了語言模型性能對體系結(jié)構(gòu)、參數(shù)大小购啄、計算能力和數(shù)據(jù)集大小的依賴性襟企。他們報告說,模型參數(shù)的數(shù)量狮含、數(shù)據(jù)集大小和計算量根據(jù)冪律平滑地提高了自回歸語言建模目標(biāo)的性能顽悼。Hernandez等人(2021)對不同分布的數(shù)據(jù)傳輸進行的類似調(diào)查發(fā)現(xiàn),這也遵循冪律几迄。除了研究損失的影響外蔚龙,Rae等人(2021)還通過訓(xùn)練各種模型尺寸,分析了規(guī)模對不良特性(如偏見和毒性)的影響映胁。
比較模型架構(gòu)木羹,Levine等人(2020)研究了使用自注意的模型的縮放,并推導(dǎo)了深度到寬度分配的指導(dǎo)方針解孙。Tay等人(2021)報告稱坑填,模型形狀(深寬比)影響下游任務(wù)的性能,即使它對預(yù)訓(xùn)練目標(biāo)的影響最小弛姜。Tay等人(2022a)進一步研究了縮放對不同模型架構(gòu)的影響脐瑰,并表明在縮放時架構(gòu)選擇是相關(guān)的,而vanilla Transformer架構(gòu)的縮放效果最好廷臼。
對這項工作特別重要的是Hoffmann等人(2022)的研究苍在,他研究了在給定固定計算預(yù)算的情況下,模型大小和訓(xùn)練token數(shù)量對模型性能的影響荠商。他們認(rèn)為寂恬,現(xiàn)有大型語言模型訓(xùn)練不足,模型大小和訓(xùn)練token數(shù)應(yīng)該被同等地縮放莱没。他們通過Chinchilla模型證明了這一假設(shè)初肉, Chinchilla模型比大多數(shù)最大的LLM小得多,但性能更高饰躲。這些發(fā)現(xiàn)為小型模型的“Chinchilla最優(yōu)”訓(xùn)練打開了大門朴译,這些模型可以性能強大,并且推理可以比大型模型更高效属铁。這些發(fā)現(xiàn)使我們考慮了一個使用標(biāo)準(zhǔn)架構(gòu)的近乎Chinchilla最優(yōu)模型。
Tokenization躬翁。????Tokenizer和詞匯選擇在模型性能中起著關(guān)鍵作用焦蘑,因為它們可以幫助模型學(xué)習(xí)有意義的表示,并推廣到看不見的單詞盒发。字節(jié)對編碼(BPE)(Sennrich et al.例嘱,2016)通過反復(fù)合并訓(xùn)練集中最頻繁的序列對狡逢,直到達到預(yù)定的詞匯大小,來學(xué)習(xí)貪婪的自下而上的詞匯拼卵。Radford等人(2018)通過將基本詞匯限制為所有可能的字節(jié)奢浑,而不是所有Unicode字符,對BPE進行了調(diào)整腋腮。 Wordpiece?Tokenizer(Schuster和Nakajima雀彼,2012)還通過反復(fù)合并序列對來學(xué)習(xí)貪婪的自下而上的詞匯,從而最大限度地提高訓(xùn)練數(shù)據(jù)的可能性即寡,這與Sennrich等人的方法略有偏差徊哑。(2016)。
與BPE和Wordpiece相比聪富,Unigram標(biāo)記器(Kudo莺丑,2018)通過首先初始化大型詞匯表并重復(fù)丟棄那些增加損失最小的詞匯表項(例如,訓(xùn)練數(shù)據(jù)的對數(shù)可能性)來學(xué)習(xí)自上而下的詞匯表墩蔓。通過構(gòu)造梢莽,Unigram模型可以以幾種不同的方式標(biāo)記輸入文本。也就是說奸披,Unigram模型保存了概率昏名,允許在推理時進行更智能的Tokenizer。
最后源内,Sentence?Piece(Kudo和Richardson葡粒,2018)對上述方案進行了調(diào)整,以處理非空間分隔的語言膜钓。Beltagy等人(2019)構(gòu)建了一個特定于科學(xué)文本的詞匯嗽交,并觀察到他們的特定領(lǐng)域訓(xùn)練詞匯與在一般領(lǐng)域文本上訓(xùn)練的非特定領(lǐng)域BERT詞匯只有42%的重疊。同樣颂斜,Lewis等人(2020)表明夫壁,專門的生物醫(yī)學(xué)詞匯可以持續(xù)提高序列標(biāo)記任務(wù)的性能。Lieber等人(2021)構(gòu)建了一個更大的詞匯表沃疮,以確保token效率盒让,作者聲稱這導(dǎo)致了訓(xùn)練時間的減少和更好的語義表示。這些發(fā)現(xiàn)證明了選擇最能反映訓(xùn)練領(lǐng)域的Tokenizer器和附帶詞匯的重要性司蔬。出于這些原因邑茄,我們決定訓(xùn)練自己的unigram標(biāo)記器,而不是依賴現(xiàn)有的公共標(biāo)記器俊啼。
位置嵌入肺缕。????基于Transformer的模型依賴于位置嵌入來編碼文本中單詞的position和location信息。對序列位置的編碼以及這種選擇對模型性能的影響已經(jīng)得到了廣泛的研究。其中包括正弦嵌入(Vaswani等人同木,2017年)浮梢、旋轉(zhuǎn)位置嵌入(Su等人,2021)彤路、添加相對位置偏差(Raffel等人秕硝,2020年)和添加注意頭線性偏差(Press等人,2022年)洲尊。Press等人(2022)中策略的一個副作用是远豺,可以在較短序列上訓(xùn)練,而不會在較長序列上損失性能颊郎。這有兩個好處:首先憋飞,模型可以學(xué)習(xí)推廣(外推)到更長的序列,其次姆吭,模型可以在更短的序列上訓(xùn)練榛做,從而減少訓(xùn)練時間。
8????道德内狸、限制和影響
隨著大型語言模型的迅速發(fā)展和采用检眯,人們對這些模型的倫理、用途和局限性進行了嚴(yán)格的討論昆淡。為了更完整地處理這些主題锰瘸,我們將讀者引向Bommasani等人(2021);Bender等人(2021)昂灵;Birhane等人(2022)避凝;Weidinger等人(2021、2022年)眨补。我們討論與BloombergGPT的發(fā)展直接相關(guān)的問題管削。
8.1????道德使用
金融是技術(shù)敏感領(lǐng)域,確保準(zhǔn)確撑螺、真實的信息對我們的產(chǎn)品含思、客戶和公司在市場上的聲譽至關(guān)重要。另一方面甘晤,客戶也渴望采用最先進技術(shù)來支持他們的工作流程含潘。為了向金融界提供自然語言應(yīng)用程序,我們制定了嚴(yán)格的風(fēng)險和測試評估流程线婚。這一過程包括仔細的注釋指南Tseng等人(2020)遏弱,由中央風(fēng)險和合規(guī)組織以及產(chǎn)品領(lǐng)導(dǎo)者(如新聞編輯室)在多個層面進行發(fā)布前審查(如適用),以及發(fā)布后監(jiān)測塞弊。此外腾窝,我們根據(jù)所有適用法規(guī)進行NLP和AI系統(tǒng)的研究缀踪、開發(fā)和部署。
同樣虹脯,作為一家公司,我們在毒性和偏見方面對生產(chǎn)的任何內(nèi)容都格外小心奏候,無論是來自人類還是機器的內(nèi)容循集。由于我們模型中毒性和偏見的測量取決于其應(yīng)用領(lǐng)域,因此量化有害語言產(chǎn)生的可能性仍然是一個懸而未決的問題蔗草。我們特別感興趣的是研究FinPile咒彤,它更干凈,包含的公開偏見或有毒語言的例子更少(例如咒精,新聞稿)镶柱,是否降低了模型生成不適當(dāng)內(nèi)容的傾向。隨著我們開發(fā)基于該技術(shù)的產(chǎn)品模叙,我們將應(yīng)用現(xiàn)有的測試程序以及風(fēng)險和合規(guī)控制歇拆,以確保安全使用。
8.2????開放性
社區(qū)中正在進行的一場辯論涉及LLM應(yīng)該如何發(fā)布(如果有的話)范咨。雖然社區(qū)無法對未公開的模型進行全面評估故觅,但發(fā)布模型可能會導(dǎo)致邪惡的目的。尤其是對于像BloombergGPT這樣的模型渠啊,它是根據(jù)大量的新聞稿输吏、新聞文章和文件進行訓(xùn)練的,一個版本通過模仿而被濫用的風(fēng)險很高替蛉。
我們已經(jīng)看到了許多不同的策略來減輕與LLM發(fā)布相關(guān)的風(fēng)險贯溅。一種策略是自由公開地共享經(jīng)過訓(xùn)練的模型Scao等人(2022),并依賴于一個許可證來決定如何使用該模型躲查。另一個要求個人申請訪問經(jīng)過訓(xùn)練的模型參數(shù)Zhang等人(2022a)它浅;Touvron等人(2023)。一種更具限制性的方法是提供API對模型的訪問權(quán)限熙含,但無法訪問基礎(chǔ)模型參數(shù)或模型訓(xùn)練數(shù)據(jù)的詳細信息(Brown等人罚缕,2020)。最后怎静,一些人沒有提供對Chowdhery等人模型的訪問邮弹。(2022);Hoffmann等人(2022)蚓聘。每個決策都反映了多種因素的組合腌乡,包括模型使用、潛在危害和商業(yè)決策夜牡。
Bloomberg的核心業(yè)務(wù)主張之一是提供對幾十年來收集的數(shù)據(jù)的訪問与纽。眾所周知侣签,LLM容易受到數(shù)據(jù)泄露攻擊,并且在給定模型權(quán)重的情況下急迂,可以提取文本的重要片段影所。Carlini等人(2020,2022)僚碎。此外猴娩,即使有選擇地接觸研究人員,也不能保證模型不會泄露勺阐。如果沒有強有力的隱私保障卷中,我們必須擔(dān)心,提供對模型權(quán)重的訪問需要提供對FinPile的訪問渊抽。出于這個原因蟆豫,我們謹(jǐn)慎行事,并遵循其他LLM開發(fā)人員的做法懒闷,不發(fā)布我們的模型十减。
盡管如此,我們在訓(xùn)練和評估BloombergGPT方面的見解和經(jīng)驗有助于加深對這些模型的理解毛雇。特別是嫉称,我們的經(jīng)驗可能對那些構(gòu)建自己的領(lǐng)域特定模型的人有用。在開發(fā)BloombergGPT的過程中灵疮,我們發(fā)現(xiàn)OPT chronicles织阅、BLOOM團隊的經(jīng)驗,以及GPT-3震捣、PaLM荔棉、Chinchilla、Galactica和Gopher等非開放模型的工作蒿赢,都是我們工作的關(guān)鍵推動者润樱。
9????結(jié)論
我們介紹了BloombergGPT,這是一種用于金融NLP的一流LLM羡棵。
我們的模型為正在進行的關(guān)于訓(xùn)練領(lǐng)域特定模型的有效方法的對話做出了貢獻壹若。我們混合領(lǐng)域特定數(shù)據(jù)和通用數(shù)據(jù)的訓(xùn)練策略產(chǎn)生了一個平衡兩個領(lǐng)域性能的模型。此外皂冰,我們的工作提供了另一個關(guān)于選擇Chinchilla optimal-sized模型的數(shù)據(jù)點店展。最后,我們希望我們的模型訓(xùn)練日志將為那些訓(xùn)練自己的LLM的人提供指導(dǎo)秃流。
我們有幾個有趣的方向要追求赂蕴。首先,任務(wù)微調(diào)使LLM得到了顯著改進舶胀,我們計劃考慮在金融領(lǐng)域存在哪些獨特的模型對齊機會(Wei等人概说,2021碧注;Ouyang等人,2022年)糖赔。其次萍丐,通過在FinPile中對數(shù)據(jù)進行訓(xùn)練,我們選擇了可能表現(xiàn)出毒性較小和偏見較小的語言的數(shù)據(jù)放典。這對最終模型的影響尚不清楚碉纺,我們計劃對其進行測試。第三刻撒,我們試圖了解我們的Tokenizer策略如何改變最終的模型。這些是我們希望與BloombergGPT一起追求的一些新的研究方向耿导。
我們在通用LLM基準(zhǔn)方面取得了強勁的業(yè)績声怔,在財務(wù)任務(wù)方面優(yōu)于可比模型。我們把這歸因于(影響從大到胁丈搿):1. 精心策劃的內(nèi)部數(shù)據(jù)集醋火;2. 我們在tokenizer中的獨特選擇,以及3. 最新的體系結(jié)構(gòu)箱吕。我們將繼續(xù)與BloombergGPT一起開發(fā)金融應(yīng)用程序芥驳,以進一步探索這些建模選擇的好處。
致謝
感謝幫助我們的人茬高,包括Emmanuel Scoullos(NVIDIA)和Can Karakus(亞馬遜網(wǎng)絡(luò)服務(wù))兆旬。
附錄
附錄B外部財務(wù)任務(wù)的詳細信息
FPB(Malo等人,2014):
金融短語庫數(shù)據(jù)集包括一項情感分類任務(wù)怎栽,內(nèi)容涉及約5000句英語句子丽猬,這些句子取自O(shè)MX赫爾辛基上市公司的金融新聞。積極熏瞄、消極脚祟、中性的情緒注釋是從投資者的角度來判斷的:任何可能對投資者有利/有害的消息都被認(rèn)為是積極/消極和中性的。每一句話都由5到8名具有足夠金融知識的注釋者進行注釋强饮,而原始句子則由金融記者撰寫由桌。例如,有關(guān)收入減少的新聞會被貼上負(fù)面標(biāo)簽邮丰,而公司增長則會被貼成正面標(biāo)簽行您。雖然該數(shù)據(jù)集有不同的配置,每個配置表示注釋器之間的一致性百分比(≥50%柠座,≥66%邑雅,≥75%,100%)妈经,但我們選擇使用≥50%的配置淮野。由于沒有正式的列車測試劃分捧书,我們創(chuàng)建了自己的隨機劃分。我們的訓(xùn)練部分包含3876個句子骤星,其中1086個是陽性句子经瓷,488個是陰性句子,2302個是中性句子洞难,我們的測試集包含970個句子舆吮,包括277個是陽性、116個是陰性和577個中性句子队贱。我們選擇5次射門色冀,并報告按支持度加權(quán)的F1得分。
FiQA SA(Maia等人柱嫌,2018):
第二項情緒分析任務(wù)是預(yù)測英語財經(jīng)新聞和微博頭條中的特定方面情緒锋恬,這些新聞和微博標(biāo)題是作為2018年金融問答和意見挖掘挑戰(zhàn)的一部分發(fā)布的。在最初的任務(wù)中编丘,情緒是以[-1与学,+1]的連續(xù)尺度進行注釋的;關(guān)于注釋任務(wù)的細節(jié)并不容易獲得嘉抓。為了使該回歸數(shù)據(jù)集適用于少鏡頭LLM設(shè)置索守,我們將其轉(zhuǎn)換為分類任務(wù):陰性(?1≤x<?0.1)、中性(?0.1≤x<+0.1)和陽性(+0.1≤x≤+1)抑片,其中x是原始情緒得分卵佛。我們選擇這種離散化是基于對數(shù)據(jù)集的手動檢查。與FPB一樣蓝丙,我們將微博和新聞結(jié)合起來级遭,創(chuàng)建自己的隨機劃分。離散化后渺尘,我們的訓(xùn)練集包含938個句子挫鸽,其中576個是正句子,287個是負(fù)句子鸥跟,75個是中性句子丢郊,我們的測試集包含235個句子,141個是正語句医咨,76個是負(fù)語句枫匾,18個是中性語句。我們選擇5個鏡頭并報告加權(quán)F1拟淮。
頭條新聞(Sinha和Khandait干茉,2020):
這是一個二元分類任務(wù),用于判斷黃金商品領(lǐng)域的新聞標(biāo)題是否包含某些信息很泊。這個人工注釋的數(shù)據(jù)集由2000年至2019年的11412個英文新聞標(biāo)題組成角虫,這些標(biāo)題是從路透社沾谓、《印度教徒報》、《經(jīng)濟時報》戳鹅、Bloomberg等提供商以及Kitco和MetalsDaily等聚合網(wǎng)站上刮來的關(guān)于“黃金”的均驶。每一篇新聞文章都有以下標(biāo)簽的子集:“價格與否”、“價格上漲”枫虏、“物價下跌”妇穴、“穩(wěn)定價格”、“過去價格”隶债、《未來價格》腾它、“過去一般”、“未來一般”和“資產(chǎn)比較”死讹。數(shù)據(jù)集是使用注釋器一致性創(chuàng)建的携狭,每個類別的Cohen Kappa≥0.85,表明是一個高質(zhì)量的數(shù)據(jù)集回俐。與FPB一樣,我們創(chuàng)建自己的隨機劃分稀并。我們的訓(xùn)練集包含9129個句子仅颇,分別有7780個、3785個碘举、3392個忘瓦、414個、7482個引颈、299個耕皮、1285個、67個蝙场、1696個例子凌停,分別是“價格與否”、“價格上漲”售滤、“股價下跌”罚拟、“物價穩(wěn)定”、“過去的價格”完箩、“未來的價格”赐俗,“過去的一般”、“將來的一般”和“資產(chǎn)比較”類別弊知。類似地阻逮,測試集包含2283個句子,其中1955秩彤、962叔扼、838事哭、109、1873币励、82慷蠕、313、15食呻、454個是同一類的例子流炕。我們使用每個標(biāo)簽的官方文檔將每個標(biāo)簽表述為一個問題,如表18所示仅胞。我們使用了5次射門每辟,并報告了所有類別的F1平均加權(quán)得分。
凈入學(xué)率(Salinas Alvarado等人干旧,2015):
這是一項針對為信用風(fēng)險評估而收集的財務(wù)數(shù)據(jù)的命名實體識別任務(wù)渠欺。該數(shù)據(jù)集由8份向美國證券交易委員會提交的約55000字的金融協(xié)議文件組成。注釋實體類型遵循標(biāo)準(zhǔn)CoNLL格式(Tjong Kim Sang和De Meulder椎眯,2003)挠将,并用PER、LOC编整、ORG和MISC進行注釋舔稀。我們使用Fin-5作為訓(xùn)練數(shù)據(jù),用于對Fin-3分割進行上下文采樣和測試掌测。由于MISC無法單獨定義内贮,但“名稱不屬于其他類別”(Tjong Kim Sang和De Meulder,2003)汞斧,我們刪除了所有MISC類型的實體夜郁。此外,由于在少數(shù)鏡頭設(shè)置中學(xué)習(xí)預(yù)測空輸出是不重要的粘勒,我們放棄了不包含任何實體的句子竞端。經(jīng)過預(yù)處理,我們的訓(xùn)練集包含504個具有168 PER庙睡、745 LOC和241 ORG的句子婶熬,而我們的測試集包含98個具有39 PER、216 LOC和56 ORG的語句埃撵。我們發(fā)現(xiàn)所有模型都需要更多的鏡頭才能表現(xiàn)良好赵颅。因此台妆,我們選擇了20個鏡頭秕噪,并報告實體級別的F1分?jǐn)?shù)。
ConvFinQA(Chen等人冬殃,2022):
給定一個包含文本和至少一個包含財務(wù)數(shù)據(jù)的表的輸入,任務(wù)是回答需要對輸入進行數(shù)字推理的對話問題募寨。源數(shù)據(jù)是標(biāo)準(zhǔn)普爾500指數(shù)成分股公司的盈利報告族展,包括3892次對話,包括14115個問題拔鹰。這項任務(wù)需要數(shù)字推理仪缸、對結(jié)構(gòu)化數(shù)據(jù)和財務(wù)概念的理解,并且模型需要將后續(xù)問題與對話轉(zhuǎn)折聯(lián)系起來列肢。為了解決這項任務(wù)恰画,我們使用“1次射擊”,將整個黃金對話及其上下文輸入到模型中瓷马。此外拴还,當(dāng)對話的每個“轉(zhuǎn)彎”結(jié)束時,“轉(zhuǎn)彎”和該轉(zhuǎn)彎的“黃金”答案都會作為未來轉(zhuǎn)彎的上下文附加欧聘。表在上下文中被線性化(正如作者所建議的那樣)為Markdown表片林,我們用“-”替換空條目。報告的分?jǐn)?shù)是由模型產(chǎn)生的直接答案的精確匹配精度怀骤。由于測試集標(biāo)簽不是公開可用的费封,因此我們會報告開發(fā)集的結(jié)果。我們的訓(xùn)練集包含11104個對話和45888個問題蒋伦,我們的測試集包含1490個對話和5932個問題孝偎。