近日,阿里云人工智能平臺PAI與華東師范大學(xué)張偉教授團隊合作在自然語言處理頂級會議EMNLP2023上發(fā)表了基于認知理論所衍生的CogTree認知樹生成式語言模型乒验。通過兩個系統(tǒng):直覺系統(tǒng)和反思系統(tǒng)來模仿人類產(chǎn)生認知的過程愚隧。直覺系統(tǒng)負責(zé)產(chǎn)生原始問題的多個分解假設(shè),反思系統(tǒng)對直覺系統(tǒng)產(chǎn)生的假設(shè)進行驗證锻全,并選擇更有可能的假設(shè)進行后續(xù)生成狂塘,直到達到最終結(jié)果。通過上述雙系統(tǒng)的迭代式生成鳄厌,可以提升大模型的解題準(zhǔn)確度荞胡。
論文:
Junbing Yan, Chengyu Wang, Taolin Zhang, Xiaofeng He, Jun Huang, Wei Zhang. From Complex to Simple: Unraveling the Cognitive Tree for Reasoning with Small Language Models. EMNLP 2023 (Findings)
背景
隨著深度學(xué)習(xí)在自然語言處理、機器翻譯等任務(wù)上的不斷發(fā)展了嚎,人們對如何將深度學(xué)習(xí)應(yīng)用到自然語言處理中越來越感興趣泪漂,由此出現(xiàn)了大語言模型(例如GPT-3.5),并已在文本生成歪泳、情感分析萝勤、對話系統(tǒng)等多個任務(wù)上取得了重大突破。大語言模型通衬派。基于大規(guī)模文本數(shù)據(jù)進行預(yù)訓(xùn)練敌卓,然后通過微調(diào)在特定任務(wù)上進行優(yōu)化,以生成高質(zhì)量的文本輸出荸哟。然而假哎,對于語言模型而言瞬捕,復(fù)雜的邏輯推理問題和數(shù)學(xué)問題的求解仍然是很困難的。并且舵抹,傳統(tǒng)的語言模型缺乏認知能力肪虎。在處理涉及冗長的推理鏈或多步解決方案的問題時,對于問題及其當(dāng)前回答的評估是很重要的惧蛹。然而扇救,目前的方法例如Chain-of-thought等通常缺乏對于中間過程的驗證。并且大型語言模型的部署和推理成本相對較高香嗓,特別是在利用無參數(shù)更新的推理增強技術(shù)時迅腔。這些技術(shù)需要大量的上下文和多步的答案生成,進一步增加了推理成本和時間靠娱。
因此沧烈,本文研究面向輕量化大模型的復(fù)雜任務(wù)推理,使用較小規(guī)模的模型(7B)像云,構(gòu)建雙系統(tǒng)生成推理樹锌雀,大大增強模型在復(fù)雜數(shù)學(xué)問題和邏輯推理問題上的回答能力。提出了一種大模型面向復(fù)雜數(shù)學(xué)問題的求解方法迅诬。該方法基于人類的認知理論腋逆,通過兩個系統(tǒng):直覺系統(tǒng)和反思系統(tǒng)來模仿人類產(chǎn)生認知的過程。直覺系統(tǒng)負責(zé)產(chǎn)生原始問題的多個分解假設(shè)侈贷,反思系統(tǒng)對直覺系統(tǒng)產(chǎn)生的假設(shè)進行驗證惩歉,并選擇更有可能的假設(shè)進行后續(xù)生成,直到達到最終結(jié)果俏蛮。通過上述雙系統(tǒng)的迭代式生成撑蚌,可以提升大模型的解題準(zhǔn)確度。
算法概述
為了解決上述大模型對復(fù)雜任務(wù)推理準(zhǔn)確度不高且推理成本大的問題嫁蛇,CogTree采用雙系統(tǒng)的方式锨并,用大模型分別構(gòu)建兩個系統(tǒng):直覺系統(tǒng)和反思系統(tǒng),使用直覺系統(tǒng)生成原問題分解的假設(shè)睬棚,使用反思系統(tǒng)驗證假設(shè)的正確性第煮,引導(dǎo)直覺系統(tǒng)后續(xù)的生成。模型框架圖如下所示:
通過雙系統(tǒng)迭代式的生成一棵推理樹抑党,增強大模型的推理能力包警。本方法的創(chuàng)新性是面向大語言模型,設(shè)計了一套新的推理框架底靠,增強大模型在復(fù)雜數(shù)學(xué)問題上的推理能力害晦。
直覺系統(tǒng)
直覺系統(tǒng)的生成能力是構(gòu)建認知樹的基礎(chǔ)。因此,選擇僅包decoder-only的模型(例如壹瘟,GPT2-XL或LLaMA-7B)作為直覺系統(tǒng)鲫剿。通過上下文方法來增強直覺系統(tǒng)的能力。定義查詢為邏輯推理問題的最終目標(biāo)或數(shù)學(xué)問題稻轨。在邏輯推理問題的情況下灵莲,分解
涉及將目標(biāo)進一步分解為較小問題,通過對這些分解進行推理殴俱,可以實現(xiàn)最終目標(biāo)政冻。對于數(shù)學(xué)問題,它指的是從原始問題中導(dǎo)出的子問題之一线欲,解決這個子問題有助于解決整個原始問題明场。分解集合表示訓(xùn)練集中所有示例的分解集合。從推理分解集合中檢索k個示例(例如李丰,查詢:
苦锨;分解:詢
,然后將它們用作模型輸入的上下文嫌套。輸出可以生成為
逆屡。這里圾旨,
代表從分解集合
中檢索到的k個示例踱讨,其中
。使用直覺系統(tǒng)獲取當(dāng)前查詢的表示砍的,并計算與集合中其他查詢的表示的余弦相似度痹筛。然后,我們從集合中檢索出最相似的k個查詢廓鞠。其中
是一個連續(xù)語言序列帚稠。
反思系統(tǒng)
反思系統(tǒng)在作用上與直覺系統(tǒng)不同。直覺系統(tǒng)依賴于快速直覺進行生成床佳,而反思系統(tǒng)的作用是評估直覺系統(tǒng)的生成結(jié)果以確定其可接受性滋早。反思系統(tǒng)通過采用兩種方法來驗證結(jié)果:中間過程的驗證和整個推理鏈的驗證。給定當(dāng)前狀態(tài)(查詢:
與分解:
砌们,使用與直覺系統(tǒng)相同的模型架構(gòu)的反思系統(tǒng)來生成一個驗證當(dāng)前狀態(tài)的分數(shù)
杆麸。這可以表示為
。此外浪感,基于完整的推理鏈
昔头。使用反思系統(tǒng)來產(chǎn)生一個整體分數(shù)
,可以表示為
影兽。反思系統(tǒng)與直覺系統(tǒng)不同揭斧,其主要任務(wù)是評估和驗證當(dāng)前狀態(tài)和整個推理鏈的可行性,而不是像直覺系統(tǒng)那樣產(chǎn)生快速假設(shè)峻堰。這種評估過程有助于確保生成的假設(shè)和推理過程是合理的讹开。
訓(xùn)練
直覺系統(tǒng)
Supervised Fine-tuning (SFT)已經(jīng)證明了其在對其人類意圖上的有效性盅视。在我們的方法中,直覺系統(tǒng)通過利用上下文示例將查詢(即復(fù)雜問題)分解為子問題旦万。由于我們使用生成模型作為直覺系統(tǒng)左冬,因此在自回歸計算期間,僅對生成的文本(不包括給定的上下文)進行損失計算纸型。給定一個長度為
的樣本拇砰,表示為
,其中
狰腌。我們定義上下文示例的序列長度為
除破。 我們使用標(biāo)準(zhǔn)的語言建模目標(biāo)來最大化以下似然函數(shù):
。
反思系統(tǒng)
反思系統(tǒng)采取與直覺系統(tǒng)相同的訓(xùn)練方法琼腔,利用正負樣本讓模型從中生成分類結(jié)果瑰枫。由于反思系統(tǒng)主要關(guān)注狀態(tài)的判斷,損失函數(shù)可以定義如下:
丹莲。
算法精度評測
為了驗證CogTree算法的有效性光坝,我們在Entailment Bank邏輯推理數(shù)據(jù)集以及GSM8K數(shù)學(xué)問題數(shù)據(jù)集上進行了測試,效果證明CogTree對大模型復(fù)雜任務(wù)上的回答準(zhǔn)確率提升明顯:
我們也將算法與其他基于大模型微調(diào)的方法進行對比甥材,證明了CogTree框架的有效性盯另。
為了更好地服務(wù)開源社區(qū),CogTree算法的源代碼即將貢獻在自然語言處理算法框架EasyNLP中洲赵,歡迎NLP從業(yè)人員和研究者使用鸳惯。
EasyNLP開源框架:https://github.com/alibaba/EasyNLP
參考文獻
- Chengyu Wang, Minghui Qiu, Taolin Zhang, Tingting Liu, Lei Li, Jianing Wang, Ming Wang, Jun Huang, Wei Lin. EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing. EMNLP 2022
- Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, and John Schulman. 2021a. Training verifiers to solve math word problems. CoRR, abs/2110.14168
- Denny Zhou, Nathanael Sch?rli, Le Hou, Jason Wei, Nathan Scales, Xuezhi Wang, Dale Schuurmans, Olivier Bousquet, Quoc Le, and Ed H. Chi. 2022. Least-to-most prompting enables complex reasoning in large language models. CoRR, abs/2205.10625
- Jonathan St B. T. Evans. 1984. Heuristic and analytic processes in reasoning. British Journal of Psychology, 75(4):451–468
論文信息
論文標(biāo)題:From Complex to Simple: Unraveling the Cognitive Tree for Reasoning with Small Language Models
論文作者:嚴(yán)俊冰、汪誠愚叠萍、張濤林芝发、何曉豐、黃俊苛谷、張偉
論文pdf鏈接:https://arxiv.org/abs/2311.06754