語言模型的自洽性思維鏈推理技術(shù)

論文標(biāo)題:Self-Consistency Improves Chain of Thought Reasoning in Language Models
論文鏈接:https://arxiv.org/abs/2203.11171
論文來源:ICLR 2023

一火鼻、概述

盡管語言模型在一系列NLP任務(wù)中展現(xiàn)出了顯著的成功伯复,但它們在推理能力方面仍然面臨一些限制,這種限制不能僅僅通過增加模型規(guī)模來克服宋彼。為了解決這些問題盛末,Wei等人(2022)提出了思維鏈提示(chain-of-thought prompting)充活,即提示語言模型生成一系列模擬人在解決任務(wù)時(shí)可能使用的推理過程的短句菲驴。例如凄杯,給出問題“If there are 3 cars in the parking lot and 2 more cars arrive, how many cars are in the parking lot?”時(shí)悬荣,不直接回答“5”菠秒,而是提示語言模型以完整的思維鏈回答:“There are 3 cars in the parking lot already. 2 more arrive. Now there are 3 + 2 = 5 cars. The answer is 5.”。實(shí)驗(yàn)結(jié)果顯示思維鏈提示顯著提高了模型在各種多步推理任務(wù)中的性能氯迂。

在本文中践叠,我們引入了一種新的解碼策略,稱為自洽性(self-consistency)囚戚,以替代思維鏈提示中使用的貪婪解碼(greedy decoding)策略酵熙,這進(jìn)一步顯著提高了語言模型的推理性能。自洽性利用了一個(gè)直覺驰坊,即對于復(fù)雜的推理任務(wù)匾二,通常可以通過多個(gè)推理路徑達(dá)到正確的答案。對一個(gè)問題需要進(jìn)行更多的深思熟慮和分析察藐,可以得到答案的推理路徑的多樣性就越大皮璧。

下圖用一個(gè)例子說明了自洽性方法。我們首先用思維鏈提示語言模型分飞,然后我們不是貪婪地解碼最優(yōu)推理路徑悴务,而是提出了一種“采樣和邊際化”(sample-and-marginalize)解碼程序:我們首先從語言模型的Decoder中采樣,生成一套多樣的推理路徑譬猫;每個(gè)推理路徑可能會導(dǎo)致不同的最終答案讯檐,因此我們通過邊際化采樣的推理路徑來確定最優(yōu)答案,找出在最終答案集合中最一致(consistent)的答案染服。這種方法類似于人類的經(jīng)驗(yàn)别洪,即如果多種不同的思考方式都能得出相同的答案,人們對最終答案的正確性就會更有信心柳刮。與其他解碼方法相比挖垛,自洽性避免了貪婪解碼中困擾的重復(fù)性(repetitiveness)和局部最優(yōu)性(local-optimality),同時(shí)減輕了單一采樣生成的隨機(jī)性秉颗。

自洽思維鏈

自洽性思維鏈比之前那些要么訓(xùn)練額外的verifier痢毒,要么在給定額外人類標(biāo)注以提高生成質(zhì)量的情況下訓(xùn)練一個(gè)re-ranker的方法要簡單得多。相反蚕甥,自洽性完全是無監(jiān)督的哪替,可以直接與預(yù)訓(xùn)練的語言模型一起使用,無需額外的人類標(biāo)注梢灭,也避免了任何額外的訓(xùn)練夷家,輔助模型或微調(diào)。自洽性也不同于典型的集成(ensemble)方法敏释,其中訓(xùn)練多個(gè)模型并聚合每個(gè)模型的輸出库快,它更像是一個(gè)作用在單一語言模型之上的“自我集成”。

我們在廣泛的算術(shù)和常識推理任務(wù)上評估了自洽性思維鏈钥顽,這些任務(wù)涵蓋了四種不同規(guī)模的語言模型:UL2-20B义屏、GPT-3-175B、LaMDA-137B和PaLM-540B蜂大。在所有四種語言模型上闽铐,自洽性在所有任務(wù)上都顯著提高了思維鏈提示的效果。在額外的實(shí)驗(yàn)中奶浦,我們展示了自洽性可以在一些添加思維鏈可能會降低與標(biāo)準(zhǔn)提示相比的性能的NLP任務(wù)上魯棒地提升性能兄墅。我們還展示了自洽性顯著優(yōu)于sample-and-rank,beam search以及基于集成的方法澳叉,并且對采樣策略和不完美的提示具有魯棒性隙咸。

二沐悦、方法

人類的一個(gè)顯著特點(diǎn)是思考方式各異。很自然地五督,我們會假設(shè)在需要深思熟慮的任務(wù)中藏否,可能有幾種方法來解決問題。我們提出充包,這樣的過程可以通過從語言模型的Decoder中進(jìn)行抽樣在語言模型中進(jìn)行模擬副签。例如,如上圖所示基矮,一個(gè)模型可以針對數(shù)學(xué)問題生成幾個(gè)可能的回答淆储,所有的回答都能得出同樣正確的答案(輸出1和3)。由于語言模型并不是完美的推理者家浇,模型也可能產(chǎn)生一個(gè)不正確的推理路徑遏考,或者在推理步驟中出現(xiàn)錯(cuò)誤(例如,在輸出2中)蓝谨,但是這樣的解決方案不太可能得出相同的答案。也就是說青团,我們假設(shè)譬巫,即使正確推理過程是多樣的(diverse),它們在最終答案上的一致性也往往大于錯(cuò)誤的過程督笆。

我們利用這個(gè)直覺芦昔,提出了以下的自洽性方法。首先娃肿,用一組手工編寫的思維鏈?zhǔn)纠ㄎ旱热耍?022)提示語言模型咕缎。接下來,我們從語言模型的Decoder中抽取一組候選輸出料扰,生成一組多樣的候選推理路徑凭豪。自洽性與大多數(shù)現(xiàn)有的抽樣算法兼容,包括溫度抽樣晒杈、top-k抽樣嫂伞,以及核采樣。最后拯钻,我們通過邊際化出采樣的推理路徑并聚合答案帖努,選擇在生成答案中最一致的答案。

更詳細(xì)地說粪般,假設(shè)生成的答案a_{i}來自一個(gè)固定的答案集合拼余,a_{i}\in \mathbb{A},其中i=1,\cdots ,m索引的是從Decoder采樣的m個(gè)候選輸出亩歹。給定一個(gè)提示和一個(gè)問題匙监,自洽性引入了一個(gè)額外的隱變量r_{i}凡橱,這是一個(gè)代表第i個(gè)輸出中推理路徑的token序列,然后將(r_{i},a_{i})的生成耦合在一起舅柜,其中r_{i}\rightarrow a_{i}梭纹,即,推理路徑r_{i}是可選的致份,只用于到達(dá)最終答案a_{i}变抽。例如,考慮上圖中的輸出3:前幾句“She eats 3 for breakfast ... So she has 9 eggs * $2 = $18.”構(gòu)成了r_{i}氮块,而最后一句中的答案18绍载,“The answer is $18”,即是a_{i}滔蝉。在從模型的Decoder中采樣多個(gè)(r_{i},a_{i})后击儡,自洽性對r_{i}進(jìn)行邊際化(邊際化的意思就是說不管推理路徑了,只看最終答案)蝠引,并且在a_{i}上應(yīng)用多數(shù)投票阳谍,即將argmax_{a}\sum_{i=1}^{m}\mathbb{1}(a_{i}=a)作為最終答案,或者我們定義為在最終答案集中最“一致”的答案螃概。

在下表中矫夯,我們使用不同的答案聚合策略顯示了一組推理任務(wù)的測試準(zhǔn)確率。除了多數(shù)投票外吊洼,在聚合答案時(shí)训貌,還可以通過P(r_{i},a_{i}|prompt,question)為每個(gè)(r_{i},a_{i})賦予權(quán)重。注意冒窍,要計(jì)算P(r_{i},a_{i}|prompt,question)递沪,我們可以給定(prompt,question)條件下生成(r_{i},a_{i})的未歸一化概率,也可以通過輸出長度來歸一化條件概率综液,也就是:

P(r_{i},a_{i}|prompt,question)=exp^{\frac{1}{K}\sum_{k=1}^{K}logP(t_{k}|prompt,question,t_{1},\cdots ,t_{k-1})}

其中款慨,logP(t_{k}|prompt,question,t_{1},\cdots ,t_{k-1})是在前一個(gè)token的條件下生成(r_{i},a_{i})中第k個(gè)tokent_{k}的對數(shù)概率,K(r_{i},a_{i})中的總token數(shù)谬莹。下表中顯示了樱调,“unweighted sum”,即届良,直接對a_{i}進(jìn)行多數(shù)投票笆凌,得出的準(zhǔn)確率與使用“normalized weighted sum”進(jìn)行聚合的準(zhǔn)確率非常相似。我們仔細(xì)查看了模型的輸出概率士葫,發(fā)現(xiàn)這是因?yàn)閷τ诿總€(gè)(r_{i},a_{i})乞而,歸一化的條件概率P(r_{i},a_{i}|prompt,question)彼此非常接近,即慢显,語言模型認(rèn)為這些生成是“同樣可能的”爪模。此外欠啤,當(dāng)聚合答案時(shí),下表中的結(jié)果顯示屋灌,“normalized weighted sum”(即上面的等式)比對應(yīng)的“unnormalized weighted sum”產(chǎn)生的準(zhǔn)確率要高得多洁段。為了完整起見,我們還在下表中報(bào)告了采取“weighted avg”的結(jié)果共郭,即祠丝,每個(gè)a得分為其weighted sum除以\sum_{i=1}^{m}\mathbb{1}(a_{i}=a),這導(dǎo)致了性能大大降低除嘹。

聚合策略

自洽性探索了在開放式文本生成和固定答案的最優(yōu)文本生成之間的一個(gè)有趣的空間写半。推理任務(wù)通常有固定的答案,這就是為什么研究者們通澄竟荆考慮貪婪解碼方法叠蝇。然而,我們發(fā)現(xiàn)年缎,即使期望的答案是固定的悔捶,在推理過程中引入多樣性也可以帶來很大的益處;因此单芜,我們利用常用于開放式文本生成的采樣來實(shí)現(xiàn)這個(gè)目標(biāo)炎功。需要注意的是,自洽性只能應(yīng)用于最終答案來自固定答案集的問題缓溅,但原則上拨脉,如果可以在多個(gè)生成之間定義一種一致性的合適的度量瓷们,比如,兩個(gè)答案是否一致或者相互矛盾活玲,那么這種方法就可以擴(kuò)展到開放式文本生成問題股囊。

三袜匿、實(shí)驗(yàn)

  1. 主要結(jié)果
實(shí)驗(yàn)
實(shí)驗(yàn)
實(shí)驗(yàn)
實(shí)驗(yàn)
  1. 思維鏈會造成性能下降的實(shí)驗(yàn)
實(shí)驗(yàn)
  1. 與其他先用方法的對比
實(shí)驗(yàn)
實(shí)驗(yàn)
實(shí)驗(yàn)
  1. 其他研究
實(shí)驗(yàn)
實(shí)驗(yàn)
實(shí)驗(yàn)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市稚疹,隨后出現(xiàn)的幾起案子居灯,更是在濱河造成了極大的恐慌,老刑警劉巖内狗,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件怪嫌,死亡現(xiàn)場離奇詭異,居然都是意外死亡柳沙,警方通過查閱死者的電腦和手機(jī)岩灭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來赂鲤,“玉大人噪径,你說我怎么就攤上這事柱恤。” “怎么了找爱?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵梗顺,是天一觀的道長。 經(jīng)常有香客問我车摄,道長寺谤,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任练般,我火速辦了婚禮矗漾,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘薄料。我一直安慰自己敞贡,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布摄职。 她就那樣靜靜地躺著誊役,像睡著了一般。 火紅的嫁衣襯著肌膚如雪谷市。 梳的紋絲不亂的頭發(fā)上蛔垢,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天,我揣著相機(jī)與錄音迫悠,去河邊找鬼鹏漆。 笑死,一個(gè)胖子當(dāng)著我的面吹牛创泄,可吹牛的內(nèi)容都是我干的艺玲。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼鞠抑,長吁一口氣:“原來是場噩夢啊……” “哼饭聚!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起搁拙,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤秒梳,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后箕速,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體酪碘,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年盐茎,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了婆跑。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,989評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡庭呜,死狀恐怖滑进,靈堂內(nèi)的尸體忽然破棺而出犀忱,到底是詐尸還是另有隱情,我是刑警寧澤扶关,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布阴汇,位于F島的核電站,受9級特大地震影響节槐,放射性物質(zhì)發(fā)生泄漏搀庶。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一铜异、第九天 我趴在偏房一處隱蔽的房頂上張望哥倔。 院中可真熱鬧,春花似錦揍庄、人聲如沸咆蒿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽沃测。三九已至,卻和暖如春食茎,著一層夾襖步出監(jiān)牢的瞬間蒂破,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工别渔, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留附迷,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓哎媚,卻偏偏與公主長得像喇伯,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子抄伍,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容