語言模型的自洽性思維鏈推理技術(shù)

論文標(biāo)題：Self-Consistency Improves Chain of Thought Reasoning in Language Models
論文鏈接：https://arxiv.org/abs/2203.11171
論文來源：ICLR 2023

一火鼻、概述

盡管語言模型在一系列NLP任務(wù)中展現(xiàn)出了顯著的成功伯复，但它們在推理能力方面仍然面臨一些限制，這種限制不能僅僅通過增加模型規(guī)模來克服宋彼。為了解決這些問題盛末，Wei等人（2022）提出了思維鏈提示（chain-of-thought prompting）充活，即提示語言模型生成一系列模擬人在解決任務(wù)時(shí)可能使用的推理過程的短句菲驴。例如凄杯，給出問題“If there are 3 cars in the parking lot and 2 more cars arrive, how many cars are in the parking lot?”時(shí)悬荣，不直接回答“5”菠秒，而是提示語言模型以完整的思維鏈回答：“There are 3 cars in the parking lot already. 2 more arrive. Now there are 3 + 2 = 5 cars. The answer is 5.”。實(shí)驗(yàn)結(jié)果顯示思維鏈提示顯著提高了模型在各種多步推理任務(wù)中的性能氯迂。

在本文中践叠，我們引入了一種新的解碼策略，稱為自洽性（self-consistency）囚戚，以替代思維鏈提示中使用的貪婪解碼（greedy decoding）策略酵熙，這進(jìn)一步顯著提高了語言模型的推理性能。自洽性利用了一個(gè)直覺驰坊，即對于復(fù)雜的推理任務(wù)匾二，通常可以通過多個(gè)推理路徑達(dá)到正確的答案。對一個(gè)問題需要進(jìn)行更多的深思熟慮和分析察藐，可以得到答案的推理路徑的多樣性就越大皮璧。

下圖用一個(gè)例子說明了自洽性方法。我們首先用思維鏈提示語言模型分飞，然后我們不是貪婪地解碼最優(yōu)推理路徑悴务，而是提出了一種“采樣和邊際化”（sample-and-marginalize）解碼程序：我們首先從語言模型的Decoder中采樣，生成一套多樣的推理路徑譬猫；每個(gè)推理路徑可能會導(dǎo)致不同的最終答案讯檐，因此我們通過邊際化采樣的推理路徑來確定最優(yōu)答案，找出在最終答案集合中最一致（consistent）的答案染服。這種方法類似于人類的經(jīng)驗(yàn)别洪，即如果多種不同的思考方式都能得出相同的答案，人們對最終答案的正確性就會更有信心柳刮。與其他解碼方法相比挖垛，自洽性避免了貪婪解碼中困擾的重復(fù)性（repetitiveness）和局部最優(yōu)性（local-optimality），同時(shí)減輕了單一采樣生成的隨機(jī)性秉颗。

自洽思維鏈

自洽性思維鏈比之前那些要么訓(xùn)練額外的verifier痢毒，要么在給定額外人類標(biāo)注以提高生成質(zhì)量的情況下訓(xùn)練一個(gè)re-ranker的方法要簡單得多。相反蚕甥，自洽性完全是無監(jiān)督的哪替，可以直接與預(yù)訓(xùn)練的語言模型一起使用，無需額外的人類標(biāo)注梢灭，也避免了任何額外的訓(xùn)練夷家，輔助模型或微調(diào)。自洽性也不同于典型的集成（ensemble）方法敏释，其中訓(xùn)練多個(gè)模型并聚合每個(gè)模型的輸出库快，它更像是一個(gè)作用在單一語言模型之上的“自我集成”。

我們在廣泛的算術(shù)和常識推理任務(wù)上評估了自洽性思維鏈钥顽，這些任務(wù)涵蓋了四種不同規(guī)模的語言模型：UL2-20B义屏、GPT-3-175B、LaMDA-137B和PaLM-540B蜂大。在所有四種語言模型上闽铐，自洽性在所有任務(wù)上都顯著提高了思維鏈提示的效果。在額外的實(shí)驗(yàn)中奶浦，我們展示了自洽性可以在一些添加思維鏈可能會降低與標(biāo)準(zhǔn)提示相比的性能的NLP任務(wù)上魯棒地提升性能兄墅。我們還展示了自洽性顯著優(yōu)于sample-and-rank，beam search以及基于集成的方法澳叉，并且對采樣策略和不完美的提示具有魯棒性隙咸。

二沐悦、方法

人類的一個(gè)顯著特點(diǎn)是思考方式各異。很自然地五督，我們會假設(shè)在需要深思熟慮的任務(wù)中藏否，可能有幾種方法來解決問題。我們提出充包，這樣的過程可以通過從語言模型的Decoder中進(jìn)行抽樣在語言模型中進(jìn)行模擬副签。例如，如上圖所示基矮，一個(gè)模型可以針對數(shù)學(xué)問題生成幾個(gè)可能的回答淆储，所有的回答都能得出同樣正確的答案（輸出1和3）。由于語言模型并不是完美的推理者家浇，模型也可能產(chǎn)生一個(gè)不正確的推理路徑遏考，或者在推理步驟中出現(xiàn)錯(cuò)誤（例如，在輸出2中）蓝谨，但是這樣的解決方案不太可能得出相同的答案。也就是說青团，我們假設(shè)譬巫，即使正確推理過程是多樣的（diverse），它們在最終答案上的一致性也往往大于錯(cuò)誤的過程督笆。

我們利用這個(gè)直覺芦昔，提出了以下的自洽性方法。首先娃肿，用一組手工編寫的思維鏈?zhǔn)纠ㄎ旱热耍?022）提示語言模型咕缎。接下來，我們從語言模型的Decoder中抽取一組候選輸出料扰，生成一組多樣的候選推理路徑凭豪。自洽性與大多數(shù)現(xiàn)有的抽樣算法兼容，包括溫度抽樣晒杈、top-k抽樣嫂伞，以及核采樣。最后拯钻，我們通過邊際化出采樣的推理路徑并聚合答案帖努，選擇在生成答案中最一致的答案。

更詳細(xì)地說粪般，假設(shè)生成的答案 $a_{i}$ 來自一個(gè)固定的答案集合拼余， $a_{i}\in \mathbb{A}$ ，其中 $i=1,\cdots ,m$ 索引的是從Decoder采樣的 $m$ 個(gè)候選輸出亩歹。給定一個(gè)提示和一個(gè)問題匙监，自洽性引入了一個(gè)額外的隱變量 $r_{i}$ 凡橱，這是一個(gè)代表第 $i$ 個(gè)輸出中推理路徑的token序列，然后將 $(r_{i},a_{i})$ 的生成耦合在一起舅柜，其中 $r_{i}\rightarrow a_{i}$ 梭纹，即，推理路徑 $r_{i}$ 是可選的致份，只用于到達(dá)最終答案 $a_{i}$ 变抽。例如，考慮上圖中的輸出3：前幾句“She eats 3 for breakfast ... So she has 9 eggs * $2 = $18.”構(gòu)成了 $r_{i}$ 氮块，而最后一句中的答案18绍载，“The answer is $18”，即是 $a_{i}$ 滔蝉。在從模型的Decoder中采樣多個(gè) $(r_{i},a_{i})$ 后击儡，自洽性對 $r_{i}$ 進(jìn)行邊際化（邊際化的意思就是說不管推理路徑了，只看最終答案）蝠引，并且在 $a_{i}$ 上應(yīng)用多數(shù)投票阳谍，即將 $argmax_{a}\sum_{i=1}^{m}\mathbb{1}(a_{i}=a)$ 作為最終答案，或者我們定義為在最終答案集中最“一致”的答案螃概。

在下表中矫夯，我們使用不同的答案聚合策略顯示了一組推理任務(wù)的測試準(zhǔn)確率。除了多數(shù)投票外吊洼，在聚合答案時(shí)训貌，還可以通過 $P(r_{i},a_{i}|prompt,question)$ 為每個(gè) $(r_{i},a_{i})$ 賦予權(quán)重。注意冒窍，要計(jì)算 $P(r_{i},a_{i}|prompt,question)$ 递沪，我們可以給定(prompt,question)條件下生成 $(r_{i},a_{i})$ 的未歸一化概率，也可以通過輸出長度來歸一化條件概率综液，也就是：

$P(r_{i},a_{i}|prompt,question)=exp^{\frac{1}{K}\sum_{k=1}^{K}logP(t_{k}|prompt,question,t_{1},\cdots ,t_{k-1})}$

其中款慨， $logP(t_{k}|prompt,question,t_{1},\cdots ,t_{k-1})$ 是在前一個(gè)token的條件下生成 $(r_{i},a_{i})$ 中第 $k$ 個(gè)token $t_{k}$ 的對數(shù)概率， $K$ 是 $(r_{i},a_{i})$ 中的總token數(shù)谬莹。下表中顯示了樱调，“unweighted sum”，即届良，直接對 $a_{i}$ 進(jìn)行多數(shù)投票笆凌，得出的準(zhǔn)確率與使用“normalized weighted sum”進(jìn)行聚合的準(zhǔn)確率非常相似。我們仔細(xì)查看了模型的輸出概率士葫，發(fā)現(xiàn)這是因?yàn)閷τ诿總€(gè) $(r_{i},a_{i})$ 乞而，歸一化的條件概率 $P(r_{i},a_{i}|prompt,question)$ 彼此非常接近，即慢显，語言模型認(rèn)為這些生成是“同樣可能的”爪模。此外欠啤，當(dāng)聚合答案時(shí)，下表中的結(jié)果顯示屋灌，“normalized weighted sum”（即上面的等式）比對應(yīng)的“unnormalized weighted sum”產(chǎn)生的準(zhǔn)確率要高得多洁段。為了完整起見，我們還在下表中報(bào)告了采取“weighted avg”的結(jié)果共郭，即祠丝，每個(gè) $a$ 得分為其weighted sum除以 $\sum_{i=1}^{m}\mathbb{1}(a_{i}=a)$ ，這導(dǎo)致了性能大大降低除嘹。

聚合策略

自洽性探索了在開放式文本生成和固定答案的最優(yōu)文本生成之間的一個(gè)有趣的空間写半。推理任務(wù)通常有固定的答案，這就是為什么研究者們通澄竟荆考慮貪婪解碼方法叠蝇。然而，我們發(fā)現(xiàn)年缎，即使期望的答案是固定的悔捶，在推理過程中引入多樣性也可以帶來很大的益處；因此单芜，我們利用常用于開放式文本生成的采樣來實(shí)現(xiàn)這個(gè)目標(biāo)炎功。需要注意的是，自洽性只能應(yīng)用于最終答案來自固定答案集的問題缓溅，但原則上拨脉，如果可以在多個(gè)生成之間定義一種一致性的合適的度量瓷们，比如，兩個(gè)答案是否一致或者相互矛盾活玲，那么這種方法就可以擴(kuò)展到開放式文本生成問題股囊。

三袜匿、實(shí)驗(yàn)

主要結(jié)果

實(shí)驗(yàn)

思維鏈會造成性能下降的實(shí)驗(yàn)

實(shí)驗(yàn)

與其他先用方法的對比

實(shí)驗(yàn)

其他研究

實(shí)驗(yàn)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市稚疹，隨后出現(xiàn)的幾起案子居灯，更是在濱河造成了極大的恐慌，老刑警劉巖内狗，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件怪嫌，死亡現(xiàn)場離奇詭異，居然都是意外死亡柳沙，警方通過查閱死者的電腦和手機(jī)岩灭，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來赂鲤，“玉大人噪径，你說我怎么就攤上這事柱恤。” “怎么了找爱？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵梗顺，是天一觀的道長。經(jīng)常有香客問我车摄，道長寺谤，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任练般，我火速辦了婚禮矗漾，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘薄料。我一直安慰自己敞贡，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布摄职。她就那樣靜靜地躺著誊役，像睡著了一般。火紅的嫁衣襯著肌膚如雪谷市。梳的紋絲不亂的頭發(fā)上蛔垢，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天，我揣著相機(jī)與錄音迫悠，去河邊找鬼鹏漆。笑死，一個(gè)胖子當(dāng)著我的面吹牛创泄，可吹牛的內(nèi)容都是我干的艺玲。我是一名探鬼主播，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼鞠抑，長吁一口氣：“原來是場噩夢啊……” “哼饭聚！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起搁拙，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤秒梳，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后箕速，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體酪碘，經(jīng)...
沈念sama閱讀 43,382評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年盐茎，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了婆跑。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 37,989評論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡庭呜，死狀恐怖滑进，靈堂內(nèi)的尸體忽然破棺而出犀忱，到底是詐尸還是另有隱情，我是刑警寧澤扶关，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布阴汇，位于F島的核電站，受9級特大地震影響节槐，放射性物質(zhì)發(fā)生泄漏搀庶。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一铜异、第九天我趴在偏房一處隱蔽的房頂上張望哥倔。院中可真熱鬧，春花似錦揍庄、人聲如沸咆蒿。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案蚂子，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽沃测。三九已至，卻和暖如春食茎，著一層夾襖步出監(jiān)牢的瞬間蒂破，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工别渔，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留附迷，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓哎媚，卻偏偏與公主長得像喇伯，于是被迫代替她去往敵國和親。傳聞我的和親對象是個(gè)殘疾皇子抄伍，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評論 2贊 345

語言模型的自洽性思維鏈推理技術(shù)

一火鼻、概述

二沐悦、方法

三袜匿、實(shí)驗(yàn)

推薦閱讀更多精彩內(nèi)容