論文標(biāo)題:Self-Consistency Improves Chain of Thought Reasoning in Language Models
論文鏈接:https://arxiv.org/abs/2203.11171
論文來源:ICLR 2023
一火鼻、概述
盡管語言模型在一系列NLP任務(wù)中展現(xiàn)出了顯著的成功伯复,但它們在推理能力方面仍然面臨一些限制,這種限制不能僅僅通過增加模型規(guī)模來克服宋彼。為了解決這些問題盛末,Wei等人(2022)提出了思維鏈提示(chain-of-thought prompting)充活,即提示語言模型生成一系列模擬人在解決任務(wù)時(shí)可能使用的推理過程的短句菲驴。例如凄杯,給出問題“If there are 3 cars in the parking lot and 2 more cars arrive, how many cars are in the parking lot?”時(shí)悬荣,不直接回答“5”菠秒,而是提示語言模型以完整的思維鏈回答:“There are 3 cars in the parking lot already. 2 more arrive. Now there are 3 + 2 = 5 cars. The answer is 5.”。實(shí)驗(yàn)結(jié)果顯示思維鏈提示顯著提高了模型在各種多步推理任務(wù)中的性能氯迂。
在本文中践叠,我們引入了一種新的解碼策略,稱為自洽性(self-consistency)囚戚,以替代思維鏈提示中使用的貪婪解碼(greedy decoding)策略酵熙,這進(jìn)一步顯著提高了語言模型的推理性能。自洽性利用了一個(gè)直覺驰坊,即對于復(fù)雜的推理任務(wù)匾二,通常可以通過多個(gè)推理路徑達(dá)到正確的答案。對一個(gè)問題需要進(jìn)行更多的深思熟慮和分析察藐,可以得到答案的推理路徑的多樣性就越大皮璧。
下圖用一個(gè)例子說明了自洽性方法。我們首先用思維鏈提示語言模型分飞,然后我們不是貪婪地解碼最優(yōu)推理路徑悴务,而是提出了一種“采樣和邊際化”(sample-and-marginalize)解碼程序:我們首先從語言模型的Decoder中采樣,生成一套多樣的推理路徑譬猫;每個(gè)推理路徑可能會導(dǎo)致不同的最終答案讯檐,因此我們通過邊際化采樣的推理路徑來確定最優(yōu)答案,找出在最終答案集合中最一致(consistent)的答案染服。這種方法類似于人類的經(jīng)驗(yàn)别洪,即如果多種不同的思考方式都能得出相同的答案,人們對最終答案的正確性就會更有信心柳刮。與其他解碼方法相比挖垛,自洽性避免了貪婪解碼中困擾的重復(fù)性(repetitiveness)和局部最優(yōu)性(local-optimality),同時(shí)減輕了單一采樣生成的隨機(jī)性秉颗。
自洽性思維鏈比之前那些要么訓(xùn)練額外的verifier痢毒,要么在給定額外人類標(biāo)注以提高生成質(zhì)量的情況下訓(xùn)練一個(gè)re-ranker的方法要簡單得多。相反蚕甥,自洽性完全是無監(jiān)督的哪替,可以直接與預(yù)訓(xùn)練的語言模型一起使用,無需額外的人類標(biāo)注梢灭,也避免了任何額外的訓(xùn)練夷家,輔助模型或微調(diào)。自洽性也不同于典型的集成(ensemble)方法敏释,其中訓(xùn)練多個(gè)模型并聚合每個(gè)模型的輸出库快,它更像是一個(gè)作用在單一語言模型之上的“自我集成”。
我們在廣泛的算術(shù)和常識推理任務(wù)上評估了自洽性思維鏈钥顽,這些任務(wù)涵蓋了四種不同規(guī)模的語言模型:UL2-20B义屏、GPT-3-175B、LaMDA-137B和PaLM-540B蜂大。在所有四種語言模型上闽铐,自洽性在所有任務(wù)上都顯著提高了思維鏈提示的效果。在額外的實(shí)驗(yàn)中奶浦,我們展示了自洽性可以在一些添加思維鏈可能會降低與標(biāo)準(zhǔn)提示相比的性能的NLP任務(wù)上魯棒地提升性能兄墅。我們還展示了自洽性顯著優(yōu)于sample-and-rank,beam search以及基于集成的方法澳叉,并且對采樣策略和不完美的提示具有魯棒性隙咸。
二沐悦、方法
人類的一個(gè)顯著特點(diǎn)是思考方式各異。很自然地五督,我們會假設(shè)在需要深思熟慮的任務(wù)中藏否,可能有幾種方法來解決問題。我們提出充包,這樣的過程可以通過從語言模型的Decoder中進(jìn)行抽樣在語言模型中進(jìn)行模擬副签。例如,如上圖所示基矮,一個(gè)模型可以針對數(shù)學(xué)問題生成幾個(gè)可能的回答淆储,所有的回答都能得出同樣正確的答案(輸出1和3)。由于語言模型并不是完美的推理者家浇,模型也可能產(chǎn)生一個(gè)不正確的推理路徑遏考,或者在推理步驟中出現(xiàn)錯(cuò)誤(例如,在輸出2中)蓝谨,但是這樣的解決方案不太可能得出相同的答案。也就是說青团,我們假設(shè)譬巫,即使正確推理過程是多樣的(diverse),它們在最終答案上的一致性也往往大于錯(cuò)誤的過程督笆。
我們利用這個(gè)直覺芦昔,提出了以下的自洽性方法。首先娃肿,用一組手工編寫的思維鏈?zhǔn)纠ㄎ旱热耍?022)提示語言模型咕缎。接下來,我們從語言模型的Decoder中抽取一組候選輸出料扰,生成一組多樣的候選推理路徑凭豪。自洽性與大多數(shù)現(xiàn)有的抽樣算法兼容,包括溫度抽樣晒杈、top-k抽樣嫂伞,以及核采樣。最后拯钻,我們通過邊際化出采樣的推理路徑并聚合答案帖努,選擇在生成答案中最一致的答案。
更詳細(xì)地說粪般,假設(shè)生成的答案來自一個(gè)固定的答案集合拼余,,其中索引的是從Decoder采樣的個(gè)候選輸出亩歹。給定一個(gè)提示和一個(gè)問題匙监,自洽性引入了一個(gè)額外的隱變量凡橱,這是一個(gè)代表第個(gè)輸出中推理路徑的token序列,然后將的生成耦合在一起舅柜,其中梭纹,即,推理路徑是可選的致份,只用于到達(dá)最終答案变抽。例如,考慮上圖中的輸出3:前幾句“She eats 3 for breakfast ... So she has 9 eggs * $2 = $18.”構(gòu)成了氮块,而最后一句中的答案18绍载,“The answer is $18”,即是滔蝉。在從模型的Decoder中采樣多個(gè)后击儡,自洽性對進(jìn)行邊際化(邊際化的意思就是說不管推理路徑了,只看最終答案)蝠引,并且在上應(yīng)用多數(shù)投票阳谍,即將作為最終答案,或者我們定義為在最終答案集中最“一致”的答案螃概。
在下表中矫夯,我們使用不同的答案聚合策略顯示了一組推理任務(wù)的測試準(zhǔn)確率。除了多數(shù)投票外吊洼,在聚合答案時(shí)训貌,還可以通過為每個(gè)賦予權(quán)重。注意冒窍,要計(jì)算递沪,我們可以給定(prompt,question)
條件下生成的未歸一化概率,也可以通過輸出長度來歸一化條件概率综液,也就是:
其中款慨,是在前一個(gè)token的條件下生成中第個(gè)token的對數(shù)概率,是中的總token數(shù)谬莹。下表中顯示了樱调,“unweighted sum”,即届良,直接對進(jìn)行多數(shù)投票笆凌,得出的準(zhǔn)確率與使用“normalized weighted sum”進(jìn)行聚合的準(zhǔn)確率非常相似。我們仔細(xì)查看了模型的輸出概率士葫,發(fā)現(xiàn)這是因?yàn)閷τ诿總€(gè)乞而,歸一化的條件概率彼此非常接近,即慢显,語言模型認(rèn)為這些生成是“同樣可能的”爪模。此外欠啤,當(dāng)聚合答案時(shí),下表中的結(jié)果顯示屋灌,“normalized weighted sum”(即上面的等式)比對應(yīng)的“unnormalized weighted sum”產(chǎn)生的準(zhǔn)確率要高得多洁段。為了完整起見,我們還在下表中報(bào)告了采取“weighted avg”的結(jié)果共郭,即祠丝,每個(gè)得分為其weighted sum除以,這導(dǎo)致了性能大大降低除嘹。
自洽性探索了在開放式文本生成和固定答案的最優(yōu)文本生成之間的一個(gè)有趣的空間写半。推理任務(wù)通常有固定的答案,這就是為什么研究者們通澄竟荆考慮貪婪解碼方法叠蝇。然而,我們發(fā)現(xiàn)年缎,即使期望的答案是固定的悔捶,在推理過程中引入多樣性也可以帶來很大的益處;因此单芜,我們利用常用于開放式文本生成的采樣來實(shí)現(xiàn)這個(gè)目標(biāo)炎功。需要注意的是,自洽性只能應(yīng)用于最終答案來自固定答案集的問題缓溅,但原則上拨脉,如果可以在多個(gè)生成之間定義一種一致性的合適的度量瓷们,比如,兩個(gè)答案是否一致或者相互矛盾活玲,那么這種方法就可以擴(kuò)展到開放式文本生成問題股囊。
三袜匿、實(shí)驗(yàn)
- 主要結(jié)果
- 思維鏈會造成性能下降的實(shí)驗(yàn)
- 與其他先用方法的對比
- 其他研究