ReFT: Reasoning with Reinforced Fine-Tuning
核心貢獻(xiàn):
- 使用和SFT相同的訓(xùn)練數(shù)據(jù)上(不需要額外造數(shù)據(jù) 以及 不需要額外的 reward model)蝙叛, 這種使用強(qiáng)化學(xué)習(xí)的強(qiáng)化微調(diào)技術(shù)四康,比單純用SFT訓(xùn)練出的模型更好。
- 做了實驗,說ReFT結(jié)合多數(shù)投票 和 獎勵模型排序 的方法,可以進(jìn)一步提升ReFT的效果。
Q: 為什么要用這種 在線強(qiáng)化學(xué)習(xí)的方式? 和 直接造一批數(shù)據(jù)唧垦,進(jìn)行離線強(qiáng)化學(xué)習(xí)方式 有什么區(qū)別?:
A: 這種在線強(qiáng)化學(xué)習(xí)的方式液样,在學(xué)習(xí)的過程中振亮,每一次梯度更新之后,生成的負(fù)樣本干擾性都會更強(qiáng)鞭莽。
這就是離線強(qiáng)化學(xué)習(xí) 和 在線強(qiáng)化學(xué)習(xí) 最大的差別坊秸。
訓(xùn)練數(shù)據(jù):
完整的訓(xùn)練數(shù)據(jù),是帶cot的數(shù)據(jù)撮抓, 格式為(x, e, y),其中x為原始question, e是cot的思考步驟摇锋, y 是最終生成的數(shù)值答案丹拯。注意y是可以在e中提取出來的。
訓(xùn)練數(shù)據(jù) 可以參照下面圖中的樣例(畫紅線部分 已經(jīng)標(biāo)記出來 x, e, y )
SFT 和 ReFT的對比圖
SFT只訓(xùn)練一條推理路徑(訓(xùn)練集給出的標(biāo)注路徑)荸恕; ReFT自己采樣生成多條推理路徑乖酬,通過對比最后的答案,給出不同路徑的reward融求。
ReFT算法(偽代碼)
ReFT包含兩個階段:
- 使用sft進(jìn)行1-2個epoch的熱身咬像,使得模型在原本的數(shù)據(jù)集領(lǐng)域(math),有一個基本的推理能力生宛。(sft階段的訓(xùn)練數(shù)據(jù)是x, e)
- 進(jìn)行完熱身之后县昂,接著在線的強(qiáng)化學(xué)習(xí),主要做法是陷舅,針對同一個問題question, 采樣多種cot推理路徑倒彰,驗證這些推理路徑的答案,給予reward, 沒有使用額外的reward model莱睁。(rl 階段的訓(xùn)練數(shù)據(jù)是 x, y)待讳。
- 這個階段的值模型value model 采用的是在第一個階段產(chǎn)生的策略模型 加上一個線性頭,輸出一個值仰剿。
- 對于獎勵值reward, cot中間步驟的reward都是0创淡, 只有最后一步根據(jù)生成的完整cot,提取答案南吮,和訓(xùn)練數(shù)據(jù)中的真實值對比琳彩,用0或1 給予獎勵,表示正確與否。
- 還給了一個特殊的獎勵汁针,0.1术辐,數(shù)學(xué)問題中,如果可以從最后的cot中抽取中數(shù)值類型的答案施无,但是答案不正確辉词,給予0.1的獎勵,用來激勵模型猾骡,多多生成這種可以抽取數(shù)值的答案瑞躺。(參照下面獎勵函數(shù)r)
實驗結(jié)果:
- 這里說明一下
- Offline Self-Training (Offline-ST). 使用之前的SFT模型,對一個問題采樣多個COT推理路徑兴想, 只保留答案驗證正確的那些幢哨, 再將這些數(shù)據(jù)與原來的數(shù)據(jù)進(jìn)行結(jié)合,然后再進(jìn)行微調(diào)嫂便。
- Online Self-Training (Online-ST). 和ReFT一樣也有預(yù)熱捞镰,之后繼續(xù)進(jìn)行訓(xùn)練(在線的)。
- 在每個訓(xùn)練step中毙替,模型首先為一個batch采樣CoT岸售,只保留那些是正確答案的CoT。生成的batch包含了采樣的CoT和真實答案的CoT厂画。然后凸丸,我們使用監(jiān)督微調(diào)目標(biāo) ???????? (論文中有提供公式) 在這個batch上更新模型參數(shù)。
- 與ReFT相比袱院,Online-ST沒有利用負(fù)反饋(即錯誤答案的反饋)屎慢,也沒有專門的機(jī)制來防止模型顯著偏離初始模型,這可能會過擬合和訓(xùn)練不穩(wěn)定性忽洛。
- 作者還對比了多數(shù)投票和reward model 排序的效果腻惠。可以看出:
- rerank的效果要好于voting
-
ReFT的效果要好于SFT(不管是voting 還是 rerank)