ReFT論文淺讀

ReFT: Reasoning with Reinforced Fine-Tuning

核心貢獻(xiàn):

  1. 使用和SFT相同的訓(xùn)練數(shù)據(jù)上(不需要額外造數(shù)據(jù) 以及 不需要額外的 reward model)蝙叛, 這種使用強(qiáng)化學(xué)習(xí)的強(qiáng)化微調(diào)技術(shù)四康,比單純用SFT訓(xùn)練出的模型更好。
  2. 做了實驗,說ReFT結(jié)合多數(shù)投票 和 獎勵模型排序 的方法,可以進(jìn)一步提升ReFT的效果。

Q: 為什么要用這種 在線強(qiáng)化學(xué)習(xí)的方式? 和 直接造一批數(shù)據(jù)唧垦,進(jìn)行離線強(qiáng)化學(xué)習(xí)方式 有什么區(qū)別?:
A: 這種在線強(qiáng)化學(xué)習(xí)的方式液样,在學(xué)習(xí)的過程中振亮,每一次梯度更新之后,生成的負(fù)樣本干擾性都會更強(qiáng)鞭莽。
這就是離線強(qiáng)化學(xué)習(xí) 和 在線強(qiáng)化學(xué)習(xí) 最大的差別坊秸。

訓(xùn)練數(shù)據(jù):

完整的訓(xùn)練數(shù)據(jù),是帶cot的數(shù)據(jù)撮抓, 格式為(x, e, y),其中x為原始question, e是cot的思考步驟摇锋, y 是最終生成的數(shù)值答案丹拯。注意y是可以在e中提取出來的。
訓(xùn)練數(shù)據(jù) 可以參照下面圖中的樣例(畫紅線部分 已經(jīng)標(biāo)記出來 x, e, y )

訓(xùn)練數(shù)據(jù)樣例 以及 訓(xùn)練過程

SFT 和 ReFT的對比圖

SFT只訓(xùn)練一條推理路徑(訓(xùn)練集給出的標(biāo)注路徑)荸恕; ReFT自己采樣生成多條推理路徑乖酬,通過對比最后的答案,給出不同路徑的reward融求。


SFT 和 ReFT 的 對比

ReFT算法(偽代碼)

ReFT包含兩個階段:

  1. 使用sft進(jìn)行1-2個epoch的熱身咬像,使得模型在原本的數(shù)據(jù)集領(lǐng)域(math),有一個基本的推理能力生宛。(sft階段的訓(xùn)練數(shù)據(jù)是x, e)
  2. 進(jìn)行完熱身之后县昂,接著在線的強(qiáng)化學(xué)習(xí),主要做法是陷舅,針對同一個問題question, 采樣多種cot推理路徑倒彰,驗證這些推理路徑的答案,給予reward, 沒有使用額外的reward model莱睁。(rl 階段的訓(xùn)練數(shù)據(jù)是 x, y)待讳。
    1. 這個階段的值模型value model 采用的是在第一個階段產(chǎn)生的策略模型 加上一個線性頭,輸出一個值仰剿。
    2. 對于獎勵值reward, cot中間步驟的reward都是0创淡, 只有最后一步根據(jù)生成的完整cot,提取答案南吮,和訓(xùn)練數(shù)據(jù)中的真實值對比琳彩,用0或1 給予獎勵,表示正確與否。
    3. 還給了一個特殊的獎勵汁针,0.1术辐,數(shù)學(xué)問題中,如果可以從最后的cot中抽取中數(shù)值類型的答案施无,但是答案不正確辉词,給予0.1的獎勵,用來激勵模型猾骡,多多生成這種可以抽取數(shù)值的答案瑞躺。(參照下面獎勵函數(shù)r)
ReFT 算法步驟
獎勵函數(shù)

實驗結(jié)果:

  1. 這里說明一下
  • Offline Self-Training (Offline-ST). 使用之前的SFT模型,對一個問題采樣多個COT推理路徑兴想, 只保留答案驗證正確的那些幢哨, 再將這些數(shù)據(jù)與原來的數(shù)據(jù)進(jìn)行結(jié)合,然后再進(jìn)行微調(diào)嫂便。
  • Online Self-Training (Online-ST). 和ReFT一樣也有預(yù)熱捞镰,之后繼續(xù)進(jìn)行訓(xùn)練(在線的)。
    • 在每個訓(xùn)練step中毙替,模型首先為一個batch采樣CoT岸售,只保留那些是正確答案的CoT。生成的batch包含了采樣的CoT和真實答案的CoT厂画。然后凸丸,我們使用監(jiān)督微調(diào)目標(biāo) ???????? (論文中有提供公式) 在這個batch上更新模型參數(shù)。
    • 與ReFT相比袱院,Online-ST沒有利用負(fù)反饋(即錯誤答案的反饋)屎慢,也沒有專門的機(jī)制來防止模型顯著偏離初始模型,這可能會過擬合和訓(xùn)練不穩(wěn)定性忽洛。
ReFT與其他訓(xùn)練方式的效果對比
  1. 作者還對比了多數(shù)投票和reward model 排序的效果腻惠。可以看出:
  • rerank的效果要好于voting
  • ReFT的效果要好于SFT(不管是voting 還是 rerank)


    image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末欲虚,一起剝皮案震驚了整個濱河市妖枚,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌苍在,老刑警劉巖绝页,帶你破解...
    沈念sama閱讀 217,509評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異寂恬,居然都是意外死亡续誉,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評論 3 394
  • 文/潘曉璐 我一進(jìn)店門初肉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來酷鸦,“玉大人,你說我怎么就攤上這事【矢簦” “怎么了嘹裂?”我有些...
    開封第一講書人閱讀 163,875評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長摔握。 經(jīng)常有香客問我寄狼,道長,這世上最難降的妖魔是什么氨淌? 我笑而不...
    開封第一講書人閱讀 58,441評論 1 293
  • 正文 為了忘掉前任泊愧,我火速辦了婚禮,結(jié)果婚禮上盛正,老公的妹妹穿的比我還像新娘删咱。我一直安慰自己,他們只是感情好豪筝,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,488評論 6 392
  • 文/花漫 我一把揭開白布痰滋。 她就那樣靜靜地躺著,像睡著了一般续崖。 火紅的嫁衣襯著肌膚如雪敲街。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,365評論 1 302
  • 那天袜刷,我揣著相機(jī)與錄音聪富,去河邊找鬼莺丑。 笑死著蟹,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的梢莽。 我是一名探鬼主播萧豆,決...
    沈念sama閱讀 40,190評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼昏名!你這毒婦竟也來了涮雷?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,062評論 0 276
  • 序言:老撾萬榮一對情侶失蹤轻局,失蹤者是張志新(化名)和其女友劉穎洪鸭,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體仑扑,經(jīng)...
    沈念sama閱讀 45,500評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡览爵,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,706評論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了镇饮。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蜓竹。...
    茶點(diǎn)故事閱讀 39,834評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出俱济,到底是詐尸還是另有隱情嘶是,我是刑警寧澤,帶...
    沈念sama閱讀 35,559評論 5 345
  • 正文 年R本政府宣布蛛碌,位于F島的核電站聂喇,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏左医。R本人自食惡果不足惜授帕,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,167評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望浮梢。 院中可真熱鬧跛十,春花似錦、人聲如沸秕硝。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽远豺。三九已至奈偏,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間躯护,已是汗流浹背惊来。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留棺滞,地道東北人裁蚁。 一個月前我還...
    沈念sama閱讀 47,958評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像继准,于是被迫代替她去往敵國和親枉证。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,779評論 2 354

推薦閱讀更多精彩內(nèi)容