Recursive RM

Scalable agent alignment via reward modeling: a research direction
https://arxiv.org/pdf/1811.07871.pdf

OpenAI 現(xiàn)任Alignment團隊的負(fù)責(zé)人 Jan Leike于2018年在DeepMind工作時發(fā)布的一篇論文分预，對Reward model分析的非常透徹兢交，當(dāng)時是用于強化學(xué)習(xí)落地的指導(dǎo)，現(xiàn)在看來笼痹，早就已經(jīng)埋下了對于RLHF優(yōu)化的種子配喳。

核心關(guān)注問題

如何讓AI依照人類的意圖行事？這是將AI應(yīng)用于現(xiàn)實世界復(fù)雜問題的最大障礙之一凳干。

這不就是Agent Alignment的問題晴裹。

主要貢獻(xiàn)

建立獎勵模型，實現(xiàn)Agent Alignment
概述了解決agent alignment問題的研究方向救赐。所提出的方法依賴于獎勵建模的遞歸應(yīng)用涧团，以符合用戶意圖的方式解決復(fù)雜的現(xiàn)實世界問題。

研究方向的要點是基于獎勵建模（reward modeling）：
（1）訓(xùn)練一個獎勵模型，其中包含來自用戶的反饋泌绣，從而捕捉他們的意圖钮追。
（2）通過強化學(xué)習(xí)訓(xùn)練一個策略，使獎勵模型的獎勵最大化阿迈。
換句話說元媚，文章把學(xué)習(xí)做什么 (獎勵模型) 和學(xué)習(xí)怎么做 (策略) 區(qū)分開來。

獎勵建模仿滔，user為RM提供反饋惠毁，RM為RL提供獎勵信號

擴大獎勵模型的規(guī)模：用于人類無法直接評估的復(fù)雜領(lǐng)域

這一點愿景比較厲害，希望從最開始由人類調(diào)教崎页，到一步步迭代后能比人類更厲害
（1）用RM來訓(xùn)練Agent
（2）讓Agent幫助User評估
這里基于一個很有意思的直覺：評估比行為更容易鞠绰，作者在介紹的時候舉了個例子，相比較成為一個足球運動員飒焦，大部分人都更容易成為一個大聲吼叫著對足球比賽評頭論足的人蜈膨。
基于上述兩點，就可以從簡單任務(wù)過度到普遍任務(wù)牺荠，再過度到更復(fù)雜的任務(wù)：一個迭代擴增（iterated amplification）的過程

使用遞歸獎勵建模訓(xùn)練的 agent(右邊的小圓圈) 幫助用戶評估當(dāng)前正在訓(xùn)練的 agent(大圓圈) 產(chǎn)生的結(jié)果

研究挑戰(zhàn)

主要有5類挑戰(zhàn)翁巍，提出了10個解決方案。（這放到2024年來看活生生的就是RLHF過程中會遇到的reward的問題和優(yōu)化方案）

挑戰(zhàn)(左)和有前景的解決方案(右)

Challenge->C
Resolution->R

C1 Amount of feedback 反饋的數(shù)量

在給定預(yù)算下休雌，已有的標(biāo)注的數(shù)據(jù)集的量灶壶，是否能使得RM獲得足夠的精度。
本質(zhì)：RM在狀態(tài)分布上泛化效果如何杈曲，泛化越好驰凛，越能從現(xiàn)有的固定數(shù)據(jù)中擠出更多的東西

C2 Feedback distribution 反饋分布

機器學(xué)習(xí)模型可以在訓(xùn)練集同分布上的數(shù)據(jù)預(yù)測的很好，但在policy之外担扑，模型從未見過的狀態(tài)恰响，我們也希望是正確的
關(guān)鍵：鼓勵A(yù)gent探索它沒有訪問過正價值軌跡；阻止Agent探索不希望看到的負(fù)價值軌跡涌献。

C3 Reward Hacking 獎勵黑客

在確定獎勵的過程中胚宦，利用reward model的漏洞獲得比預(yù)期更多獎勵的一種效應(yīng)。
也就是訓(xùn)練的時候reward一直升高燕垃，但是評估的時候發(fā)現(xiàn)其實優(yōu)化方向走歪了
比如：reward gaming 獎勵博弈就是當(dāng)reward錯誤的給一些不希望的行為提供了高獎勵枢劝；reward 篡改就是Agent可以干擾獎勵計算的過程

C4 Unacceptable Outcomes 不可接受的結(jié)果

目前的RL都是在一些很安全的仿真器里進行的，不存在不可接受的結(jié)果卜壕，最差也就重啟仿真器再來一次呈野。但現(xiàn)實世界的任務(wù)會有很多代價過于昂貴，比如無人機炸機印叁，錯誤的發(fā)了郵件，煮飯機器人燒廚房
兩個困難點：（1）復(fù)雜的任務(wù)，環(huán)境總有未知的部分轮蜕，Agent需要安全的探索昨悼。（2）智能體需要對可能導(dǎo)致其無意間產(chǎn)生不可接受結(jié)果的擾動做出強有力的反應(yīng)。比如寫個規(guī)則跃洛。

C5 Reward-Result gap 獎勵-結(jié)果的差距

即便我們給Agent提供了一個正確對齊的獎勵函數(shù)率触，得到的結(jié)果也可能是不對齊的。
原因有很多：獎勵可能太過稀疏汇竭，形狀不佳葱蝗，或者數(shù)量級錯誤；由于超參數(shù)設(shè)置不當(dāng)细燎，訓(xùn)練可能會過早停止两曼；智能體可能在學(xué)習(xí)過程中探索不足或產(chǎn)生非預(yù)期行為；智能體可能會面臨各種穩(wěn)健性問題玻驻，如外部引起的狀態(tài)空間分布變化或面臨對抗輸入悼凑。

R1 Online Feedback 在線反饋

在線向智能體提供獎勵反饋，我們就會在用戶反饋和智能體行為之間形成一個更緊密的反饋循環(huán)璧瞬。這使得獎勵模型能夠適應(yīng)智能體正在訪問的狀態(tài)分布户辫，從而減輕了一些分布轉(zhuǎn)移問題。

R2 Off-policy feedback 離策略反饋

為了防止不可接受的結(jié)果和獎勵黑客行為嗤锉，我們需要能夠在某些結(jié)果發(fā)生之前就告知它們是不可取的渔欢。這就要求獎勵模型在策略外，即在智能體從未訪問過的狀態(tài)上是準(zhǔn)確的瘟忱。

R3 Leveraging existing data 利用現(xiàn)有數(shù)據(jù)

大量人工制作的視頻數(shù)據(jù)和散文已經(jīng)唾手可得奥额。這些數(shù)據(jù)中的大多數(shù)目前沒有高質(zhì)量的文本注釋，因此不能直接用作獎勵標(biāo)簽酷誓。然而披坏，它包含了很多關(guān)于人類意圖的有用信息。至少有兩種方法可以利用現(xiàn)有的數(shù)據(jù)：使用無監(jiān)督學(xué)習(xí)(如無監(jiān)督的預(yù)訓(xùn)練或第三人稱模仿學(xué)習(xí))或手動注釋盐数。

R4 Hierarchical feedback 層次反饋

支持分層RL的相同論點也鼓勵對獎勵模型進行分層分解棒拂。這將允許用戶提供低級和高級的反饋。分層RL和分層獎勵模型結(jié)合起來應(yīng)該很自然：如果智能體和獎勵模型之間的時間層次對齊玫氢，那么在層次結(jié)構(gòu)的每個層次上帚屉，獎勵模型可以訓(xùn)練智能體的相應(yīng)層次。這可能有助于繞過一些非常困難的長期信用分配問題漾峡。
例如：幻想小說作者任務(wù)攻旦。低級反饋包括拼寫、流暢性和語言語調(diào)生逸，而高級反饋可以針對段落級別無法提供的情節(jié)和角色發(fā)展牢屋。

R5 Natural language 自然語言

自然語言是人類反饋的一種自然形式且预。如果我們能學(xué)會將自然語言的表達(dá)轉(zhuǎn)化為訓(xùn)練獎勵模型所依據(jù)的數(shù)據(jù)集所需的嚴(yán)格格式，這將使用戶能夠更有效地提供反饋烙无。
自然語言可能會帶來更好的可解釋性锋谐。特別是對于抽象的高級概念，自然語言可能比可視化的可解釋技術(shù)更適合截酷。

R6 Model-based RL 基于模型的RL

基于模型的RL智能體會學(xué)習(xí)環(huán)境的顯式模型涮拗，這種模型可以使用規(guī)劃算法，如蒙特卡洛樹搜索迂苛。如果我們正在訓(xùn)練一個基于模型的智能體三热，那么獎勵模型可以作為規(guī)劃搜索過程的一部分。這允許智能體使用策略外獎勵評估三幻，評估它從未實際采取的行動就漾。

R7 Side-constraints 邊界約束

除了學(xué)習(xí)獎勵函數(shù)，我們還可以學(xué)習(xí)低級或高級行為的邊界約束赌髓，以防止不可接受的結(jié)果从藤。阻止行為比用大量的負(fù)面獎勵來削弱它們更有效，因為負(fù)面獎勵可以在以后用更大的獎勵來補償(比如在獎勵黑客的情況下)锁蠕。這個問題可能會被智能體的世界模型中的錯誤放大夷野。

R8 Adversarial training 對抗訓(xùn)練

可以訓(xùn)練智能體去明確地發(fā)現(xiàn)獎勵模型中的弱點和獎勵黑客攻擊的機會，以及導(dǎo)致不可接受的結(jié)果的最小擾動荣倾。這與Red Team類似悯搔，目標(biāo)是發(fā)現(xiàn)對手可能使用的攻擊策略(例如安全漏洞)。
用戶可以查看發(fā)現(xiàn)的失敗案例舌仍，并將其添加到反饋數(shù)據(jù)集中妒貌。這可能意味著更高的數(shù)據(jù)需求；因此铸豁，即使對抗性訓(xùn)練解決了這個問題灌曙，它也可能使數(shù)據(jù)需求超出可承受范圍。

R9 Uncertainty estimates 不確定性估計

獎勵模型的另一個理想特征是對其輸出不確定性的適當(dāng)表達(dá)节芥。
兩個好處:
（1）在訓(xùn)練過程中在刺，它可以使用主動學(xué)習(xí)，來幫助自動化收集關(guān)于信息性最大狀態(tài)的反饋的過程头镊。
（2）當(dāng)不確定性很大時蚣驼，例如對于不像訓(xùn)練分布的輸入，智能體可以服從于人或退回到規(guī)避風(fēng)險的決策相艇。

R10 Inductive bias 歸納偏差

獎勵模型的一個關(guān)鍵方面是獎勵模型的歸納偏差颖杏。由于我們無法對獎勵模型和智能體在所有可能結(jié)果上進行訓(xùn)練，我們需要對給定的數(shù)據(jù)進行適當(dāng)?shù)臍w納坛芽。深度學(xué)習(xí)的成功歸因于歸納偏差留储，如分布式表征和復(fù)合性翼抠，這可能也是擊敗“維度詛咒”的必要條件。進一步的歸納偏差對于解決許多任務(wù)是必要的获讳；例如卷積神經(jīng)網(wǎng)絡(luò)由于空間不變性机久，在計算機視覺應(yīng)用中大大優(yōu)于多層感知器。

未來研究方向

追求 agent alignment 還有其他一些研究方向：

模仿學(xué)習(xí)
短視強化學(xué)習(xí)（Myopic reinforcement learning）
逆強化學(xué)習(xí)（Inverse reinforcement learning）
合作逆強化學(xué)習(xí)
迭代擴增
Debate
Agent foundations

參考

中文翻譯： https://www.cnblogs.com/devilmaycry812839668/p/10448320.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末赔嚎，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子胧弛，更是在濱河造成了極大的恐慌尤误，老刑警劉巖，帶你破解...
沈念sama閱讀 219,188評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件结缚，死亡現(xiàn)場離奇詭異损晤，居然都是意外死亡，警方通過查閱死者的電腦和手機红竭，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,464評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門尤勋，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人茵宪，你說我怎么就攤上這事最冰。” “怎么了稀火？”我有些...
開封第一講書人閱讀 165,562評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵暖哨，是天一觀的道長。經(jīng)常有香客問我凰狞，道長篇裁，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,893評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任赡若，我火速辦了婚禮达布，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘逾冬。我一直安慰自己黍聂，他們只是感情好，可當(dāng)我...
茶點故事閱讀 67,917評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布粉渠。她就那樣靜靜地躺著分冈，像睡著了一般。火紅的嫁衣襯著肌膚如雪霸株。梳的紋絲不亂的頭發(fā)上雕沉，一...
開封第一講書人閱讀 51,708評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音去件，去河邊找鬼坡椒。笑死扰路，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的倔叼。我是一名探鬼主播汗唱，決...
沈念sama閱讀 40,430評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼丈攒！你這毒婦竟也來了哩罪？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,342評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤巡验，失蹤者是張志新（化名）和其女友劉穎际插，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體显设，經(jīng)...
沈念sama閱讀 45,801評論 1贊 317
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡框弛，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,976評論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了捕捂。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瑟枫。...
茶點故事閱讀 40,115評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖指攒，靈堂內(nèi)的尸體忽然破棺而出慷妙，到底是詐尸還是另有隱情，我是刑警寧澤幽七，帶...
沈念sama閱讀 35,804評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布景殷，位于F島的核電站，受9級特大地震影響澡屡，放射性物質(zhì)發(fā)生泄漏猿挚。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,458評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一驶鹉、第九天我趴在偏房一處隱蔽的房頂上張望绩蜻。院中可真熱鬧，春花似錦室埋、人聲如沸办绝。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,008評論 0贊 22
一樁弒父案姚淆，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽孕蝉。三九已至，卻和暖如春腌逢，著一層夾襖步出監(jiān)牢的瞬間降淮，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,135評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工搏讶，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留佳鳖，地道東北人霍殴。一個月前我還...
沈念sama閱讀 48,365評論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長得像系吩，于是被迫代替她去往敵國和親来庭。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,055評論 2贊 355