- Scalable agent alignment via reward modeling: a research direction
- https://arxiv.org/pdf/1811.07871.pdf
OpenAI 現(xiàn)任Alignment團隊的負(fù)責(zé)人 Jan Leike于2018年在DeepMind工作時發(fā)布的一篇論文分预,對Reward model分析的非常透徹兢交,當(dāng)時是用于強化學(xué)習(xí)落地的指導(dǎo),現(xiàn)在看來笼痹,早就已經(jīng)埋下了對于RLHF優(yōu)化的種子配喳。
核心關(guān)注問題
如何讓AI依照人類的意圖行事?這是將AI應(yīng)用于現(xiàn)實世界復(fù)雜問題的最大障礙之一凳干。
這不就是Agent Alignment的問題晴裹。
主要貢獻(xiàn)
建立獎勵模型,實現(xiàn)Agent Alignment
概述了解決agent alignment問題的研究方向救赐。所提出的方法依賴于獎勵建模的遞歸應(yīng)用涧团,以符合用戶意圖的方式解決復(fù)雜的現(xiàn)實世界問題。
- 研究方向的要點是基于獎勵建模(reward modeling):
(1)訓(xùn)練一個獎勵模型,其中包含來自用戶的反饋泌绣,從而捕捉他們的意圖钮追。
(2)通過強化學(xué)習(xí)訓(xùn)練一個策略,使獎勵模型的獎勵最大化阿迈。 - 換句話說元媚,文章把學(xué)習(xí)做什么 (獎勵模型) 和學(xué)習(xí)怎么做 (策略) 區(qū)分開來。
獎勵建模仿滔,user為RM提供反饋惠毁,RM為RL提供獎勵信號
擴大獎勵模型的規(guī)模:用于人類無法直接評估的復(fù)雜領(lǐng)域
- 這一點愿景比較厲害,希望從最開始由人類調(diào)教崎页,到一步步迭代后能比人類更厲害
(1)用RM來訓(xùn)練Agent
(2)讓Agent幫助User評估 - 這里基于一個很有意思的直覺:評估比行為更容易鞠绰,作者在介紹的時候舉了個例子,相比較成為一個足球運動員飒焦,大部分人都更容易成為一個大聲吼叫著對足球比賽評頭論足的人蜈膨。
-
基于上述兩點,就可以從簡單任務(wù)過度到普遍任務(wù)牺荠,再過度到更復(fù)雜的任務(wù):一個迭代擴增(iterated amplification)的過程
使用遞歸獎勵建模訓(xùn)練的 agent(右邊的小圓圈) 幫助用戶評估當(dāng)前正在訓(xùn)練的 agent(大圓圈) 產(chǎn)生的結(jié)果
研究挑戰(zhàn)
主要有5類挑戰(zhàn)翁巍,提出了10個解決方案。(這放到2024年來看活生生的就是RLHF過程中會遇到的reward的問題和優(yōu)化方案)
挑戰(zhàn)(左)和有前景的解決方案(右)
Challenge->C
Resolution->R
C1 Amount of feedback 反饋的數(shù)量
- 在給定預(yù)算下休雌,已有的標(biāo)注的數(shù)據(jù)集的量灶壶,是否能使得RM獲得足夠的精度。
- 本質(zhì):RM在狀態(tài)分布上泛化效果如何杈曲,泛化越好驰凛,越能從現(xiàn)有的固定數(shù)據(jù)中擠出更多的東西
C2 Feedback distribution 反饋分布
- 機器學(xué)習(xí)模型可以在訓(xùn)練集同分布上的數(shù)據(jù)預(yù)測的很好,但在policy之外担扑,模型從未見過的狀態(tài)恰响,我們也希望是正確的
- 關(guān)鍵:鼓勵A(yù)gent探索它沒有訪問過正價值軌跡;阻止Agent探索不希望看到的負(fù)價值軌跡涌献。
C3 Reward Hacking 獎勵黑客
- 在確定獎勵的過程中胚宦,利用reward model的漏洞獲得比預(yù)期更多獎勵的一種效應(yīng)。
- 也就是訓(xùn)練的時候reward一直升高燕垃,但是評估的時候發(fā)現(xiàn)其實優(yōu)化方向走歪了
- 比如:reward gaming 獎勵博弈就是當(dāng)reward錯誤的給一些不希望的行為提供了高獎勵枢劝;reward 篡改就是Agent可以干擾獎勵計算的過程
C4 Unacceptable Outcomes 不可接受的結(jié)果
- 目前的RL都是在一些很安全的仿真器里進行的,不存在不可接受的結(jié)果卜壕,最差也就重啟仿真器再來一次呈野。但現(xiàn)實世界的任務(wù)會有很多代價過于昂貴,比如無人機炸機印叁,錯誤的發(fā)了郵件,煮飯機器人燒廚房
- 兩個困難點:(1)復(fù)雜的任務(wù),環(huán)境總有未知的部分轮蜕,Agent需要安全的探索昨悼。(2)智能體需要對可能導(dǎo)致其無意間產(chǎn)生不可接受結(jié)果的擾動做出強有力的反應(yīng)。比如寫個規(guī)則跃洛。
C5 Reward-Result gap 獎勵-結(jié)果的差距
- 即便我們給Agent提供了一個正確對齊的獎勵函數(shù)率触,得到的結(jié)果也可能是不對齊的。
- 原因有很多:獎勵可能太過稀疏汇竭,形狀不佳葱蝗,或者數(shù)量級錯誤;由于超參數(shù)設(shè)置不當(dāng)细燎,訓(xùn)練可能會過早停止两曼;智能體可能在學(xué)習(xí)過程中探索不足或產(chǎn)生非預(yù)期行為;智能體可能會面臨各種穩(wěn)健性問題玻驻,如外部引起的狀態(tài)空間分布變化或面臨對抗輸入悼凑。
R1 Online Feedback 在線反饋
- 在線向智能體提供獎勵反饋,我們就會在用戶反饋和智能體行為之間形成一個更緊密的反饋循環(huán)璧瞬。這使得獎勵模型能夠適應(yīng)智能體正在訪問的狀態(tài)分布户辫,從而減輕了一些分布轉(zhuǎn)移問題。
R2 Off-policy feedback 離策略反饋
- 為了防止不可接受的結(jié)果和獎勵黑客行為嗤锉,我們需要能夠在某些結(jié)果發(fā)生之前就告知它們是不可取的渔欢。這就要求獎勵模型在策略外,即在智能體從未訪問過的狀態(tài)上是準(zhǔn)確的瘟忱。
R3 Leveraging existing data 利用現(xiàn)有數(shù)據(jù)
- 大量人工制作的視頻數(shù)據(jù)和散文已經(jīng)唾手可得奥额。這些數(shù)據(jù)中的大多數(shù)目前沒有高質(zhì)量的文本注釋,因此不能直接用作獎勵標(biāo)簽酷誓。然而披坏,它包含了很多關(guān)于人類意圖的有用信息。至少有兩種方法可以利用現(xiàn)有的數(shù)據(jù):使用無監(jiān)督學(xué)習(xí)(如無監(jiān)督的預(yù)訓(xùn)練或第三人稱模仿學(xué)習(xí))或手動注釋盐数。
R4 Hierarchical feedback 層次反饋
- 支持分層RL的相同論點也鼓勵對獎勵模型進行分層分解棒拂。這將允許用戶提供低級和高級的反饋。分層RL和分層獎勵模型結(jié)合起來應(yīng)該很自然:如果智能體和獎勵模型之間的時間層次對齊玫氢,那么在層次結(jié)構(gòu)的每個層次上帚屉,獎勵模型可以訓(xùn)練智能體的相應(yīng)層次。這可能有助于繞過一些非常困難的長期信用分配問題漾峡。
- 例如:幻想小說作者任務(wù)攻旦。低級反饋包括拼寫、流暢性和語言語調(diào)生逸,而高級反饋可以針對段落級別無法提供的情節(jié)和角色發(fā)展牢屋。
R5 Natural language 自然語言
- 自然語言是人類反饋的一種自然形式且预。如果我們能學(xué)會將自然語言的表達(dá)轉(zhuǎn)化為訓(xùn)練獎勵模型所依據(jù)的數(shù)據(jù)集所需的嚴(yán)格格式,這將使用戶能夠更有效地提供反饋烙无。
- 自然語言可能會帶來更好的可解釋性锋谐。特別是對于抽象的高級概念,自然語言可能比可視化的可解釋技術(shù)更適合截酷。
R6 Model-based RL 基于模型的RL
- 基于模型的RL智能體會學(xué)習(xí)環(huán)境的顯式模型涮拗,這種模型可以使用規(guī)劃算法,如蒙特卡洛樹搜索迂苛。如果我們正在訓(xùn)練一個基于模型的智能體三热,那么獎勵模型可以作為規(guī)劃搜索過程的一部分。這允許智能體使用策略外獎勵評估三幻,評估它從未實際采取的行動就漾。
R7 Side-constraints 邊界約束
- 除了學(xué)習(xí)獎勵函數(shù),我們還可以學(xué)習(xí)低級或高級行為的邊界約束赌髓,以防止不可接受的結(jié)果从藤。阻止行為比用大量的負(fù)面獎勵來削弱它們更有效,因為負(fù)面獎勵可以在以后用更大的獎勵來補償(比如在獎勵黑客的情況下)锁蠕。這個問題可能會被智能體的世界模型中的錯誤放大夷野。
R8 Adversarial training 對抗訓(xùn)練
- 可以訓(xùn)練智能體去明確地發(fā)現(xiàn)獎勵模型中的弱點和獎勵黑客攻擊的機會,以及導(dǎo)致不可接受的結(jié)果的最小擾動荣倾。這與Red Team類似悯搔,目標(biāo)是發(fā)現(xiàn)對手可能使用的攻擊策略(例如安全漏洞)。
- 用戶可以查看發(fā)現(xiàn)的失敗案例舌仍,并將其添加到反饋數(shù)據(jù)集中妒貌。這可能意味著更高的數(shù)據(jù)需求;因此铸豁,即使對抗性訓(xùn)練解決了這個問題灌曙,它也可能使數(shù)據(jù)需求超出可承受范圍。
R9 Uncertainty estimates 不確定性估計
- 獎勵模型的另一個理想特征是對其輸出不確定性的適當(dāng)表達(dá)节芥。
- 兩個好處:
(1)在訓(xùn)練過程中在刺,它可以使用主動學(xué)習(xí),來幫助自動化收集關(guān)于信息性最大狀態(tài)的反饋的過程头镊。
(2)當(dāng)不確定性很大時蚣驼,例如對于不像訓(xùn)練分布的輸入,智能體可以服從于人或退回到規(guī)避風(fēng)險的決策相艇。
R10 Inductive bias 歸納偏差
- 獎勵模型的一個關(guān)鍵方面是獎勵模型的歸納偏差颖杏。由于我們無法對獎勵模型和智能體在所有可能結(jié)果上進行訓(xùn)練,我們需要對給定的數(shù)據(jù)進行適當(dāng)?shù)臍w納坛芽。深度學(xué)習(xí)的成功歸因于歸納偏差留储,如分布式表征和復(fù)合性翼抠,這可能也是擊敗“維度詛咒”的必要條件。進一步的歸納偏差對于解決許多任務(wù)是必要的获讳;例如卷積神經(jīng)網(wǎng)絡(luò)由于空間不變性机久,在計算機視覺應(yīng)用中大大優(yōu)于多層感知器。
未來研究方向
追求 agent alignment 還有其他一些研究方向:
- 模仿學(xué)習(xí)
- 短視強化學(xué)習(xí)(Myopic reinforcement learning)
- 逆強化學(xué)習(xí)(Inverse reinforcement learning)
- 合作逆強化學(xué)習(xí)
- 迭代擴增
- Debate
- Agent foundations
參考
中文翻譯: https://www.cnblogs.com/devilmaycry812839668/p/10448320.html