近來仗哨,DeepSeek R1 一鳴驚人晚吞,迅速席卷各大平臺(tái),成為科技領(lǐng)域的熱議焦點(diǎn)萌踱。從專業(yè)論壇到社交媒體葵礼,甚至那些原本與人工智能毫無交集的親朋好友,也紛紛開始詢問:“你知道 DeepSeek 嗎?” 這一現(xiàn)象讓人不禁意識(shí)到,深入探討這個(gè)在國(guó)產(chǎn)和開源 LLM 發(fā)展史上具有里程碑意義的模型审姓,已顯得尤為必要。
OpenAI 的模型因其閉源特性届谈,其 o1 的實(shí)現(xiàn)方式始終是外界無法知曉的謎團(tuán)枯夜。然而,對(duì)于 NLP 從業(yè)者而言疼约,盡管無法直接窺探其訓(xùn)練細(xì)節(jié)卤档,但通過對(duì)模型輸出的觀察蝙泼,訓(xùn)練思路仍然能被推測(cè)出大致框架程剥。盡管媒體宣傳鋪天蓋地,DeepSeek 的表現(xiàn)也相當(dāng)亮眼汤踏,但它仍然是 OpenAI 的追隨者织鲸。誠(chéng)然,從 0 到 1 的創(chuàng)新往往更具挑戰(zhàn)性溪胶,OpenAI 在這一過程中所付出的探索尤為艱辛搂擦。然而,DeepSeek 的崛起無疑標(biāo)志著一次重大突破哗脖。它不僅為研究者和開發(fā)者提供了一個(gè)開放瀑踢、可深入研究的平臺(tái),還為未來開源 LLM 超越閉源 LLM 指明了方向才避。
經(jīng)驗(yàn)表明橱夭,最有效的方法往往源自最樸素的初衷。試想一下桑逝,如果沒有 DeepSeek-R1 提供的方法棘劣,若讓你自己實(shí)現(xiàn)一個(gè)類似 GPT-O1 這樣具備思維過程的 LLM,你會(huì)如何著手呢楞遏?
一個(gè)最直接茬暇、自然的思路便是收集大量帶有 Chain-of-Thought (CoT) 的訓(xùn)練數(shù)據(jù)。在這一過程中寡喝,我們還可以借助普通 LLM糙俗,通過提示工程生成符合要求的數(shù)據(jù)。數(shù)據(jù)中预鬓,推理過程可以用 <think></think>
標(biāo)簽標(biāo)記巧骚,最終的回答則用 <answer></answer>
標(biāo)簽進(jìn)行標(biāo)注,接著利用這些數(shù)據(jù)進(jìn)行微調(diào)訓(xùn)練珊皿,從而得到一個(gè)具備思維過程的 LLM网缝。
回顧一下 DeepSeek-R1 的論文,其訓(xùn)練模板正是這一思路蟋定。但或許為了進(jìn)一步提升效果粉臊,DeepSeek 團(tuán)隊(duì)在訓(xùn)練 DeepSeek-R1 Zero 時(shí)完全摒棄了傳統(tǒng)的 SFT(監(jiān)督微調(diào)),而是采用了純強(qiáng)化學(xué)習(xí)的方法驶兜,采用 GRPO(群組相對(duì)策略優(yōu)化) 作為強(qiáng)化學(xué)習(xí)框架扼仲。通過對(duì)多個(gè)答案進(jìn)行采樣远寸,計(jì)算其相對(duì)優(yōu)勢(shì)并加以優(yōu)化,從而對(duì)原始的 DeepSeek V3 模型進(jìn)行微調(diào)屠凶,賦予其推理能力驰后。
GRPO:DeepSeek 成功的關(guān)鍵優(yōu)化
GRPO (Group Relative Policy Optimization) 是deepseek團(tuán)隊(duì)在2024年2月提出的一種用于強(qiáng)化學(xué)習(xí)的優(yōu)化方法,用以 減少計(jì)算開銷 并提升推理能力矗愧。 眾所周知灶芝,在強(qiáng)化學(xué)習(xí)中,常見的方法是 近端策略優(yōu)化(PPO, Proximal Policy Optimization)唉韭,這個(gè)算法自從被OpenAI提出來的夜涕,幾乎一直雄踞強(qiáng)化學(xué)習(xí)SOTA方法之榜首,因此openai在訓(xùn)練他們LLM模型中使用的RLHF中的必然一直是PPO属愤,GRPO這個(gè)微小的改進(jìn)或許是deepseek成功的非常關(guān)鍵的一環(huán)女器。
GRPO 的核心思想
GRPO 的獨(dú)特之處在于它通過比較同一批次中不同答案的相對(duì)優(yōu)勢(shì),來指導(dǎo)策略的優(yōu)化住诸。與傳統(tǒng)方法中的 Critic 網(wǎng)絡(luò)相比驾胆,GRPO 直接通過群體間的評(píng)分差異進(jìn)行學(xué)習(xí),從而節(jié)約了大量的計(jì)算資源贱呐,并且能夠提高強(qiáng)化學(xué)習(xí)的效率丧诺。具體來說,GRPO 的優(yōu)勢(shì)計(jì)算不依賴外部的價(jià)值模型吼句,而是通過 同一問題多個(gè)答案之間的分?jǐn)?shù)對(duì)比 來得出優(yōu)勢(shì)锅必,這使得它特別適用于推理任務(wù)。
GRPO 公式與計(jì)算方法
GRPO 的優(yōu)化過程可以通過以下公式描述:
目標(biāo)優(yōu)化函數(shù)(Objective Function):
其中:
和
分別表示當(dāng)前策略模型和舊策略模型生成答案的概率惕艳。
表示優(yōu)勢(shì)函數(shù)搞隐,衡量當(dāng)前答案相對(duì)于其他答案的質(zhì)量。
- 裁剪項(xiàng) 用于限制策略更新幅度远搪,以避免訓(xùn)練的不穩(wěn)定劣纲。
- KL 散度懲罰項(xiàng) 用于防止策略與參考模型之間的差異過大,從而保證訓(xùn)練的穩(wěn)定性谁鳍。
優(yōu)勢(shì)計(jì)算(Advantage Estimation):
在 GRPO 中癞季,優(yōu)勢(shì)函數(shù) Ai 不是通過傳統(tǒng)的 Critic 網(wǎng)絡(luò)來估算,而是通過同一問題多個(gè)答案之間的相對(duì)獎(jiǎng)勵(lì)來計(jì)算倘潜。具體而言:
其中绷柒,
表示答案的獎(jiǎng)勵(lì)分?jǐn)?shù),
和
分別是該組答案獎(jiǎng)勵(lì)的平均值和標(biāo)準(zhǔn)差涮因。這種基于群體之間評(píng)分對(duì)比的方式废睦,不僅減少了計(jì)算復(fù)雜度,還提升了訓(xùn)練的穩(wěn)定性和推理的精度养泡。
GRPO 的優(yōu)勢(shì)
GRPO 相較于傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法嗜湃,具有以下幾個(gè)顯著優(yōu)勢(shì):
- 計(jì)算開銷降低:GRPO 不使用 Critic 網(wǎng)絡(luò)奈应,而是通過直接對(duì)比多答案之間的相對(duì)優(yōu)勢(shì)來優(yōu)化策略,從而大大減少了計(jì)算資源的消耗购披,節(jié)省了 50% 以上的計(jì)算資源杖挣。
- 提高穩(wěn)定性:傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法可能面臨 Critic 網(wǎng)絡(luò)誤差傳播和過擬合的問題,而 GRPO 通過群組評(píng)分的方式降低了估計(jì)誤差刚陡,提高了訓(xùn)練的穩(wěn)定性惩妇。
- 特別適合推理任務(wù):GRPO 適用于需要推理的任務(wù),因?yàn)樗ㄟ^比較不同答案的相對(duì)優(yōu)勢(shì)橘荠,能夠更好地引導(dǎo)策略優(yōu)化屿附,避免了對(duì)復(fù)雜價(jià)值網(wǎng)絡(luò)的依賴郎逃。
GRPO 在 DeepSeek-R1-Zero 訓(xùn)練中的應(yīng)用
DeepSeek-R1-Zero 采用 GRPO(Generalized Reward Policy Optimization)優(yōu)化其推理能力哥童。具體訓(xùn)練流程如下:
-
采樣多個(gè)答案:對(duì)于每個(gè)問題,使用當(dāng)前策略
生成多個(gè)不同的答案褒翰。
-
計(jì)算獎(jiǎng)勵(lì):通過規(guī)則獎(jiǎng)勵(lì)的方式贮懈,為每個(gè)答案分配獎(jiǎng)勵(lì)分?jǐn)?shù),獎(jiǎng)勵(lì)計(jì)算包括以下幾項(xiàng):
-
準(zhǔn)確性獎(jiǎng)勵(lì)(Accuracy Rewards)
- 目標(biāo):評(píng)估生成的答案是否正確优训,尤其是對(duì)于那些具有確定性結(jié)果的問題(如數(shù)學(xué)朵你、編程等)。
-
實(shí)現(xiàn)方法:
- 對(duì)于數(shù)學(xué)問題或其他標(biāo)準(zhǔn)答案可驗(yàn)證的任務(wù)揣非,模型需要提供一個(gè)格式化的最終答案抡医,例如將結(jié)果放入括號(hào)或按照特定格式進(jìn)行驗(yàn)證。
- 對(duì)于編程問題(如 LeetCode 等)早敬,可以使用 編譯器 或 測(cè)試用例 來驗(yàn)證模型生成的代碼是否正確忌傻。
-
格式獎(jiǎng)勵(lì)(Format Rewards)
- 目標(biāo):確保模型生成的答案符合特定的格式要求。
-
實(shí)現(xiàn)方法:
-
思維鏈(Chain-of-Thought搞监,CoT)格式:模型需要將推理過程放在
<think>
和</think>
標(biāo)簽之間水孩,最終答案放在<answer>
和</answer>
標(biāo)簽中。 - 這種格式化不僅提升了模型的可讀性和結(jié)構(gòu)化推理能力琐驴,也幫助開發(fā)者或用戶快速定位問題的解答過程俘种。
-
思維鏈(Chain-of-Thought搞监,CoT)格式:模型需要將推理過程放在
-
語言一致性獎(jiǎng)勵(lì)(Language Consistency Rewards)
- 目標(biāo):減少語言混雜現(xiàn)象,使生成的推理過程和答案保持同一語言環(huán)境绝淡。
-
實(shí)現(xiàn)方法:
- 在多語言任務(wù)中宙刘,模型會(huì)根據(jù)生成文本的語言一致性給予獎(jiǎng)勵(lì)。如果在同一推理過程中保持一致的語言(例如全程使用英語或中文)牢酵,則會(huì)獲得獎(jiǎng)勵(lì)悬包;如果語言切換(例如從中文轉(zhuǎn)到英文),則會(huì)受到懲罰茁帽。
-
推理過程的可讀性獎(jiǎng)勵(lì)(Readability Rewards)
- 目標(biāo):評(píng)估推理過程的簡(jiǎn)潔性玉罐、清晰性和易理解性屈嗤。
-
實(shí)現(xiàn)方法:
- 生成的推理過程不應(yīng)過于復(fù)雜或冗長(zhǎng)。如果模型生成的推理過程過于繁瑣吊输,導(dǎo)致人類理解困難饶号,獎(jiǎng)勵(lì)將相應(yīng)降低。
- 例如季蚂,推理過程中若包含過多無關(guān)的步驟或細(xì)節(jié)(如不必要的解釋)茫船,將被認(rèn)為不符合可讀性標(biāo)準(zhǔn)。
-
準(zhǔn)確性驗(yàn)證獎(jiǎng)勵(lì)(Correctness Verification)
- 目標(biāo):通過驗(yàn)證工具或外部機(jī)制確認(rèn)模型答案的正確性扭屁。
-
實(shí)現(xiàn)方法:
- 對(duì)于特定任務(wù)算谈,可能會(huì)使用外部驗(yàn)證工具來幫助評(píng)估答案的正確性。例如料滥,數(shù)學(xué)計(jì)算任務(wù)中的答案通過自動(dòng)計(jì)算器進(jìn)行驗(yàn)證然眼;編程任務(wù)中,通過編程環(huán)境或測(cè)試框架來驗(yàn)證代碼的正確性葵腹。
-
反思獎(jiǎng)勵(lì)(Reflection Rewards)
- 目標(biāo):鼓勵(lì)模型在推理過程中進(jìn)行自我反思和修正高每。
-
實(shí)現(xiàn)方法:
- 如果模型在推理過程中發(fā)現(xiàn)某些步驟可能存在問題,并能主動(dòng)進(jìn)行回溯和修正践宴,則會(huì)獲得獎(jiǎng)勵(lì)鲸匿。這一獎(jiǎng)勵(lì)機(jī)制有助于增強(qiáng)模型的推理深度和修正錯(cuò)誤的能力。
-
準(zhǔn)確性獎(jiǎng)勵(lì)(Accuracy Rewards)
- 計(jì)算相對(duì)優(yōu)勢(shì):基于多個(gè)答案的獎(jiǎng)勵(lì)分?jǐn)?shù)阻肩,計(jì)算標(biāo)準(zhǔn)化的優(yōu)勢(shì)函數(shù)带欢。
- 更新策略:采用 GRPO 的目標(biāo)優(yōu)化函數(shù),更新策略烤惊,增加高分答案的生成概率乔煞。
實(shí)驗(yàn)表明,GRPO 訓(xùn)練的 DeepSeek-R1-Zero 在數(shù)學(xué)和編程推理任務(wù)中取得了顯著進(jìn)展撕氧。例如瘤缩,在 AIME 2024 數(shù)學(xué)競(jìng)賽中,Pass@1 得分從 15.6% 提升至 71.0%伦泥,多數(shù)投票后的得分可達(dá)到 86.7%剥啤。盡管如此,由于缺乏傳統(tǒng)的監(jiān)督微調(diào)(SFT)不脯,DeepSeek-R1-Zero 存在語言混雜和可讀性差的問題府怯,這一問題在后續(xù)的 DeepSeek-R1 訓(xùn)練中得到了有效改進(jìn)。
DeepSeek-R1:結(jié)合冷啟動(dòng)和多階段強(qiáng)化學(xué)習(xí)
為了彌補(bǔ) DeepSeek-R1-Zero 的缺陷防楷,deepseek研究團(tuán)隊(duì)設(shè)計(jì)了多階段訓(xùn)練流程:
-
冷啟動(dòng)(Cold Start)
- 使用 高質(zhì)量長(zhǎng)鏈?zhǔn)酵评恚–oT)數(shù)據(jù) 進(jìn)行初步微調(diào)牺丙。
- 數(shù)據(jù)來源:
- 少樣本提示(Few-Shot Prompting)
- DeepSeek-R1-Zero 生成的可讀性數(shù)據(jù)
- 人工篩選和優(yōu)化
- 目標(biāo):提高模型可讀性,減少語言混雜問題。
-
推理導(dǎo)向的強(qiáng)化學(xué)習(xí)(Reasoning-oriented RL)
- 在經(jīng)過冷啟動(dòng)微調(diào)的模型上進(jìn)行 RL 訓(xùn)練冲簿,增強(qiáng)推理能力粟判。
- 采用 語言一致性獎(jiǎng)勵(lì)(Language Consistency Reward),確甭吞蓿回答使用單一語言档礁,提高可讀性。
-
拒絕采樣和監(jiān)督微調(diào)(Rejection Sampling + SFT)
- 在 RL 訓(xùn)練后吝沫,使用拒絕采樣收集高質(zhì)量數(shù)據(jù)呻澜。
- 結(jié)合 DeepSeek-V3 的監(jiān)督數(shù)據(jù)進(jìn)行額外微調(diào),增強(qiáng)寫作惨险、問答羹幸、角色扮演等能力。
-
全場(chǎng)景強(qiáng)化學(xué)習(xí)(RL for all Scenarios)
- 進(jìn)一步對(duì)齊人類偏好辫愉,優(yōu)化推理和非推理任務(wù)栅受。
- 采用多種獎(jiǎng)勵(lì)信號(hào),包括:
- 推理任務(wù)的規(guī)則獎(jiǎng)勵(lì)
- 一般任務(wù)的偏好模型(Preference Model)
- 幫助性(Helpfulness)和無害性(Harmlessness)評(píng)估
經(jīng)過這一番操作一屋,使得DeepSeek-R1在數(shù)學(xué)窘疮、編程、綜合推理方面的跑分達(dá)到了最先進(jìn)水平冀墨,盡管在很多實(shí)際場(chǎng)景中還是遜色于openai-o1,但重點(diǎn)在于deepseek訓(xùn)練這個(gè)模型花費(fèi)成本之低涛贯,足以讓OpenAI感到恐慌诽嘉,這也導(dǎo)致了山姆奧特曼后來的逐步開放的計(jì)劃。
DeepSeek 的成功:一個(gè)小公司如何打破行業(yè)常規(guī)
DeepSeek 的崛起令人驚訝弟翘,因?yàn)樗⑽闯霈F(xiàn)在那些資金雄厚的大公司虫腋,而是一個(gè)曾被低估的小公司。其成功可歸因于以下幾個(gè)關(guān)鍵因素:
- 站在巨人的肩膀上:DeepSeek 明智地利用了全球開源社區(qū)的技術(shù)成果稀余,并以開放的姿態(tài)將自己的技術(shù)回饋給社區(qū)悦冀。這種開源精神使其始終站在行業(yè)的前沿。
- 人才哲學(xué):DeepSeek 更注重員工的潛力和創(chuàng)新能力睛琳,而非單純的經(jīng)驗(yàn)和背景盒蟆。其招聘哲學(xué)幫助吸引了真正符合團(tuán)隊(duì)文化和目標(biāo)的人才,激發(fā)了團(tuán)隊(duì)成員的創(chuàng)造力师骗。
- 打破成熟體系的局限性:大公司往往存在創(chuàng)新受限的問題历等,優(yōu)秀人才未必能在固有的層級(jí)結(jié)構(gòu)中發(fā)揮所長(zhǎng)。DeepSeek 通過靈活的團(tuán)隊(duì)架構(gòu)辟癌,充分挖掘每個(gè)成員的潛力寒屯。
討論
從deepseek的實(shí)驗(yàn)結(jié)果來看,直接從大模型蒸餾到相對(duì)小的模型比小模型直接RL會(huì)更直接有效黍少。但是如果智能要進(jìn)一步發(fā)展寡夹,或許還是要進(jìn)一步拜托人類經(jīng)驗(yàn)的束縛处面,如果有一天能像alpha zero那樣完全擺脫人類經(jīng)驗(yàn)才是真正的無敵。