DeepSeek-R1:通過強化學習激勵大語言模型的推理能力

February 24, 2025

摘要

我們介紹我們的第一代推理模型碍讨,DeepSeek-R1-Zero 和 DeepSeek-R1拆火。DeepSeek-R1-Zero 是一個通過大規(guī)模強化學習(RL)訓練的模型川慌,未經過監(jiān)督微調(SFT)作為初步步驟脸狸,展示了卓越的推理能力。通過 RL缴渊,DeepSeek-R1-Zero 自然地表現(xiàn)出大量強大而有趣的推理行為赏壹。然而,它面臨著閱讀性差和語言混合等挑戰(zhàn)衔沼。為了應對這些問題并進一步提高推理性能蝌借,我們引入了 DeepSeek-R1田柔,該模型在 RL 之前結合了多階段訓練和冷啟動數(shù)據(jù)。DeepSeek-R1 在推理任務上的表現(xiàn)可與 OpenAI-o1-1217 相媲美骨望。為了支持研究社區(qū),我們開源了 DeepSeek-R1-Zero欣舵、DeepSeek-R1 以及六個基于 Qwen 和 Llama 從 DeepSeek-R1 中提煉出的密集模型(1.5B擎鸠、7B、8B缘圈、14B劣光、32B、70B)糟把。

1 簡介

近年來绢涡,大型語言模型(LLMs)經歷了快速的迭代和演變(OpenAI,2024a遣疯;Anthropic雄可,2024;Google缠犀,2024)数苫,逐漸縮小了與人工通用智能(AGI)之間的差距。

最近辨液,后訓練已成為完整訓練流程的重要組成部分虐急。研究表明,它能夠提高推理任務的準確性滔迈,與社會價值觀保持一致止吁,并適應用戶偏好,同時在計算資源上相對于預訓練要求相對較少燎悍。在推理能力方面敬惦,OpenAI 的 o1(OpenAI,2024b)系列模型首次通過增加思維鏈推理過程的長度引入了推理時縮放间涵。這種方法在數(shù)學仁热、編碼和科學推理等各種推理任務中取得了顯著的改進。然而勾哩,有效的測試時縮放的挑戰(zhàn)仍然是研究界的一個未解之問抗蠢。一些先前的研究探索了各種方法,包括基于過程的獎勵模型(Uesato 等思劳,2022迅矛;Lightman 等,2023潜叛;Wang 等秽褒,2023)壶硅、強化學習(Kumar 等,2024)以及蒙特卡羅樹搜索和束搜索等搜索算法(Feng 等销斟,2024庐椒;Xin 等,2024蚂踊;Trinh 等约谈,2024)。然而犁钟,這些方法都沒有達到與 OpenAI 的 o1 系列模型相媲美的通用推理性能棱诱。

在本文中,我們邁出了提高語言模型推理能力的第一步涝动,采用純強化學習(RL)迈勋。我們的目標是探索大型語言模型(LLMs)在沒有任何監(jiān)督數(shù)據(jù)的情況下發(fā)展推理能力的潛力,重點關注它們通過純RL過程的自我演化醋粟。具體而言靡菇,我們使用DeepSeek-V3-Base作為基礎模型镰官,并采用GRPO(Shao等泳唠,2024)作為RL框架笨腥,以提高模型在推理方面的表現(xiàn)脖母。在訓練過程中谆级,DeepSeek-R1-Zero自然地出現(xiàn)了許多強大而有趣的推理行為。在經過數(shù)千步的RL后讼积,DeepSeek-R1-Zero在推理基準測試中表現(xiàn)出超強的性能肥照。例如,AIME 2024上的pass@1得分從15.6%提高到71.0%勤众,并且通過多數(shù)投票舆绎,得分進一步提高至86.7%,與OpenAI-o1-0912的表現(xiàn)相匹配们颜。

然而吕朵,DeepSeek-R1-Zero面臨著可讀性差和語言混雜等挑戰(zhàn)猎醇。為了解決這些問題并進一步增強推理性能,我們引入了DeepSeek-R1努溃,該模型結合了一小部分冷啟動數(shù)據(jù)和多階段訓練流程硫嘶。具體而言,我們首先收集數(shù)千條冷啟動數(shù)據(jù)以微調DeepSeek-V3-Base模型音半。隨后斥铺,我們像DeepSeek-R1-Zero一樣進行面向推理的RL。在RL過程接近收斂時,我們通過對RL檢查點進行拒絕采樣生成新的SFT數(shù)據(jù)岖常,并結合來自DeepSeek-V3在寫作橄镜、事實問答和自我認知等領域的監(jiān)督數(shù)據(jù),然后重新訓練DeepSeek-V3-Base模型丐怯。在使用新數(shù)據(jù)微調后棕孙,檢查點經歷了額外的RL過程订雾,考慮到所有場景的提示沼本。經過這些步驟识补,我們獲得了一個被稱為DeepSeek-R1的檢查點贴妻,其性能與OpenAI-o1-1217相當。

我們進一步探索從DeepSeek-R1到更小密集模型的蒸餾滤馍。以Qwen2.5-32B(Qwen,2024b)作為基礎模型,直接從DeepSeek-R1進行蒸餾的性能優(yōu)于在其上應用RL那槽。這表明慌植,大型基礎模型發(fā)現(xiàn)的推理模式對于提高推理能力至關重要非驮。我們開源了蒸餾后的Qwen和Llama(Dubey等,2024)系列。值得注意的是栋盹,我們的蒸餾14B模型在很大程度上超越了最新的開源QwQ-32B-Preview(Qwen曹仗,2024a),而蒸餾后的32B和70B模型在密集模型的推理基準測試中創(chuàng)造了新的記錄轨蛤。

1.1貢獻

后訓練:base模型上的大規(guī)模強化學習

  • 我們直接在基礎模型上應用強化學習(RL)掉伏,而不依賴監(jiān)督微調(SFT)作為初步步驟。這種方法使模型能夠探索思維鏈(CoT)以解決復雜問題,從而開發(fā)出DeepSeek-R1-Zero源祈。DeepSeek-R1-Zero展示了自我驗證、反思和生成長思維鏈等能力,標志著研究社區(qū)的重要里程碑姑隅。值得注意的是鄙陡,這是首次開放研究驗證大型語言模型(LLMs)的推理能力可以僅通過強化學習激勵,而無需SFT。這一突破為未來該領域的進展鋪平了道路蔓同。
  • 我們介紹了開發(fā)DeepSeek-R1的流程脯爪。該流程包含兩個RL階段,旨在發(fā)現(xiàn)改進的推理模式并與人類偏好對齊,以及兩個SFT階段思灌,作為模型推理和非推理能力的種子蜈垮。我們認為,該流程將通過創(chuàng)建更好的模型來惠及行業(yè)羔砾。

蒸餾:小模型也可以非常強大

  • 我們證明了大型模型的推理模式可以被蒸餾到小模型中趾访,從而導致與通過RL在小模型上發(fā)現(xiàn)的推理模式相比取得更好的性能空扎。開源的DeepSeek-R1及其API將使研究社區(qū)受益,以便將來能夠蒸餾出更好的小模型。
  • 使用DeepSeek-R1生成的推理數(shù)據(jù)影涉,我們對幾個在研究社區(qū)廣泛使用的密集模型進行了微調。評估結果表明豁陆,蒸餾出的小規(guī)模密集模型在基準測試中表現(xiàn)出色表鳍。DeepSeek-R1-Distill-Qwen-7B在AIME 2024上取得了55.5%的成績原押,超過了QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B在AIME 2024上得分72.6%竭宰,在MATH-500上得分94.3%廓旬,在LiveCodeBench上得分57.2%。這些結果顯著優(yōu)于之前的開源模型,并且與o1-mini相當。我們對社區(qū)開源了基于Qwen2.5和Llama3系列的1.5B竟闪、7B、8B絮识、14B兽愤、32B和70B檢查點。

1.2 評估結果總結

  • 推理任務: (1) DeepSeek-R1 在 AIME 2024 上獲得 79.8% 的 Pass@1 分數(shù),略微超過 OpenAI-o1-1217徘郭。在 MATH-500 上闪湾,它取得了 97.3% 的令人印象深刻的成績,表現(xiàn)與 OpenAI-o1-1217 相當,且明顯優(yōu)于其他模型裆站。 (2) 在編碼相關任務中肩袍,DeepSeek-R1 在代碼競賽任務中表現(xiàn)出專家水平,在 Codeforces 上獲得了 2,029 的 Elo 評級,超過了 96.3% 的人類參賽者撩笆。對于工程相關任務餐济,DeepSeek-R1 的表現(xiàn)略優(yōu)于 DeepSeek-V3,這可能會幫助開發(fā)人員處理實際任務蚁阳。
  • 知識:在 MMLU矮燎、MMLU-Pro 和 GPQA Diamond 等基準測試中,DeepSeek-R1 取得了優(yōu)秀的結果刊苍,以 90.8% 的 MMLU号杏、84.0% 的 MMLU-Pro 和 71.5% 的 GPQA Diamond 分數(shù)顯著優(yōu)于 DeepSeek-V3。盡管在這些基準測試中的表現(xiàn)略低于 OpenAI-o1-1217,DeepSeek-R1 超過了其他閉源模型,展現(xiàn)出其在教育任務中的競爭優(yōu)勢。在事實基準 SimpleQA 上,DeepSeek-R1 超過了 DeepSeek-V3,證明了其處理基于事實查詢的能力志鞍。在這個基準上仙蚜,OpenAI-o1 超過 4o 的類似趨勢也有所體現(xiàn)艳丛。
  • 其他:DeepSeek-R1 在包括創(chuàng)意寫作、一般問答、編輯、摘要等廣泛任務中表現(xiàn)優(yōu)異。在 AlpacaEval 2.0 上,它實現(xiàn)了 87.6% 的長度控制勝率,在 ArenaHard 上達到 92.3% 的勝率,展示了其智能處理非考試導向查詢的強大能力。此外,DeepSeek-R1 在需要長上下文理解的任務上表現(xiàn)出色,在長上下文基準上顯著優(yōu)于 DeepSeek-V3丹泉。

2 方法

2.1 概述

之前的工作在很大程度上依賴于大量的監(jiān)督數(shù)據(jù)來提高模型性能情萤。在本研究中,我們展示了即使不使用監(jiān)督微調(SFT)作為冷啟動摹恨,通過大規(guī)模強化學習(RL)筋岛,推理能力也可以顯著提高红符。此外拣技,通過加入少量冷啟動數(shù)據(jù),性能可以進一步增強。在接下來的部分中蓖议,我們介紹:(1) DeepSeek-R1-Zero婆翔,它直接將RL應用于基礎模型而不使用任何SFT數(shù)據(jù)枝秤,(2) DeepSeek-R1,它從一個經過數(shù)千個長思維鏈(CoT)示例微調的檢查點開始應用RL,(3) 將DeepSeek-R1的推理能力提煉到小型稠密模型中。

2.2 DeepSeek-R1-Zero:基礎模型上的強化學習

強化學習在推理任務中表現(xiàn)出了顯著的有效性,這在我們之前的工作中得到了證明(Wang et al., 2023; Shao et al., 2024)。然而,這些工作在很大程度上依賴于監(jiān)督數(shù)據(jù)爷贫,而這些數(shù)據(jù)的收集耗時。在本節(jié)中师抄,我們探索LLMs在沒有任何監(jiān)督數(shù)據(jù)的情況下發(fā)展推理能力的潛力舀瓢,重點關注它們通過純強化學習過程的自我演化。我們首先簡要概述我們的RL算法,然后展示一些令人興奮的結果,希望這能為社區(qū)提供有價值的見解。

2.2.1 強化學習算法

組相對策略優(yōu)化 GRPO

2.2.2獎勵建模

獎勵是訓練信號的來源,決定了強化學習的優(yōu)化方向。為了訓練DeepSeek-R1-Zero型诚,我們采用了一個基于規(guī)則的獎勵系統(tǒng),主要由兩種類型的獎勵組成:

  • 準確性獎勵:準確性獎勵模型評估響應是否正確耻涛。例如构舟,對于具有確定性結果的數(shù)學題夯膀,模型需要以指定格式(例如苗桂,放在一個框內)提供最終答案,從而實現(xiàn)可靠的基于規(guī)則的正確性驗證咽袜。類似地蔽挠,對于LeetCode問題,可以使用編譯器根據(jù)預定義的測試用例生成反饋瓜浸。
  • 格式獎勵:除了準確性獎勵模型澳淑,我們還采用了格式獎勵模型,強制模型將思考過程放在‘<think>’和‘</think>’標簽之間插佛。

在開發(fā)DeepSeek-R1-Zero時杠巡,我們不應用結果或過程神經獎勵模型,因為我們發(fā)現(xiàn)神經獎勵模型在大規(guī)模強化學習過程中可能會遭受獎勵破解雇寇,并且重新訓練獎勵模型需要額外的訓練資源氢拥,從而使整個訓練流程變得復雜。

2.2.3訓練模板

為了訓練DeepSeek-R1-Zero锨侯,我們首先設計了一個簡單的模板嫩海,引導基礎模型遵循我們指定的指令。如表1所示囚痴,該模板要求DeepSeek-R1-Zero首先生成推理過程叁怪,然后給出最終答案。我們故意將約束限制在這種結構格式上深滚,避免任何特定內容偏見——例如奕谭,要求反思性推理或促進特定解決問題的策略——以確保我們能夠準確觀察模型在強化學習過程中的自然進展耳璧。

表1

2.2.4 Deepseek-R1-Zero的性能、自我進化過程和頓悟時刻

DeepSeek-R1-Zero的性能 圖2展示了DeepSeek-R1-Zero在AIME 2024基準測試中整個強化學習訓練過程中的性能軌跡展箱。如圖所示旨枯,DeepSeek-R1-Zero在強化學習訓練進展過程中表現(xiàn)出穩(wěn)定且持續(xù)的性能提升。值得注意的是混驰,AIME 2024上的平均通過率@1分數(shù)顯著增加攀隔,從最初的15.6%躍升至令人印象深刻的71.0%,達到了與OpenAI-o1-0912相當?shù)男阅芩狡苷ァ_@一顯著的改進突顯了我們強化學習算法在優(yōu)化模型性能方面的有效性昆汹。

圖2:DeepSeek-R1-Zero在訓練期間的AIME準確率。對于每個問題婴栽,我們采樣16個響應并計算整體平均準確率满粗,以確保評估的穩(wěn)定性。

表2提供了DeepSeek-R1-Zero與OpenAI的o1-0912模型在多種推理相關基準測試中的比較分析愚争。研究結果表明映皆,強化學習使DeepSeek-R1-Zero能夠在沒有任何監(jiān)督微調數(shù)據(jù)的情況下獲得強大的推理能力。這是一個值得注意的成就轰枝,因為它強調了該模型通過僅依靠強化學習有效學習和泛化的能力捅彻。此外,通過應用多數(shù)投票鞍陨,DeepSeek-R1-Zero的性能可以進一步增強步淹。例如,當在AIME基準上使用多數(shù)投票時诚撵,DeepSeek-R1-Zero的性能從71.0%提升至86.7%缭裆,從而超過了OpenAI-o1-0912的表現(xiàn)。DeepSeek-R1-Zero在有無多數(shù)投票的情況下都能實現(xiàn)如此具有競爭力的性能寿烟,突顯了其強大的基礎能力及在推理任務中進一步發(fā)展的潛力澈驼。

表2

DeepSeek-R1-Zero的自我進化過程

DeepSeek-R1-Zero的自我進化過程是一個引人入勝的示范,展示了強化學習如何驅動模型自主提高其推理能力韧衣。通過直接從基礎模型啟動強化學習盅藻,我們可以在沒有監(jiān)督微調階段影響的情況下,密切監(jiān)測模型的進展畅铭。這種方法清晰地展示了模型如何隨著時間的推移而演變,特別是在處理復雜推理任務的能力方面勃蜘。

如圖3所示硕噩,DeepSeek-R1-Zero的思考時間在整個訓練過程中持續(xù)改善。這種改善不是外部調整的結果缭贡,而是模型內部的自然發(fā)展炉擅。DeepSeek-R1-Zero通過利用擴展的測試時計算辉懒,自然獲得了解決日益復雜的推理任務的能力。這種計算范圍從生成數(shù)百到數(shù)千個推理標記谍失,使模型能夠更深入地探索和完善其思維過程眶俩。

這一自我進化過程中最顯著的方面之一是隨著測試時計算的增加,復雜行為的出現(xiàn)快鱼。反思等行為——即模型重新審視和重新評估其先前步驟——以及探索解決問題的替代方法自發(fā)產生颠印。這些行為并不是顯式編程的,而是模型與強化學習環(huán)境互動的結果抹竹。這種自發(fā)的發(fā)展顯著增強了DeepSeek-R1-Zero的推理能力线罕,使其能夠以更高的效率和準確性應對更具挑戰(zhàn)性的任務。

圖3:DeepSeek-R1-Zero在RL過程中訓練集上的平均響應長度窃判。DeepSeek-R1-Zero自然學會在更多思考時間內解決推理任務钞楼。

DeepSeek-R1-Zero的“頓悟時刻”
在DeepSeek-R1-Zero的訓練過程中觀察到的一個特別有趣的現(xiàn)象是“頓悟時刻”的出現(xiàn)。正如表3所示袄琳,這一時刻發(fā)生在模型的一個中間版本中询件。在這個階段,DeepSeek-R1-Zero通過重新評估其初始方法唆樊,學習將更多思考時間分配給一個問題雳殊。這種行為不僅證明了模型不斷增強的推理能力,也生動地展示了強化學習如何導致意想不到且復雜的結果窗轩。

這個時刻不僅是模型的“頓悟時刻”夯秃,也是觀察其行為的研究人員的“頓悟時刻”。它強調了強化學習的力量和美妙:我們并不是明確地教模型如何解決問題痢艺,而是簡單地為它提供適當?shù)募畈滞荩阕灾靼l(fā)展出先進的問題解決策略〉淌妫“頓悟時刻”強有力地提醒我們色建,強化學習有潛力在人工系統(tǒng)中解鎖新的智能水平,為未來更自主和適應性強的模型鋪平道路舌缤。

表3:DeepSeek-R1-Zero一個中間版本的有趣“恍然大悟時刻”箕戳。該模型學會了重新思考,使用擬人化的語氣国撵。這也是我們的一次恍然大悟時刻陵吸,讓我們見證強化學習的力量和美。

DeepSeek-R1-Zero的缺陷
盡管DeepSeek-R1-Zero表現(xiàn)出強大的推理能力介牙,并自主發(fā)展出意想不到且強大的推理行為壮虫,但它面臨著幾個問題。例如,DeepSeek-R1-Zero在可讀性差和語言混合等挑戰(zhàn)上存在困難囚似。為了使推理過程更具可讀性并與開放社區(qū)分享剩拢,我們探索了DeepSeek-R1,這是一種利用強化學習與人類友好的冷啟動數(shù)據(jù)的方法饶唤。

2.3DeepSeek-R1:冷啟動的強化學習

受DeepSeek-R1-Zero的良好結果的啟發(fā)徐伐,出現(xiàn)了兩個自然的問題:1)通過引入少量高質量數(shù)據(jù)作為冷啟動,推理性能是否可以進一步提高或收斂加速募狂?2)我們如何訓練一個用戶友好的模型办素,該模型不僅能夠產生清晰連貫的思維鏈(CoT),還能夠展現(xiàn)出強大的通用能力熬尺?為了解決這些問題摸屠,我們設計了一個訓練DeepSeek-R1的流程。該流程分為四個階段粱哼,如下所述季二。

2.3.1冷啟動

與 DeepSeek-R1-Zero 不同,為了防止基礎模型的強化學習訓練在早期的不穩(wěn)定冷啟動階段揭措,DeepSeek-R1 構建并收集了一小部分長的 CoT 數(shù)據(jù)胯舷,以微調模型作為初始的 RL 執(zhí)行者。為了收集這些數(shù)據(jù)绊含,我們探索了幾種方法:使用few-shot 提示以長 CoT 為例桑嘶,直接提示模型生成帶有反思和驗證的詳細答案,收集 DeepSeek-R1-Zero 的可讀格式輸出躬充,并通過人工標注者進行后處理來完善結果逃顶。

在這項工作中,我們收集了數(shù)千條冷啟動數(shù)據(jù)充甚,以微調 DeepSeek-V3-Base 作為 RL 的起始點以政。與 DeepSeek-R1-Zero 相比,冷啟動數(shù)據(jù)的優(yōu)勢包括:

  • 可讀性:DeepSeek-R1-Zero 的一個主要局限性是其內容通常不適合閱讀伴找∮回答可能混合多種語言,或缺乏 Markdown 格式來突出用戶的答案技矮。相反抖誉,在為 DeepSeek-R1 創(chuàng)建冷啟動數(shù)據(jù)時,我們設計了一個可讀的模式衰倦,包括每個響應末尾的摘要袒炉,并篩選掉不適合讀者的回答。在這里耿币,我們將輸出格式定義為 |special_token|<reasoning_process>|special_token|<summary>梳杏,其中推理過程是針對查詢的 CoT,而摘要用于總結推理結果淹接。
  • 潛力:通過仔細設計帶有人工先驗的冷啟動數(shù)據(jù)模式十性,我們觀察到比 DeepSeek-R1-Zero 更好的表現(xiàn)。我們認為迭代訓練是推理模型的更好方式塑悼。

2.3.2 面向推理的強化學習

在對 DeepSeek-V3-Base 進行冷啟動數(shù)據(jù)的微調后劲适,我們應用與 DeepSeek-R1-Zero 相同的大規(guī)模強化學習訓練過程。此階段專注于增強模型的推理能力厢蒜,特別是在編碼霞势、數(shù)學、科學和邏輯推理等推理密集型任務中斑鸦,這些任務涉及具有明確解決方案的明確定義問題愕贡。在訓練過程中,我們觀察到 CoT 經常表現(xiàn)出語言混合巷屿,特別是在 RL 提示涉及多種語言時固以。為了減輕語言混合的問題,我們在 RL 訓練中引入了一種語言一致性獎勵嘱巾,該獎勵通過計算 CoT 中目標語言單詞的比例來確定憨琳。盡管消融實驗表明,這種對齊會導致模型性能略微下降旬昭,但該獎勵與人類偏好一致篙螟,使其更易讀。最后问拘,我們通過直接相加推理任務的準確性和語言一致性獎勵來組合它們遍略,形成最終獎勵。然后骤坐,我們對微調后的模型進行 RL 訓練绪杏,直到其在推理任務上達到收斂。

2.3.3 拒絕采樣與監(jiān)督微調

當面向推理的 RL 收斂時或油,我們利用生成的檢查點收集 SFT(監(jiān)督微調)數(shù)據(jù)以進行后續(xù)輪次寞忿。與最初的冷啟動數(shù)據(jù)主要集中于推理不同,此階段結合了來自其他領域的數(shù)據(jù)顶岸,以增強模型在寫作腔彰、角色扮演和其他通用任務中的能力。具體而言辖佣,我們生成數(shù)據(jù)并按如下所述微調模型霹抛。

推理數(shù)據(jù)

我們策劃推理提示,并通過對上述 RL 訓練的檢查點進行拒絕采樣來生成推理軌跡卷谈。在前一個階段杯拐,我們僅包括可以使用基于規(guī)則的獎勵進行評估的數(shù)據(jù)。然而,在這一階段端逼,我們通過引入額外的數(shù)據(jù)來擴展數(shù)據(jù)集朗兵,其中一些數(shù)據(jù)使用生成獎勵模型,通過將真實值和模型預測輸入 DeepSeek-V3 進行判斷顶滩。此外余掖,由于模型輸出有時混亂且難以閱讀,我們過濾掉了混合語言的思維鏈礁鲁、冗長的段落和代碼塊盐欺。對于每個提示,我們采樣多個響應仅醇,僅保留正確的響應冗美。總共收集了大約 60 萬個與推理相關的訓練樣本析二。

非推理數(shù)據(jù)

對于非推理數(shù)據(jù)粉洼,如寫作、事實問答甲抖、自我認知和翻譯漆改,我們采用 DeepSeek-V3 流程,并重用 DeepSeek-V3 的部分 SFT 數(shù)據(jù)集。對于某些非推理任務,我們調用 DeepSeek-V3 生成潛在的思維鏈送浊,然后通過提示回答問題刮萌。然而,對于更簡單的查詢,例如“你好”,我們不提供思維鏈作為回應。最終哲戚,我們收集了大約 20 萬個與推理無關的訓練樣本。

我們使用上述策劃的數(shù)據(jù)集(約 80 萬個樣本)對 DeepSeek-V3-Base 進行了兩輪微調艾岂。

2.3.4 所有場景的強化學習

為了進一步使模型與人類偏好保持一致顺少,我們實施了一個次級強化學習階段,旨在提高模型的幫助性和無害性王浴,同時改進其推理能力脆炎。具體而言,我們使用獎勵信號和多樣化提示分布的組合來訓練模型氓辣。在推理數(shù)據(jù)方面秒裕,我們遵循DeepSeek-R1-Zero中概述的方法,該方法利用基于規(guī)則的獎勵來指導數(shù)學钞啸、編碼和邏輯推理領域的學習過程几蜻。在一般數(shù)據(jù)方面喇潘,我們借助獎勵模型來捕捉復雜和細微場景中的人類偏好。我們基于DeepSeek-V3管道梭稚,采用類似的偏好對和訓練提示分布颖低。對于幫助性,我們專注于最終總結哨毁,確保評估強調響應對用戶的實用性和相關性枫甲,同時盡量減少對基礎推理過程的干擾源武。對于無害性扼褪,我們評估模型的整個響應,包括推理過程和總結粱栖,以識別和緩解生成過程中的潛在風險话浇、偏見或有害內容。最終闹究,獎勵信號和多樣化數(shù)據(jù)分布的整合使我們能夠訓練出在推理方面出色幔崖,同時優(yōu)先考慮幫助性和無害性的模型。

2.4 蒸餾:為小模型賦能推理能力

為了使更高效的小模型具備推理能力渣淤,例如 DeepSeek-R1赏寇,我們直接對開源模型進行微調,如 Qwen (Qwen, 2024b) 和 Llama (AI@Meta, 2024)价认,使用了與 DeepSeek-R1 共同整理的 80 萬個樣本嗅定,詳細信息見 §2.3.3。我們的研究結果表明用踩,這種簡單的蒸餾方法顯著增強了小模型的推理能力渠退。我們在這里使用的基礎模型是 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B脐彩、Qwen2.5-14B碎乃、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct惠奸。我們選擇 Llama-3.3梅誓,因為它的推理能力稍強于 Llama-3.1。

對于蒸餾模型佛南,我們僅應用 SFT梗掰,而不包括 RL 階段,盡管納入 RL 可能會顯著提升模型性能共虑。我們在這里的主要目標是展示蒸餾技術的有效性愧怜,將 RL 階段的探索留給更廣泛的研究社區(qū)。

3 實驗

基準測試
我們在MMLU(Hendrycks等妈拌,2020)拥坛、MMLU-Redux(Gema等蓬蝶,2024)、MMLU-Pro(Wang等猜惋,2024)丸氛、C-Eval(Huang等,2023)和CMMLU(Li等著摔,2023)缓窜、IFEval(Zhou等,2023)谍咆、FRAMES(Krishna等禾锤,2024)、GPQA Diamond(Rein等摹察,2023)恩掷、SimpleQA(OpenAI,2024c)供嚎、C-SimpleQA(He等黄娘,2024)、SWE-Bench Verified(OpenAI克滴,2024d)逼争、Aider 1(https://aider.chat)、LiveCodeBench(Jain等劝赔,2024)(2024-08至2025-01)誓焦、Codeforces(https://codeforces.com)、中國國家中學數(shù)學奧林匹克(CNMO 2024)(https://www.cms.org.cn/Home/comp/comp/cid/12.html)和美國邀請數(shù)學考試2024(AIME 2024)(MAA望忆,2024)上進行模型評估罩阵。除了標準基準外,我們還使用LLMs作為評審對開放式生成任務評估我們的模型启摄。具體而言稿壁,我們遵循AlpacaEval 2.0(Dubois等,2024)和Arena-Hard(Li等歉备,2024)的原始配置傅是,利用GPT-4-Turbo-1106進行成對比較評審。在這里蕾羊,我們只將最終摘要提交評估喧笔,以避免長度偏差。對于精簡模型龟再,我們報告在AIME 2024书闸、MATH-500、GPQA Diamond利凑、Codeforces和LiveCodeBench上的代表性結果浆劲。

評估提示
遵循DeepSeek-V3中的設置嫌术,使用simple-evals框架中的提示評估MMLU、DROP牌借、GPQA Diamond和SimpleQA等標準基準度气。對于MMLU-Redux,我們在零樣本設置中采用Zero-Eval提示格式(Lin膨报,2024)磷籍。關于MMLU-Pro、C-Eval和CLUE-WSC现柠,由于原始提示是少樣本的院领,我們稍微調整提示至零樣本設置。少樣本中的CoT可能會對DeepSeek-R1的性能產生負面影響晒旅。其他數(shù)據(jù)集遵循其原始評估協(xié)議栅盲,使用其創(chuàng)建者提供的默認提示。對于代碼和數(shù)學基準废恋,HumanEval-Mul數(shù)據(jù)集涵蓋八種主流編程語言(Python、Java扒寄、C++鱼鼓、C#、JavaScript该编、TypeScript迄本、PHP和Bash)。對LiveCodeBench的模型性能評估采用CoT格式课竣,數(shù)據(jù)收集時間為2024年8月至2025年1月嘉赎。Codeforces數(shù)據(jù)集使用10場Div.2競賽的問題和專家制作的測試案例進行評估,之后計算預期的評分和競爭者的百分比于樟。SWE-Bench驗證結果是通過無代理框架獲得的(Xia等公条,2024)。與AIDER相關的基準使用“diff”格式進行測量迂曲。DeepSeek-R1的輸出在每個基準上限制為最大32,768個標記靶橱。

基線
我們對多個強基線進行全面評估,包括DeepSeek-V3路捧、Claude-Sonnet-3.5-1022关霸、GPT-4o-0513、OpenAI-o1-mini和OpenAI-o1-1217杰扫。由于在中國大陸訪問OpenAI-o1-1217 API較為困難队寇,我們根據(jù)官方報告報告其性能。對于精簡模型章姓,我們還比較開源模型QwQ-32B-Preview(Qwen佳遣,2024a)炭序。

評估設置

我們將模型的最大生成長度設置為32,768個標記。我們發(fā)現(xiàn)苍日,使用貪婪解碼來評估長輸出推理模型會導致更高的重復率以及不同檢查點之間的顯著變異性惭聂。因此,我們默認采用pass@??評估(Chen等相恃,2021)辜纲,并報告使用非零溫度的pass@1。具體而言拦耐,我們使用0.6的采樣溫度和0.95的top-??值耕腾,為每個問題生成??個響應(通常在4到64之間,具體取決于測試集的大猩迸础)扫俺。然后計算pass@1為

3.1 DeepSeek-R1評價

對于以教育為導向的知識基準,如MMLU固翰、MMLU-Pro和GPQA Diamond狼纬,DeepSeek-R1的表現(xiàn)優(yōu)于DeepSeek-V3。這一改進主要歸因于STEM相關問題的準確性提升骂际,通過大規(guī)模強化學習取得了顯著進展疗琉。此外,DeepSeek-R1在FRAMES這一長期上下文依賴的問答任務中表現(xiàn)出色歉铝,展示了其強大的文檔分析能力盈简。這突顯了推理模型在人工智能驅動的搜索和數(shù)據(jù)分析任務中的潛力。在事實基準SimpleQA上太示,DeepSeek-R1的表現(xiàn)超過了DeepSeek-V3柠贤,展示了其處理基于事實查詢的能力。在這一基準上类缤,OpenAI-o1的表現(xiàn)也超過了GPT-4o臼勉。然而,DeepSeek-R1在中文SimpleQA基準上的表現(xiàn)不如DeepSeek-V3呀非,主要是由于其在安全強化學習后傾向于拒絕回答某些查詢坚俗。如果沒有安全強化學習,DeepSeek-R1的準確率可以超過70%岸裙。

DeepSeek-R1在IF-Eval上也取得了令人印象深刻的結果猖败,這是一個旨在評估模型遵循格式指令能力的基準。這些改進與在監(jiān)督微調(SFT)和強化學習訓練的最后階段加入遵循指令的數(shù)據(jù)有關降允。此外恩闻,在AlpacaEval2.0和ArenaHard上的卓越表現(xiàn)表明,DeepSeek-R1在寫作任務和開放領域問答方面的優(yōu)勢剧董。其顯著優(yōu)于DeepSeek-V3的表現(xiàn)突顯了大規(guī)模強化學習的泛化優(yōu)勢幢尚,這不僅增強了推理能力破停,還提高了在不同領域的表現(xiàn)。此外尉剩,DeepSeek-R1生成的摘要長度簡潔真慢,在ArenaHard上平均為689個標記,在AlpacaEval 2.0上為2,218個字符理茎。這表明DeepSeek-R1在基于GPT的評估中避免了引入長度偏差黑界,進一步鞏固了其在多項任務中的魯棒性。

在數(shù)學任務中皂林,DeepSeek-R1的表現(xiàn)與OpenAI-o1-1217相當朗鸠,遠超其他模型。在編碼算法任務中础倍,如LiveCodeBench和Codeforces烛占,專注于推理的模型主導了這些基準。在工程導向的編碼任務中沟启,OpenAI-o1-1217在Aider上優(yōu)于DeepSeek-R1忆家,但在SWE Verified上表現(xiàn)相當。我們相信DeepSeek-R1的工程表現(xiàn)將在下一個版本中有所改善美浦,因為目前相關的強化學習訓練數(shù)據(jù)量仍然非常有限弦赖。

3.2 蒸餾模型評價

如表5所示,簡單地對DeepSeek-R1的輸出進行蒸餾浦辨,使高效的DeepSeek-R1-7B(即DeepSeek-R1-Distill-Qwen-7B,以下簡寫相似)在各個方面超越了非推理模型如GPT-4o-0513沼沈。DeepSeek-R1-14B在所有評估指標上都超過了QwQ-32B-Preview流酬,而DeepSeek-R1-32B和DeepSeek-R1-70B在大多數(shù)基準測試中顯著超過了o1-mini。這些結果展示了蒸餾的強大潛力列另。此外芽腾,我們發(fā)現(xiàn)對這些蒸餾模型應用強化學習可帶來顯著的進一步提升。我們認為這值得進一步探索页衙,因此在此僅呈現(xiàn)簡單SFT蒸餾模型的結果摊滔。

表5:DeepSeek-R1 蒸餾模型與其他可比較模型在推理相關基準上的比較。

4 討論

4.1 蒸餾vs強化學習

表6

在第3.2節(jié)中店乐,我們可以看到艰躺,通過蒸餾DeepSeek-R1,小模型能夠取得令人印象深刻的結果眨八。然而腺兴,仍然有一個問題:模型是否可以通過本文討論的大規(guī)模強化學習訓練在不進行蒸餾的情況下達到相當?shù)男阅埽?/p>

為了回答這個問題,我們對Qwen-32B-Base進行了大規(guī)模的強化學習訓練廉侧,使用數(shù)學页响、代碼和STEM數(shù)據(jù)篓足,訓練超過10K步,得出了DeepSeek-R1-Zero-Qwen-32B闰蚕。實驗結果如表6所示栈拖,經過大規(guī)模強化學習訓練的32B基礎模型達到了與QwQ-32B-Preview相當?shù)男阅堋H欢欢福瑥腄eepSeek-R1蒸餾而來的DeepSeek-R1-Distill-Qwen-32B在所有基準測試中表現(xiàn)明顯優(yōu)于DeepSeek-R1-Zero-Qwen-32B涩哟。

因此,我們可以得出兩個結論:首先诗鸭,將更強大的模型蒸餾成較小的模型能夠獲得出色的結果染簇,而依賴于本文提到的大規(guī)模強化學習的小模型需要巨大的計算能力,甚至可能無法達到蒸餾的性能强岸。其次锻弓,雖然提煉策略既經濟又有效,但在智能的邊界之外進一步發(fā)展仍可能需要更強大的基礎模型和更大規(guī)模的強化學習蝌箍。

4.2 不成功的嘗試

在開發(fā) DeepSeek-R1 的早期階段青灼,我們也遇到了失敗和挫折。我們在這里分享我們的失敗經驗妓盲,以提供見解杂拨,但這并不意味著這些方法無法開發(fā)出有效的推理模型。

過程獎勵模型(PRM)

PRM 是一種合理的方法,可以引導模型朝著更好的方式解決推理任務(Uesato 等倾剿,2022脆荷;Lightman 等,2023策橘;Wang 等,2023)娜亿。然而丽已,在實踐中,PRM 有三個主要限制买决,這可能會阻礙其最終成功沛婴。首先,很難明確地定義一般推理中的細粒度步驟督赤。其次嘁灯,判斷當前中間步驟是否正確是一項具有挑戰(zhàn)性的任務。使用模型進行自動標注可能無法產生令人滿意的結果够挂,而手動標注則不利于規(guī)呐苑拢化。第三,一旦引入基于模型的 PRM枯冈,必然會導致獎勵黑客行為(Gao 等毅贮,2022),并且重新訓練獎勵模型需要額外的訓練資源尘奏,這使整個訓練流程變得復雜滩褥。總之炫加,雖然 PRM 在重新排序模型生成的前 N 個響應或協(xié)助引導搜索方面表現(xiàn)出良好的能力(Snell 等瑰煎,2024),但與其在我們實驗中的大規(guī)模強化學習過程中引入的額外計算開銷相比俗孝,其優(yōu)勢是有限的酒甸。

蒙特卡羅樹搜索(MCTS)

受到 AlphaGo(Silver 等,2017b)和 AlphaZero(Silver 等赋铝,2017a)的啟發(fā)插勤,我們探索使用蒙特卡羅樹搜索(MCTS)來增強測試時的計算可擴展性。這種方法涉及將答案分解為更小的部分革骨,以便模型能夠系統(tǒng)地探索解決方案空間农尖。為此,我們提示模型生成多個標簽良哲,以對應于搜索所需的特定推理步驟盛卡。在訓練中,我們首先使用收集到的提示通過預訓練的價值模型指導 MCTS 找到答案筑凫。隨后滑沧,我們使用生成的問題-答案對來訓練演員模型和價值模型,迭代地完善這個過程巍实。

然而嚎货,這種方法在擴大訓練規(guī)模時遇到了幾個挑戰(zhàn)。首先蔫浆,與國際象棋不同,國際象棋的搜索空間相對明確姐叁,而標記生成則呈指數(shù)級增長的搜索空間瓦盛。為了解決這個問題,我們?yōu)槊總€節(jié)點設置了最大擴展限制外潜,但這可能導致模型陷入局部最優(yōu)原环。其次,價值模型直接影響生成的質量处窥,因為它指導搜索過程的每一步嘱吗。訓練一個細粒度的價值模型本質上是困難的,這使得模型難以進行迭代改進。雖然 AlphaGo 的核心成功依賴于訓練一個價值模型以逐步提升其性能谒麦,但由于標記生成的復雜性俄讹,這一原則在我們的設置中難以復制。

總之绕德,盡管 MCTS 在與預訓練的價值模型配對時可以提高推理性能患膛,但通過自我搜索迭代提升模型性能仍然是一個重大挑戰(zhàn)。

5 結論耻蛇、限制和未來工作

在這項工作中踪蹬,我們分享了通過強化學習增強模型推理能力的旅程。DeepSeek-R1-Zero代表了一種純粹的強化學習方法臣咖,不依賴冷啟動數(shù)據(jù)跃捣,在各種任務中實現(xiàn)了強勁的表現(xiàn)。DeepSeek-R1更為強大夺蛇,結合了冷啟動數(shù)據(jù)和迭代強化學習微調疚漆。最終,DeepSeek-R1在一系列任務上達到了與OpenAI-o1-1217相當?shù)男阅堋?/p>

我們進一步探索將推理能力蒸餾到小型密集模型中蚊惯。我們使用DeepSeek-R1作為教師模型生成80萬訓練樣本愿卸,并微調多個小型密集模型。結果令人鼓舞:DeepSeek-R1-Distill-Qwen-1.5B在數(shù)學基準測試中以28.9%的AIME和83.9%的MATH超越了GPT-4o和Claude-3.5-Sonnet截型。其他密集模型也取得了令人印象深刻的結果趴荸,顯著超越了基于相同基礎檢查點的其他指令調優(yōu)模型。

未來宦焦,我們計劃在以下方向上對DeepSeek-R1進行研究投資发钝。

  • 通用能力:目前,DeepSeek-R1在函數(shù)調用波闹、多輪對話酝豪、復雜角色扮演和JSON輸出等任務上的能力尚不及DeepSeek-V3。展望未來精堕,我們計劃探索如何利用長鏈推理來增強這些領域的任務孵淘。
  • 語言混合:DeepSeek-R1目前針對中文和英文進行了優(yōu)化,這可能導致在處理其他語言查詢時出現(xiàn)語言混合問題歹篓。例如瘫证,DeepSeek-R1可能會在推理和響應中使用英語,即使查詢使用的是英語或中文以外的語言庄撮。我們旨在在未來的更新中解決這一局限性背捌。
  • 提示工程:在評估DeepSeek-R1時,我們觀察到它對提示非常敏感洞斯。少量示例提示會持續(xù)降低其性能毡庆。因此,我們建議用戶直接描述問題,并使用zero-shot設置指定輸出格式么抗,以獲得最佳結果毅否。
  • 軟件工程任務:由于長時間的評估影響了強化學習過程的效率,大規(guī)模強化學習尚未廣泛應用于軟件工程任務乖坠。因此搀突,DeepSeek-R1在軟件工程基準測試中并未顯示出相較于DeepSeek-V3的巨大改進。未來版本將通過在軟件工程數(shù)據(jù)上實施拒絕采樣或在強化學習過程中引入異步評估來提高效率熊泵。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末仰迁,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子顽分,更是在濱河造成了極大的恐慌徐许,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,627評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件卒蘸,死亡現(xiàn)場離奇詭異雌隅,居然都是意外死亡,警方通過查閱死者的電腦和手機缸沃,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,180評論 3 399
  • 文/潘曉璐 我一進店門恰起,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人趾牧,你說我怎么就攤上這事检盼。” “怎么了翘单?”我有些...
    開封第一講書人閱讀 169,346評論 0 362
  • 文/不壞的土叔 我叫張陵吨枉,是天一觀的道長。 經常有香客問我哄芜,道長貌亭,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,097評論 1 300
  • 正文 為了忘掉前任认臊,我火速辦了婚禮圃庭,結果婚禮上,老公的妹妹穿的比我還像新娘失晴。我一直安慰自己冤议,他們只是感情好,可當我...
    茶點故事閱讀 69,100評論 6 398
  • 文/花漫 我一把揭開白布师坎。 她就那樣靜靜地躺著,像睡著了一般堪滨。 火紅的嫁衣襯著肌膚如雪胯陋。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,696評論 1 312
  • 那天,我揣著相機與錄音遏乔,去河邊找鬼义矛。 笑死,一個胖子當著我的面吹牛盟萨,可吹牛的內容都是我干的凉翻。 我是一名探鬼主播,決...
    沈念sama閱讀 41,165評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼捻激,長吁一口氣:“原來是場噩夢啊……” “哼制轰!你這毒婦竟也來了?” 一聲冷哼從身側響起胞谭,我...
    開封第一講書人閱讀 40,108評論 0 277
  • 序言:老撾萬榮一對情侶失蹤垃杖,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后丈屹,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體调俘,經...
    沈念sama閱讀 46,646評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,709評論 3 342
  • 正文 我和宋清朗相戀三年旺垒,在試婚紗的時候發(fā)現(xiàn)自己被綠了彩库。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,861評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡先蒋,死狀恐怖骇钦,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情鞭达,我是刑警寧澤司忱,帶...
    沈念sama閱讀 36,527評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站畴蹭,受9級特大地震影響坦仍,放射性物質發(fā)生泄漏。R本人自食惡果不足惜叨襟,卻給世界環(huán)境...
    茶點故事閱讀 42,196評論 3 336
  • 文/蒙蒙 一繁扎、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧糊闽,春花似錦梳玫、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,698評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至念链,卻和暖如春盼忌,著一層夾襖步出監(jiān)牢的瞬間积糯,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,804評論 1 274
  • 我被黑心中介騙來泰國打工谦纱, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留看成,地道東北人。 一個月前我還...
    沈念sama閱讀 49,287評論 3 379
  • 正文 我出身青樓跨嘉,卻偏偏與公主長得像川慌,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子祠乃,可洞房花燭夜當晚...
    茶點故事閱讀 45,860評論 2 361

推薦閱讀更多精彩內容

  • DeepSeek-R1:通過強化學習激勵 LLM 中的推理能力 DeepSeek-AI research@deep...
    吾鳴閱讀 56評論 0 0
  • 1 推理大模型與普通大模型的區(qū)別 推理大模型普通大模型目標側重于推理能力跳纳、解決復雜問題的能力側重于語言生成忍饰、上下文...
    LooperJing閱讀 66評論 0 1
  • deepseek-r1是深度搜索公司的開源思維鏈模型,可以在https://www.deepseek.com[ht...
    Wu杰語閱讀 235評論 0 0
  • 近來寺庄,DeepSeek R1 一鳴驚人艾蓝,迅速席卷各大平臺,成為科技領域的熱議焦點斗塘。從專業(yè)論壇到社交媒體赢织,甚至那些原...
    金色暗影閱讀 248評論 0 0
  • DeepSeek-R1-Zero: 直接從DeepSeek-V3-Base進行強化學習RL訓練,大概進行了數(shù)千步馍盟,...
    躺不平的NLPer閱讀 55評論 0 0