deepseek-r1是如何煉成的

近來仗哨，DeepSeek R1 一鳴驚人晚吞，迅速席卷各大平臺(tái)，成為科技領(lǐng)域的熱議焦點(diǎn)萌踱。從專業(yè)論壇到社交媒體葵礼，甚至那些原本與人工智能毫無交集的親朋好友，也紛紛開始詢問：“你知道 DeepSeek 嗎？” 這一現(xiàn)象讓人不禁意識(shí)到，深入探討這個(gè)在國(guó)產(chǎn)和開源 LLM 發(fā)展史上具有里程碑意義的模型审姓，已顯得尤為必要。

OpenAI 的模型因其閉源特性届谈，其 o1 的實(shí)現(xiàn)方式始終是外界無法知曉的謎團(tuán)枯夜。然而，對(duì)于 NLP 從業(yè)者而言疼约，盡管無法直接窺探其訓(xùn)練細(xì)節(jié)卤档，但通過對(duì)模型輸出的觀察蝙泼，訓(xùn)練思路仍然能被推測(cè)出大致框架程剥。盡管媒體宣傳鋪天蓋地，DeepSeek 的表現(xiàn)也相當(dāng)亮眼汤踏，但它仍然是 OpenAI 的追隨者织鲸。誠(chéng)然，從 0 到 1 的創(chuàng)新往往更具挑戰(zhàn)性溪胶，OpenAI 在這一過程中所付出的探索尤為艱辛搂擦。然而，DeepSeek 的崛起無疑標(biāo)志著一次重大突破哗脖。它不僅為研究者和開發(fā)者提供了一個(gè)開放瀑踢、可深入研究的平臺(tái)，還為未來開源 LLM 超越閉源 LLM 指明了方向才避。

deepseek r1 訓(xùn)練過程

經(jīng)驗(yàn)表明橱夭，最有效的方法往往源自最樸素的初衷。試想一下桑逝，如果沒有 DeepSeek-R1 提供的方法棘劣，若讓你自己實(shí)現(xiàn)一個(gè)類似 GPT-O1 這樣具備思維過程的 LLM，你會(huì)如何著手呢楞遏？

一個(gè)最直接茬暇、自然的思路便是收集大量帶有 Chain-of-Thought (CoT) 的訓(xùn)練數(shù)據(jù)。在這一過程中寡喝，我們還可以借助普通 LLM糙俗，通過提示工程生成符合要求的數(shù)據(jù)。數(shù)據(jù)中预鬓，推理過程可以用 <think></think> 標(biāo)簽標(biāo)記巧骚，最終的回答則用 <answer></answer> 標(biāo)簽進(jìn)行標(biāo)注，接著利用這些數(shù)據(jù)進(jìn)行微調(diào)訓(xùn)練珊皿，從而得到一個(gè)具備思維過程的 LLM网缝。

回顧一下 DeepSeek-R1 的論文，其訓(xùn)練模板正是這一思路蟋定。但或許為了進(jìn)一步提升效果粉臊，DeepSeek 團(tuán)隊(duì)在訓(xùn)練 DeepSeek-R1 Zero 時(shí)完全摒棄了傳統(tǒng)的 SFT（監(jiān)督微調(diào)），而是采用了純強(qiáng)化學(xué)習(xí)的方法驶兜，采用 GRPO（群組相對(duì)策略優(yōu)化） 作為強(qiáng)化學(xué)習(xí)框架扼仲。通過對(duì)多個(gè)答案進(jìn)行采樣远寸，計(jì)算其相對(duì)優(yōu)勢(shì)并加以優(yōu)化，從而對(duì)原始的 DeepSeek V3 模型進(jìn)行微調(diào)屠凶，賦予其推理能力驰后。

GRPO：DeepSeek 成功的關(guān)鍵優(yōu)化

GRPO (Group Relative Policy Optimization) 是deepseek團(tuán)隊(duì)在2024年2月提出的一種用于強(qiáng)化學(xué)習(xí)的優(yōu)化方法，用以 減少計(jì)算開銷 并提升推理能力矗愧。眾所周知灶芝，在強(qiáng)化學(xué)習(xí)中，常見的方法是 近端策略優(yōu)化（PPO, Proximal Policy Optimization）唉韭，這個(gè)算法自從被OpenAI提出來的夜涕，幾乎一直雄踞強(qiáng)化學(xué)習(xí)SOTA方法之榜首，因此openai在訓(xùn)練他們LLM模型中使用的RLHF中的必然一直是PPO属愤，GRPO這個(gè)微小的改進(jìn)或許是deepseek成功的非常關(guān)鍵的一環(huán)女器。

GRPO 的核心思想

GRPO 的獨(dú)特之處在于它通過比較同一批次中不同答案的相對(duì)優(yōu)勢(shì)，來指導(dǎo)策略的優(yōu)化住诸。與傳統(tǒng)方法中的 Critic 網(wǎng)絡(luò)相比驾胆，GRPO 直接通過群體間的評(píng)分差異進(jìn)行學(xué)習(xí)，從而節(jié)約了大量的計(jì)算資源贱呐，并且能夠提高強(qiáng)化學(xué)習(xí)的效率丧诺。具體來說，GRPO 的優(yōu)勢(shì)計(jì)算不依賴外部的價(jià)值模型吼句，而是通過 同一問題多個(gè)答案之間的分?jǐn)?shù)對(duì)比 來得出優(yōu)勢(shì)锅必，這使得它特別適用于推理任務(wù)。

GRPO 公式與計(jì)算方法

GRPO 的優(yōu)化過程可以通過以下公式描述：

目標(biāo)優(yōu)化函數(shù)（Objective Function）：

$JGRPO(θ)=E[∑i=1Gmin?(πθ(oi∣q)πθold(oi∣q)Ai,clip(πθ(oi∣q)πθold(oi∣q),1??,1+?)Ai)?βDKL(πθ∥πref)]J_{GRPO}(\theta) = \mathbb{E} \left[ \sum_{i=1}^{G} \min \left( \frac{\pi_\theta(o_i | q)}{\pi_{\theta_{old}}(o_i | q)} A_i, \text{clip} \left( \frac{\pi_\theta(o_i | q)}{\pi_{\theta_{old}}(o_i | q)}, 1 - \epsilon, 1 + \epsilon \right) A_i \right) - \beta D_{KL}(\pi_\theta \| \pi_{\text{ref}}) \right]$

其中：

$πθ(o_i | q)$ 和 $πθ_old(o_i | q)$ 分別表示當(dāng)前策略模型和舊策略模型生成答案的概率惕艳。

$Ai$ 表示優(yōu)勢(shì)函數(shù)搞隐，衡量當(dāng)前答案相對(duì)于其他答案的質(zhì)量。

裁剪項(xiàng) 用于限制策略更新幅度远搪，以避免訓(xùn)練的不穩(wěn)定劣纲。

KL 散度懲罰項(xiàng) 用于防止策略與參考模型之間的差異過大，從而保證訓(xùn)練的穩(wěn)定性谁鳍。

優(yōu)勢(shì)計(jì)算（Advantage Estimation）：

在 GRPO 中癞季，優(yōu)勢(shì)函數(shù) Ai 不是通過傳統(tǒng)的 Critic 網(wǎng)絡(luò)來估算，而是通過同一問題多個(gè)答案之間的相對(duì)獎(jiǎng)勵(lì)來計(jì)算倘潜。具體而言：

$Ai=ri?mean({r1,r2,…,rG})std({r1,r2,…,rG})A_i = \frac{r_i - \text{mean}(\{r_1, r_2, \dots, r_G\})}{\text{std}(\{r_1, r_2, \dots, r_G\})}$

其中绷柒， $r_i$ 表示答案的獎(jiǎng)勵(lì)分?jǐn)?shù)， $mean$ 和 $std$ 分別是該組答案獎(jiǎng)勵(lì)的平均值和標(biāo)準(zhǔn)差涮因。這種基于群體之間評(píng)分對(duì)比的方式废睦，不僅減少了計(jì)算復(fù)雜度，還提升了訓(xùn)練的穩(wěn)定性和推理的精度养泡。

GRPO 的優(yōu)勢(shì)

GRPO 相較于傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法嗜湃，具有以下幾個(gè)顯著優(yōu)勢(shì)：

計(jì)算開銷降低：GRPO 不使用 Critic 網(wǎng)絡(luò)奈应，而是通過直接對(duì)比多答案之間的相對(duì)優(yōu)勢(shì)來優(yōu)化策略，從而大大減少了計(jì)算資源的消耗购披，節(jié)省了 50% 以上的計(jì)算資源杖挣。

提高穩(wěn)定性：傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法可能面臨 Critic 網(wǎng)絡(luò)誤差傳播和過擬合的問題，而 GRPO 通過群組評(píng)分的方式降低了估計(jì)誤差刚陡，提高了訓(xùn)練的穩(wěn)定性惩妇。

特別適合推理任務(wù)：GRPO 適用于需要推理的任務(wù)，因?yàn)樗ㄟ^比較不同答案的相對(duì)優(yōu)勢(shì)橘荠，能夠更好地引導(dǎo)策略優(yōu)化屿附，避免了對(duì)復(fù)雜價(jià)值網(wǎng)絡(luò)的依賴郎逃。

GRPO 在 DeepSeek-R1-Zero 訓(xùn)練中的應(yīng)用

DeepSeek-R1-Zero 采用 GRPO（Generalized Reward Policy Optimization）優(yōu)化其推理能力哥童。具體訓(xùn)練流程如下：

采樣多個(gè)答案：對(duì)于每個(gè)問題，使用當(dāng)前策略 $\pi_{\theta_{old}}$ 生成多個(gè)不同的答案褒翰。
計(jì)算獎(jiǎng)勵(lì)：通過規(guī)則獎(jiǎng)勵(lì)的方式贮懈，為每個(gè)答案分配獎(jiǎng)勵(lì)分?jǐn)?shù)，獎(jiǎng)勵(lì)計(jì)算包括以下幾項(xiàng)：
- 準(zhǔn)確性獎(jiǎng)勵(lì)（Accuracy Rewards）
  - 目標(biāo)：評(píng)估生成的答案是否正確优训，尤其是對(duì)于那些具有確定性結(jié)果的問題（如數(shù)學(xué)朵你、編程等）。
  - 實(shí)現(xiàn)方法：
    - 對(duì)于數(shù)學(xué)問題或其他標(biāo)準(zhǔn)答案可驗(yàn)證的任務(wù)揣非，模型需要提供一個(gè)格式化的最終答案抡医，例如將結(jié)果放入括號(hào)或按照特定格式進(jìn)行驗(yàn)證。
    - 對(duì)于編程問題（如 LeetCode 等）早敬，可以使用 編譯器 或 測(cè)試用例 來驗(yàn)證模型生成的代碼是否正確忌傻。
- 格式獎(jiǎng)勵(lì)（Format Rewards）
  - 目標(biāo)：確保模型生成的答案符合特定的格式要求。
  - 實(shí)現(xiàn)方法：
    - 思維鏈（Chain-of-Thought搞监，CoT）格式：模型需要將推理過程放在 <think> 和 </think> 標(biāo)簽之間水孩，最終答案放在 <answer> 和 </answer> 標(biāo)簽中。
    - 這種格式化不僅提升了模型的可讀性和結(jié)構(gòu)化推理能力琐驴，也幫助開發(fā)者或用戶快速定位問題的解答過程俘种。
- 語言一致性獎(jiǎng)勵(lì)（Language Consistency Rewards）
  - 目標(biāo)：減少語言混雜現(xiàn)象，使生成的推理過程和答案保持同一語言環(huán)境绝淡。
  - 實(shí)現(xiàn)方法：
    - 在多語言任務(wù)中宙刘，模型會(huì)根據(jù)生成文本的語言一致性給予獎(jiǎng)勵(lì)。如果在同一推理過程中保持一致的語言（例如全程使用英語或中文）牢酵，則會(huì)獲得獎(jiǎng)勵(lì)悬包；如果語言切換（例如從中文轉(zhuǎn)到英文），則會(huì)受到懲罰茁帽。
- 推理過程的可讀性獎(jiǎng)勵(lì)（Readability Rewards）
  - 目標(biāo)：評(píng)估推理過程的簡(jiǎn)潔性玉罐、清晰性和易理解性屈嗤。
  - 實(shí)現(xiàn)方法：
    - 生成的推理過程不應(yīng)過于復(fù)雜或冗長(zhǎng)。如果模型生成的推理過程過于繁瑣吊输，導(dǎo)致人類理解困難饶号，獎(jiǎng)勵(lì)將相應(yīng)降低。
    - 例如季蚂，推理過程中若包含過多無關(guān)的步驟或細(xì)節(jié)（如不必要的解釋）茫船，將被認(rèn)為不符合可讀性標(biāo)準(zhǔn)。
- 準(zhǔn)確性驗(yàn)證獎(jiǎng)勵(lì)（Correctness Verification）
  - 目標(biāo)：通過驗(yàn)證工具或外部機(jī)制確認(rèn)模型答案的正確性扭屁。
  - 實(shí)現(xiàn)方法：
    - 對(duì)于特定任務(wù)算谈，可能會(huì)使用外部驗(yàn)證工具來幫助評(píng)估答案的正確性。例如料滥，數(shù)學(xué)計(jì)算任務(wù)中的答案通過自動(dòng)計(jì)算器進(jìn)行驗(yàn)證然眼；編程任務(wù)中，通過編程環(huán)境或測(cè)試框架來驗(yàn)證代碼的正確性葵腹。
- 反思獎(jiǎng)勵(lì)（Reflection Rewards）
  - 目標(biāo)：鼓勵(lì)模型在推理過程中進(jìn)行自我反思和修正高每。
  - 實(shí)現(xiàn)方法：
    - 如果模型在推理過程中發(fā)現(xiàn)某些步驟可能存在問題，并能主動(dòng)進(jìn)行回溯和修正践宴，則會(huì)獲得獎(jiǎng)勵(lì)鲸匿。這一獎(jiǎng)勵(lì)機(jī)制有助于增強(qiáng)模型的推理深度和修正錯(cuò)誤的能力。
計(jì)算相對(duì)優(yōu)勢(shì)：基于多個(gè)答案的獎(jiǎng)勵(lì)分?jǐn)?shù)阻肩，計(jì)算標(biāo)準(zhǔn)化的優(yōu)勢(shì)函數(shù)带欢。
更新策略：采用 GRPO 的目標(biāo)優(yōu)化函數(shù)，更新策略烤惊，增加高分答案的生成概率乔煞。

實(shí)驗(yàn)表明，GRPO 訓(xùn)練的 DeepSeek-R1-Zero 在數(shù)學(xué)和編程推理任務(wù)中取得了顯著進(jìn)展撕氧。例如瘤缩，在 AIME 2024 數(shù)學(xué)競(jìng)賽中，Pass@1 得分從 15.6% 提升至 71.0%伦泥，多數(shù)投票后的得分可達(dá)到 86.7%剥啤。盡管如此，由于缺乏傳統(tǒng)的監(jiān)督微調(diào)（SFT）不脯，DeepSeek-R1-Zero 存在語言混雜和可讀性差的問題府怯，這一問題在后續(xù)的 DeepSeek-R1 訓(xùn)練中得到了有效改進(jìn)。

DeepSeek-R1：結(jié)合冷啟動(dòng)和多階段強(qiáng)化學(xué)習(xí)

為了彌補(bǔ) DeepSeek-R1-Zero 的缺陷防楷，deepseek研究團(tuán)隊(duì)設(shè)計(jì)了多階段訓(xùn)練流程：

冷啟動(dòng)（Cold Start）
- 使用 高質(zhì)量長(zhǎng)鏈?zhǔn)酵评恚–oT）數(shù)據(jù) 進(jìn)行初步微調(diào)牺丙。
- 數(shù)據(jù)來源：
  - 少樣本提示（Few-Shot Prompting）
  - DeepSeek-R1-Zero 生成的可讀性數(shù)據(jù)
  - 人工篩選和優(yōu)化
- 目標(biāo)：提高模型可讀性，減少語言混雜問題。
推理導(dǎo)向的強(qiáng)化學(xué)習(xí)（Reasoning-oriented RL）
- 在經(jīng)過冷啟動(dòng)微調(diào)的模型上進(jìn)行 RL 訓(xùn)練冲簿，增強(qiáng)推理能力粟判。
- 采用 語言一致性獎(jiǎng)勵(lì)（Language Consistency Reward），確甭吞蓿回答使用單一語言档礁，提高可讀性。
拒絕采樣和監(jiān)督微調(diào)（Rejection Sampling + SFT）
- 在 RL 訓(xùn)練后吝沫，使用拒絕采樣收集高質(zhì)量數(shù)據(jù)呻澜。
- 結(jié)合 DeepSeek-V3 的監(jiān)督數(shù)據(jù)進(jìn)行額外微調(diào)，增強(qiáng)寫作惨险、問答羹幸、角色扮演等能力。
全場(chǎng)景強(qiáng)化學(xué)習(xí)（RL for all Scenarios）
- 進(jìn)一步對(duì)齊人類偏好辫愉，優(yōu)化推理和非推理任務(wù)栅受。
- 采用多種獎(jiǎng)勵(lì)信號(hào)，包括：
  - 推理任務(wù)的規(guī)則獎(jiǎng)勵(lì)
  - 一般任務(wù)的偏好模型（Preference Model）
  - 幫助性（Helpfulness）和無害性（Harmlessness）評(píng)估

經(jīng)過這一番操作一屋，使得DeepSeek-R1在數(shù)學(xué)窘疮、編程、綜合推理方面的跑分達(dá)到了最先進(jìn)水平冀墨，盡管在很多實(shí)際場(chǎng)景中還是遜色于openai-o1，但重點(diǎn)在于deepseek訓(xùn)練這個(gè)模型花費(fèi)成本之低涛贯，足以讓OpenAI感到恐慌诽嘉，這也導(dǎo)致了山姆奧特曼后來的逐步開放的計(jì)劃。

DeepSeek 的成功：一個(gè)小公司如何打破行業(yè)常規(guī)

DeepSeek 的崛起令人驚訝弟翘，因?yàn)樗⑽闯霈F(xiàn)在那些資金雄厚的大公司虫腋，而是一個(gè)曾被低估的小公司。其成功可歸因于以下幾個(gè)關(guān)鍵因素：

站在巨人的肩膀上：DeepSeek 明智地利用了全球開源社區(qū)的技術(shù)成果稀余，并以開放的姿態(tài)將自己的技術(shù)回饋給社區(qū)悦冀。這種開源精神使其始終站在行業(yè)的前沿。
人才哲學(xué)：DeepSeek 更注重員工的潛力和創(chuàng)新能力睛琳，而非單純的經(jīng)驗(yàn)和背景盒蟆。其招聘哲學(xué)幫助吸引了真正符合團(tuán)隊(duì)文化和目標(biāo)的人才，激發(fā)了團(tuán)隊(duì)成員的創(chuàng)造力师骗。
打破成熟體系的局限性：大公司往往存在創(chuàng)新受限的問題历等，優(yōu)秀人才未必能在固有的層級(jí)結(jié)構(gòu)中發(fā)揮所長(zhǎng)。DeepSeek 通過靈活的團(tuán)隊(duì)架構(gòu)辟癌，充分挖掘每個(gè)成員的潛力寒屯。

討論

從deepseek的實(shí)驗(yàn)結(jié)果來看，直接從大模型蒸餾到相對(duì)小的模型比小模型直接RL會(huì)更直接有效黍少。但是如果智能要進(jìn)一步發(fā)展寡夹，或許還是要進(jìn)一步拜托人類經(jīng)驗(yàn)的束縛处面，如果有一天能像alpha zero那樣完全擺脫人類經(jīng)驗(yàn)才是真正的無敵。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末菩掏，一起剝皮案震驚了整個(gè)濱河市鸳君，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌患蹂，老刑警劉巖或颊，帶你破解...
沈念sama閱讀 219,427評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異传于，居然都是意外死亡囱挑，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,551評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門沼溜，熙熙樓的掌柜王于貴愁眉苦臉地迎上來平挑，“玉大人，你說我怎么就攤上這事系草⊥ㄏǎ” “怎么了？”我有些...
開封第一講書人閱讀 165,747評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵找都，是天一觀的道長(zhǎng)唇辨。經(jīng)常有香客問我，道長(zhǎng)能耻，這世上最難降的妖魔是什么赏枚？我笑而不...
開封第一講書人閱讀 58,939評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮晓猛，結(jié)果婚禮上饿幅，老公的妹妹穿的比我還像新娘。我一直安慰自己戒职，他們只是感情好栗恩，可當(dāng)我...
茶點(diǎn)故事閱讀 67,955評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著洪燥，像睡著了一般磕秤。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上蚓曼，一...
開封第一講書人閱讀 51,737評(píng)論 1贊 305
城市分裂傳說
那天亲澡，我揣著相機(jī)與錄音，去河邊找鬼纫版。笑死床绪，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播癞己，決...
沈念sama閱讀 40,448評(píng)論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼膀斋，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了痹雅？” 一聲冷哼從身側(cè)響起仰担，我...
開封第一講書人閱讀 39,352評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎绩社，沒想到半個(gè)月后摔蓝，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,834評(píng)論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡愉耙，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,992評(píng)論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年贮尉，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片朴沿。...
茶點(diǎn)故事閱讀 40,133評(píng)論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡猜谚，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出赌渣，到底是詐尸還是另有隱情魏铅，我是刑警寧澤，帶...
沈念sama閱讀 35,815評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布坚芜，位于F島的核電站览芳，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏货岭。R本人自食惡果不足惜路操，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,477評(píng)論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望千贯。院中可真熱鬧，春花似錦搞坝、人聲如沸搔谴。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,022評(píng)論 0贊 22
一樁弒父案桩撮，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽敦第。三九已至，卻和暖如春店量，著一層夾襖步出監(jiān)牢的瞬間芜果，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,147評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國(guó)打工融师，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留右钾，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,398評(píng)論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像舀射，于是被迫代替她去往敵國(guó)和親窘茁。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,077評(píng)論 2贊 355

deepseek-r1是如何煉成的

GRPO：DeepSeek 成功的關(guān)鍵優(yōu)化

GRPO 的核心思想

GRPO 公式與計(jì)算方法

GRPO 的優(yōu)勢(shì)

GRPO 在 DeepSeek-R1-Zero 訓(xùn)練中的應(yīng)用

DeepSeek-R1：結(jié)合冷啟動(dòng)和多階段強(qiáng)化學(xué)習(xí)

DeepSeek 的成功：一個(gè)小公司如何打破行業(yè)常規(guī)

討論

推薦閱讀更多精彩內(nèi)容