1 啥是 DeepSeek-R1院刁?
如你曾為一道棘手數學題絞盡腦汁糯钙,就明白多花時間仔細思考多重要。OpenAI o1 模型證明退腥,當 LLM 在推理時任岸,通過增加計算量進行類似訓練后,它們在數學狡刘、編程和邏輯等推理任務上的表現顯著提升享潜。
然而,OpenAI 推理模型的訓練方法一直是秘密嗅蔬。直到DeepSeek發(fā)布DeepSeek-R1模型剑按,瞬間引爆互聯(lián)網(甚至影響股市!)澜术。
除了性能達到或超越 o1艺蝴,DeepSeek-R1發(fā)布還附帶詳細技術報告,揭示其訓練方法的關鍵步驟鸟废。該方法包含多項創(chuàng)新猜敢,最引人注目的是使用純強化學習讓基礎語言模型學會推理而無需任何人工監(jiān)督。如下圖所示盒延,只要擁有強大的基礎模型和高質量的數據混合缩擂,構建強大的推理模型就變得非常簡單:
不過,DeepSeek-R1 發(fā)布仍留下幾個
1.1 未解之謎
- 數據收集:推理專用數據集咋構建的添寺?
- 模型訓練:DeepSeek 未公開訓練代碼胯盯,因此最佳超參數設置及其在不同模型系列和規(guī)模間的差異尚不明確
- 擴展規(guī)律:訓練推理模型時計算資源和數據量之間咋權衡?
這些問題促使業(yè)界啟動Open-R1 項目计露,旨在系統(tǒng)復現 DeepSeek-R1 的數據和訓練流程博脑,驗證其聲明楞捂,并推動開源推理模型的邊界。通過構建 Open-R1
1.2 愿景
- 揭示強化學習如何增強推理能力
- 與開源社區(qū)分享可復現經驗
- 并為未來模型應用這些技術奠定基礎
本文深入探討 DeepSeek-R1 的核心要素趋厉、計劃復現的部分寨闹。
2 他們咋做到的?
DeepSeek-R1 是基于 [DeepSeek-V3] 打造的推理模型君账。與所有優(yōu)秀推理模型一樣繁堡,它始于一個強大的基礎模型——DeepSeek-V3 正是如此。這個 671B 的混合專家模型(MoE)性能媲美 Sonnet 3.5 和 GPT-4o 等重量級選手乡数。其訓練成本僅 550 萬美元椭蹄,這得益于多令牌預測(MTP)、多頭潛在注意力(MLA)等架構改進和大量的硬件優(yōu)化净赴。
DeepSeek 推出兩個模型绳矩,分別采用不同的訓練方法
2.1 DeepSeek-R1-Zero
完全跳過監(jiān)督微調,僅通過強化學習(RL)和組相對策略優(yōu)化(GRPO)實現高效訓練玖翅。簡單的獎勵機制根據答案的準確性和結構提供反饋翼馆,幫助模型發(fā)展出分步推理和自我驗證等能力,但其回答常缺乏清晰度金度。
2.2 DeepSeek-R1
DeepSeek-R1 的改進之處应媚。它通過"冷啟動"階段在小規(guī)模精編數據上進行微調,提升回答的清晰度和可讀性猜极。隨后通過更多 RL 和精煉步驟(包括基于人類偏好和可驗證獎勵的低質量輸出過濾)中姜,最終形成既擅長推理又能生成優(yōu)雅答案的模型。
這一切聽起來很完美跟伏,但還缺少啥丢胚?來看看拼圖的缺失部分。
3 Open-R1:填補空白
DeepSeek-R1 的發(fā)布對社區(qū)是重大利好受扳,但并非完整開源——雖然模型權重開放携龟,但訓練數據集和代碼仍未公開??!
Open-R1 的目標就是填補這些空白辞色,讓整個研究和產業(yè)界都能使用相同配方和數據集構建類似或更優(yōu)的模型骨宠。通過開源協(xié)作浮定,每個人都可參與貢獻相满!
3.1 攻關計劃
如下圖分三步:
- 第一步:通過從 DeepSeek-R1 蒸餾高質量推理數據集,復現 R1-Distill 模型
- 第二步:復現 DeepSeek 創(chuàng)建 R1-Zero 的純 RL 流程桦卒,需要構建數學立美、推理和代碼的大規(guī)模新數據集
- 第三步:展示從基礎模型→監(jiān)督微調→多階段 RL 訓練的全流程
合成數據集將允許任何人通過簡單微調,將現有或新 LLM 轉化為推理模型方灾。包含 RL 的訓練方法將成為從零構建類似模型的起點建蹄,研究人員可在此基礎上開發(fā)更先進的方法碌更。
社區(qū)不會止步于數學數據集。代碼等傳統(tǒng)領域及醫(yī)學等科學領域都有巨大潛力洞慎,推理模型可能產生重大影響痛单。
該倡議不只復現結果,更是與社區(qū)共享洞見劲腿。通過記錄有效/無效的方法及其原因旭绒,社區(qū)希望幫助他人避免在無效路徑上浪費時間和算力。
本文已收錄在Github焦人,關注我挥吵,緊跟本系列專欄文章,咱們下篇再續(xù)花椭!
- ?? 魔都架構師 | 全網30W+技術追隨者
- ?? 大廠分布式系統(tǒng)/數據中臺實戰(zhàn)專家
- ?? 主導交易系統(tǒng)億級流量調優(yōu) & 車聯(lián)網平臺架構
- ?? AIGC應用開發(fā)先行者 | 區(qū)塊鏈落地實踐者
- ?? 以技術驅動創(chuàng)新忽匈,我們的征途是改變世界!
- ?? 實戰(zhàn)干貨:編程嚴選網
本文由博客一文多發(fā)平臺 OpenWrite 發(fā)布矿辽!