DeepSeek-R1真算得上開源嗎?

1 啥是 DeepSeek-R1院刁?

如你曾為一道棘手數學題絞盡腦汁糯钙,就明白多花時間仔細思考多重要。OpenAI o1 模型證明退腥,當 LLM 在推理時任岸,通過增加計算量進行類似訓練后,它們在數學狡刘、編程和邏輯等推理任務上的表現顯著提升享潜。

然而,OpenAI 推理模型的訓練方法一直是秘密嗅蔬。直到DeepSeek發(fā)布DeepSeek-R1模型剑按,瞬間引爆互聯(lián)網(甚至影響股市!)澜术。

除了性能達到或超越 o1艺蝴,DeepSeek-R1發(fā)布還附帶詳細技術報告,揭示其訓練方法的關鍵步驟鸟废。該方法包含多項創(chuàng)新猜敢,最引人注目的是使用純強化學習讓基礎語言模型學會推理而無需任何人工監(jiān)督。如下圖所示盒延,只要擁有強大的基礎模型和高質量的數據混合缩擂,構建強大的推理模型就變得非常簡單:

不過,DeepSeek-R1 發(fā)布仍留下幾個

1.1 未解之謎

  • 數據收集:推理專用數據集咋構建的添寺?
  • 模型訓練:DeepSeek 未公開訓練代碼胯盯,因此最佳超參數設置及其在不同模型系列和規(guī)模間的差異尚不明確
  • 擴展規(guī)律:訓練推理模型時計算資源和數據量之間咋權衡?

這些問題促使業(yè)界啟動Open-R1 項目计露,旨在系統(tǒng)復現 DeepSeek-R1 的數據和訓練流程博脑,驗證其聲明楞捂,并推動開源推理模型的邊界。通過構建 Open-R1

1.2 愿景

  • 揭示強化學習如何增強推理能力
  • 與開源社區(qū)分享可復現經驗
  • 并為未來模型應用這些技術奠定基礎

本文深入探討 DeepSeek-R1 的核心要素趋厉、計劃復現的部分寨闹。

2 他們咋做到的?

DeepSeek-R1 是基于 [DeepSeek-V3] 打造的推理模型君账。與所有優(yōu)秀推理模型一樣繁堡,它始于一個強大的基礎模型——DeepSeek-V3 正是如此。這個 671B 的混合專家模型(MoE)性能媲美 Sonnet 3.5 和 GPT-4o 等重量級選手乡数。其訓練成本僅 550 萬美元椭蹄,這得益于多令牌預測(MTP)、多頭潛在注意力(MLA)等架構改進和大量的硬件優(yōu)化净赴。

DeepSeek 推出兩個模型绳矩,分別采用不同的訓練方法

2.1 DeepSeek-R1-Zero

完全跳過監(jiān)督微調,僅通過強化學習(RL)和組相對策略優(yōu)化(GRPO)實現高效訓練玖翅。簡單的獎勵機制根據答案的準確性和結構提供反饋翼馆,幫助模型發(fā)展出分步推理和自我驗證等能力,但其回答常缺乏清晰度金度。

2.2 DeepSeek-R1

DeepSeek-R1 的改進之處应媚。它通過"冷啟動"階段在小規(guī)模精編數據上進行微調,提升回答的清晰度和可讀性猜极。隨后通過更多 RL 和精煉步驟(包括基于人類偏好和可驗證獎勵的低質量輸出過濾)中姜,最終形成既擅長推理又能生成優(yōu)雅答案的模型。

這一切聽起來很完美跟伏,但還缺少啥丢胚?來看看拼圖的缺失部分。

3 Open-R1:填補空白

DeepSeek-R1 的發(fā)布對社區(qū)是重大利好受扳,但并非完整開源——雖然模型權重開放携龟,但訓練數據集和代碼仍未公開??!

Open-R1 的目標就是填補這些空白辞色,讓整個研究和產業(yè)界都能使用相同配方和數據集構建類似或更優(yōu)的模型骨宠。通過開源協(xié)作浮定,每個人都可參與貢獻相满!

3.1 攻關計劃

如下圖分三步:

  • 第一步:通過從 DeepSeek-R1 蒸餾高質量推理數據集,復現 R1-Distill 模型
  • 第二步:復現 DeepSeek 創(chuàng)建 R1-Zero 的純 RL 流程桦卒,需要構建數學立美、推理和代碼的大規(guī)模新數據集
  • 第三步:展示從基礎模型→監(jiān)督微調→多階段 RL 訓練的全流程

合成數據集將允許任何人通過簡單微調,將現有或新 LLM 轉化為推理模型方灾。包含 RL 的訓練方法將成為從零構建類似模型的起點建蹄,研究人員可在此基礎上開發(fā)更先進的方法碌更。

社區(qū)不會止步于數學數據集。代碼等傳統(tǒng)領域及醫(yī)學等科學領域都有巨大潛力洞慎,推理模型可能產生重大影響痛单。

該倡議不只復現結果,更是與社區(qū)共享洞見劲腿。通過記錄有效/無效的方法及其原因旭绒,社區(qū)希望幫助他人避免在無效路徑上浪費時間和算力。

本文已收錄在Github焦人,關注我挥吵,緊跟本系列專欄文章,咱們下篇再續(xù)花椭!

  • ?? 魔都架構師 | 全網30W+技術追隨者
  • ?? 大廠分布式系統(tǒng)/數據中臺實戰(zhàn)專家
  • ?? 主導交易系統(tǒng)億級流量調優(yōu) & 車聯(lián)網平臺架構
  • ?? AIGC應用開發(fā)先行者 | 區(qū)塊鏈落地實踐者
  • ?? 以技術驅動創(chuàng)新忽匈,我們的征途是改變世界!
  • ?? 實戰(zhàn)干貨:編程嚴選網

本文由博客一文多發(fā)平臺 OpenWrite 發(fā)布矿辽!

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末丹允,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子袋倔,更是在濱河造成了極大的恐慌嫌松,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,188評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件奕污,死亡現場離奇詭異萎羔,居然都是意外死亡,警方通過查閱死者的電腦和手機碳默,發(fā)現死者居然都...
    沈念sama閱讀 93,464評論 3 395
  • 文/潘曉璐 我一進店門贾陷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人嘱根,你說我怎么就攤上這事髓废。” “怎么了该抒?”我有些...
    開封第一講書人閱讀 165,562評論 0 356
  • 文/不壞的土叔 我叫張陵慌洪,是天一觀的道長。 經常有香客問我凑保,道長冈爹,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,893評論 1 295
  • 正文 為了忘掉前任欧引,我火速辦了婚禮频伤,結果婚禮上,老公的妹妹穿的比我還像新娘芝此。我一直安慰自己憋肖,他們只是感情好因痛,可當我...
    茶點故事閱讀 67,917評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著岸更,像睡著了一般鸵膏。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上怎炊,一...
    開封第一講書人閱讀 51,708評論 1 305
  • 那天较性,我揣著相機與錄音,去河邊找鬼结胀。 笑死赞咙,一個胖子當著我的面吹牛,可吹牛的內容都是我干的糟港。 我是一名探鬼主播攀操,決...
    沈念sama閱讀 40,430評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼秸抚!你這毒婦竟也來了速和?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,342評論 0 276
  • 序言:老撾萬榮一對情侶失蹤剥汤,失蹤者是張志新(化名)和其女友劉穎颠放,沒想到半個月后,有當地人在樹林里發(fā)現了一具尸體吭敢,經...
    沈念sama閱讀 45,801評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡碰凶,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,976評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現自己被綠了鹿驼。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片欲低。...
    茶點故事閱讀 40,115評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖畜晰,靈堂內的尸體忽然破棺而出砾莱,到底是詐尸還是另有隱情,我是刑警寧澤凄鼻,帶...
    沈念sama閱讀 35,804評論 5 346
  • 正文 年R本政府宣布腊瑟,位于F島的核電站,受9級特大地震影響块蚌,放射性物質發(fā)生泄漏闰非。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,458評論 3 331
  • 文/蒙蒙 一匈子、第九天 我趴在偏房一處隱蔽的房頂上張望河胎。 院中可真熱鬧闯袒,春花似錦虎敦、人聲如沸游岳。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,008評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽胚迫。三九已至,卻和暖如春唾那,著一層夾襖步出監(jiān)牢的瞬間访锻,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,135評論 1 272
  • 我被黑心中介騙來泰國打工闹获, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留期犬,地道東北人。 一個月前我還...
    沈念sama閱讀 48,365評論 3 373
  • 正文 我出身青樓避诽,卻偏偏與公主長得像龟虎,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子沙庐,可洞房花燭夜當晚...
    茶點故事閱讀 45,055評論 2 355

推薦閱讀更多精彩內容