deepseek-r1是深度搜索公司的開源思維鏈模型,可以在https://www.deepseek.com,進(jìn)入 https://api-docs.deepseek.com/zh-cn/news/news250120攻泼,在這篇文章中介紹了論文連接https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf峻村。
1. DeepSeek-v3谷遂、DeepSeek-R1-Zero檐迟、DeepSeek-R1
要搞清deepseek大模型,有3個(gè)概念要先搞清楚:
- DeepSeek-V3悯衬,這是一款強(qiáng)大的專家混合(MoE)語言模型弹沽,總參數(shù)量達(dá) 6710 億,每個(gè)標(biāo)記激活的參數(shù)量為 370 億筋粗。
- DeepSeek-R1-Zero 是通過大規(guī)模強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練而成策橘,未經(jīng)過監(jiān)督微調(diào)(SFT)的初步模型,展現(xiàn)出了卓越的推理能力娜亿。通過強(qiáng)化學(xué)習(xí)丽已,DeepSeek-R1-Zero 自然地形成了眾多強(qiáng)大且有趣的推理行為。
- DeepSeek-R1买决,由于DeepSeek-R1-Zero存在可讀性差和語言混
雜等問題沛婴。為了解決這些問題并進(jìn)一步提升推理性能,DeepSeek推出了DeepSeek-R1督赤。
DeepSeek-V3是基礎(chǔ)大模型凹蜂, DeepSeek-R1-Zero 和 DeepSeek-R1是推理模型(COT)蚜点。
2. DeepSeek-R1的性能如何
DeepSeek-R1的對(duì)比對(duì)象是OpenAI-o1-1217溃睹,OpenAI-o1-mini口予,這兩個(gè)模型是OpenAI最先進(jìn)的推理大模型,但是是閉源的。DeepSeek公布了在6個(gè)數(shù)據(jù)集上對(duì)比結(jié)果羹奉,從結(jié)果看毅贮,DeepSeek-R1和OpenAI-o1-1217相當(dāng),在DeepSeek-R1開源的基礎(chǔ)上尘奏,DeepSeek-R1就是OpenAI-o1推理模型的平替。
3. DeepSeek訓(xùn)練
3.1 DeepSeek-R1-Zero
DeepSeek-R1-Zero通過強(qiáng)化學(xué)習(xí)算法組相對(duì)策略優(yōu)化(GRPO)(Shao 等人病蛉,2024)訓(xùn)練推理能力炫加,該方法舍棄了通常與策略模型大小相同的評(píng)價(jià)模型,而是從組得分中估計(jì)基準(zhǔn)值铺然。DeepSeek-R1-Zero通過獎(jiǎng)勵(lì)模型進(jìn)行強(qiáng)化訓(xùn)練(準(zhǔn)確性獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì))俗孝,在無需任何監(jiān)督微調(diào)數(shù)據(jù)的情況下獲得強(qiáng)大的推理能力。
盡管 DeepSeek-R1-Zero 展現(xiàn)出強(qiáng)大的推理能力魄健,并能自主開發(fā)出意想不到且強(qiáng)大的推理行為赋铝,但它也面臨一些問題。例如沽瘦,DeepSeek-R1-Zero 在諸如可讀性差和語言混雜等方面存在挑戰(zhàn)革骨。
3.2 DeepSeek-R1
DeepSeek-R1是通過收集冷啟動(dòng)數(shù)據(jù),在DeepSeek-V3基礎(chǔ)上通過微調(diào)得到析恋。所謂冷啟動(dòng)良哲,就是模型初次運(yùn)行時(shí),沒有足夠的歷史數(shù)據(jù)助隧。DeepSeek為了收集此類數(shù)據(jù)筑凫,探索了多種方法:使用少量示例的長鏈推理進(jìn)行提示,直接提示模型生成包含反思和驗(yàn)證的詳細(xì)答案并村,收集 DeepSeek-R1-Zero 的輸出并以可讀格式呈現(xiàn)巍实,以及通過人工標(biāo)注員進(jìn)行后期處理來優(yōu)化結(jié)果。
為解決語言混雜的問題哩牍,DeepSeek在強(qiáng)化學(xué)習(xí)訓(xùn)練中引入了語言一致性獎(jiǎng)勵(lì)棚潦,其計(jì)算方式為 CoT 中目標(biāo)語言詞匯的比例。盡管消融實(shí)驗(yàn)表明這種對(duì)齊會(huì)導(dǎo)致模型性能略有下降姐叁,但這種獎(jiǎng)勵(lì)符合人類偏好瓦盛,使輸出更具可讀性。最后外潜,我們將推理任務(wù)的準(zhǔn)確性與語言一致性獎(jiǎng)勵(lì)直接相加原环,形成最終獎(jiǎng)勵(lì)。
3.3 蒸餾(distill)
為了給像 DeepSeek-R1 這樣具備推理能力的更高效的小型模型配備更強(qiáng)大的功能处窥,DeepSeek直接使用 DeepSeek-R1 精選的 80 萬份樣本對(duì) Qwen(Qwen嘱吗,2024b)和 Llama(AI@Meta,2024)等開源模型進(jìn)行了微調(diào)。研究結(jié)果表明谒麦,這種直接的知識(shí)蒸餾方法顯著提升了小型模型的推理能力俄讹。這里使用的基模型包括 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B绕德、Qwen2.5-14B患膛、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct耻蛇。我們選擇 Llama-3.3 是因?yàn)槠渫评砟芰β詢?yōu)于 Llama-3.1踪蹬。
4. DeepSeek應(yīng)用
DeepSeek-R1開源模型以優(yōu)異的能力比肩OpenAI-o1,必將引來更加激勵(lì)的技術(shù)競(jìng)爭臣咖,對(duì)于我等普通大眾來講跃捣,就是大幅度的降低了大模型的使用成本。
在短視頻里有很多教程都在教授部署本地大模型夺蛇,由于硬件限制疚漆,最好的辦法還是直接使用商業(yè)版的DeepSeek-R1,成本已經(jīng)足夠低了刁赦。
英偉達(dá)娶聘、微軟、AMD等國際大公司已經(jīng)宣布支持DeepSeek-R1模型截型,并且在程序員日常工具很多已經(jīng)支持DeepSeek-R1了趴荸,例如說Cursor
對(duì)于行業(yè)大眾來講,快速接受AI宦焦,乘坐趨勢(shì)发钝,賦能AI+是我們需要做的事情。