deepseek v3 技術(shù)報(bào)告中文翻譯

摘要

我們提出了 DeepSeek-V3垒在，這是一個(gè)強(qiáng)大的混合專家模型（MoE），總參數(shù)量為 6710 億放妈，每個(gè) token 激活 370 億 參數(shù)因妙。為了實(shí)現(xiàn)高效推理和經(jīng)濟(jì)訓(xùn)練，DeepSeek-V3 采用了多頭潛在注意力機(jī)制（MLA）和 DeepSeekMoE 架構(gòu)骡澈，這些架構(gòu)已在 DeepSeek-V2 中得到充分驗(yàn)證锅纺。此外，DeepSeek-V3 率先提出了一種無(wú)輔助損失的負(fù)載均衡策略肋殴，并設(shè)定了多 token 預(yù)測(cè)訓(xùn)練目標(biāo)以提升性能囤锉。我們?cè)?14.8 萬(wàn)億 高質(zhì)量且多樣化的 token 上對(duì) DeepSeek-V3 進(jìn)行了預(yù)訓(xùn)練，隨后通過(guò)監(jiān)督微調(diào)（SFT）和強(qiáng)化學(xué)習(xí)（RL）階段充分釋放其潛力护锤。綜合評(píng)估表明官地，DeepSeek-V3 超越了其他開(kāi)源模型，并與領(lǐng)先的閉源模型表現(xiàn)相當(dāng)烙懦。盡管性能卓越驱入，DeepSeek-V3 的完整訓(xùn)練僅需 2.788M H800 GPU 小時(shí)。此外氯析，其訓(xùn)練過(guò)程非常穩(wěn)定亏较，在整個(gè)訓(xùn)練過(guò)程中未出現(xiàn)任何不可恢復(fù)的損失突增或需要回滾的情況。模型檢查點(diǎn)可在 https://github.com/deepseek-ai/DeepSeek-V3 獲取魄鸦。

介紹

近年來(lái)宴杀，大型語(yǔ)言模型（LLMs）經(jīng)歷了快速的迭代和演進(jìn)（Anthropic, 2024; Google, 2024; OpenAI, 2024a）癣朗，逐步縮小了與人工通用智能（AGI）之間的差距拾因。除了閉源模型外，開(kāi)源模型旷余，包括 DeepSeek 系列（DeepSeek-AI, 2024a,b,c; Guo et al., 2024）绢记、LLaMA 系列（AI@Meta, 2024a,b; Touvron et al., 2023a,b）、Qwen 系列（Qwen, 2023, 2024a,b）和 Mistral 系列（Jiang et al., 2023; Mistral, 2024）正卧，也取得了顯著進(jìn)展蠢熄，努力縮小與閉源模型之間的差距。為了進(jìn)一步突破開(kāi)源模型的能力邊界炉旷，我們擴(kuò)大了模型規(guī)模签孔，并推出了 DeepSeek-V3叉讥，這是一個(gè)擁有 6710 億參數(shù)的大型混合專家模型（MoE），其中每個(gè) token 激活 370 億參數(shù)饥追。

我們始終以長(zhǎng)遠(yuǎn)的眼光图仓，致力于在模型性能和經(jīng)濟(jì)成本之間取得平衡。因此但绕，在架構(gòu)設(shè)計(jì)上救崔，DeepSeek-V3 仍然采用了多頭潛在注意力機(jī)制（MLA）（DeepSeek-AI, 2024c）以實(shí)現(xiàn)高效的推理，以及DeepSeekMoE（Dai et al., 2024）以實(shí)現(xiàn)經(jīng)濟(jì)高效的訓(xùn)練捏顺。這兩種架構(gòu)已在 DeepSeek-V2（DeepSeek-AI, 2024c）中得到驗(yàn)證六孵，證明了其在保持強(qiáng)大模型性能的同時(shí)，能夠?qū)崿F(xiàn)高效的訓(xùn)練和推理幅骄。除了基礎(chǔ)架構(gòu)外劫窒，我們還采用了兩種額外策略來(lái)進(jìn)一步提升模型能力。首先拆座，DeepSeek-V3 率先采用了無(wú)輔助損失的負(fù)載均衡策略（Wang et al., 2024a）烛亦，旨在減少因鼓勵(lì)負(fù)載均衡而對(duì)模型性能產(chǎn)生的負(fù)面影響。其次懂拾，DeepSeek-V3 采用了多 token 預(yù)測(cè)的訓(xùn)練目標(biāo)煤禽，我們觀察到這一策略能夠顯著提升模型在評(píng)估基準(zhǔn)上的整體表現(xiàn)。

為了實(shí)現(xiàn)高效的訓(xùn)練岖赋，我們支持 FP8 混合精度訓(xùn)練檬果，并對(duì)訓(xùn)練框架進(jìn)行了全面優(yōu)化。低精度訓(xùn)練已成為高效訓(xùn)練的一種有前景的解決方案（Dettmers et al., 2022; Kalamkar et al., 2019; Narang et al., 2017; Peng et al., 2023b）唐断，其發(fā)展與硬件能力的進(jìn)步密切相關(guān)（Luo et al., 2024; Micikevicius et al., 2022; Rouhani et al., 2023a）选脊。在本研究中，我們引入了一種 FP8 混合精度訓(xùn)練框架脸甘，并首次在超大規(guī)模模型上驗(yàn)證了其有效性恳啥。通過(guò)對(duì) FP8 計(jì)算和存儲(chǔ)的支持，我們既加速了訓(xùn)練過(guò)程丹诀，又減少了 GPU 內(nèi)存的使用钝的。在訓(xùn)練框架方面，我們?cè)O(shè)計(jì)了 DualPipe 算法 以實(shí)現(xiàn)高效的流水線并行铆遭，該算法減少了流水線氣泡硝桩，并通過(guò)計(jì)算-通信重疊隱藏了訓(xùn)練中的大部分通信開(kāi)銷。這種重疊確保了隨著模型的進(jìn)一步擴(kuò)展枚荣，只要我們保持恒定的計(jì)算-通信比碗脊，仍然可以在節(jié)點(diǎn)間使用細(xì)粒度的專家模塊，同時(shí)實(shí)現(xiàn)近乎零的全員通信開(kāi)銷橄妆。此外衙伶，我們還開(kāi)發(fā)了高效的跨節(jié)點(diǎn)全員通信內(nèi)核祈坠，以充分利用 InfiniBand (IB) 和 NVLink 的帶寬。同時(shí)矢劲，我們對(duì)內(nèi)存占用進(jìn)行了精細(xì)優(yōu)化颁虐，使得在不使用昂貴的張量并行的情況下訓(xùn)練 DeepSeek-V3 成為可能。通過(guò)這些努力卧须，我們實(shí)現(xiàn)了極高的訓(xùn)練效率另绩。

在預(yù)訓(xùn)練階段，我們使用 14.8T 高質(zhì)量且多樣化的 token 對(duì) DeepSeek-V3 進(jìn)行了訓(xùn)練花嘶。整個(gè)預(yù)訓(xùn)練過(guò)程非常穩(wěn)定笋籽，在整個(gè)訓(xùn)練過(guò)程中，我們沒(méi)有遇到任何不可恢復(fù)的損失突增或需要回滾的情況椭员。接下來(lái)车海，我們對(duì) DeepSeek-V3 進(jìn)行了兩階段的上下文長(zhǎng)度擴(kuò)展。在第一階段隘击，最大上下文長(zhǎng)度擴(kuò)展到 32K侍芝，在第二階段進(jìn)一步擴(kuò)展到 128K。隨后埋同，我們對(duì) DeepSeek-V3 的基礎(chǔ)模型進(jìn)行了后訓(xùn)練州叠，包括監(jiān)督微調(diào)（SFT）和強(qiáng)化學(xué)習(xí)（RL），以使其與人類偏好對(duì)齊并進(jìn)一步釋放其潛力凶赁。在后訓(xùn)練階段咧栗，我們從 DeepSeek-R1 系列模型中蒸餾了推理能力，同時(shí)精心平衡了模型準(zhǔn)確性和生成長(zhǎng)度之間的關(guān)系虱肄。

我們對(duì) DeepSeek-V3 進(jìn)行了一系列全面的基準(zhǔn)測(cè)試評(píng)估致板。盡管其訓(xùn)練成本經(jīng)濟(jì)，綜合評(píng)估表明咏窿，DeepSeek-V3-Base 已成為當(dāng)前最強(qiáng)的開(kāi)源基礎(chǔ)模型斟或，尤其在代碼和數(shù)學(xué)領(lǐng)域表現(xiàn)突出。其聊天版本也在多個(gè)標(biāo)準(zhǔn)和開(kāi)放式基準(zhǔn)測(cè)試中超越了其他開(kāi)源模型集嵌，并與領(lǐng)先的閉源模型（包括 GPT-4o 和 Claude-3.5-Sonnet）表現(xiàn)相當(dāng)萝挤。

最后，我們?cè)俅螐?qiáng)調(diào) DeepSeek-V3 的經(jīng)濟(jì)訓(xùn)練成本纸淮，如表 1 所示平斩，這是通過(guò)我們?cè)谒惴ㄑ窍怼⒖蚣芎陀布系膬?yōu)化協(xié)同設(shè)計(jì)實(shí)現(xiàn)的咽块。在預(yù)訓(xùn)練階段，每訓(xùn)練一萬(wàn)億 token 僅需 180K H800 GPU 小時(shí)欺税，即在我們擁有 2048 張 H800 GPU 的集群上僅需 3.7 天侈沪。因此揭璃，我們的預(yù)訓(xùn)練階段在不到兩個(gè)月內(nèi)完成，總成本為 2664K GPU 小時(shí)亭罪。加上上下文長(zhǎng)度擴(kuò)展所需的 119K GPU 小時(shí) 和后訓(xùn)練所需的 5K GPU 小時(shí)瘦馍，DeepSeek-V3 的完整訓(xùn)練僅消耗 2.788M GPU 小時(shí)。假設(shè) H800 GPU 的租賃價(jià)格為每小時(shí) 2 美元应役，我們的總訓(xùn)練成本僅為 557.6 萬(wàn)美元情组。需要注意的是，上述成本僅包括 DeepSeek-V3 的官方訓(xùn)練箩祥，不包括前期在架構(gòu)院崇、算法或數(shù)據(jù)上的研究和消融實(shí)驗(yàn)相關(guān)成本。

我們的主要貢獻(xiàn)包括：

架構(gòu)：創(chuàng)新的負(fù)載均衡策略與訓(xùn)練目標(biāo)

在 DeepSeek-V2 高效架構(gòu)的基礎(chǔ)上袍祖，我們率先提出了一種無(wú)輔助損失的負(fù)載均衡策略底瓣，最大限度地減少了因鼓勵(lì)負(fù)載均衡而導(dǎo)致的性能下降。
我們研究了多 token 預(yù)測(cè)（MTP）目標(biāo)蕉陋，并證明其對(duì)模型性能有益捐凭。該目標(biāo)還可用于推測(cè)解碼以加速推理。

預(yù)訓(xùn)練：追求極致的訓(xùn)練效率

我們?cè)O(shè)計(jì)了一種 FP8 混合精度訓(xùn)練框架凳鬓，并首次在超大規(guī)模模型上驗(yàn)證了 FP8 訓(xùn)練的可行性和有效性茁肠。
通過(guò)算法、框架和硬件的協(xié)同設(shè)計(jì)缩举，我們克服了跨節(jié)點(diǎn) MoE 訓(xùn)練中的通信瓶頸官套，實(shí)現(xiàn)了近乎完全的計(jì)算-通信重疊。這顯著提高了訓(xùn)練效率并降低了訓(xùn)練成本蚁孔，使我們能夠在不增加額外開(kāi)銷的情況下進(jìn)一步擴(kuò)展模型規(guī)模奶赔。
以僅 2.664M H800 GPU 小時(shí) 的經(jīng)濟(jì)成本，我們完成了 DeepSeek-V3 在 14.8T token 上的預(yù)訓(xùn)練杠氢，生成了當(dāng)前最強(qiáng)的開(kāi)源基礎(chǔ)模型站刑。預(yù)訓(xùn)練后的后續(xù)訓(xùn)練階段僅需 0.1M GPU 小時(shí)。

后訓(xùn)練：從 DeepSeek-R1 進(jìn)行知識(shí)蒸餾

我們引入了一種創(chuàng)新方法鼻百，將長(zhǎng)鏈思維（CoT）模型（特別是 DeepSeek R1 系列模型之一）的推理能力蒸餾到標(biāo)準(zhǔn) LLM（尤其是 DeepSeek-V3）中绞旅。我們的管道巧妙地將 R1 的驗(yàn)證和反思模式融入 DeepSeek-V3，顯著提升了其推理性能温艇。同時(shí)因悲，我們還控制了 DeepSeek-V3 的輸出風(fēng)格和長(zhǎng)度。

核心評(píng)估結(jié)果總結(jié)

知識(shí)領(lǐng)域：
1. 在教育類基準(zhǔn)測(cè)試（如 MMLU勺爱、MMLU-Pro 和 GPQA）中晃琳，DeepSeek-V3 超越了所有其他開(kāi)源模型，在 MMLU 上達(dá)到 88.5，在 MMLU-Pro 上達(dá)到 75.9卫旱，在 GPQA 上達(dá)到 59.1人灼。其表現(xiàn)與 GPT-4o 和 Claude-Sonnet-3.5 等領(lǐng)先閉源模型相當(dāng)，縮小了開(kāi)源與閉源模型在該領(lǐng)域的差距顾翼。
2. 在事實(shí)性基準(zhǔn)測(cè)試中投放，DeepSeek-V3 在 SimpleQA 和中文 SimpleQA 上均表現(xiàn)出色，在開(kāi)源模型中領(lǐng)先适贸。雖然在英文事實(shí)性知識(shí)（SimpleQA）上略遜于 GPT-4o 和 Claude-Sonnet-3.5灸芳，但在中文事實(shí)性知識(shí)（中文 SimpleQA）上超越了這些模型，展現(xiàn)了其在中文事實(shí)性知識(shí)上的優(yōu)勢(shì)拜姿。
代碼耗绿、數(shù)學(xué)與推理：
1. DeepSeek-V3 在所有非長(zhǎng)鏈思維的開(kāi)源和閉源模型中，在數(shù)學(xué)相關(guān)基準(zhǔn)測(cè)試上達(dá)到了最先進(jìn)的性能砾隅。特別是在 MATH-500 等特定基準(zhǔn)測(cè)試中误阻，甚至超越了 o1-preview，展示了其強(qiáng)大的數(shù)學(xué)推理能力晴埂。
2. 在代碼相關(guān)任務(wù)中究反，DeepSeek-V3 成為代碼競(jìng)賽基準(zhǔn)測(cè)試（如 LiveCodeBench）中表現(xiàn)最佳的模型，鞏固了其在該領(lǐng)域的領(lǐng)先地位儒洛。在工程相關(guān)任務(wù)中精耐，雖然 DeepSeek-V3 略低于 Claude-Sonnet-3.5，但仍顯著領(lǐng)先于其他所有模型琅锻，展現(xiàn)了其在多樣化技術(shù)基準(zhǔn)測(cè)試中的競(jìng)爭(zhēng)力卦停。

通過(guò)這些貢獻(xiàn)，DeepSeek-V3 不僅在性能上達(dá)到了新的高度恼蓬，還在訓(xùn)練效率和成本控制上樹(shù)立了新的標(biāo)桿惊完。

在本文的剩余部分，我們首先詳細(xì)介紹了 DeepSeek-V3 模型架構(gòu)（第 2 節(jié)）处硬。隨后小槐，我們介紹了我們的基礎(chǔ)設(shè)施，包括計(jì)算集群荷辕、訓(xùn)練框架凿跳、對(duì) FP8 訓(xùn)練的支持、推理部署策略以及對(duì)未來(lái)硬件設(shè)計(jì)的建議疮方。接下來(lái)控嗜，我們描述了預(yù)訓(xùn)練過(guò)程，包括訓(xùn)練數(shù)據(jù)的構(gòu)建骡显、超參數(shù)設(shè)置疆栏、長(zhǎng)上下文擴(kuò)展技術(shù)曾掂、相關(guān)評(píng)估以及一些討論（第 4 節(jié)）。之后承边，我們討論了后訓(xùn)練的工作遭殉，包括監(jiān)督微調(diào)（SFT）石挂、強(qiáng)化學(xué)習(xí)（RL）博助、相應(yīng)的評(píng)估和討論（第 5 節(jié)）。最后痹愚，我們對(duì)本工作進(jìn)行總結(jié)富岳，討論了 DeepSeek-V3 的現(xiàn)有局限性，并提出了未來(lái)研究的潛在方向（第 6 節(jié)）拯腮。

2. 架構(gòu)

我們首先介紹 DeepSeek-V3 的基礎(chǔ)架構(gòu)窖式，其特點(diǎn)是采用多頭潛在注意力機(jī)制（MLA）（DeepSeek-AI, 2024c）以實(shí)現(xiàn)高效推理，以及 DeepSeekMoE（Dai et al., 2024）以實(shí)現(xiàn)經(jīng)濟(jì)高效的訓(xùn)練动壤。接著萝喘，我們提出了一種多 token 預(yù)測(cè)（MTP）訓(xùn)練目標(biāo)，我們觀察到該目標(biāo)能夠顯著提升模型在評(píng)估基準(zhǔn)上的整體性能琼懊。對(duì)于未明確提及的其他細(xì)節(jié)阁簸，DeepSeek-V3 遵循了 DeepSeek-V2（DeepSeek-AI, 2024c）的設(shè)置。

2.1 基礎(chǔ)架構(gòu)

DeepSeek-V3 的基礎(chǔ)架構(gòu)仍然基于 Transformer（Vaswani et al., 2017）框架哼丈。為了實(shí)現(xiàn)高效推理和經(jīng)濟(jì)訓(xùn)練启妹，DeepSeek-V3 同樣采用了 MLA 和 DeepSeekMoE，這兩者已在 DeepSeek-V2 中得到了充分驗(yàn)證醉旦。與 DeepSeek-V2 相比饶米，一個(gè)例外是我們額外引入了一種無(wú)輔助損失的負(fù)載均衡策略（Wang et al., 2024a）用于 DeepSeekMoE，以減輕因確保負(fù)載均衡而導(dǎo)致的性能下降车胡。圖 2 展示了 DeepSeek-V3 的基礎(chǔ)架構(gòu)檬输，我們將在本節(jié)簡(jiǎn)要回顧 MLA 和 DeepSeekMoE 的細(xì)節(jié)。

圖 2 | DeepSeek-V3 基礎(chǔ)架構(gòu)示意圖匈棘。遵循 DeepSeek-V2 的設(shè)計(jì)褪猛，我們采用 MLA 和 DeepSeekMoE 以實(shí)現(xiàn)高效推理和經(jīng)濟(jì)訓(xùn)練。

2.1.1 多頭潛在注意力機(jī)制（MLA）

在注意力機(jī)制方面羹饰，DeepSeek-V3 采用了 MLA 架構(gòu)伊滋。設(shè) ?? 表示嵌入維度，??? 表示注意力頭的數(shù)量队秩，??? 表示每個(gè)頭的維度笑旺，h?? ∈ R?? 表示給定注意力層中第 ?? 個(gè) token 的注意力輸入。MLA 的核心是對(duì)注意力鍵（Key）和值（Value）進(jìn)行低秩聯(lián)合壓縮馍资，以減少推理過(guò)程中的 Key-Value（KV）緩存：

image.png

其中筒主，c?????? ∈ R???? 是鍵（Key）和值（Value）的壓縮潛在向量；????（? ??????） 表示鍵值壓縮維度；???????? ∈ R????×?? 是下投影矩陣乌妙；?????? 和 ?????? ∈ R??????×???? 分別是鍵和值的上投影矩陣使兔；?????? ∈ R?????×?? 是用于生成攜帶旋轉(zhuǎn)位置嵌入（RoPE）（Su et al., 2024）的解耦鍵的矩陣；RoPE(·) 表示應(yīng)用 RoPE 矩陣的操作藤韵；[·; ·] 表示拼接操作虐沥。需要注意的是，對(duì)于 MLA泽艘，在生成過(guò)程中只需緩存藍(lán)色框內(nèi)的向量（即 c?????? 和 k????）欲险，這顯著減少了 KV 緩存，同時(shí)保持了與標(biāo)準(zhǔn)多頭注意力機(jī)制（MHA）（Vaswani et al., 2017）相當(dāng)?shù)男阅堋?/p>

對(duì)于注意力查詢（Query）匹涮，我們也進(jìn)行了低秩壓縮天试，這可以減少訓(xùn)練期間的激活內(nèi)存占用：

image.png

其中，c???? ∈ R??′?? 是查詢（Query）的壓縮潛在向量然低；??′??（? ??????） 表示查詢壓縮維度喜每；?????? ∈ R??′??×?? 和 ?????? ∈ R??????×??′?? 分別是查詢的下投影和上投影矩陣；?????? ∈ R????????×??′?? 是用于生成攜帶 RoPE 的解耦查詢的矩陣雳攘。

最終带兜，注意力查詢（q??,??）、鍵（k??,??）和值（v????,??）被結(jié)合以生成最終的注意力輸出 u??：

image.png

其中来农，???? ∈ R??×?????? 表示輸出投影矩陣鞋真。

2.1.2 采用無(wú)輔助損失負(fù)載均衡的 DeepSeekMoE

DeepSeekMoE 的基礎(chǔ)架構(gòu)

在前饋網(wǎng)絡(luò)（FFN）方面，DeepSeek-V3 采用了 DeepSeekMoE 架構(gòu)（Dai et al., 2024）沃于。與傳統(tǒng)的 MoE 架構(gòu)（如 GShard涩咖，Lepikhin et al., 2021）相比，DeepSeekMoE 使用了更細(xì)粒度的專家模塊繁莹，并將部分專家隔離為共享專家檩互。設(shè) u?? 表示第 ?? 個(gè) token 的 FFN 輸入，我們按如下方式計(jì)算 FFN 輸出 h′??：

image.png

其中咨演，???? 和 ???? 分別表示共享專家和路由專家的數(shù)量闸昨；FFN(??)??(·) 和 FFN(??)??(·) 分別表示第 ?? 個(gè)共享專家和第 ?? 個(gè)路由專家；???? 表示激活的路由專家數(shù)量薄风；????,?? 是第 ?? 個(gè)專家的門控值饵较；????,?? 是 token 到專家的親和度铃岔；e?? 是第 ?? 個(gè)路由專家的中心向量石洗；Topk(·, ??) 表示第 ?? 個(gè) token 與所有路由專家計(jì)算的親和度分?jǐn)?shù)中前 ?? 個(gè)最高分?jǐn)?shù)的集合。與 DeepSeek-V2 略有不同懂酱，DeepSeek-V3 使用 sigmoid 函數(shù) 計(jì)算親和度分?jǐn)?shù)撇他，并在所有選定的親和度分?jǐn)?shù)之間進(jìn)行歸一化以生成門控值茄猫。

無(wú)輔助損失負(fù)載均衡

對(duì)于 MoE 模型狈蚤，專家負(fù)載不均衡會(huì)導(dǎo)致路由崩潰（Shazeer et al., 2017），并在專家并行場(chǎng)景中降低計(jì)算效率划纽。傳統(tǒng)解決方案通常依賴輔助損失（Fedus et al., 2021; Lepikhin et al., 2021）來(lái)避免負(fù)載不均衡脆侮。然而，過(guò)大的輔助損失會(huì)損害模型性能（Wang et al., 2024a）勇劣。為了在負(fù)載均衡和模型性能之間取得更好的平衡靖避，我們率先提出了一種無(wú)輔助損失的負(fù)載均衡策略（Wang et al., 2024a）以確保負(fù)載均衡。具體來(lái)說(shuō)芭毙，我們?yōu)槊總€(gè)專家引入一個(gè)偏置項(xiàng) ????筋蓖，并將其添加到相應(yīng)的親和度分?jǐn)?shù) ????,?? 中以確定 Top-K 路由：

image.png

需要注意的是卸耘，偏置項(xiàng)僅用于路由退敦。門控值（將與 FFN 輸出相乘）仍然從原始親和度分?jǐn)?shù) ????,?? 中導(dǎo)出。在訓(xùn)練過(guò)程中蚣抗，我們持續(xù)監(jiān)控每個(gè)訓(xùn)練步驟中整批數(shù)據(jù)的專家負(fù)載侈百。在每一步結(jié)束時(shí)，如果某個(gè)專家的負(fù)載過(guò)高翰铡，我們將其偏置項(xiàng)減少 ??钝域；如果負(fù)載過(guò)低，則增加 ??锭魔，其中 ?? 是一個(gè)稱為偏置更新速度的超參數(shù)例证。通過(guò)這種動(dòng)態(tài)調(diào)整，DeepSeek-V3 在訓(xùn)練期間保持了專家負(fù)載的均衡迷捧，并取得了比單純依賴輔助損失實(shí)現(xiàn)負(fù)載均衡的模型更好的性能织咧。

補(bǔ)充的序列級(jí)輔助損失

盡管 DeepSeek-V3 主要依賴無(wú)輔助損失策略來(lái)實(shí)現(xiàn)負(fù)載均衡，但為了防止任何單個(gè)序列內(nèi)的極端不均衡漠秋，我們還采用了補(bǔ)充的序列級(jí)平衡損失：

image.png

其中笙蒙，平衡因子 ?? 是一個(gè)超參數(shù)，在 DeepSeek-V3 中會(huì)被賦予一個(gè)極小的值庆锦；1(·) 表示指示函數(shù)捅位；?? 表示序列中的 token 數(shù)量。序列級(jí)平衡損失鼓勵(lì)每個(gè)序列上的專家負(fù)載保持均衡搂抒。

### **圖 3 | 多 token 預(yù)測(cè)（MTP）實(shí)現(xiàn)示意圖** 我們?cè)诿總€(gè)深度上為每個(gè) token 的預(yù)測(cè)保留了完整的因果鏈艇搀。

節(jié)點(diǎn)限制路由

與 DeepSeek-V2 使用的設(shè)備限制路由類似，DeepSeek-V3 也采用了一種受限的路由機(jī)制求晶，以限制訓(xùn)練期間的通信成本焰雕。簡(jiǎn)而言之，我們確保每個(gè) token 最多被發(fā)送到 ?? 個(gè)節(jié)點(diǎn)誉帅，這些節(jié)點(diǎn)是根據(jù)分布在各節(jié)點(diǎn)上的專家的前 ????/?? 個(gè)最高親和度分?jǐn)?shù)的總和來(lái)選擇的淀散。在此約束下右莱，我們的 MoE 訓(xùn)練框架幾乎可以實(shí)現(xiàn)完全的計(jì)算-通信重疊。

無(wú) token 丟棄

由于有效的負(fù)載均衡策略档插，DeepSeek-V3 在整個(gè)訓(xùn)練過(guò)程中保持了良好的負(fù)載均衡慢蜓。因此，DeepSeek-V3 在訓(xùn)練期間不會(huì)丟棄任何 token郭膛。此外晨抡，我們還實(shí)施了特定的部署策略以確保推理負(fù)載均衡，因此 DeepSeek-V3 在推理期間也不會(huì)丟棄 token则剃。

2.2 多 token 預(yù)測(cè)（MTP）

受 Gloeckle et al. (2024) 的啟發(fā)耘柱，我們研究并為 DeepSeek-V3 設(shè)定了多 token 預(yù)測(cè)（MTP）目標(biāo)，該目標(biāo)將預(yù)測(cè)范圍擴(kuò)展到每個(gè)位置的多個(gè)未來(lái) token棍现。一方面调煎，MTP 目標(biāo)使訓(xùn)練信號(hào)更加密集，可能會(huì)提高數(shù)據(jù)效率己肮。另一方面士袄，MTP 可能使模型能夠預(yù)先規(guī)劃其表示，以更好地預(yù)測(cè)未來(lái)的 token谎僻。圖 3 展示了我們的 MTP 實(shí)現(xiàn)娄柳。與 Gloeckle et al. (2024) 使用獨(dú)立輸出頭并行預(yù)測(cè) ?? 個(gè)額外 token 不同，我們按順序預(yù)測(cè)額外 token艘绍，并在每個(gè)預(yù)測(cè)深度保留完整的因果鏈赤拒。我們?cè)诒竟?jié)中詳細(xì)介紹我們的 MTP 實(shí)現(xiàn)。

MTP 模塊

具體來(lái)說(shuō)诱鞠，我們的 MTP 實(shí)現(xiàn)使用 ?? 個(gè)順序模塊來(lái)預(yù)測(cè) ?? 個(gè)額外 token挎挖。第 ?? 個(gè) MTP 模塊包括一個(gè)共享的嵌入層 Emb(·)、一個(gè)共享的輸出頭 OutHead(·)般甲、一個(gè) Transformer 塊 TRM??(·) 和一個(gè)投影矩陣 ???? ∈ R??×2??肋乍。對(duì)于第 ?? 個(gè)輸入 token ????，在第 ?? 個(gè)預(yù)測(cè)深度敷存，我們首先將第 (?? ? 1) 個(gè)深度的第 ?? 個(gè) token 的表示 h???1?? ∈ R?? 與第 (?? + ??) 個(gè) token 的嵌入 ??????(????+??) ∈ R?? 通過(guò)線性投影結(jié)合：

image.png

其中墓造，[·; ·] 表示拼接操作。特別地锚烦，當(dāng) ?? = 1 時(shí)觅闽，h???1?? 指的是主模型給出的表示。需要注意的是涮俄，每個(gè) MTP 模塊的嵌入層與主模型共享蛉拙。拼接后的 h′???? 作為第 ?? 個(gè)深度的 Transformer 塊的輸入，以生成當(dāng)前深度的輸出表示 h????：

未完待續(xù)彻亲。孕锄。吮廉。

最后編輯于：2025.01.22 13:57:19

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市畸肆，隨后出現(xiàn)的幾起案子宦芦，更是在濱河造成了極大的恐慌，老刑警劉巖轴脐，帶你破解...
沈念sama閱讀 222,946評(píng)論 6贊 518
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件调卑，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡大咱，警方通過(guò)查閱死者的電腦和手機(jī)恬涧，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,336評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)碴巾，“玉大人溯捆，你說(shuō)我怎么就攤上這事〔颓溃” “怎么了现使？”我有些...
開(kāi)封第一講書(shū)人閱讀 169,716評(píng)論 0贊 364
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵低匙，是天一觀的道長(zhǎng)旷痕。經(jīng)常有香客問(wèn)我，道長(zhǎng)顽冶，這世上最難降的妖魔是什么欺抗？我笑而不...
開(kāi)封第一講書(shū)人閱讀 60,222評(píng)論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮强重，結(jié)果婚禮上绞呈，老公的妹妹穿的比我還像新娘。我一直安慰自己间景，他們只是感情好佃声，可當(dāng)我...
茶點(diǎn)故事閱讀 69,223評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著倘要，像睡著了一般圾亏。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上封拧，一...
開(kāi)封第一講書(shū)人閱讀 52,807評(píng)論 1贊 314
城市分裂傳說(shuō)
那天志鹃，我揣著相機(jī)與錄音，去河邊找鬼泽西。笑死曹铃，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的捧杉。我是一名探鬼主播陕见，決...
沈念sama閱讀 41,235評(píng)論 3贊 424
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼秘血，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了评甜？” 一聲冷哼從身側(cè)響起直撤，我...
開(kāi)封第一講書(shū)人閱讀 40,189評(píng)論 0贊 277
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎蜕着，沒(méi)想到半個(gè)月后谋竖，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,712評(píng)論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡承匣，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,775評(píng)論 3贊 343
?白月光啟示錄
正文我和宋清朗相戀三年蓖乘，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片韧骗。...
茶點(diǎn)故事閱讀 40,926評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡嘉抒，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出袍暴，到底是詐尸還是另有隱情些侍，我是刑警寧澤，帶...
沈念sama閱讀 36,580評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布政模，位于F島的核電站岗宣，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏淋样。R本人自食惡果不足惜耗式，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,259評(píng)論 3贊 336
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望趁猴。院中可真熱鬧刊咳，春花似錦、人聲如沸儡司。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 32,750評(píng)論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)捕犬。三九已至跷坝，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間或听，已是汗流浹背探孝。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,867評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留誉裆，地道東北人顿颅。一個(gè)月前我還...
沈念sama閱讀 49,368評(píng)論 3贊 379
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像足丢，于是被迫代替她去往敵國(guó)和親粱腻。傳聞我的和親對(duì)象是個(gè)殘疾皇子庇配，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,930評(píng)論 2贊 361

deepseek v3 技術(shù)報(bào)告 中文翻譯

摘要

介紹

架構(gòu)：創(chuàng)新的負(fù)載均衡策略與訓(xùn)練目標(biāo)

預(yù)訓(xùn)練：追求極致的訓(xùn)練效率

后訓(xùn)練：從 DeepSeek-R1 進(jìn)行知識(shí)蒸餾

核心評(píng)估結(jié)果總結(jié)

2. 架構(gòu)

2.1 基礎(chǔ)架構(gòu)

2.1.1 多頭潛在注意力機(jī)制（MLA）

2.1.2 采用無(wú)輔助損失負(fù)載均衡的 DeepSeekMoE

DeepSeekMoE 的基礎(chǔ)架構(gòu)

無(wú)輔助損失負(fù)載均衡

補(bǔ)充的序列級(jí)輔助損失

節(jié)點(diǎn)限制路由

無(wú) token 丟棄

2.2 多 token 預(yù)測(cè)（MTP）

MTP 模塊

推薦閱讀更多精彩內(nèi)容

deepseek v3 技術(shù)報(bào)告中文翻譯