摘要
我們提出了 DeepSeek-V3垒在,這是一個(gè)強(qiáng)大的混合專家模型(MoE),總參數(shù)量為 6710 億放妈,每個(gè) token 激活 370 億 參數(shù)因妙。為了實(shí)現(xiàn)高效推理和經(jīng)濟(jì)訓(xùn)練,DeepSeek-V3 采用了多頭潛在注意力機(jī)制(MLA)和 DeepSeekMoE 架構(gòu)骡澈,這些架構(gòu)已在 DeepSeek-V2 中得到充分驗(yàn)證锅纺。此外,DeepSeek-V3 率先提出了一種無(wú)輔助損失的負(fù)載均衡策略肋殴,并設(shè)定了多 token 預(yù)測(cè)訓(xùn)練目標(biāo)以提升性能囤锉。我們?cè)?14.8 萬(wàn)億 高質(zhì)量且多樣化的 token 上對(duì) DeepSeek-V3 進(jìn)行了預(yù)訓(xùn)練,隨后通過(guò)監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)階段充分釋放其潛力护锤。綜合評(píng)估表明官地,DeepSeek-V3 超越了其他開(kāi)源模型,并與領(lǐng)先的閉源模型表現(xiàn)相當(dāng)烙懦。盡管性能卓越驱入,DeepSeek-V3 的完整訓(xùn)練僅需 2.788M H800 GPU 小時(shí)。此外氯析,其訓(xùn)練過(guò)程非常穩(wěn)定亏较,在整個(gè)訓(xùn)練過(guò)程中未出現(xiàn)任何不可恢復(fù)的損失突增或需要回滾的情況。模型檢查點(diǎn)可在 https://github.com/deepseek-ai/DeepSeek-V3 獲取魄鸦。
介紹
近年來(lái)宴杀,大型語(yǔ)言模型(LLMs)經(jīng)歷了快速的迭代和演進(jìn)(Anthropic, 2024; Google, 2024; OpenAI, 2024a)癣朗,逐步縮小了與人工通用智能(AGI)之間的差距拾因。除了閉源模型外,開(kāi)源模型旷余,包括 DeepSeek 系列(DeepSeek-AI, 2024a,b,c; Guo et al., 2024)绢记、LLaMA 系列(AI@Meta, 2024a,b; Touvron et al., 2023a,b)、Qwen 系列(Qwen, 2023, 2024a,b)和 Mistral 系列(Jiang et al., 2023; Mistral, 2024)正卧,也取得了顯著進(jìn)展蠢熄,努力縮小與閉源模型之間的差距。為了進(jìn)一步突破開(kāi)源模型的能力邊界炉旷,我們擴(kuò)大了模型規(guī)模签孔,并推出了 DeepSeek-V3叉讥,這是一個(gè)擁有 6710 億參數(shù)的大型混合專家模型(MoE),其中每個(gè) token 激活 370 億參數(shù)饥追。
我們始終以長(zhǎng)遠(yuǎn)的眼光图仓,致力于在模型性能和經(jīng)濟(jì)成本之間取得平衡。因此但绕,在架構(gòu)設(shè)計(jì)上救崔,DeepSeek-V3 仍然采用了多頭潛在注意力機(jī)制(MLA)(DeepSeek-AI, 2024c)以實(shí)現(xiàn)高效的推理,以及DeepSeekMoE(Dai et al., 2024)以實(shí)現(xiàn)經(jīng)濟(jì)高效的訓(xùn)練捏顺。這兩種架構(gòu)已在 DeepSeek-V2(DeepSeek-AI, 2024c)中得到驗(yàn)證六孵,證明了其在保持強(qiáng)大模型性能的同時(shí),能夠?qū)崿F(xiàn)高效的訓(xùn)練和推理幅骄。除了基礎(chǔ)架構(gòu)外劫窒,我們還采用了兩種額外策略來(lái)進(jìn)一步提升模型能力。首先拆座,DeepSeek-V3 率先采用了無(wú)輔助損失的負(fù)載均衡策略(Wang et al., 2024a)烛亦,旨在減少因鼓勵(lì)負(fù)載均衡而對(duì)模型性能產(chǎn)生的負(fù)面影響。其次懂拾,DeepSeek-V3 采用了多 token 預(yù)測(cè)的訓(xùn)練目標(biāo)煤禽,我們觀察到這一策略能夠顯著提升模型在評(píng)估基準(zhǔn)上的整體表現(xiàn)。
為了實(shí)現(xiàn)高效的訓(xùn)練岖赋,我們支持 FP8 混合精度訓(xùn)練檬果,并對(duì)訓(xùn)練框架進(jìn)行了全面優(yōu)化。低精度訓(xùn)練已成為高效訓(xùn)練的一種有前景的解決方案(Dettmers et al., 2022; Kalamkar et al., 2019; Narang et al., 2017; Peng et al., 2023b)唐断,其發(fā)展與硬件能力的進(jìn)步密切相關(guān)(Luo et al., 2024; Micikevicius et al., 2022; Rouhani et al., 2023a)选脊。在本研究中,我們引入了一種 FP8 混合精度訓(xùn)練框架脸甘,并首次在超大規(guī)模模型上驗(yàn)證了其有效性恳啥。通過(guò)對(duì) FP8 計(jì)算和存儲(chǔ)的支持,我們既加速了訓(xùn)練過(guò)程丹诀,又減少了 GPU 內(nèi)存的使用钝的。在訓(xùn)練框架方面,我們?cè)O(shè)計(jì)了 DualPipe 算法 以實(shí)現(xiàn)高效的流水線并行铆遭,該算法減少了流水線氣泡硝桩,并通過(guò)計(jì)算-通信重疊隱藏了訓(xùn)練中的大部分通信開(kāi)銷。這種重疊確保了隨著模型的進(jìn)一步擴(kuò)展枚荣,只要我們保持恒定的計(jì)算-通信比碗脊,仍然可以在節(jié)點(diǎn)間使用細(xì)粒度的專家模塊,同時(shí)實(shí)現(xiàn)近乎零的全員通信開(kāi)銷橄妆。此外衙伶,我們還開(kāi)發(fā)了高效的跨節(jié)點(diǎn)全員通信內(nèi)核祈坠,以充分利用 InfiniBand (IB) 和 NVLink 的帶寬。同時(shí)矢劲,我們對(duì)內(nèi)存占用進(jìn)行了精細(xì)優(yōu)化颁虐,使得在不使用昂貴的張量并行的情況下訓(xùn)練 DeepSeek-V3 成為可能。通過(guò)這些努力卧须,我們實(shí)現(xiàn)了極高的訓(xùn)練效率另绩。
在預(yù)訓(xùn)練階段,我們使用 14.8T 高質(zhì)量且多樣化的 token 對(duì) DeepSeek-V3 進(jìn)行了訓(xùn)練花嘶。整個(gè)預(yù)訓(xùn)練過(guò)程非常穩(wěn)定笋籽,在整個(gè)訓(xùn)練過(guò)程中,我們沒(méi)有遇到任何不可恢復(fù)的損失突增或需要回滾的情況椭员。接下來(lái)车海,我們對(duì) DeepSeek-V3 進(jìn)行了兩階段的上下文長(zhǎng)度擴(kuò)展。在第一階段隘击,最大上下文長(zhǎng)度擴(kuò)展到 32K侍芝,在第二階段進(jìn)一步擴(kuò)展到 128K。隨后埋同,我們對(duì) DeepSeek-V3 的基礎(chǔ)模型進(jìn)行了后訓(xùn)練州叠,包括監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL),以使其與人類偏好對(duì)齊并進(jìn)一步釋放其潛力凶赁。在后訓(xùn)練階段咧栗,我們從 DeepSeek-R1 系列模型中蒸餾了推理能力,同時(shí)精心平衡了模型準(zhǔn)確性和生成長(zhǎng)度之間的關(guān)系虱肄。
我們對(duì) DeepSeek-V3 進(jìn)行了一系列全面的基準(zhǔn)測(cè)試評(píng)估致板。盡管其訓(xùn)練成本經(jīng)濟(jì),綜合評(píng)估表明咏窿,DeepSeek-V3-Base 已成為當(dāng)前最強(qiáng)的開(kāi)源基礎(chǔ)模型斟或,尤其在代碼和數(shù)學(xué)領(lǐng)域表現(xiàn)突出。其聊天版本也在多個(gè)標(biāo)準(zhǔn)和開(kāi)放式基準(zhǔn)測(cè)試中超越了其他開(kāi)源模型集嵌,并與領(lǐng)先的閉源模型(包括 GPT-4o 和 Claude-3.5-Sonnet)表現(xiàn)相當(dāng)萝挤。
最后,我們?cè)俅螐?qiáng)調(diào) DeepSeek-V3 的經(jīng)濟(jì)訓(xùn)練成本纸淮,如表 1 所示平斩,這是通過(guò)我們?cè)谒惴ㄑ窍怼⒖蚣芎陀布系膬?yōu)化協(xié)同設(shè)計(jì)實(shí)現(xiàn)的咽块。在預(yù)訓(xùn)練階段,每訓(xùn)練一萬(wàn)億 token 僅需 180K H800 GPU 小時(shí)欺税,即在我們擁有 2048 張 H800 GPU 的集群上僅需 3.7 天侈沪。因此揭璃,我們的預(yù)訓(xùn)練階段在不到兩個(gè)月內(nèi)完成,總成本為 2664K GPU 小時(shí)亭罪。加上上下文長(zhǎng)度擴(kuò)展所需的 119K GPU 小時(shí) 和后訓(xùn)練所需的 5K GPU 小時(shí)瘦馍,DeepSeek-V3 的完整訓(xùn)練僅消耗 2.788M GPU 小時(shí)。假設(shè) H800 GPU 的租賃價(jià)格為每小時(shí) 2 美元应役,我們的總訓(xùn)練成本僅為 557.6 萬(wàn)美元情组。需要注意的是,上述成本僅包括 DeepSeek-V3 的官方訓(xùn)練箩祥,不包括前期在架構(gòu)院崇、算法或數(shù)據(jù)上的研究和消融實(shí)驗(yàn)相關(guān)成本。
我們的主要貢獻(xiàn)包括:
架構(gòu):創(chuàng)新的負(fù)載均衡策略與訓(xùn)練目標(biāo)
- 在 DeepSeek-V2 高效架構(gòu)的基礎(chǔ)上袍祖,我們率先提出了一種無(wú)輔助損失的負(fù)載均衡策略底瓣,最大限度地減少了因鼓勵(lì)負(fù)載均衡而導(dǎo)致的性能下降。
- 我們研究了多 token 預(yù)測(cè)(MTP)目標(biāo)蕉陋,并證明其對(duì)模型性能有益捐凭。該目標(biāo)還可用于推測(cè)解碼以加速推理。
預(yù)訓(xùn)練:追求極致的訓(xùn)練效率
- 我們?cè)O(shè)計(jì)了一種 FP8 混合精度訓(xùn)練框架凳鬓,并首次在超大規(guī)模模型上驗(yàn)證了 FP8 訓(xùn)練的可行性和有效性茁肠。
- 通過(guò)算法、框架和硬件的協(xié)同設(shè)計(jì)缩举,我們克服了跨節(jié)點(diǎn) MoE 訓(xùn)練中的通信瓶頸官套,實(shí)現(xiàn)了近乎完全的計(jì)算-通信重疊。這顯著提高了訓(xùn)練效率并降低了訓(xùn)練成本蚁孔,使我們能夠在不增加額外開(kāi)銷的情況下進(jìn)一步擴(kuò)展模型規(guī)模奶赔。
- 以僅 2.664M H800 GPU 小時(shí) 的經(jīng)濟(jì)成本,我們完成了 DeepSeek-V3 在 14.8T token 上的預(yù)訓(xùn)練杠氢,生成了當(dāng)前最強(qiáng)的開(kāi)源基礎(chǔ)模型站刑。預(yù)訓(xùn)練后的后續(xù)訓(xùn)練階段僅需 0.1M GPU 小時(shí)。
后訓(xùn)練:從 DeepSeek-R1 進(jìn)行知識(shí)蒸餾
- 我們引入了一種創(chuàng)新方法鼻百,將長(zhǎng)鏈思維(CoT)模型(特別是 DeepSeek R1 系列模型之一)的推理能力蒸餾到標(biāo)準(zhǔn) LLM(尤其是 DeepSeek-V3)中绞旅。我們的管道巧妙地將 R1 的驗(yàn)證和反思模式融入 DeepSeek-V3,顯著提升了其推理性能温艇。同時(shí)因悲,我們還控制了 DeepSeek-V3 的輸出風(fēng)格和長(zhǎng)度。
核心評(píng)估結(jié)果總結(jié)
-
知識(shí)領(lǐng)域:
- 在教育類基準(zhǔn)測(cè)試(如 MMLU勺爱、MMLU-Pro 和 GPQA)中晃琳,DeepSeek-V3 超越了所有其他開(kāi)源模型,在 MMLU 上達(dá)到 88.5,在 MMLU-Pro 上達(dá)到 75.9卫旱,在 GPQA 上達(dá)到 59.1人灼。其表現(xiàn)與 GPT-4o 和 Claude-Sonnet-3.5 等領(lǐng)先閉源模型相當(dāng),縮小了開(kāi)源與閉源模型在該領(lǐng)域的差距顾翼。
- 在事實(shí)性基準(zhǔn)測(cè)試中投放,DeepSeek-V3 在 SimpleQA 和中文 SimpleQA 上均表現(xiàn)出色,在開(kāi)源模型中領(lǐng)先适贸。雖然在英文事實(shí)性知識(shí)(SimpleQA)上略遜于 GPT-4o 和 Claude-Sonnet-3.5灸芳,但在中文事實(shí)性知識(shí)(中文 SimpleQA)上超越了這些模型,展現(xiàn)了其在中文事實(shí)性知識(shí)上的優(yōu)勢(shì)拜姿。
-
代碼耗绿、數(shù)學(xué)與推理:
- DeepSeek-V3 在所有非長(zhǎng)鏈思維的開(kāi)源和閉源模型中,在數(shù)學(xué)相關(guān)基準(zhǔn)測(cè)試上達(dá)到了最先進(jìn)的性能砾隅。特別是在 MATH-500 等特定基準(zhǔn)測(cè)試中误阻,甚至超越了 o1-preview,展示了其強(qiáng)大的數(shù)學(xué)推理能力晴埂。
- 在代碼相關(guān)任務(wù)中究反,DeepSeek-V3 成為代碼競(jìng)賽基準(zhǔn)測(cè)試(如 LiveCodeBench)中表現(xiàn)最佳的模型,鞏固了其在該領(lǐng)域的領(lǐng)先地位儒洛。在工程相關(guān)任務(wù)中精耐,雖然 DeepSeek-V3 略低于 Claude-Sonnet-3.5,但仍顯著領(lǐng)先于其他所有模型琅锻,展現(xiàn)了其在多樣化技術(shù)基準(zhǔn)測(cè)試中的競(jìng)爭(zhēng)力卦停。
通過(guò)這些貢獻(xiàn),DeepSeek-V3 不僅在性能上達(dá)到了新的高度恼蓬,還在訓(xùn)練效率和成本控制上樹(shù)立了新的標(biāo)桿惊完。
在本文的剩余部分,我們首先詳細(xì)介紹了 DeepSeek-V3 模型架構(gòu)(第 2 節(jié))处硬。隨后小槐,我們介紹了我們的基礎(chǔ)設(shè)施,包括計(jì)算集群荷辕、訓(xùn)練框架凿跳、對(duì) FP8 訓(xùn)練的支持、推理部署策略以及對(duì)未來(lái)硬件設(shè)計(jì)的建議疮方。接下來(lái)控嗜,我們描述了預(yù)訓(xùn)練過(guò)程,包括訓(xùn)練數(shù)據(jù)的構(gòu)建骡显、超參數(shù)設(shè)置疆栏、長(zhǎng)上下文擴(kuò)展技術(shù)曾掂、相關(guān)評(píng)估以及一些討論(第 4 節(jié))。之后承边,我們討論了后訓(xùn)練的工作遭殉,包括監(jiān)督微調(diào)(SFT)石挂、強(qiáng)化學(xué)習(xí)(RL)博助、相應(yīng)的評(píng)估和討論(第 5 節(jié))。最后痹愚,我們對(duì)本工作進(jìn)行總結(jié)富岳,討論了 DeepSeek-V3 的現(xiàn)有局限性,并提出了未來(lái)研究的潛在方向(第 6 節(jié))拯腮。
2. 架構(gòu)
我們首先介紹 DeepSeek-V3 的基礎(chǔ)架構(gòu)窖式,其特點(diǎn)是采用多頭潛在注意力機(jī)制(MLA)(DeepSeek-AI, 2024c)以實(shí)現(xiàn)高效推理,以及 DeepSeekMoE(Dai et al., 2024)以實(shí)現(xiàn)經(jīng)濟(jì)高效的訓(xùn)練动壤。接著萝喘,我們提出了一種多 token 預(yù)測(cè)(MTP)訓(xùn)練目標(biāo),我們觀察到該目標(biāo)能夠顯著提升模型在評(píng)估基準(zhǔn)上的整體性能琼懊。對(duì)于未明確提及的其他細(xì)節(jié)阁簸,DeepSeek-V3 遵循了 DeepSeek-V2(DeepSeek-AI, 2024c)的設(shè)置。
2.1 基礎(chǔ)架構(gòu)
DeepSeek-V3 的基礎(chǔ)架構(gòu)仍然基于 Transformer(Vaswani et al., 2017)框架哼丈。為了實(shí)現(xiàn)高效推理和經(jīng)濟(jì)訓(xùn)練启妹,DeepSeek-V3 同樣采用了 MLA 和 DeepSeekMoE,這兩者已在 DeepSeek-V2 中得到了充分驗(yàn)證醉旦。與 DeepSeek-V2 相比饶米,一個(gè)例外是我們額外引入了一種無(wú)輔助損失的負(fù)載均衡策略(Wang et al., 2024a)用于 DeepSeekMoE,以減輕因確保負(fù)載均衡而導(dǎo)致的性能下降车胡。圖 2 展示了 DeepSeek-V3 的基礎(chǔ)架構(gòu)檬输,我們將在本節(jié)簡(jiǎn)要回顧 MLA 和 DeepSeekMoE 的細(xì)節(jié)。
2.1.1 多頭潛在注意力機(jī)制(MLA)
在注意力機(jī)制方面羹饰,DeepSeek-V3 采用了 MLA 架構(gòu)伊滋。設(shè) ?? 表示嵌入維度,??? 表示注意力頭的數(shù)量队秩,??? 表示每個(gè)頭的維度笑旺,h?? ∈ R?? 表示給定注意力層中第 ?? 個(gè) token 的注意力輸入。MLA 的核心是對(duì)注意力鍵(Key)和值(Value)進(jìn)行低秩聯(lián)合壓縮馍资,以減少推理過(guò)程中的 Key-Value(KV)緩存:
其中筒主,c?????? ∈ R???? 是鍵(Key)和值(Value)的壓縮潛在向量;????(? ??????) 表示鍵值壓縮維度;???????? ∈ R????×?? 是下投影矩陣乌妙;?????? 和 ?????? ∈ R??????×???? 分別是鍵和值的上投影矩陣使兔;?????? ∈ R?????×?? 是用于生成攜帶旋轉(zhuǎn)位置嵌入(RoPE)(Su et al., 2024)的解耦鍵的矩陣;RoPE(·) 表示應(yīng)用 RoPE 矩陣的操作藤韵;[·; ·] 表示拼接操作虐沥。需要注意的是,對(duì)于 MLA泽艘,在生成過(guò)程中只需緩存藍(lán)色框內(nèi)的向量(即 c?????? 和 k????)欲险,這顯著減少了 KV 緩存,同時(shí)保持了與標(biāo)準(zhǔn)多頭注意力機(jī)制(MHA)(Vaswani et al., 2017)相當(dāng)?shù)男阅堋?/p>
對(duì)于注意力查詢(Query)匹涮,我們也進(jìn)行了低秩壓縮天试,這可以減少訓(xùn)練期間的激活內(nèi)存占用:
其中,c???? ∈ R??′?? 是查詢(Query)的壓縮潛在向量然低;??′??(? ??????) 表示查詢壓縮維度喜每;?????? ∈ R??′??×?? 和 ?????? ∈ R??????×??′?? 分別是查詢的下投影和上投影矩陣;?????? ∈ R????????×??′?? 是用于生成攜帶 RoPE 的解耦查詢的矩陣雳攘。
最終带兜,注意力查詢(q??,??)、鍵(k??,??)和值(v????,??)被結(jié)合以生成最終的注意力輸出 u??:
其中来农,???? ∈ R??×?????? 表示輸出投影矩陣鞋真。
2.1.2 采用無(wú)輔助損失負(fù)載均衡的 DeepSeekMoE
DeepSeekMoE 的基礎(chǔ)架構(gòu)
在前饋網(wǎng)絡(luò)(FFN)方面,DeepSeek-V3 采用了 DeepSeekMoE 架構(gòu)(Dai et al., 2024)沃于。與傳統(tǒng)的 MoE 架構(gòu)(如 GShard涩咖,Lepikhin et al., 2021)相比,DeepSeekMoE 使用了更細(xì)粒度的專家模塊繁莹,并將部分專家隔離為共享專家檩互。設(shè) u?? 表示第 ?? 個(gè) token 的 FFN 輸入,我們按如下方式計(jì)算 FFN 輸出 h′??:
其中咨演,???? 和 ???? 分別表示共享專家和路由專家的數(shù)量闸昨;FFN(??)??(·) 和 FFN(??)??(·) 分別表示第 ?? 個(gè)共享專家和第 ?? 個(gè)路由專家;???? 表示激活的路由專家數(shù)量薄风;????,?? 是第 ?? 個(gè)專家的門控值饵较;????,?? 是 token 到專家的親和度铃岔;e?? 是第 ?? 個(gè)路由專家的中心向量石洗;Topk(·, ??) 表示第 ?? 個(gè) token 與所有路由專家計(jì)算的親和度分?jǐn)?shù)中前 ?? 個(gè)最高分?jǐn)?shù)的集合。與 DeepSeek-V2 略有不同懂酱,DeepSeek-V3 使用 sigmoid 函數(shù) 計(jì)算親和度分?jǐn)?shù)撇他,并在所有選定的親和度分?jǐn)?shù)之間進(jìn)行歸一化以生成門控值茄猫。
無(wú)輔助損失負(fù)載均衡
對(duì)于 MoE 模型狈蚤,專家負(fù)載不均衡會(huì)導(dǎo)致路由崩潰(Shazeer et al., 2017),并在專家并行場(chǎng)景中降低計(jì)算效率划纽。傳統(tǒng)解決方案通常依賴輔助損失(Fedus et al., 2021; Lepikhin et al., 2021)來(lái)避免負(fù)載不均衡脆侮。然而,過(guò)大的輔助損失會(huì)損害模型性能(Wang et al., 2024a)勇劣。為了在負(fù)載均衡和模型性能之間取得更好的平衡靖避,我們率先提出了一種無(wú)輔助損失的負(fù)載均衡策略(Wang et al., 2024a)以確保負(fù)載均衡。具體來(lái)說(shuō)芭毙,我們?yōu)槊總€(gè)專家引入一個(gè)偏置項(xiàng) ????筋蓖,并將其添加到相應(yīng)的親和度分?jǐn)?shù) ????,?? 中以確定 Top-K 路由:
需要注意的是卸耘,偏置項(xiàng)僅用于路由退敦。門控值(將與 FFN 輸出相乘)仍然從原始親和度分?jǐn)?shù) ????,?? 中導(dǎo)出。在訓(xùn)練過(guò)程中蚣抗,我們持續(xù)監(jiān)控每個(gè)訓(xùn)練步驟中整批數(shù)據(jù)的專家負(fù)載侈百。在每一步結(jié)束時(shí),如果某個(gè)專家的負(fù)載過(guò)高翰铡,我們將其偏置項(xiàng)減少 ??钝域;如果負(fù)載過(guò)低,則增加 ??锭魔,其中 ?? 是一個(gè)稱為偏置更新速度的超參數(shù)例证。通過(guò)這種動(dòng)態(tài)調(diào)整,DeepSeek-V3 在訓(xùn)練期間保持了專家負(fù)載的均衡迷捧,并取得了比單純依賴輔助損失實(shí)現(xiàn)負(fù)載均衡的模型更好的性能织咧。
補(bǔ)充的序列級(jí)輔助損失
盡管 DeepSeek-V3 主要依賴無(wú)輔助損失策略來(lái)實(shí)現(xiàn)負(fù)載均衡,但為了防止任何單個(gè)序列內(nèi)的極端不均衡漠秋,我們還采用了補(bǔ)充的序列級(jí)平衡損失:
其中笙蒙,平衡因子 ?? 是一個(gè)超參數(shù),在 DeepSeek-V3 中會(huì)被賦予一個(gè)極小的值庆锦;1(·) 表示指示函數(shù)捅位;?? 表示序列中的 token 數(shù)量。序列級(jí)平衡損失鼓勵(lì)每個(gè)序列上的專家負(fù)載保持均衡搂抒。
節(jié)點(diǎn)限制路由
與 DeepSeek-V2 使用的設(shè)備限制路由類似,DeepSeek-V3 也采用了一種受限的路由機(jī)制求晶,以限制訓(xùn)練期間的通信成本焰雕。簡(jiǎn)而言之,我們確保每個(gè) token 最多被發(fā)送到 ?? 個(gè)節(jié)點(diǎn)誉帅,這些節(jié)點(diǎn)是根據(jù)分布在各節(jié)點(diǎn)上的專家的前 ????/?? 個(gè)最高親和度分?jǐn)?shù)的總和來(lái)選擇的淀散。在此約束下右莱,我們的 MoE 訓(xùn)練框架幾乎可以實(shí)現(xiàn)完全的計(jì)算-通信重疊。
無(wú) token 丟棄
由于有效的負(fù)載均衡策略档插,DeepSeek-V3 在整個(gè)訓(xùn)練過(guò)程中保持了良好的負(fù)載均衡慢蜓。因此,DeepSeek-V3 在訓(xùn)練期間不會(huì)丟棄任何 token郭膛。此外晨抡,我們還實(shí)施了特定的部署策略以確保推理負(fù)載均衡,因此 DeepSeek-V3 在推理期間也不會(huì)丟棄 token则剃。
2.2 多 token 預(yù)測(cè)(MTP)
受 Gloeckle et al. (2024) 的啟發(fā)耘柱,我們研究并為 DeepSeek-V3 設(shè)定了多 token 預(yù)測(cè)(MTP)目標(biāo),該目標(biāo)將預(yù)測(cè)范圍擴(kuò)展到每個(gè)位置的多個(gè)未來(lái) token棍现。一方面调煎,MTP 目標(biāo)使訓(xùn)練信號(hào)更加密集,可能會(huì)提高數(shù)據(jù)效率己肮。另一方面士袄,MTP 可能使模型能夠預(yù)先規(guī)劃其表示,以更好地預(yù)測(cè)未來(lái)的 token谎僻。圖 3 展示了我們的 MTP 實(shí)現(xiàn)娄柳。與 Gloeckle et al. (2024) 使用獨(dú)立輸出頭并行預(yù)測(cè) ?? 個(gè)額外 token 不同,我們按順序預(yù)測(cè)額外 token艘绍,并在每個(gè)預(yù)測(cè)深度保留完整的因果鏈赤拒。我們?cè)诒竟?jié)中詳細(xì)介紹我們的 MTP 實(shí)現(xiàn)。
MTP 模塊
具體來(lái)說(shuō)诱鞠,我們的 MTP 實(shí)現(xiàn)使用 ?? 個(gè)順序模塊來(lái)預(yù)測(cè) ?? 個(gè)額外 token挎挖。第 ?? 個(gè) MTP 模塊包括一個(gè)共享的嵌入層 Emb(·)、一個(gè)共享的輸出頭 OutHead(·)般甲、一個(gè) Transformer 塊 TRM??(·) 和一個(gè)投影矩陣 ???? ∈ R??×2??肋乍。對(duì)于第 ?? 個(gè)輸入 token ????,在第 ?? 個(gè)預(yù)測(cè)深度敷存,我們首先將第 (?? ? 1) 個(gè)深度的第 ?? 個(gè) token 的表示 h???1?? ∈ R?? 與第 (?? + ??) 個(gè) token 的嵌入 ??????(????+??) ∈ R?? 通過(guò)線性投影結(jié)合:
其中墓造,[·; ·] 表示拼接操作。特別地锚烦,當(dāng) ?? = 1 時(shí)觅闽,h???1?? 指的是主模型給出的表示。需要注意的是涮俄,每個(gè) MTP 模塊的嵌入層與主模型共享蛉拙。拼接后的 h′???? 作為第 ?? 個(gè)深度的 Transformer 塊的輸入,以生成當(dāng)前深度的輸出表示 h????:
未完待續(xù)彻亲。孕锄。吮廉。