deepseek v3 技術(shù)報(bào)告 中文翻譯

摘要

我們提出了 DeepSeek-V3垒在,這是一個(gè)強(qiáng)大的混合專家模型(MoE),總參數(shù)量為 6710 億放妈,每個(gè) token 激活 370 億 參數(shù)因妙。為了實(shí)現(xiàn)高效推理和經(jīng)濟(jì)訓(xùn)練,DeepSeek-V3 采用了多頭潛在注意力機(jī)制(MLA)DeepSeekMoE 架構(gòu)骡澈,這些架構(gòu)已在 DeepSeek-V2 中得到充分驗(yàn)證锅纺。此外,DeepSeek-V3 率先提出了一種無(wú)輔助損失的負(fù)載均衡策略肋殴,并設(shè)定了多 token 預(yù)測(cè)訓(xùn)練目標(biāo)以提升性能囤锉。我們?cè)?14.8 萬(wàn)億 高質(zhì)量且多樣化的 token 上對(duì) DeepSeek-V3 進(jìn)行了預(yù)訓(xùn)練,隨后通過(guò)監(jiān)督微調(diào)(SFT)強(qiáng)化學(xué)習(xí)(RL)階段充分釋放其潛力护锤。綜合評(píng)估表明官地,DeepSeek-V3 超越了其他開(kāi)源模型,并與領(lǐng)先的閉源模型表現(xiàn)相當(dāng)烙懦。盡管性能卓越驱入,DeepSeek-V3 的完整訓(xùn)練僅需 2.788M H800 GPU 小時(shí)。此外氯析,其訓(xùn)練過(guò)程非常穩(wěn)定亏较,在整個(gè)訓(xùn)練過(guò)程中未出現(xiàn)任何不可恢復(fù)的損失突增或需要回滾的情況。模型檢查點(diǎn)可在 https://github.com/deepseek-ai/DeepSeek-V3 獲取魄鸦。

介紹

近年來(lái)宴杀,大型語(yǔ)言模型(LLMs)經(jīng)歷了快速的迭代和演進(jìn)(Anthropic, 2024; Google, 2024; OpenAI, 2024a)癣朗,逐步縮小了與人工通用智能(AGI)之間的差距拾因。除了閉源模型外,開(kāi)源模型旷余,包括 DeepSeek 系列(DeepSeek-AI, 2024a,b,c; Guo et al., 2024)绢记、LLaMA 系列(AI@Meta, 2024a,b; Touvron et al., 2023a,b)、Qwen 系列(Qwen, 2023, 2024a,b)和 Mistral 系列(Jiang et al., 2023; Mistral, 2024)正卧,也取得了顯著進(jìn)展蠢熄,努力縮小與閉源模型之間的差距。為了進(jìn)一步突破開(kāi)源模型的能力邊界炉旷,我們擴(kuò)大了模型規(guī)模签孔,并推出了 DeepSeek-V3叉讥,這是一個(gè)擁有 6710 億參數(shù)的大型混合專家模型(MoE),其中每個(gè) token 激活 370 億參數(shù)饥追。

我們始終以長(zhǎng)遠(yuǎn)的眼光图仓,致力于在模型性能和經(jīng)濟(jì)成本之間取得平衡。因此但绕,在架構(gòu)設(shè)計(jì)上救崔,DeepSeek-V3 仍然采用了多頭潛在注意力機(jī)制(MLA)(DeepSeek-AI, 2024c)以實(shí)現(xiàn)高效的推理,以及DeepSeekMoE(Dai et al., 2024)以實(shí)現(xiàn)經(jīng)濟(jì)高效的訓(xùn)練捏顺。這兩種架構(gòu)已在 DeepSeek-V2(DeepSeek-AI, 2024c)中得到驗(yàn)證六孵,證明了其在保持強(qiáng)大模型性能的同時(shí),能夠?qū)崿F(xiàn)高效的訓(xùn)練和推理幅骄。除了基礎(chǔ)架構(gòu)外劫窒,我們還采用了兩種額外策略來(lái)進(jìn)一步提升模型能力。首先拆座,DeepSeek-V3 率先采用了無(wú)輔助損失的負(fù)載均衡策略(Wang et al., 2024a)烛亦,旨在減少因鼓勵(lì)負(fù)載均衡而對(duì)模型性能產(chǎn)生的負(fù)面影響。其次懂拾,DeepSeek-V3 采用了多 token 預(yù)測(cè)的訓(xùn)練目標(biāo)煤禽,我們觀察到這一策略能夠顯著提升模型在評(píng)估基準(zhǔn)上的整體表現(xiàn)。

為了實(shí)現(xiàn)高效的訓(xùn)練岖赋,我們支持 FP8 混合精度訓(xùn)練檬果,并對(duì)訓(xùn)練框架進(jìn)行了全面優(yōu)化。低精度訓(xùn)練已成為高效訓(xùn)練的一種有前景的解決方案(Dettmers et al., 2022; Kalamkar et al., 2019; Narang et al., 2017; Peng et al., 2023b)唐断,其發(fā)展與硬件能力的進(jìn)步密切相關(guān)(Luo et al., 2024; Micikevicius et al., 2022; Rouhani et al., 2023a)选脊。在本研究中,我們引入了一種 FP8 混合精度訓(xùn)練框架脸甘,并首次在超大規(guī)模模型上驗(yàn)證了其有效性恳啥。通過(guò)對(duì) FP8 計(jì)算和存儲(chǔ)的支持,我們既加速了訓(xùn)練過(guò)程丹诀,又減少了 GPU 內(nèi)存的使用钝的。在訓(xùn)練框架方面,我們?cè)O(shè)計(jì)了 DualPipe 算法 以實(shí)現(xiàn)高效的流水線并行铆遭,該算法減少了流水線氣泡硝桩,并通過(guò)計(jì)算-通信重疊隱藏了訓(xùn)練中的大部分通信開(kāi)銷。這種重疊確保了隨著模型的進(jìn)一步擴(kuò)展枚荣,只要我們保持恒定的計(jì)算-通信比碗脊,仍然可以在節(jié)點(diǎn)間使用細(xì)粒度的專家模塊,同時(shí)實(shí)現(xiàn)近乎零的全員通信開(kāi)銷橄妆。此外衙伶,我們還開(kāi)發(fā)了高效的跨節(jié)點(diǎn)全員通信內(nèi)核祈坠,以充分利用 InfiniBand (IB) 和 NVLink 的帶寬。同時(shí)矢劲,我們對(duì)內(nèi)存占用進(jìn)行了精細(xì)優(yōu)化颁虐,使得在不使用昂貴的張量并行的情況下訓(xùn)練 DeepSeek-V3 成為可能。通過(guò)這些努力卧须,我們實(shí)現(xiàn)了極高的訓(xùn)練效率另绩。

在預(yù)訓(xùn)練階段,我們使用 14.8T 高質(zhì)量且多樣化的 token 對(duì) DeepSeek-V3 進(jìn)行了訓(xùn)練花嘶。整個(gè)預(yù)訓(xùn)練過(guò)程非常穩(wěn)定笋籽,在整個(gè)訓(xùn)練過(guò)程中,我們沒(méi)有遇到任何不可恢復(fù)的損失突增或需要回滾的情況椭员。接下來(lái)车海,我們對(duì) DeepSeek-V3 進(jìn)行了兩階段的上下文長(zhǎng)度擴(kuò)展。在第一階段隘击,最大上下文長(zhǎng)度擴(kuò)展到 32K侍芝,在第二階段進(jìn)一步擴(kuò)展到 128K。隨后埋同,我們對(duì) DeepSeek-V3 的基礎(chǔ)模型進(jìn)行了后訓(xùn)練州叠,包括監(jiān)督微調(diào)(SFT)強(qiáng)化學(xué)習(xí)(RL),以使其與人類偏好對(duì)齊并進(jìn)一步釋放其潛力凶赁。在后訓(xùn)練階段咧栗,我們從 DeepSeek-R1 系列模型中蒸餾了推理能力,同時(shí)精心平衡了模型準(zhǔn)確性和生成長(zhǎng)度之間的關(guān)系虱肄。

我們對(duì) DeepSeek-V3 進(jìn)行了一系列全面的基準(zhǔn)測(cè)試評(píng)估致板。盡管其訓(xùn)練成本經(jīng)濟(jì),綜合評(píng)估表明咏窿,DeepSeek-V3-Base 已成為當(dāng)前最強(qiáng)的開(kāi)源基礎(chǔ)模型斟或,尤其在代碼和數(shù)學(xué)領(lǐng)域表現(xiàn)突出。其聊天版本也在多個(gè)標(biāo)準(zhǔn)和開(kāi)放式基準(zhǔn)測(cè)試中超越了其他開(kāi)源模型集嵌,并與領(lǐng)先的閉源模型(包括 GPT-4o 和 Claude-3.5-Sonnet)表現(xiàn)相當(dāng)萝挤。

最后,我們?cè)俅螐?qiáng)調(diào) DeepSeek-V3 的經(jīng)濟(jì)訓(xùn)練成本纸淮,如表 1 所示平斩,這是通過(guò)我們?cè)谒惴ㄑ窍怼⒖蚣芎陀布系膬?yōu)化協(xié)同設(shè)計(jì)實(shí)現(xiàn)的咽块。在預(yù)訓(xùn)練階段,每訓(xùn)練一萬(wàn)億 token 僅需 180K H800 GPU 小時(shí)欺税,即在我們擁有 2048 張 H800 GPU 的集群上僅需 3.7 天侈沪。因此揭璃,我們的預(yù)訓(xùn)練階段在不到兩個(gè)月內(nèi)完成,總成本為 2664K GPU 小時(shí)亭罪。加上上下文長(zhǎng)度擴(kuò)展所需的 119K GPU 小時(shí) 和后訓(xùn)練所需的 5K GPU 小時(shí)瘦馍,DeepSeek-V3 的完整訓(xùn)練僅消耗 2.788M GPU 小時(shí)。假設(shè) H800 GPU 的租賃價(jià)格為每小時(shí) 2 美元应役,我們的總訓(xùn)練成本僅為 557.6 萬(wàn)美元情组。需要注意的是,上述成本僅包括 DeepSeek-V3 的官方訓(xùn)練箩祥,不包括前期在架構(gòu)院崇、算法或數(shù)據(jù)上的研究和消融實(shí)驗(yàn)相關(guān)成本。

我們的主要貢獻(xiàn)包括:

架構(gòu):創(chuàng)新的負(fù)載均衡策略與訓(xùn)練目標(biāo)

  • 在 DeepSeek-V2 高效架構(gòu)的基礎(chǔ)上袍祖,我們率先提出了一種無(wú)輔助損失的負(fù)載均衡策略底瓣,最大限度地減少了因鼓勵(lì)負(fù)載均衡而導(dǎo)致的性能下降。
  • 我們研究了多 token 預(yù)測(cè)(MTP)目標(biāo)蕉陋,并證明其對(duì)模型性能有益捐凭。該目標(biāo)還可用于推測(cè)解碼以加速推理。

預(yù)訓(xùn)練:追求極致的訓(xùn)練效率

  • 我們?cè)O(shè)計(jì)了一種 FP8 混合精度訓(xùn)練框架凳鬓,并首次在超大規(guī)模模型上驗(yàn)證了 FP8 訓(xùn)練的可行性和有效性茁肠。
  • 通過(guò)算法、框架和硬件的協(xié)同設(shè)計(jì)缩举,我們克服了跨節(jié)點(diǎn) MoE 訓(xùn)練中的通信瓶頸官套,實(shí)現(xiàn)了近乎完全的計(jì)算-通信重疊。這顯著提高了訓(xùn)練效率并降低了訓(xùn)練成本蚁孔,使我們能夠在不增加額外開(kāi)銷的情況下進(jìn)一步擴(kuò)展模型規(guī)模奶赔。
  • 以僅 2.664M H800 GPU 小時(shí) 的經(jīng)濟(jì)成本,我們完成了 DeepSeek-V3 在 14.8T token 上的預(yù)訓(xùn)練杠氢,生成了當(dāng)前最強(qiáng)的開(kāi)源基礎(chǔ)模型站刑。預(yù)訓(xùn)練后的后續(xù)訓(xùn)練階段僅需 0.1M GPU 小時(shí)

后訓(xùn)練:從 DeepSeek-R1 進(jìn)行知識(shí)蒸餾

  • 我們引入了一種創(chuàng)新方法鼻百,將長(zhǎng)鏈思維(CoT)模型(特別是 DeepSeek R1 系列模型之一)的推理能力蒸餾到標(biāo)準(zhǔn) LLM(尤其是 DeepSeek-V3)中绞旅。我們的管道巧妙地將 R1 的驗(yàn)證和反思模式融入 DeepSeek-V3,顯著提升了其推理性能温艇。同時(shí)因悲,我們還控制了 DeepSeek-V3 的輸出風(fēng)格和長(zhǎng)度。

核心評(píng)估結(jié)果總結(jié)

  • 知識(shí)領(lǐng)域

    1. 在教育類基準(zhǔn)測(cè)試(如 MMLU勺爱、MMLU-Pro 和 GPQA)中晃琳,DeepSeek-V3 超越了所有其他開(kāi)源模型,在 MMLU 上達(dá)到 88.5,在 MMLU-Pro 上達(dá)到 75.9卫旱,在 GPQA 上達(dá)到 59.1人灼。其表現(xiàn)與 GPT-4o 和 Claude-Sonnet-3.5 等領(lǐng)先閉源模型相當(dāng),縮小了開(kāi)源與閉源模型在該領(lǐng)域的差距顾翼。
    2. 在事實(shí)性基準(zhǔn)測(cè)試中投放,DeepSeek-V3 在 SimpleQA 和中文 SimpleQA 上均表現(xiàn)出色,在開(kāi)源模型中領(lǐng)先适贸。雖然在英文事實(shí)性知識(shí)(SimpleQA)上略遜于 GPT-4o 和 Claude-Sonnet-3.5灸芳,但在中文事實(shí)性知識(shí)(中文 SimpleQA)上超越了這些模型,展現(xiàn)了其在中文事實(shí)性知識(shí)上的優(yōu)勢(shì)拜姿。
  • 代碼耗绿、數(shù)學(xué)與推理

    1. DeepSeek-V3 在所有非長(zhǎng)鏈思維的開(kāi)源和閉源模型中,在數(shù)學(xué)相關(guān)基準(zhǔn)測(cè)試上達(dá)到了最先進(jìn)的性能砾隅。特別是在 MATH-500 等特定基準(zhǔn)測(cè)試中误阻,甚至超越了 o1-preview,展示了其強(qiáng)大的數(shù)學(xué)推理能力晴埂。
    2. 在代碼相關(guān)任務(wù)中究反,DeepSeek-V3 成為代碼競(jìng)賽基準(zhǔn)測(cè)試(如 LiveCodeBench)中表現(xiàn)最佳的模型,鞏固了其在該領(lǐng)域的領(lǐng)先地位儒洛。在工程相關(guān)任務(wù)中精耐,雖然 DeepSeek-V3 略低于 Claude-Sonnet-3.5,但仍顯著領(lǐng)先于其他所有模型琅锻,展現(xiàn)了其在多樣化技術(shù)基準(zhǔn)測(cè)試中的競(jìng)爭(zhēng)力卦停。

通過(guò)這些貢獻(xiàn),DeepSeek-V3 不僅在性能上達(dá)到了新的高度恼蓬,還在訓(xùn)練效率和成本控制上樹(shù)立了新的標(biāo)桿惊完。

在本文的剩余部分,我們首先詳細(xì)介紹了 DeepSeek-V3 模型架構(gòu)(第 2 節(jié))处硬。隨后小槐,我們介紹了我們的基礎(chǔ)設(shè)施,包括計(jì)算集群荷辕、訓(xùn)練框架凿跳、對(duì) FP8 訓(xùn)練的支持、推理部署策略以及對(duì)未來(lái)硬件設(shè)計(jì)的建議疮方。接下來(lái)控嗜,我們描述了預(yù)訓(xùn)練過(guò)程,包括訓(xùn)練數(shù)據(jù)的構(gòu)建骡显、超參數(shù)設(shè)置疆栏、長(zhǎng)上下文擴(kuò)展技術(shù)曾掂、相關(guān)評(píng)估以及一些討論(第 4 節(jié))。之后承边,我們討論了后訓(xùn)練的工作遭殉,包括監(jiān)督微調(diào)(SFT)石挂、強(qiáng)化學(xué)習(xí)(RL)博助、相應(yīng)的評(píng)估和討論(第 5 節(jié))。最后痹愚,我們對(duì)本工作進(jìn)行總結(jié)富岳,討論了 DeepSeek-V3 的現(xiàn)有局限性,并提出了未來(lái)研究的潛在方向(第 6 節(jié))拯腮。

2. 架構(gòu)

我們首先介紹 DeepSeek-V3 的基礎(chǔ)架構(gòu)窖式,其特點(diǎn)是采用多頭潛在注意力機(jī)制(MLA)(DeepSeek-AI, 2024c)以實(shí)現(xiàn)高效推理,以及 DeepSeekMoE(Dai et al., 2024)以實(shí)現(xiàn)經(jīng)濟(jì)高效的訓(xùn)練动壤。接著萝喘,我們提出了一種多 token 預(yù)測(cè)(MTP)訓(xùn)練目標(biāo),我們觀察到該目標(biāo)能夠顯著提升模型在評(píng)估基準(zhǔn)上的整體性能琼懊。對(duì)于未明確提及的其他細(xì)節(jié)阁簸,DeepSeek-V3 遵循了 DeepSeek-V2(DeepSeek-AI, 2024c)的設(shè)置。

2.1 基礎(chǔ)架構(gòu)

DeepSeek-V3 的基礎(chǔ)架構(gòu)仍然基于 Transformer(Vaswani et al., 2017)框架哼丈。為了實(shí)現(xiàn)高效推理和經(jīng)濟(jì)訓(xùn)練启妹,DeepSeek-V3 同樣采用了 MLADeepSeekMoE,這兩者已在 DeepSeek-V2 中得到了充分驗(yàn)證醉旦。與 DeepSeek-V2 相比饶米,一個(gè)例外是我們額外引入了一種無(wú)輔助損失的負(fù)載均衡策略(Wang et al., 2024a)用于 DeepSeekMoE,以減輕因確保負(fù)載均衡而導(dǎo)致的性能下降车胡。圖 2 展示了 DeepSeek-V3 的基礎(chǔ)架構(gòu)檬输,我們將在本節(jié)簡(jiǎn)要回顧 MLA 和 DeepSeekMoE 的細(xì)節(jié)。

圖 2 | DeepSeek-V3 基礎(chǔ)架構(gòu)示意圖匈棘。遵循 DeepSeek-V2 的設(shè)計(jì)褪猛,我們采用 MLA 和 DeepSeekMoE 以實(shí)現(xiàn)高效推理和經(jīng)濟(jì)訓(xùn)練。

2.1.1 多頭潛在注意力機(jī)制(MLA)

在注意力機(jī)制方面羹饰,DeepSeek-V3 采用了 MLA 架構(gòu)伊滋。設(shè) ?? 表示嵌入維度,??? 表示注意力頭的數(shù)量队秩,??? 表示每個(gè)頭的維度笑旺,h?? ∈ R?? 表示給定注意力層中第 ?? 個(gè) token 的注意力輸入。MLA 的核心是對(duì)注意力鍵(Key)和值(Value)進(jìn)行低秩聯(lián)合壓縮馍资,以減少推理過(guò)程中的 Key-Value(KV)緩存

image.png

其中筒主,c?????? ∈ R???? 是鍵(Key)和值(Value)的壓縮潛在向量;????(? ??????) 表示鍵值壓縮維度;???????? ∈ R????×?? 是下投影矩陣乌妙;???????????? ∈ R??????×???? 分別是鍵和值的上投影矩陣使兔;?????? ∈ R?????×?? 是用于生成攜帶旋轉(zhuǎn)位置嵌入(RoPE)(Su et al., 2024)的解耦鍵的矩陣;RoPE(·) 表示應(yīng)用 RoPE 矩陣的操作藤韵;[·; ·] 表示拼接操作虐沥。需要注意的是,對(duì)于 MLA泽艘,在生成過(guò)程中只需緩存藍(lán)色框內(nèi)的向量(即 c??????k????)欲险,這顯著減少了 KV 緩存,同時(shí)保持了與標(biāo)準(zhǔn)多頭注意力機(jī)制(MHA)(Vaswani et al., 2017)相當(dāng)?shù)男阅堋?/p>

對(duì)于注意力查詢(Query)匹涮,我們也進(jìn)行了低秩壓縮天试,這可以減少訓(xùn)練期間的激活內(nèi)存占用:

image.png

其中,c???? ∈ R??′?? 是查詢(Query)的壓縮潛在向量然低;??′??(? ??????) 表示查詢壓縮維度喜每;?????? ∈ R??′??×???????? ∈ R??????×??′?? 分別是查詢的下投影和上投影矩陣;?????? ∈ R????????×??′?? 是用于生成攜帶 RoPE 的解耦查詢的矩陣雳攘。

最終带兜,注意力查詢(q??,??)、鍵(k??,??)和值(v????,??)被結(jié)合以生成最終的注意力輸出 u??

image.png

其中来农,???? ∈ R??×?????? 表示輸出投影矩陣鞋真。

2.1.2 采用無(wú)輔助損失負(fù)載均衡的 DeepSeekMoE

DeepSeekMoE 的基礎(chǔ)架構(gòu)

在前饋網(wǎng)絡(luò)(FFN)方面,DeepSeek-V3 采用了 DeepSeekMoE 架構(gòu)(Dai et al., 2024)沃于。與傳統(tǒng)的 MoE 架構(gòu)(如 GShard涩咖,Lepikhin et al., 2021)相比,DeepSeekMoE 使用了更細(xì)粒度的專家模塊繁莹,并將部分專家隔離為共享專家檩互。設(shè) u?? 表示第 ?? 個(gè) token 的 FFN 輸入,我們按如下方式計(jì)算 FFN 輸出 h′??

image.png

其中咨演,???????? 分別表示共享專家和路由專家的數(shù)量闸昨;FFN(??)??(·)FFN(??)??(·) 分別表示第 ?? 個(gè)共享專家和第 ?? 個(gè)路由專家;???? 表示激活的路由專家數(shù)量薄风;????,?? 是第 ?? 個(gè)專家的門控值饵较;????,?? 是 token 到專家的親和度铃岔;e?? 是第 ?? 個(gè)路由專家的中心向量石洗;Topk(·, ??) 表示第 ?? 個(gè) token 與所有路由專家計(jì)算的親和度分?jǐn)?shù)中前 ?? 個(gè)最高分?jǐn)?shù)的集合。與 DeepSeek-V2 略有不同懂酱,DeepSeek-V3 使用 sigmoid 函數(shù) 計(jì)算親和度分?jǐn)?shù)撇他,并在所有選定的親和度分?jǐn)?shù)之間進(jìn)行歸一化以生成門控值茄猫。

無(wú)輔助損失負(fù)載均衡

對(duì)于 MoE 模型狈蚤,專家負(fù)載不均衡會(huì)導(dǎo)致路由崩潰(Shazeer et al., 2017),并在專家并行場(chǎng)景中降低計(jì)算效率划纽。傳統(tǒng)解決方案通常依賴輔助損失(Fedus et al., 2021; Lepikhin et al., 2021)來(lái)避免負(fù)載不均衡脆侮。然而,過(guò)大的輔助損失會(huì)損害模型性能(Wang et al., 2024a)勇劣。為了在負(fù)載均衡和模型性能之間取得更好的平衡靖避,我們率先提出了一種無(wú)輔助損失的負(fù)載均衡策略(Wang et al., 2024a)以確保負(fù)載均衡。具體來(lái)說(shuō)芭毙,我們?yōu)槊總€(gè)專家引入一個(gè)偏置項(xiàng) ????筋蓖,并將其添加到相應(yīng)的親和度分?jǐn)?shù) ????,?? 中以確定 Top-K 路由:

image.png

需要注意的是卸耘,偏置項(xiàng)僅用于路由退敦。門控值(將與 FFN 輸出相乘)仍然從原始親和度分?jǐn)?shù) ????,?? 中導(dǎo)出。在訓(xùn)練過(guò)程中蚣抗,我們持續(xù)監(jiān)控每個(gè)訓(xùn)練步驟中整批數(shù)據(jù)的專家負(fù)載侈百。在每一步結(jié)束時(shí),如果某個(gè)專家的負(fù)載過(guò)高翰铡,我們將其偏置項(xiàng)減少 ??钝域;如果負(fù)載過(guò)低,則增加 ??锭魔,其中 ?? 是一個(gè)稱為偏置更新速度的超參數(shù)例证。通過(guò)這種動(dòng)態(tài)調(diào)整,DeepSeek-V3 在訓(xùn)練期間保持了專家負(fù)載的均衡迷捧,并取得了比單純依賴輔助損失實(shí)現(xiàn)負(fù)載均衡的模型更好的性能织咧。

補(bǔ)充的序列級(jí)輔助損失

盡管 DeepSeek-V3 主要依賴無(wú)輔助損失策略來(lái)實(shí)現(xiàn)負(fù)載均衡,但為了防止任何單個(gè)序列內(nèi)的極端不均衡漠秋,我們還采用了補(bǔ)充的序列級(jí)平衡損失

image.png

其中笙蒙,平衡因子 ?? 是一個(gè)超參數(shù),在 DeepSeek-V3 中會(huì)被賦予一個(gè)極小的值庆锦;1(·) 表示指示函數(shù)捅位;?? 表示序列中的 token 數(shù)量。序列級(jí)平衡損失鼓勵(lì)每個(gè)序列上的專家負(fù)載保持均衡搂抒。

### **圖 3 | 多 token 預(yù)測(cè)(MTP)實(shí)現(xiàn)示意圖** 我們?cè)诿總€(gè)深度上為每個(gè) token 的預(yù)測(cè)保留了完整的因果鏈艇搀。

節(jié)點(diǎn)限制路由

與 DeepSeek-V2 使用的設(shè)備限制路由類似,DeepSeek-V3 也采用了一種受限的路由機(jī)制求晶,以限制訓(xùn)練期間的通信成本焰雕。簡(jiǎn)而言之,我們確保每個(gè) token 最多被發(fā)送到 ?? 個(gè)節(jié)點(diǎn)誉帅,這些節(jié)點(diǎn)是根據(jù)分布在各節(jié)點(diǎn)上的專家的前 ????/?? 個(gè)最高親和度分?jǐn)?shù)的總和來(lái)選擇的淀散。在此約束下右莱,我們的 MoE 訓(xùn)練框架幾乎可以實(shí)現(xiàn)完全的計(jì)算-通信重疊。

無(wú) token 丟棄

由于有效的負(fù)載均衡策略档插,DeepSeek-V3 在整個(gè)訓(xùn)練過(guò)程中保持了良好的負(fù)載均衡慢蜓。因此,DeepSeek-V3 在訓(xùn)練期間不會(huì)丟棄任何 token郭膛。此外晨抡,我們還實(shí)施了特定的部署策略以確保推理負(fù)載均衡,因此 DeepSeek-V3 在推理期間也不會(huì)丟棄 token则剃。

2.2 多 token 預(yù)測(cè)(MTP)

受 Gloeckle et al. (2024) 的啟發(fā)耘柱,我們研究并為 DeepSeek-V3 設(shè)定了多 token 預(yù)測(cè)(MTP)目標(biāo),該目標(biāo)將預(yù)測(cè)范圍擴(kuò)展到每個(gè)位置的多個(gè)未來(lái) token棍现。一方面调煎,MTP 目標(biāo)使訓(xùn)練信號(hào)更加密集,可能會(huì)提高數(shù)據(jù)效率己肮。另一方面士袄,MTP 可能使模型能夠預(yù)先規(guī)劃其表示,以更好地預(yù)測(cè)未來(lái)的 token谎僻。圖 3 展示了我們的 MTP 實(shí)現(xiàn)娄柳。與 Gloeckle et al. (2024) 使用獨(dú)立輸出頭并行預(yù)測(cè) ?? 個(gè)額外 token 不同,我們按順序預(yù)測(cè)額外 token艘绍,并在每個(gè)預(yù)測(cè)深度保留完整的因果鏈赤拒。我們?cè)诒竟?jié)中詳細(xì)介紹我們的 MTP 實(shí)現(xiàn)。

MTP 模塊

具體來(lái)說(shuō)诱鞠,我們的 MTP 實(shí)現(xiàn)使用 ?? 個(gè)順序模塊來(lái)預(yù)測(cè) ?? 個(gè)額外 token挎挖。第 ?? 個(gè) MTP 模塊包括一個(gè)共享的嵌入層 Emb(·)、一個(gè)共享的輸出頭 OutHead(·)般甲、一個(gè) Transformer 塊 TRM??(·) 和一個(gè)投影矩陣 ???? ∈ R??×2??肋乍。對(duì)于第 ?? 個(gè)輸入 token ????,在第 ?? 個(gè)預(yù)測(cè)深度敷存,我們首先將第 (?? ? 1) 個(gè)深度的第 ?? 個(gè) token 的表示 h???1?? ∈ R?? 與第 (?? + ??) 個(gè) token 的嵌入 ??????(????+??) ∈ R?? 通過(guò)線性投影結(jié)合:

image.png

其中墓造,[·; ·] 表示拼接操作。特別地锚烦,當(dāng) ?? = 1 時(shí)觅闽,h???1?? 指的是主模型給出的表示。需要注意的是涮俄,每個(gè) MTP 模塊的嵌入層與主模型共享蛉拙。拼接后的 h′???? 作為第 ?? 個(gè)深度的 Transformer 塊的輸入,以生成當(dāng)前深度的輸出表示 h????

未完待續(xù)彻亲。孕锄。吮廉。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市畸肆,隨后出現(xiàn)的幾起案子宦芦,更是在濱河造成了極大的恐慌,老刑警劉巖轴脐,帶你破解...
    沈念sama閱讀 222,946評(píng)論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件调卑,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡大咱,警方通過(guò)查閱死者的電腦和手機(jī)恬涧,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,336評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)碴巾,“玉大人溯捆,你說(shuō)我怎么就攤上這事〔颓溃” “怎么了现使?”我有些...
    開(kāi)封第一講書(shū)人閱讀 169,716評(píng)論 0 364
  • 文/不壞的土叔 我叫張陵低匙,是天一觀的道長(zhǎng)旷痕。 經(jīng)常有香客問(wèn)我,道長(zhǎng)顽冶,這世上最難降的妖魔是什么欺抗? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 60,222評(píng)論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮强重,結(jié)果婚禮上绞呈,老公的妹妹穿的比我還像新娘。我一直安慰自己间景,他們只是感情好佃声,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,223評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著倘要,像睡著了一般圾亏。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上封拧,一...
    開(kāi)封第一講書(shū)人閱讀 52,807評(píng)論 1 314
  • 那天志鹃,我揣著相機(jī)與錄音,去河邊找鬼泽西。 笑死曹铃,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的捧杉。 我是一名探鬼主播陕见,決...
    沈念sama閱讀 41,235評(píng)論 3 424
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼秘血,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了评甜?” 一聲冷哼從身側(cè)響起直撤,我...
    開(kāi)封第一講書(shū)人閱讀 40,189評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蜕着,沒(méi)想到半個(gè)月后谋竖,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,712評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡承匣,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,775評(píng)論 3 343
  • 正文 我和宋清朗相戀三年蓖乘,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片韧骗。...
    茶點(diǎn)故事閱讀 40,926評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡嘉抒,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出袍暴,到底是詐尸還是另有隱情些侍,我是刑警寧澤,帶...
    沈念sama閱讀 36,580評(píng)論 5 351
  • 正文 年R本政府宣布政模,位于F島的核電站岗宣,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏淋样。R本人自食惡果不足惜耗式,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,259評(píng)論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望趁猴。 院中可真熱鬧刊咳,春花似錦、人聲如沸儡司。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,750評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)捕犬。三九已至跷坝,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間或听,已是汗流浹背探孝。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,867評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留誉裆,地道東北人顿颅。 一個(gè)月前我還...
    沈念sama閱讀 49,368評(píng)論 3 379
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像足丢,于是被迫代替她去往敵國(guó)和親粱腻。 傳聞我的和親對(duì)象是個(gè)殘疾皇子庇配,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,930評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容