DeepSeek V3爆火背后：“AI界拼多多”能否復(fù)制棋嘲？

2024年底酒唉，DeepSeek（深度求索）再次憑借模型性能在行業(yè)中掀起一個(gè)小高潮。

這家獨(dú)立于大模型“六小虎”格局之外沸移、不容行業(yè)所忽視的公司痪伦，發(fā)布了新一代MoE模型DeepSeek-V3首個(gè)版本并同步開(kāi)源。V3擁有6710億參數(shù)阔籽，其中激活參數(shù)為370億流妻，在14.8萬(wàn)億token上進(jìn)行了預(yù)訓(xùn)練牲蜀。

從DeepSeek公開(kāi)披露的信息來(lái)看笆制，在知識(shí)類(lèi)任務(wù)（MMLU, MMLU-Pro, GPQA, SimpleQA）上，V3接近當(dāng)前表現(xiàn)最好的Claude-3.5-Sonnet-1022涣达，在代碼能力上同樣稍好于后者在辆，而在數(shù)學(xué)能力上，V3已明顯領(lǐng)先其他開(kāi)閉源模型度苔，包括Qwen2.5 72B-Inst匆篓，LIama3.1 405B-Inst，GPT-4o 0513寇窑。

這已經(jīng)是一個(gè)足夠好的開(kāi)源模型鸦概，但真正讓其受到大量關(guān)注的，是DeepSeek在技術(shù)論文中表示甩骏，DeepSeek-V3模型總訓(xùn)練成本為557.6萬(wàn)美元窗市，完整訓(xùn)練消耗了278.8萬(wàn)個(gè)GPU小時(shí)先慷，幾乎是同等性能水平模型訓(xùn)練所需十分之一。這讓它在海內(nèi)外再度爆火咨察。

事實(shí)上论熙，大模型在2024年第一場(chǎng)API價(jià)格戰(zhàn)正是由DeepSeek開(kāi)啟。彼時(shí)摄狱，其“MoE架構(gòu)+MLA（Multi-head Latent Attention）技術(shù)”在降低大模型使用成本上發(fā)揮了重要作用脓诡。如今看來(lái)，這項(xiàng)創(chuàng)新在DeepSeek手中完成了穩(wěn)定延續(xù)媒役。

至此祝谚，同行業(yè)的大模型廠商更需審慎對(duì)待這家作風(fēng)低調(diào)、輸出穩(wěn)定的公司酣衷，不知何時(shí)踊跟，它就會(huì)發(fā)起一場(chǎng)商業(yè)奇襲。

“AI拼多多”模式能否復(fù)制

根據(jù)海外調(diào)研機(jī)構(gòu)SemiAnalysis的數(shù)據(jù)鸥诽，OpenAI GPT-4訓(xùn)練成本高達(dá)6300萬(wàn)美元商玫，而DeepSeek-V3只有前者十分之一不到。這讓行業(yè)首先開(kāi)始思考這種低成本模式是否可復(fù)制牡借。

自從英偉達(dá)高端GPU顯卡在中國(guó)大陸遭禁后拳昌，算力不足始終是擺在國(guó)內(nèi)AI公司面前的一大難題。

相比于國(guó)外微軟钠龙、Meta炬藤、特斯拉等科技巨頭動(dòng)輒購(gòu)入10萬(wàn)張英偉達(dá)顯卡搭建算力中心訓(xùn)練AI模型，國(guó)內(nèi)擁有1萬(wàn)張以上顯卡的公司屈指可數(shù)碴里。DeepSeek背后的開(kāi)發(fā)公司幻方就是其中之一沈矿，2023年在接受36氪專(zhuān)訪時(shí)，幻方創(chuàng)始人梁文鋒稱(chēng)“公司已囤有1萬(wàn)張英偉達(dá)A100顯卡”咬腋。

而DeepSeek-V3此次的特別之處在于僅用少量卡就完成了模型訓(xùn)練羹膳。

據(jù)官方論文介紹，DeepSeek-V3訓(xùn)練使用了2048張英偉達(dá)H800 GPU（注：H800GPU為H100 GPU被禁后面向中國(guó)大陸推出的特供版根竿，性能約為其一半）陵像，這些GPU通過(guò)英偉達(dá)高速互聯(lián)網(wǎng)絡(luò)NVLink和InfiniBand連接搭建成AI算力集群。

作為性能對(duì)標(biāo)模型寇壳，Meta旗下的開(kāi)源模型Llama-3.1（模型參數(shù)量與訓(xùn)練數(shù)據(jù)大致相當(dāng)）則動(dòng)用了超過(guò)16000張英偉達(dá)H100GPU醒颖，業(yè)內(nèi)估計(jì)訓(xùn)練成本高達(dá)數(shù)億美元。

Meta AI科學(xué)家田淵棟在X（原推特）平臺(tái)上盛贊DeepSeek V3的低成本訓(xùn)練方法是“黑科技”壳炎。特斯拉前人工智能和自動(dòng)駕駛視覺(jué)總監(jiān)泞歉、著名AI研究學(xué)者Andrej Karpathy轉(zhuǎn)發(fā)了DeepSeek的論文，并評(píng)價(jià)說(shuō)“如果DeepSeek V3能夠通過(guò)各項(xiàng)評(píng)估，就證明了在資源有限的情況下腰耙，開(kāi)發(fā)出性能強(qiáng)大的大語(yǔ)言模型是有可能的”偿洁。

目前，降低AI模型開(kāi)發(fā)成本已經(jīng)是最重要的行業(yè)趨勢(shì)之一沟优。過(guò)去一年涕滋，OpenAI仍然未發(fā)布行業(yè)期待已久的下一代模型GPT-5，而是發(fā)布了GPT-4o挠阁、4o mini等一系列低成本的輕量化模型宾肺。山姆·奧特曼（SamAltman）也表示，部署和維護(hù)高級(jí)AI模型造成了OpenAI的運(yùn)營(yíng)成本不斷上升侵俗，無(wú)論是出于公司持續(xù)運(yùn)營(yíng)的需要锨用，還是實(shí)現(xiàn)AI人人可用的目標(biāo)，都需要進(jìn)一步降低成本隘谣。

而對(duì)于國(guó)內(nèi)來(lái)說(shuō)增拥，先進(jìn)算力受限國(guó)內(nèi)AI公司必須直面的現(xiàn)實(shí)。

從2023年開(kāi)始寻歧，國(guó)內(nèi)掀起了智算中心的基建熱潮掌栅。但由于當(dāng)前國(guó)產(chǎn)GPU在單卡性能不足，與英偉達(dá)產(chǎn)品相比至少存在1至2代的差距码泛，國(guó)內(nèi)建設(shè)智算中心時(shí)需要通過(guò)堆更多的GPU來(lái)實(shí)現(xiàn)所需的算力猾封，這不僅加大了建設(shè)難度，又進(jìn)一步拉高了成本噪珊。一位參與過(guò)國(guó)產(chǎn)智算中心建設(shè)的AI公司負(fù)責(zé)人曾告訴記者晌缘，目前真正有能力建設(shè)萬(wàn)卡智算中心的廠商寥寥無(wú)幾，國(guó)內(nèi)算力建設(shè)的首要目標(biāo)仍然增加供給痢站，保障“能用”磷箕。

如何在算力受限的情況下降低模型成本，DeepSeek的“AI拼多多”模式給行業(yè)提供了一種可能阵难。

根據(jù)DeepSeek開(kāi)發(fā)團(tuán)隊(duì)介紹岳枷，V3模型采用了模型壓縮、專(zhuān)家并行訓(xùn)練多望、FP8混合精度訓(xùn)練等一系列創(chuàng)新技術(shù)降低成本嫩舟。這些技術(shù)對(duì)于行業(yè)探索一條低成本的訓(xùn)練模式具有借鑒意義氢烘，但要復(fù)制并不容易怀偷。

國(guó)內(nèi)一家AI芯片公司創(chuàng)始人告訴記者，DeepSeek這次用到的FP8訓(xùn)練技術(shù)是一個(gè)亮點(diǎn)播玖。FP8是一種使用8位浮點(diǎn)數(shù)表示的格式椎工，相比于傳統(tǒng)的16位（FP16）和32位（FP32）浮點(diǎn)數(shù)，F(xiàn)P8是一種新興的低精度訓(xùn)練方法，通過(guò)減少數(shù)據(jù)表示所需的位數(shù)维蒙。顯著降低了內(nèi)存占用和計(jì)算需求掰吕。目前除了DeepSeek，國(guó)內(nèi)公司如零一萬(wàn)物颅痊，國(guó)外的谷歌殖熟、Inflection AI都已將這種技術(shù)引入模型訓(xùn)練與推理中。

上述芯片公司創(chuàng)始人稱(chēng)斑响，引入FP8后菱属，也有可能導(dǎo)致模型計(jì)算導(dǎo)致在某些情況下精度不足，造成性能不穩(wěn)定舰罚，需要開(kāi)發(fā)團(tuán)隊(duì)去進(jìn)一步調(diào)優(yōu)纽门。“FP8接下來(lái)很有希望成為一種行業(yè)趨勢(shì)营罢，會(huì)有更多的算力芯片廠商提供原生的FP8算力”赏陵。

另一位GPU芯片公司CEO認(rèn)為，DeepSeek V3作為DeepSeek第三代模型饲漾，模型開(kāi)發(fā)本身涉及大量的計(jì)算資源和數(shù)據(jù)支持蝙搔，而幻方能夠?yàn)槠鋬?chǔ)備上萬(wàn)張英偉達(dá)顯卡用于算力基建，這對(duì)許多中小型團(tuán)隊(duì)或公司來(lái)說(shuō)都是一個(gè)障礙考传。

但在他看來(lái)杂瘸，最核心、也最難復(fù)制的是人才儲(chǔ)備伙菊。DeepSeek核心架構(gòu)用到的技術(shù)都具有相當(dāng)高的創(chuàng)新門(mén)檻败玉，前期開(kāi)發(fā)和后期的調(diào)優(yōu)升級(jí)都需要人才積累。

DeepSeek在人才儲(chǔ)備上也獨(dú)具特點(diǎn)镜硕。據(jù)創(chuàng)始人梁文峰此前接受采訪時(shí)介紹运翼，DeepSeek V2模型的開(kāi)發(fā)團(tuán)隊(duì)沒(méi)有海外回來(lái)的人，都是一批本土的“Top高校的應(yīng)屆畢業(yè)生兴枯、沒(méi)畢業(yè)的博四血淌、博五實(shí)習(xí)生，以及些畢業(yè)才幾年的年輕人”财剖，小米近期被報(bào)道以千萬(wàn)年薪招聘DeepSeek研究員悠夯、V2模型的開(kāi)發(fā)團(tuán)隊(duì)成員羅福莉直接證明了這些年輕人才的價(jià)值。

梁文峰稱(chēng)躺坟，頂尖人才在中國(guó)是被低估的沦补，而正因?yàn)镈eepSeek“做最難的創(chuàng)新”，創(chuàng)新對(duì)于頂級(jí)人才具有特殊的吸引力咪橙。

技術(shù)圍墻背后的商業(yè)想象力

總體而言夕膀，在算力基礎(chǔ)和訓(xùn)練技巧之外虚倒，DeepSeek-V3在技術(shù)上的核心亮點(diǎn)仍然是高效的架構(gòu)設(shè)計(jì)，也就是在V2身上便得到驗(yàn)證的MoE+MLA产舞。

DeepSeekMoE采用了更細(xì)粒度的專(zhuān)家分配和共享專(zhuān)家機(jī)制魂奥，每個(gè)MoE層包含1個(gè)共享專(zhuān)家和256個(gè)路由專(zhuān)家，以確保計(jì)算的高效易猫；MLA通過(guò)低秩壓縮技術(shù)減少了推理時(shí)的Key-Value緩存耻煤，提高了推理效率。

與此同時(shí)准颓，DeepSeek-V3首次引入了無(wú)輔助損失的負(fù)載均衡策略违霞。傳統(tǒng)方法中，強(qiáng)制負(fù)載均衡將導(dǎo)致模型性能下降瞬场，但通過(guò)為每個(gè)專(zhuān)家引入偏置項(xiàng)买鸽，動(dòng)態(tài)調(diào)整路由決策，可以確保專(zhuān)家負(fù)載均衡贯被。

實(shí)際上眼五，一個(gè)大模型的架構(gòu)設(shè)計(jì)與其想要達(dá)成的目標(biāo)高度相關(guān)，因此并不能泛泛而談其他模型廠商如何跟進(jìn)這套技術(shù)策略彤灶。

但如果按照同等目標(biāo)而言看幼，一名大模型行業(yè)從業(yè)者對(duì)界面新聞?dòng)浾弑硎荆癕oE+MLA”雖然難幌陕，但是能夠復(fù)現(xiàn)诵姜，在V3中，更難的是無(wú)輔助損失的負(fù)載均衡策略搏熄，因?yàn)樗枰砸粋€(gè)訓(xùn)練得足夠好的MoE模型為前提棚唆。“這個(gè)比較看模型訓(xùn)練的能力心例，就算DeepSeek的人手把手教也不一定能搞定宵凌。”

面對(duì)DeepSeek-V3的爆火止后，也有觀點(diǎn)提出應(yīng)該冷靜看待瞎惫，不要過(guò)度神話。

一名AI大模型投資人表示译株，DeepSeek-V3的確是現(xiàn)在看來(lái)最好的開(kāi)源模型瓜喇。尤其在國(guó)內(nèi)，它最直接可對(duì)標(biāo)的是通義千問(wèn)模型系列歉糜，從技術(shù)實(shí)現(xiàn)來(lái)看乘寒，其更大總參數(shù)對(duì)概念的建模更精準(zhǔn)，更小的激活量又讓推理成本更低现恼。

但在GPT-4發(fā)布近兩年后肃续，整個(gè)開(kāi)源模型框架及算法系統(tǒng)也在同步迭代黍檩，他認(rèn)為DeepSeek-V3所達(dá)成的效果可以視為順其自然的事情叉袍。

相比而言始锚，更值得思考的是DeepSeek的商業(yè)觸角會(huì)向哪片領(lǐng)域進(jìn)一步延伸。

目前喳逛，DeepSeek仍以開(kāi)源模型API接口為主服務(wù)開(kāi)發(fā)者和企業(yè)瞧捌，在更具體的ToB（企業(yè)端）和ToC（用戶(hù)端）應(yīng)用場(chǎng)景，它還沒(méi)有明確動(dòng)作润文，但在部分層面也有跡可循姐呐。

據(jù)記者了解，在第三方招聘平臺(tái)上典蝌，幻化量方在眾多系統(tǒng)及算法研發(fā)崗位中釋放出了“DeepSeek-客戶(hù)端研發(fā)”曙砂、“DeepSeek C端產(chǎn)品的視覺(jué)引導(dǎo)者”，以及面向Web端及移動(dòng)端AI產(chǎn)品的“UI視覺(jué)設(shè)計(jì)師”等骏掀。

其中鸠澈，客戶(hù)端研發(fā)崗要求負(fù)責(zé)DeepSeek iOS及安卓開(kāi)發(fā)工作。而視覺(jué)產(chǎn)品崗在“期望特質(zhì)”中描述到截驮，“能在某個(gè)大主題的背景下細(xì)化創(chuàng)作笑陈，比如我們的App可以是交互偏向的人文關(guān)懷、或者去突出科技感葵袭、也可能會(huì)走偏向辦公效率的方向涵妥。”

這意味著坡锡，DeepSeek或許已經(jīng)在籌備自己的C端產(chǎn)品蓬网，并且有明確的應(yīng)用方向。

從模型層面來(lái)看鹉勒，DeepSeek-V3作為開(kāi)源模型拳缠，在數(shù)學(xué)和代碼兩項(xiàng)能力上已經(jīng)非常突出，在補(bǔ)齊產(chǎn)品端能力后贸弥，或?qū)⒃谙嚓P(guān)領(lǐng)域迅速形成自己的獨(dú)特優(yōu)勢(shì)窟坐。另外，公司對(duì)于AGI（通用人工智能）目標(biāo)的追求明確绵疲，團(tuán)隊(duì)必定會(huì)不斷拉升基座模型性能哲鸳。

也就是說(shuō)，盡管還看不清DeepSeek的最終抉擇盔憨，但它自身具備的模型實(shí)力和成本優(yōu)勢(shì)徙菠，無(wú)論切入哪一個(gè)領(lǐng)域都可能對(duì)同賽道公司形成壓力。

“從根本上來(lái)說(shuō)郁岩，DeepSeek對(duì)沒(méi)有找到自己核心場(chǎng)景的大模型公司都是一個(gè)巨大的威脅婿奔∪焙荩”前述投資人表示。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末萍摊，一起剝皮案震驚了整個(gè)濱河市挤茄，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌冰木，老刑警劉巖穷劈，帶你破解...
沈念sama閱讀 222,681評(píng)論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異踊沸，居然都是意外死亡歇终，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,205評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)逼龟，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)评凝，“玉大人，你說(shuō)我怎么就攤上這事腺律∞榷蹋” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 169,421評(píng)論 0贊 362
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵疾渣，是天一觀的道長(zhǎng)篡诽。經(jīng)常有香客問(wèn)我，道長(zhǎng)榴捡，這世上最難降的妖魔是什么杈女？我笑而不...
開(kāi)封第一講書(shū)人閱讀 60,114評(píng)論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮吊圾，結(jié)果婚禮上达椰，老公的妹妹穿的比我還像新娘。我一直安慰自己项乒，他們只是感情好啰劲，可當(dāng)我...
茶點(diǎn)故事閱讀 69,116評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著檀何，像睡著了一般蝇裤。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上频鉴，一...
開(kāi)封第一講書(shū)人閱讀 52,713評(píng)論 1贊 312
城市分裂傳說(shuō)
那天栓辜，我揣著相機(jī)與錄音，去河邊找鬼垛孔。笑死藕甩，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的周荐。我是一名探鬼主播狭莱，決...
沈念sama閱讀 41,170評(píng)論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼僵娃，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了腋妙？” 一聲冷哼從身側(cè)響起默怨，我...
開(kāi)封第一講書(shū)人閱讀 40,116評(píng)論 0贊 277
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎辉阶，沒(méi)想到半個(gè)月后先壕，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體瘩扼，經(jīng)...
沈念sama閱讀 46,651評(píng)論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡谆甜，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,714評(píng)論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了集绰。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片规辱。...
茶點(diǎn)故事閱讀 40,865評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖栽燕，靈堂內(nèi)的尸體忽然破棺而出罕袋，到底是詐尸還是另有隱情，我是刑警寧澤碍岔，帶...
沈念sama閱讀 36,527評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布浴讯，位于F島的核電站，受9級(jí)特大地震影響蔼啦，放射性物質(zhì)發(fā)生泄漏榆纽。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,211評(píng)論 3贊 336
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一捏肢、第九天我趴在偏房一處隱蔽的房頂上張望奈籽。院中可真熱鬧，春花似錦鸵赫、人聲如沸衣屏。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 32,699評(píng)論 0贊 25
一樁弒父案辩棒，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)狼忱。三九已至，卻和暖如春一睁，著一層夾襖步出監(jiān)牢的瞬間钻弄，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,814評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工卖局，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留斧蜕，地道東北人。一個(gè)月前我還...
沈念sama閱讀 49,299評(píng)論 3贊 379
代替公主和親
正文我出身青樓砚偶，卻偏偏與公主長(zhǎng)得像批销，于是被迫代替她去往敵國(guó)和親洒闸。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,870評(píng)論 2贊 361

DeepSeek V3爆火背后：“AI界拼多多”能否復(fù)制竞川？

DeepSeek V3爆火背后：“AI界拼多多”能否復(fù)制棋嘲？

推薦閱讀更多精彩內(nèi)容