DeepSeek V3爆火背后:“AI界拼多多”能否復(fù)制棋嘲?

2024年底酒唉,DeepSeek(深度求索)再次憑借模型性能在行業(yè)中掀起一個(gè)小高潮。

這家獨(dú)立于大模型“六小虎”格局之外沸移、不容行業(yè)所忽視的公司痪伦,發(fā)布了新一代MoE模型DeepSeek-V3首個(gè)版本并同步開(kāi)源。V3擁有6710億參數(shù)阔籽,其中激活參數(shù)為370億流妻,在14.8萬(wàn)億token上進(jìn)行了預(yù)訓(xùn)練牲蜀。

從DeepSeek公開(kāi)披露的信息來(lái)看笆制,在知識(shí)類(lèi)任務(wù)(MMLU, MMLU-Pro, GPQA, SimpleQA)上,V3接近當(dāng)前表現(xiàn)最好的Claude-3.5-Sonnet-1022涣达,在代碼能力上同樣稍好于后者在辆,而在數(shù)學(xué)能力上,V3已明顯領(lǐng)先其他開(kāi)閉源模型度苔,包括Qwen2.5 72B-Inst匆篓,LIama3.1 405B-Inst,GPT-4o 0513寇窑。

這已經(jīng)是一個(gè)足夠好的開(kāi)源模型鸦概,但真正讓其受到大量關(guān)注的,是DeepSeek在技術(shù)論文中表示甩骏,DeepSeek-V3模型總訓(xùn)練成本為557.6萬(wàn)美元窗市,完整訓(xùn)練消耗了278.8萬(wàn)個(gè)GPU小時(shí)先慷,幾乎是同等性能水平模型訓(xùn)練所需十分之一。這讓它在海內(nèi)外再度爆火咨察。

事實(shí)上论熙,大模型在2024年第一場(chǎng)API價(jià)格戰(zhàn)正是由DeepSeek開(kāi)啟。彼時(shí)摄狱,其“MoE架構(gòu)+MLA(Multi-head Latent Attention)技術(shù)”在降低大模型使用成本上發(fā)揮了重要作用脓诡。如今看來(lái),這項(xiàng)創(chuàng)新在DeepSeek手中完成了穩(wěn)定延續(xù)媒役。

至此祝谚,同行業(yè)的大模型廠商更需審慎對(duì)待這家作風(fēng)低調(diào)、輸出穩(wěn)定的公司酣衷,不知何時(shí)踊跟,它就會(huì)發(fā)起一場(chǎng)商業(yè)奇襲。

“AI拼多多”模式能否復(fù)制

根據(jù)海外調(diào)研機(jī)構(gòu)SemiAnalysis的數(shù)據(jù)鸥诽,OpenAI GPT-4訓(xùn)練成本高達(dá)6300萬(wàn)美元商玫,而DeepSeek-V3只有前者十分之一不到。這讓行業(yè)首先開(kāi)始思考這種低成本模式是否可復(fù)制牡借。

自從英偉達(dá)高端GPU顯卡在中國(guó)大陸遭禁后拳昌,算力不足始終是擺在國(guó)內(nèi)AI公司面前的一大難題。

相比于國(guó)外微軟钠龙、Meta炬藤、特斯拉等科技巨頭動(dòng)輒購(gòu)入10萬(wàn)張英偉達(dá)顯卡搭建算力中心訓(xùn)練AI模型,國(guó)內(nèi)擁有1萬(wàn)張以上顯卡的公司屈指可數(shù)碴里。DeepSeek背后的開(kāi)發(fā)公司幻方就是其中之一沈矿,2023年在接受36氪專(zhuān)訪時(shí),幻方創(chuàng)始人梁文鋒稱(chēng)“公司已囤有1萬(wàn)張英偉達(dá)A100顯卡”咬腋。

而DeepSeek-V3此次的特別之處在于僅用少量卡就完成了模型訓(xùn)練羹膳。

據(jù)官方論文介紹,DeepSeek-V3訓(xùn)練使用了2048張英偉達(dá)H800 GPU(注:H800GPU為H100 GPU被禁后面向中國(guó)大陸推出的特供版根竿,性能約為其一半)陵像,這些GPU通過(guò)英偉達(dá)高速互聯(lián)網(wǎng)絡(luò)NVLink和InfiniBand連接搭建成AI算力集群。

作為性能對(duì)標(biāo)模型寇壳,Meta旗下的開(kāi)源模型Llama-3.1(模型參數(shù)量與訓(xùn)練數(shù)據(jù)大致相當(dāng))則動(dòng)用了超過(guò)16000張英偉達(dá)H100GPU醒颖,業(yè)內(nèi)估計(jì)訓(xùn)練成本高達(dá)數(shù)億美元。

Meta AI科學(xué)家田淵棟在X(原推特)平臺(tái)上盛贊DeepSeek V3的低成本訓(xùn)練方法是“黑科技”壳炎。特斯拉前人工智能和自動(dòng)駕駛視覺(jué)總監(jiān)泞歉、著名AI研究學(xué)者Andrej Karpathy轉(zhuǎn)發(fā)了DeepSeek的論文,并評(píng)價(jià)說(shuō)“如果DeepSeek V3能夠通過(guò)各項(xiàng)評(píng)估,就證明了在資源有限的情況下腰耙,開(kāi)發(fā)出性能強(qiáng)大的大語(yǔ)言模型是有可能的”偿洁。

目前,降低AI模型開(kāi)發(fā)成本已經(jīng)是最重要的行業(yè)趨勢(shì)之一沟优。過(guò)去一年涕滋,OpenAI仍然未發(fā)布行業(yè)期待已久的下一代模型GPT-5,而是發(fā)布了GPT-4o挠阁、4o mini等一系列低成本的輕量化模型宾肺。山姆·奧特曼(SamAltman)也表示,部署和維護(hù)高級(jí)AI模型造成了OpenAI的運(yùn)營(yíng)成本不斷上升侵俗,無(wú)論是出于公司持續(xù)運(yùn)營(yíng)的需要锨用,還是實(shí)現(xiàn)AI人人可用的目標(biāo),都需要進(jìn)一步降低成本隘谣。

而對(duì)于國(guó)內(nèi)來(lái)說(shuō)增拥,先進(jìn)算力受限國(guó)內(nèi)AI公司必須直面的現(xiàn)實(shí)。

從2023年開(kāi)始寻歧,國(guó)內(nèi)掀起了智算中心的基建熱潮掌栅。但由于當(dāng)前國(guó)產(chǎn)GPU在單卡性能不足,與英偉達(dá)產(chǎn)品相比至少存在1至2代的差距码泛,國(guó)內(nèi)建設(shè)智算中心時(shí)需要通過(guò)堆更多的GPU來(lái)實(shí)現(xiàn)所需的算力猾封,這不僅加大了建設(shè)難度,又進(jìn)一步拉高了成本噪珊。一位參與過(guò)國(guó)產(chǎn)智算中心建設(shè)的AI公司負(fù)責(zé)人曾告訴記者晌缘,目前真正有能力建設(shè)萬(wàn)卡智算中心的廠商寥寥無(wú)幾,國(guó)內(nèi)算力建設(shè)的首要目標(biāo)仍然增加供給痢站,保障“能用”磷箕。

如何在算力受限的情況下降低模型成本,DeepSeek的“AI拼多多”模式給行業(yè)提供了一種可能阵难。

根據(jù)DeepSeek開(kāi)發(fā)團(tuán)隊(duì)介紹岳枷,V3模型采用了模型壓縮、專(zhuān)家并行訓(xùn)練多望、FP8混合精度訓(xùn)練等一系列創(chuàng)新技術(shù)降低成本嫩舟。這些技術(shù)對(duì)于行業(yè)探索一條低成本的訓(xùn)練模式具有借鑒意義氢烘,但要復(fù)制并不容易怀偷。

國(guó)內(nèi)一家AI芯片公司創(chuàng)始人告訴記者,DeepSeek這次用到的FP8訓(xùn)練技術(shù)是一個(gè)亮點(diǎn)播玖。FP8是一種使用8位浮點(diǎn)數(shù)表示的格式椎工,相比于傳統(tǒng)的16位(FP16)和32位(FP32)浮點(diǎn)數(shù),F(xiàn)P8是一種新興的低精度訓(xùn)練方法,通過(guò)減少數(shù)據(jù)表示所需的位數(shù)维蒙。顯著降低了內(nèi)存占用和計(jì)算需求掰吕。目前除了DeepSeek,國(guó)內(nèi)公司如零一萬(wàn)物颅痊,國(guó)外的谷歌殖熟、Inflection AI都已將這種技術(shù)引入模型訓(xùn)練與推理中。

上述芯片公司創(chuàng)始人稱(chēng)斑响,引入FP8后菱属,也有可能導(dǎo)致模型計(jì)算導(dǎo)致在某些情況下精度不足,造成性能不穩(wěn)定舰罚,需要開(kāi)發(fā)團(tuán)隊(duì)去進(jìn)一步調(diào)優(yōu)纽门。“FP8接下來(lái)很有希望成為一種行業(yè)趨勢(shì)营罢,會(huì)有更多的算力芯片廠商提供原生的FP8算力”赏陵。

另一位GPU芯片公司CEO認(rèn)為,DeepSeek V3作為DeepSeek第三代模型饲漾,模型開(kāi)發(fā)本身涉及大量的計(jì)算資源和數(shù)據(jù)支持蝙搔,而幻方能夠?yàn)槠鋬?chǔ)備上萬(wàn)張英偉達(dá)顯卡用于算力基建,這對(duì)許多中小型團(tuán)隊(duì)或公司來(lái)說(shuō)都是一個(gè)障礙考传。

但在他看來(lái)杂瘸,最核心、也最難復(fù)制的是人才儲(chǔ)備伙菊。DeepSeek核心架構(gòu)用到的技術(shù)都具有相當(dāng)高的創(chuàng)新門(mén)檻败玉,前期開(kāi)發(fā)和后期的調(diào)優(yōu)升級(jí)都需要人才積累。

DeepSeek在人才儲(chǔ)備上也獨(dú)具特點(diǎn)镜硕。據(jù)創(chuàng)始人梁文峰此前接受采訪時(shí)介紹运翼,DeepSeek V2模型的開(kāi)發(fā)團(tuán)隊(duì)沒(méi)有海外回來(lái)的人,都是一批本土的“Top高校的應(yīng)屆畢業(yè)生兴枯、沒(méi)畢業(yè)的博四血淌、博五實(shí)習(xí)生,以及些畢業(yè)才幾年的年輕人”财剖,小米近期被報(bào)道以千萬(wàn)年薪招聘DeepSeek研究員悠夯、V2模型的開(kāi)發(fā)團(tuán)隊(duì)成員羅福莉直接證明了這些年輕人才的價(jià)值。

梁文峰稱(chēng)躺坟,頂尖人才在中國(guó)是被低估的沦补,而正因?yàn)镈eepSeek“做最難的創(chuàng)新”,創(chuàng)新對(duì)于頂級(jí)人才具有特殊的吸引力咪橙。

技術(shù)圍墻背后的商業(yè)想象力

總體而言夕膀,在算力基礎(chǔ)和訓(xùn)練技巧之外虚倒,DeepSeek-V3在技術(shù)上的核心亮點(diǎn)仍然是高效的架構(gòu)設(shè)計(jì),也就是在V2身上便得到驗(yàn)證的MoE+MLA产舞。

DeepSeekMoE采用了更細(xì)粒度的專(zhuān)家分配和共享專(zhuān)家機(jī)制魂奥,每個(gè)MoE層包含1個(gè)共享專(zhuān)家和256個(gè)路由專(zhuān)家,以確保計(jì)算的高效易猫;MLA通過(guò)低秩壓縮技術(shù)減少了推理時(shí)的Key-Value緩存耻煤,提高了推理效率。

與此同時(shí)准颓,DeepSeek-V3首次引入了無(wú)輔助損失的負(fù)載均衡策略违霞。傳統(tǒng)方法中,強(qiáng)制負(fù)載均衡將導(dǎo)致模型性能下降瞬场,但通過(guò)為每個(gè)專(zhuān)家引入偏置項(xiàng)买鸽,動(dòng)態(tài)調(diào)整路由決策,可以確保專(zhuān)家負(fù)載均衡贯被。

實(shí)際上眼五,一個(gè)大模型的架構(gòu)設(shè)計(jì)與其想要達(dá)成的目標(biāo)高度相關(guān),因此并不能泛泛而談其他模型廠商如何跟進(jìn)這套技術(shù)策略彤灶。

但如果按照同等目標(biāo)而言看幼,一名大模型行業(yè)從業(yè)者對(duì)界面新聞?dòng)浾弑硎荆癕oE+MLA”雖然難幌陕,但是能夠復(fù)現(xiàn)诵姜,在V3中,更難的是無(wú)輔助損失的負(fù)載均衡策略搏熄,因?yàn)樗枰砸粋€(gè)訓(xùn)練得足夠好的MoE模型為前提棚唆。“這個(gè)比較看模型訓(xùn)練的能力心例,就算DeepSeek的人手把手教也不一定能搞定宵凌。”

面對(duì)DeepSeek-V3的爆火止后,也有觀點(diǎn)提出應(yīng)該冷靜看待瞎惫,不要過(guò)度神話。

一名AI大模型投資人表示译株,DeepSeek-V3的確是現(xiàn)在看來(lái)最好的開(kāi)源模型瓜喇。尤其在國(guó)內(nèi),它最直接可對(duì)標(biāo)的是通義千問(wèn)模型系列歉糜,從技術(shù)實(shí)現(xiàn)來(lái)看乘寒,其更大總參數(shù)對(duì)概念的建模更精準(zhǔn),更小的激活量又讓推理成本更低现恼。

但在GPT-4發(fā)布近兩年后肃续,整個(gè)開(kāi)源模型框架及算法系統(tǒng)也在同步迭代黍檩,他認(rèn)為DeepSeek-V3所達(dá)成的效果可以視為順其自然的事情叉袍。

相比而言始锚,更值得思考的是DeepSeek的商業(yè)觸角會(huì)向哪片領(lǐng)域進(jìn)一步延伸。

目前喳逛,DeepSeek仍以開(kāi)源模型API接口為主服務(wù)開(kāi)發(fā)者和企業(yè)瞧捌,在更具體的ToB(企業(yè)端)和ToC(用戶(hù)端)應(yīng)用場(chǎng)景,它還沒(méi)有明確動(dòng)作润文,但在部分層面也有跡可循姐呐。

據(jù)記者了解,在第三方招聘平臺(tái)上典蝌,幻化量方在眾多系統(tǒng)及算法研發(fā)崗位中釋放出了“DeepSeek-客戶(hù)端研發(fā)”曙砂、“DeepSeek C端產(chǎn)品的視覺(jué)引導(dǎo)者”,以及面向Web端及移動(dòng)端AI產(chǎn)品的“UI視覺(jué)設(shè)計(jì)師”等骏掀。

其中鸠澈,客戶(hù)端研發(fā)崗要求負(fù)責(zé)DeepSeek iOS及安卓開(kāi)發(fā)工作。而視覺(jué)產(chǎn)品崗在“期望特質(zhì)”中描述到截驮,“能在某個(gè)大主題的背景下細(xì)化創(chuàng)作笑陈,比如我們的App可以是交互偏向的人文關(guān)懷、或者去突出科技感葵袭、也可能會(huì)走偏向辦公效率的方向涵妥。”

這意味著坡锡,DeepSeek或許已經(jīng)在籌備自己的C端產(chǎn)品蓬网,并且有明確的應(yīng)用方向。

從模型層面來(lái)看鹉勒,DeepSeek-V3作為開(kāi)源模型拳缠,在數(shù)學(xué)和代碼兩項(xiàng)能力上已經(jīng)非常突出,在補(bǔ)齊產(chǎn)品端能力后贸弥,或?qū)⒃谙嚓P(guān)領(lǐng)域迅速形成自己的獨(dú)特優(yōu)勢(shì)窟坐。另外,公司對(duì)于AGI(通用人工智能)目標(biāo)的追求明確绵疲,團(tuán)隊(duì)必定會(huì)不斷拉升基座模型性能哲鸳。

也就是說(shuō),盡管還看不清DeepSeek的最終抉擇盔憨,但它自身具備的模型實(shí)力和成本優(yōu)勢(shì)徙菠,無(wú)論切入哪一個(gè)領(lǐng)域都可能對(duì)同賽道公司形成壓力。

“從根本上來(lái)說(shuō)郁岩,DeepSeek對(duì)沒(méi)有找到自己核心場(chǎng)景的大模型公司都是一個(gè)巨大的威脅婿奔∪焙荩”前述投資人表示。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末萍摊,一起剝皮案震驚了整個(gè)濱河市挤茄,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌冰木,老刑警劉巖穷劈,帶你破解...
    沈念sama閱讀 222,681評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異踊沸,居然都是意外死亡歇终,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,205評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)逼龟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)评凝,“玉大人,你說(shuō)我怎么就攤上這事腺律∞榷蹋” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 169,421評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵疾渣,是天一觀的道長(zhǎng)篡诽。 經(jīng)常有香客問(wèn)我,道長(zhǎng)榴捡,這世上最難降的妖魔是什么杈女? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 60,114評(píng)論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮吊圾,結(jié)果婚禮上达椰,老公的妹妹穿的比我還像新娘。我一直安慰自己项乒,他們只是感情好啰劲,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,116評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著檀何,像睡著了一般蝇裤。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上频鉴,一...
    開(kāi)封第一講書(shū)人閱讀 52,713評(píng)論 1 312
  • 那天栓辜,我揣著相機(jī)與錄音,去河邊找鬼垛孔。 笑死藕甩,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的周荐。 我是一名探鬼主播狭莱,決...
    沈念sama閱讀 41,170評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼僵娃,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了腋妙?” 一聲冷哼從身側(cè)響起默怨,我...
    開(kāi)封第一講書(shū)人閱讀 40,116評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎辉阶,沒(méi)想到半個(gè)月后先壕,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體瘩扼,經(jīng)...
    沈念sama閱讀 46,651評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡谆甜,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,714評(píng)論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了集绰。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片规辱。...
    茶點(diǎn)故事閱讀 40,865評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖栽燕,靈堂內(nèi)的尸體忽然破棺而出罕袋,到底是詐尸還是另有隱情,我是刑警寧澤碍岔,帶...
    沈念sama閱讀 36,527評(píng)論 5 351
  • 正文 年R本政府宣布浴讯,位于F島的核電站,受9級(jí)特大地震影響蔼啦,放射性物質(zhì)發(fā)生泄漏榆纽。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,211評(píng)論 3 336
  • 文/蒙蒙 一捏肢、第九天 我趴在偏房一處隱蔽的房頂上張望奈籽。 院中可真熱鬧,春花似錦鸵赫、人聲如沸衣屏。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,699評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)狼忱。三九已至,卻和暖如春一睁,著一層夾襖步出監(jiān)牢的瞬間钻弄,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,814評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工卖局, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留斧蜕,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,299評(píng)論 3 379
  • 正文 我出身青樓砚偶,卻偏偏與公主長(zhǎng)得像批销,于是被迫代替她去往敵國(guó)和親洒闸。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,870評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容