2024年底酒唉,DeepSeek(深度求索)再次憑借模型性能在行業(yè)中掀起一個(gè)小高潮。
這家獨(dú)立于大模型“六小虎”格局之外沸移、不容行業(yè)所忽視的公司痪伦,發(fā)布了新一代MoE模型DeepSeek-V3首個(gè)版本并同步開(kāi)源。V3擁有6710億參數(shù)阔籽,其中激活參數(shù)為370億流妻,在14.8萬(wàn)億token上進(jìn)行了預(yù)訓(xùn)練牲蜀。
從DeepSeek公開(kāi)披露的信息來(lái)看笆制,在知識(shí)類(lèi)任務(wù)(MMLU, MMLU-Pro, GPQA, SimpleQA)上,V3接近當(dāng)前表現(xiàn)最好的Claude-3.5-Sonnet-1022涣达,在代碼能力上同樣稍好于后者在辆,而在數(shù)學(xué)能力上,V3已明顯領(lǐng)先其他開(kāi)閉源模型度苔,包括Qwen2.5 72B-Inst匆篓,LIama3.1 405B-Inst,GPT-4o 0513寇窑。
這已經(jīng)是一個(gè)足夠好的開(kāi)源模型鸦概,但真正讓其受到大量關(guān)注的,是DeepSeek在技術(shù)論文中表示甩骏,DeepSeek-V3模型總訓(xùn)練成本為557.6萬(wàn)美元窗市,完整訓(xùn)練消耗了278.8萬(wàn)個(gè)GPU小時(shí)先慷,幾乎是同等性能水平模型訓(xùn)練所需十分之一。這讓它在海內(nèi)外再度爆火咨察。
事實(shí)上论熙,大模型在2024年第一場(chǎng)API價(jià)格戰(zhàn)正是由DeepSeek開(kāi)啟。彼時(shí)摄狱,其“MoE架構(gòu)+MLA(Multi-head Latent Attention)技術(shù)”在降低大模型使用成本上發(fā)揮了重要作用脓诡。如今看來(lái),這項(xiàng)創(chuàng)新在DeepSeek手中完成了穩(wěn)定延續(xù)媒役。
至此祝谚,同行業(yè)的大模型廠商更需審慎對(duì)待這家作風(fēng)低調(diào)、輸出穩(wěn)定的公司酣衷,不知何時(shí)踊跟,它就會(huì)發(fā)起一場(chǎng)商業(yè)奇襲。
“AI拼多多”模式能否復(fù)制
根據(jù)海外調(diào)研機(jī)構(gòu)SemiAnalysis的數(shù)據(jù)鸥诽,OpenAI GPT-4訓(xùn)練成本高達(dá)6300萬(wàn)美元商玫,而DeepSeek-V3只有前者十分之一不到。這讓行業(yè)首先開(kāi)始思考這種低成本模式是否可復(fù)制牡借。
自從英偉達(dá)高端GPU顯卡在中國(guó)大陸遭禁后拳昌,算力不足始終是擺在國(guó)內(nèi)AI公司面前的一大難題。
相比于國(guó)外微軟钠龙、Meta炬藤、特斯拉等科技巨頭動(dòng)輒購(gòu)入10萬(wàn)張英偉達(dá)顯卡搭建算力中心訓(xùn)練AI模型,國(guó)內(nèi)擁有1萬(wàn)張以上顯卡的公司屈指可數(shù)碴里。DeepSeek背后的開(kāi)發(fā)公司幻方就是其中之一沈矿,2023年在接受36氪專(zhuān)訪時(shí),幻方創(chuàng)始人梁文鋒稱(chēng)“公司已囤有1萬(wàn)張英偉達(dá)A100顯卡”咬腋。
而DeepSeek-V3此次的特別之處在于僅用少量卡就完成了模型訓(xùn)練羹膳。
據(jù)官方論文介紹,DeepSeek-V3訓(xùn)練使用了2048張英偉達(dá)H800 GPU(注:H800GPU為H100 GPU被禁后面向中國(guó)大陸推出的特供版根竿,性能約為其一半)陵像,這些GPU通過(guò)英偉達(dá)高速互聯(lián)網(wǎng)絡(luò)NVLink和InfiniBand連接搭建成AI算力集群。
作為性能對(duì)標(biāo)模型寇壳,Meta旗下的開(kāi)源模型Llama-3.1(模型參數(shù)量與訓(xùn)練數(shù)據(jù)大致相當(dāng))則動(dòng)用了超過(guò)16000張英偉達(dá)H100GPU醒颖,業(yè)內(nèi)估計(jì)訓(xùn)練成本高達(dá)數(shù)億美元。
Meta AI科學(xué)家田淵棟在X(原推特)平臺(tái)上盛贊DeepSeek V3的低成本訓(xùn)練方法是“黑科技”壳炎。特斯拉前人工智能和自動(dòng)駕駛視覺(jué)總監(jiān)泞歉、著名AI研究學(xué)者Andrej Karpathy轉(zhuǎn)發(fā)了DeepSeek的論文,并評(píng)價(jià)說(shuō)“如果DeepSeek V3能夠通過(guò)各項(xiàng)評(píng)估,就證明了在資源有限的情況下腰耙,開(kāi)發(fā)出性能強(qiáng)大的大語(yǔ)言模型是有可能的”偿洁。
目前,降低AI模型開(kāi)發(fā)成本已經(jīng)是最重要的行業(yè)趨勢(shì)之一沟优。過(guò)去一年涕滋,OpenAI仍然未發(fā)布行業(yè)期待已久的下一代模型GPT-5,而是發(fā)布了GPT-4o挠阁、4o mini等一系列低成本的輕量化模型宾肺。山姆·奧特曼(SamAltman)也表示,部署和維護(hù)高級(jí)AI模型造成了OpenAI的運(yùn)營(yíng)成本不斷上升侵俗,無(wú)論是出于公司持續(xù)運(yùn)營(yíng)的需要锨用,還是實(shí)現(xiàn)AI人人可用的目標(biāo),都需要進(jìn)一步降低成本隘谣。
而對(duì)于國(guó)內(nèi)來(lái)說(shuō)增拥,先進(jìn)算力受限國(guó)內(nèi)AI公司必須直面的現(xiàn)實(shí)。
從2023年開(kāi)始寻歧,國(guó)內(nèi)掀起了智算中心的基建熱潮掌栅。但由于當(dāng)前國(guó)產(chǎn)GPU在單卡性能不足,與英偉達(dá)產(chǎn)品相比至少存在1至2代的差距码泛,國(guó)內(nèi)建設(shè)智算中心時(shí)需要通過(guò)堆更多的GPU來(lái)實(shí)現(xiàn)所需的算力猾封,這不僅加大了建設(shè)難度,又進(jìn)一步拉高了成本噪珊。一位參與過(guò)國(guó)產(chǎn)智算中心建設(shè)的AI公司負(fù)責(zé)人曾告訴記者晌缘,目前真正有能力建設(shè)萬(wàn)卡智算中心的廠商寥寥無(wú)幾,國(guó)內(nèi)算力建設(shè)的首要目標(biāo)仍然增加供給痢站,保障“能用”磷箕。
如何在算力受限的情況下降低模型成本,DeepSeek的“AI拼多多”模式給行業(yè)提供了一種可能阵难。
根據(jù)DeepSeek開(kāi)發(fā)團(tuán)隊(duì)介紹岳枷,V3模型采用了模型壓縮、專(zhuān)家并行訓(xùn)練多望、FP8混合精度訓(xùn)練等一系列創(chuàng)新技術(shù)降低成本嫩舟。這些技術(shù)對(duì)于行業(yè)探索一條低成本的訓(xùn)練模式具有借鑒意義氢烘,但要復(fù)制并不容易怀偷。
國(guó)內(nèi)一家AI芯片公司創(chuàng)始人告訴記者,DeepSeek這次用到的FP8訓(xùn)練技術(shù)是一個(gè)亮點(diǎn)播玖。FP8是一種使用8位浮點(diǎn)數(shù)表示的格式椎工,相比于傳統(tǒng)的16位(FP16)和32位(FP32)浮點(diǎn)數(shù),F(xiàn)P8是一種新興的低精度訓(xùn)練方法,通過(guò)減少數(shù)據(jù)表示所需的位數(shù)维蒙。顯著降低了內(nèi)存占用和計(jì)算需求掰吕。目前除了DeepSeek,國(guó)內(nèi)公司如零一萬(wàn)物颅痊,國(guó)外的谷歌殖熟、Inflection AI都已將這種技術(shù)引入模型訓(xùn)練與推理中。
上述芯片公司創(chuàng)始人稱(chēng)斑响,引入FP8后菱属,也有可能導(dǎo)致模型計(jì)算導(dǎo)致在某些情況下精度不足,造成性能不穩(wěn)定舰罚,需要開(kāi)發(fā)團(tuán)隊(duì)去進(jìn)一步調(diào)優(yōu)纽门。“FP8接下來(lái)很有希望成為一種行業(yè)趨勢(shì)营罢,會(huì)有更多的算力芯片廠商提供原生的FP8算力”赏陵。
另一位GPU芯片公司CEO認(rèn)為,DeepSeek V3作為DeepSeek第三代模型饲漾,模型開(kāi)發(fā)本身涉及大量的計(jì)算資源和數(shù)據(jù)支持蝙搔,而幻方能夠?yàn)槠鋬?chǔ)備上萬(wàn)張英偉達(dá)顯卡用于算力基建,這對(duì)許多中小型團(tuán)隊(duì)或公司來(lái)說(shuō)都是一個(gè)障礙考传。
但在他看來(lái)杂瘸,最核心、也最難復(fù)制的是人才儲(chǔ)備伙菊。DeepSeek核心架構(gòu)用到的技術(shù)都具有相當(dāng)高的創(chuàng)新門(mén)檻败玉,前期開(kāi)發(fā)和后期的調(diào)優(yōu)升級(jí)都需要人才積累。
DeepSeek在人才儲(chǔ)備上也獨(dú)具特點(diǎn)镜硕。據(jù)創(chuàng)始人梁文峰此前接受采訪時(shí)介紹运翼,DeepSeek V2模型的開(kāi)發(fā)團(tuán)隊(duì)沒(méi)有海外回來(lái)的人,都是一批本土的“Top高校的應(yīng)屆畢業(yè)生兴枯、沒(méi)畢業(yè)的博四血淌、博五實(shí)習(xí)生,以及些畢業(yè)才幾年的年輕人”财剖,小米近期被報(bào)道以千萬(wàn)年薪招聘DeepSeek研究員悠夯、V2模型的開(kāi)發(fā)團(tuán)隊(duì)成員羅福莉直接證明了這些年輕人才的價(jià)值。
梁文峰稱(chēng)躺坟,頂尖人才在中國(guó)是被低估的沦补,而正因?yàn)镈eepSeek“做最難的創(chuàng)新”,創(chuàng)新對(duì)于頂級(jí)人才具有特殊的吸引力咪橙。
技術(shù)圍墻背后的商業(yè)想象力
總體而言夕膀,在算力基礎(chǔ)和訓(xùn)練技巧之外虚倒,DeepSeek-V3在技術(shù)上的核心亮點(diǎn)仍然是高效的架構(gòu)設(shè)計(jì),也就是在V2身上便得到驗(yàn)證的MoE+MLA产舞。
DeepSeekMoE采用了更細(xì)粒度的專(zhuān)家分配和共享專(zhuān)家機(jī)制魂奥,每個(gè)MoE層包含1個(gè)共享專(zhuān)家和256個(gè)路由專(zhuān)家,以確保計(jì)算的高效易猫;MLA通過(guò)低秩壓縮技術(shù)減少了推理時(shí)的Key-Value緩存耻煤,提高了推理效率。
與此同時(shí)准颓,DeepSeek-V3首次引入了無(wú)輔助損失的負(fù)載均衡策略违霞。傳統(tǒng)方法中,強(qiáng)制負(fù)載均衡將導(dǎo)致模型性能下降瞬场,但通過(guò)為每個(gè)專(zhuān)家引入偏置項(xiàng)买鸽,動(dòng)態(tài)調(diào)整路由決策,可以確保專(zhuān)家負(fù)載均衡贯被。
實(shí)際上眼五,一個(gè)大模型的架構(gòu)設(shè)計(jì)與其想要達(dá)成的目標(biāo)高度相關(guān),因此并不能泛泛而談其他模型廠商如何跟進(jìn)這套技術(shù)策略彤灶。
但如果按照同等目標(biāo)而言看幼,一名大模型行業(yè)從業(yè)者對(duì)界面新聞?dòng)浾弑硎荆癕oE+MLA”雖然難幌陕,但是能夠復(fù)現(xiàn)诵姜,在V3中,更難的是無(wú)輔助損失的負(fù)載均衡策略搏熄,因?yàn)樗枰砸粋€(gè)訓(xùn)練得足夠好的MoE模型為前提棚唆。“這個(gè)比較看模型訓(xùn)練的能力心例,就算DeepSeek的人手把手教也不一定能搞定宵凌。”
面對(duì)DeepSeek-V3的爆火止后,也有觀點(diǎn)提出應(yīng)該冷靜看待瞎惫,不要過(guò)度神話。
一名AI大模型投資人表示译株,DeepSeek-V3的確是現(xiàn)在看來(lái)最好的開(kāi)源模型瓜喇。尤其在國(guó)內(nèi),它最直接可對(duì)標(biāo)的是通義千問(wèn)模型系列歉糜,從技術(shù)實(shí)現(xiàn)來(lái)看乘寒,其更大總參數(shù)對(duì)概念的建模更精準(zhǔn),更小的激活量又讓推理成本更低现恼。
但在GPT-4發(fā)布近兩年后肃续,整個(gè)開(kāi)源模型框架及算法系統(tǒng)也在同步迭代黍檩,他認(rèn)為DeepSeek-V3所達(dá)成的效果可以視為順其自然的事情叉袍。
相比而言始锚,更值得思考的是DeepSeek的商業(yè)觸角會(huì)向哪片領(lǐng)域進(jìn)一步延伸。
目前喳逛,DeepSeek仍以開(kāi)源模型API接口為主服務(wù)開(kāi)發(fā)者和企業(yè)瞧捌,在更具體的ToB(企業(yè)端)和ToC(用戶(hù)端)應(yīng)用場(chǎng)景,它還沒(méi)有明確動(dòng)作润文,但在部分層面也有跡可循姐呐。
據(jù)記者了解,在第三方招聘平臺(tái)上典蝌,幻化量方在眾多系統(tǒng)及算法研發(fā)崗位中釋放出了“DeepSeek-客戶(hù)端研發(fā)”曙砂、“DeepSeek C端產(chǎn)品的視覺(jué)引導(dǎo)者”,以及面向Web端及移動(dòng)端AI產(chǎn)品的“UI視覺(jué)設(shè)計(jì)師”等骏掀。
其中鸠澈,客戶(hù)端研發(fā)崗要求負(fù)責(zé)DeepSeek iOS及安卓開(kāi)發(fā)工作。而視覺(jué)產(chǎn)品崗在“期望特質(zhì)”中描述到截驮,“能在某個(gè)大主題的背景下細(xì)化創(chuàng)作笑陈,比如我們的App可以是交互偏向的人文關(guān)懷、或者去突出科技感葵袭、也可能會(huì)走偏向辦公效率的方向涵妥。”
這意味著坡锡,DeepSeek或許已經(jīng)在籌備自己的C端產(chǎn)品蓬网,并且有明確的應(yīng)用方向。
從模型層面來(lái)看鹉勒,DeepSeek-V3作為開(kāi)源模型拳缠,在數(shù)學(xué)和代碼兩項(xiàng)能力上已經(jīng)非常突出,在補(bǔ)齊產(chǎn)品端能力后贸弥,或?qū)⒃谙嚓P(guān)領(lǐng)域迅速形成自己的獨(dú)特優(yōu)勢(shì)窟坐。另外,公司對(duì)于AGI(通用人工智能)目標(biāo)的追求明確绵疲,團(tuán)隊(duì)必定會(huì)不斷拉升基座模型性能哲鸳。
也就是說(shuō),盡管還看不清DeepSeek的最終抉擇盔憨,但它自身具備的模型實(shí)力和成本優(yōu)勢(shì)徙菠,無(wú)論切入哪一個(gè)領(lǐng)域都可能對(duì)同賽道公司形成壓力。
“從根本上來(lái)說(shuō)郁岩,DeepSeek對(duì)沒(méi)有找到自己核心場(chǎng)景的大模型公司都是一個(gè)巨大的威脅婿奔∪焙荩”前述投資人表示。