MiniMax:如何基于 JuiceFS 構(gòu)建高性能、低成本的大模型 AI 平臺(tái)

MiniMax 成立于 2021 年 12 月结澄,是領(lǐng)先的通用人工智能科技公司,致力于與用戶(hù)共創(chuàng)智能岸夯。MiniMax 自主研發(fā)了不同模態(tài)的通用大模型麻献,其中包括萬(wàn)億參數(shù)的 MoE 文本大模型、語(yǔ)音大模型以及圖像大模型猜扮。
基于不同模態(tài)的通用大模型勉吻,MiniMax 推出生產(chǎn)力工具 “海螺 AI” 、沉浸式 AI 內(nèi)容社區(qū) “星野” 等原生應(yīng)用旅赢。MiniMax 開(kāi)放平臺(tái)為企業(yè)和開(kāi)發(fā)者提供安全齿桃、靈活、可靠的 API 服務(wù)煮盼,助力快速搭建 AI 應(yīng)用短纵。

01 多模態(tài)大模型研發(fā)的存儲(chǔ)挑戰(zhàn)

作為一家初創(chuàng)公司,MiniMax 在構(gòu)建基礎(chǔ)設(shè)施時(shí)主要關(guān)注靈活性和成本效率僵控。因此香到,公司選擇在本地?cái)?shù)據(jù)中心部署關(guān)鍵負(fù)載(如 GPU 資源),其它源則部署于云端报破,以便能夠利用云平臺(tái)的技術(shù)優(yōu)勢(shì)悠就、彈性和靈活性。由此泛烙,MiniMax 采納了結(jié)合本地?cái)?shù)據(jù)中心與多云環(huán)境的混合云方案理卑。鑒于底層基礎(chǔ)設(shè)施的復(fù)雜性和管理挑戰(zhàn),公司采用 Kubernetes 作為基礎(chǔ)設(shè)施的統(tǒng)一管理層蔽氨。

存儲(chǔ)層作為基礎(chǔ)設(shè)施平臺(tái)的關(guān)鍵組成部分藐唠,面臨挑戰(zhàn)主要如下:

  • 高性能:大模型的訓(xùn)練和推理需要處理和存儲(chǔ)海量的數(shù)據(jù),這不僅要求有高容量的存儲(chǔ)解決方案鹉究,還需要保證數(shù)據(jù)的快速讀寫(xiě)宇立;
  • POSIX 兼容性:深度學(xué)習(xí)框架和算法工程師的日常工作都是基于 POSIX 接口,這就要求存儲(chǔ)系統(tǒng)必須完全兼容 POSIX自赔,否則會(huì)使得 AI 任務(wù)無(wú)法正常運(yùn)行妈嘹;
  • 混合云架構(gòu):計(jì)算資源,尤其是 GPU绍妨,分布在不同的地理區(qū)域以及由不同的服務(wù)商提供润脸。為了讓計(jì)算任務(wù)可以高效調(diào)度柬脸,存儲(chǔ)系統(tǒng)需要可適用于各種服務(wù)商和硬件環(huán)境的方案,且具備高度的靈活性毙驯,支持跨區(qū)域的數(shù)據(jù)復(fù)制倒堕、訪問(wèn)和遷移;
  • 存儲(chǔ)成本優(yōu)化:隨著數(shù)據(jù)量的不斷增加爆价,尤其是在大數(shù)據(jù)和 AI 應(yīng)用領(lǐng)域垦巴,擴(kuò)展存儲(chǔ)容量的同時(shí)能夠有效控制成本成為一大挑戰(zhàn)。企業(yè)需要采用成本效益高的存儲(chǔ)技術(shù)铭段,同時(shí)確保這些技術(shù)能夠與現(xiàn)有的 IT 架構(gòu)無(wú)縫集成骤宣。

02 為什么選擇 JuiceFS 企業(yè)版?

初期進(jìn)行選型時(shí)序愚,MiniMax 調(diào)研過(guò) CephFS憔披,它在元數(shù)據(jù)服務(wù)方面存在一些瓶頸。同時(shí)展运,MiniMax 也嘗試過(guò)一些公有云服務(wù)的高性能文件存儲(chǔ)方案活逆,但最終由于成本過(guò)高而放棄精刷。MiniMax 希望能夠使用一種既具有足夠靈活性和高度可擴(kuò)展性拗胜,同時(shí)也能解決成本問(wèn)題,以及可滿(mǎn)足混合云架構(gòu)的存儲(chǔ)系統(tǒng)怒允。

最終埂软, MiniMax 選擇了 JuiceFS 企業(yè)版作為公司級(jí) AI 平臺(tái)的存儲(chǔ)底座,支持上層各類(lèi)模型(包括文本大模型纫事、語(yǔ)音大模型勘畔、圖像大模型、多模態(tài)模型)在數(shù)據(jù)清洗丽惶、模型訓(xùn)練炫七、模型推理等場(chǎng)景上的高性能數(shù)據(jù)訪問(wèn)需求。特別是在超大規(guī)模 GPU 集群分布式訓(xùn)練場(chǎng)景中钾唬,JuiceFS 優(yōu)異的表現(xiàn)為模型迭代和 GPU 利用率的提升起到了關(guān)鍵作用万哪。

  • 兼容性:支持 POSIX、HDFS 和 S3 接口抡秆,提供統(tǒng)一的存儲(chǔ)方案以減少數(shù)據(jù)拷貝和遷移奕巍;
  • 優(yōu)化 I/O 效率:通過(guò)多級(jí)緩存、預(yù)讀和并發(fā)讀取策略顯著提升 I/O 性能儒士;
  • 高性能元數(shù)據(jù)服務(wù):自研的元數(shù)據(jù)服務(wù)能夠處理每秒上百萬(wàn)的請(qǐng)求的止,響應(yīng)時(shí)間在亞毫秒級(jí),滿(mǎn)足 AI 訓(xùn)練各階段的嚴(yán)苛要求着撩;
  • 多云/混合云數(shù)據(jù)管理:自動(dòng)跨云和跨區(qū)域的數(shù)據(jù)復(fù)制诅福,確保數(shù)據(jù)隨計(jì)算遷移而自動(dòng)同步匾委,適合全球分布的計(jì)算需求;
  • 成本低:JuiceFS 通過(guò)其基于對(duì)象存儲(chǔ)的設(shè)計(jì)顯著降低了數(shù)據(jù)存儲(chǔ)成本氓润,使 MiniMax 能夠利用成本效益高的對(duì)象存儲(chǔ)剩檀。此外,JuiceFS 的簡(jiǎn)便運(yùn)維也有助于降低 MiniMax 的總體成本旺芽。

03 混合云架構(gòu)下沪猴,如何基于 JuiceFS 構(gòu)建統(tǒng)一的存儲(chǔ)系統(tǒng)?

最初采章,MiniMax 主要面臨頻繁的讀操作需求运嗜,而寫(xiě)操作相對(duì)較少。為此悯舟,公司采用了 JuiceFS 的分布式緩存功能担租,使用 NVMe 全閃存加速讀取操作。隨著數(shù)據(jù)處理需求和集群建設(shè)的擴(kuò)大抵怎,單個(gè)集群的能力已不足以滿(mǎn)足 MiniMax 的需求奋救。因此,MiniMax 基于 JuiceFS 構(gòu)建了一個(gè)中心化的元數(shù)據(jù)分發(fā)引擎和一個(gè)能進(jìn)行高速讀寫(xiě)操作的邊緣集群架構(gòu)反惕。

MiniMax 使用 JuiceFS 的鏡像文件系統(tǒng)功能尝艘,將中心集群的元數(shù)據(jù)自動(dòng)復(fù)制到各個(gè)邊緣集群。邊緣集群不存儲(chǔ)實(shí)際數(shù)據(jù)姿染,而是通過(guò)專(zhuān)線(xiàn)從中心集群預(yù)熱數(shù)據(jù)到 JuiceFS 的分布式緩存背亥,利用高性能的緩存集群提高讀帶寬并減少數(shù)據(jù)重復(fù)存儲(chǔ)。

此外悬赏,數(shù)據(jù)也可以按需下載到邊緣的 JuiceFS 集群狡汉,并由上層服務(wù)進(jìn)行生命周期管理。

基于這個(gè)統(tǒng)一存儲(chǔ)系統(tǒng)闽颇,MiniMax 建設(shè)了一張覆蓋全國(guó)的大型環(huán)網(wǎng)盾戴,并將部分城市作為核心接入點(diǎn)。同時(shí)兵多,在各 IDC 機(jī)房?jī)?nèi)近距離連接到這些接入點(diǎn)尖啡,以支持高效的數(shù)據(jù)分發(fā)。

“ JuiceFS 不僅提供了適應(yīng)我們混合云需求的存儲(chǔ)系統(tǒng)中鼠,還通過(guò)高性能元數(shù)據(jù)服務(wù)和多接口兼容性?xún)?yōu)化了數(shù)據(jù)處理流程可婶,顯著降低了運(yùn)維成本,是我們運(yùn)營(yíng)大模型平臺(tái)的理想選擇援雇∶剩”

—— 星龍,MiniMax 技術(shù)總監(jiān)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市具温,隨后出現(xiàn)的幾起案子蚕涤,更是在濱河造成了極大的恐慌,老刑警劉巖铣猩,帶你破解...
    沈念sama閱讀 219,366評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件揖铜,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡达皿,警方通過(guò)查閱死者的電腦和手機(jī)天吓,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,521評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)峦椰,“玉大人龄寞,你說(shuō)我怎么就攤上這事√拦Γ” “怎么了物邑?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,689評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)滔金。 經(jīng)常有香客問(wèn)我色解,道長(zhǎng),這世上最難降的妖魔是什么餐茵? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,925評(píng)論 1 295
  • 正文 為了忘掉前任科阎,我火速辦了婚禮,結(jié)果婚禮上钟病,老公的妹妹穿的比我還像新娘萧恕。我一直安慰自己刚梭,他們只是感情好肠阱,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,942評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著朴读,像睡著了一般屹徘。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上衅金,一...
    開(kāi)封第一講書(shū)人閱讀 51,727評(píng)論 1 305
  • 那天噪伊,我揣著相機(jī)與錄音,去河邊找鬼氮唯。 笑死鉴吹,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的惩琉。 我是一名探鬼主播豆励,決...
    沈念sama閱讀 40,447評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了良蒸?” 一聲冷哼從身側(cè)響起技扼,我...
    開(kāi)封第一講書(shū)人閱讀 39,349評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎嫩痰,沒(méi)想到半個(gè)月后剿吻,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,820評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡串纺,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,990評(píng)論 3 337
  • 正文 我和宋清朗相戀三年丽旅,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片纺棺。...
    茶點(diǎn)故事閱讀 40,127評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡魔招,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出五辽,到底是詐尸還是另有隱情办斑,我是刑警寧澤,帶...
    沈念sama閱讀 35,812評(píng)論 5 346
  • 正文 年R本政府宣布杆逗,位于F島的核電站乡翅,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏罪郊。R本人自食惡果不足惜蠕蚜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,471評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望悔橄。 院中可真熱鬧靶累,春花似錦、人聲如沸癣疟。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,017評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)睛挚。三九已至邪蛔,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間扎狱,已是汗流浹背侧到。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,142評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留淤击,地道東北人匠抗。 一個(gè)月前我還...
    沈念sama閱讀 48,388評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像污抬,于是被迫代替她去往敵國(guó)和親汞贸。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,066評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容