云棲實(shí)錄 | GenAI 時(shí)代 AI Infra 工程技術(shù)趨勢(shì)與平臺(tái)演進(jìn)

本文根據(jù)2024云棲大會(huì)實(shí)錄整理而成上枕,演講信息如下:

演講人:

林偉 | 阿里云智能集團(tuán)研究員、阿里云人工智能平臺(tái) PAI 負(fù)責(zé)人

黃博遠(yuǎn)|阿里云智能集團(tuán)資深產(chǎn)品專家奈虾、阿里云人工智能平臺(tái) PAI 產(chǎn)品負(fù)責(zé)人

活動(dòng):

2024 云棲大會(huì) - AI Infra 核心技術(shù)專場(chǎng)笙各、人工智能平臺(tái) PAI 年度發(fā)布專場(chǎng)

今年是大模型迅猛發(fā)展的一年,GenAI(生成式 AI)的應(yīng)用領(lǐng)域得到了前所未有的拓展敷矫。隨之而來(lái),技術(shù)挑戰(zhàn)也在升級(jí)汉额,硬件成本曹仗、資源管理、軟件硬件之間的配合問(wèn)題等都是大模型落地必須面對(duì)的難題蠕搜。為了應(yīng)對(duì)這些挑戰(zhàn)怎茫,阿里云人工智能平臺(tái) PAI 持續(xù)進(jìn)行技術(shù)創(chuàng)新與優(yōu)化。2024云棲大會(huì) AI Infra 核心技術(shù)專場(chǎng)妓灌、人工智能平臺(tái)年度發(fā)布專場(chǎng)轨蛤,PAI 團(tuán)隊(duì)帶來(lái)了對(duì) AI Infra 工程技術(shù)的趨勢(shì)解讀,以及 PAI 的全新能力發(fā)布虫埂。

一祥山、AI Infra 工程技術(shù)趨勢(shì)解讀

縱觀這一輪大模型熱潮,AI 工程化價(jià)值愈加凸顯掉伏。阿里云智能集團(tuán)研究員缝呕、阿里云人工智能平臺(tái) PAI 負(fù)責(zé)人林偉指出:“大模型對(duì)算力的苛求相當(dāng)高,已經(jīng)將硬件計(jì)算性能推到了極限斧散,高速網(wǎng)絡(luò)互聯(lián)的大規(guī)模 AI 集群高頻地出現(xiàn)硬件和軟件問(wèn)題供常,依賴系統(tǒng)層面整體的優(yōu)化能力〖瑁”結(jié)合阿里云人工智能平臺(tái) PAI 支撐阿里巴巴集團(tuán)和廣大云上客戶的經(jīng)驗(yàn)栈暇,林偉分享了以下幾點(diǎn)關(guān)鍵趨勢(shì)。

1. 大規(guī)模訓(xùn)練的穩(wěn)定性

超大規(guī)模訓(xùn)練任務(wù)錯(cuò)誤率是非常高的箍镜,錯(cuò)誤類型和成因定位也很復(fù)雜源祈。其中最麻煩的是 Grey-failure,它會(huì)拉低任務(wù)運(yùn)行速度但又不至于中斷任務(wù)鹿寨,因此捕捉這類錯(cuò)誤的難度很高新博。同時(shí),隨著模型尺寸變大脚草,故障恢復(fù)成本也隨之升高赫悄。

應(yīng)對(duì)穩(wěn)定性的挑戰(zhàn),PAI 主要做了兩件事。一方面埂淮,基于對(duì) PyTorch 框架和系統(tǒng)的理解姑隅,構(gòu)建了 AIMaster + 網(wǎng)絡(luò)診斷能力,探查集群中潛在的問(wèn)題并事先規(guī)避倔撞;另一方面讲仰,通過(guò) EasyCkpt 工具進(jìn)行分鐘級(jí)的異步 Checkpoint 保存和按需快照下發(fā),確保故障產(chǎn)生以后快速恢復(fù)任務(wù)痪蝇。

2. 大規(guī)模集群的自動(dòng)分布式訓(xùn)練

算法工程師天然地會(huì)去關(guān)注算法結(jié)構(gòu)創(chuàng)新鄙陡、訓(xùn)練方法、數(shù)據(jù)清洗躏啰、訓(xùn)練效果等等趁矾,但是對(duì)于分布式訓(xùn)練的環(huán)境怎么配置是不太熟悉的。在分布式訓(xùn)練方面给僵,PAI 也推出了相應(yīng)的工具毫捣。

針對(duì) Transformer 結(jié)構(gòu)模型,Pai-Megatron-Patch [1] 提供了以 Megatron-LM 為核心的開(kāi)發(fā)工具箱帝际,支持更簡(jiǎn)便的模型格式轉(zhuǎn)換蔓同,并提供熱門開(kāi)源基礎(chǔ)模型的使用實(shí)例,覆蓋預(yù)訓(xùn)練蹲诀、微調(diào)斑粱、評(píng)估、推理侧甫、強(qiáng)化學(xué)習(xí)全流程珊佣。

針對(duì)更廣泛的模型結(jié)構(gòu),PAI 自研的 TorchAcc 訓(xùn)練引擎披粟,通過(guò)算子融合咒锻、通信優(yōu)化、顯存優(yōu)化守屉、自動(dòng)分布式等技術(shù)惑艇,能實(shí)現(xiàn)分布式訓(xùn)練的高度優(yōu)化和自動(dòng)化。TorchAcc 基于 Torch/XLA 框架進(jìn)行優(yōu)化和產(chǎn)品化拇泛,在2023年 OpenXLA 舉辦的技術(shù)峰會(huì)中可以詳細(xì)了解 TorchAcc 的相關(guān)工作 [2]滨巴。TorchAcc 即將正式接入 ModelScope 魔搭社區(qū),方便更多模型開(kāi)發(fā)者無(wú)縫地調(diào)用俺叭。

3. 強(qiáng)化學(xué)習(xí)

ChatGPT 獲得重大突破的一個(gè)重要原因就是增加了 RLHF 強(qiáng)化學(xué)習(xí)恭取,讓模型能力更好地對(duì)齊人類認(rèn)知。不過(guò)熄守,強(qiáng)化學(xué)習(xí)的過(guò)程會(huì)給分布式訓(xùn)練工程帶來(lái)更大的挑戰(zhàn)蜈垮,因?yàn)檫€需要額外去訓(xùn)練一個(gè)模型結(jié)構(gòu)耗跛、參數(shù)規(guī)模對(duì)等的 Reward Model,這樣整體訓(xùn)練存儲(chǔ)和分布式計(jì)算的消耗會(huì)更大攒发。

PAI 構(gòu)建了一個(gè)新的 Alignment 訓(xùn)練框架 ChatLearn调塌,它能高效地支撐 SFT、RM惠猿、RLHF/DPO/Online DPO/GRPO 等各類 Alignment 方法全流程訓(xùn)練羔砾,例如在 Qwen2-72B 模型 Online DPO 訓(xùn)練、Qwen2-Math-Instruct GRPO 訓(xùn)練過(guò)程中偶妖,背后都運(yùn)用到了 ChatLearn姜凄。ChatLearn 框架已經(jīng)在今年8月正式開(kāi)源 [3]

4. 推理服務(wù)優(yōu)化

最近很多大模型服務(wù)都在降價(jià)餐屎,降價(jià)背后需要極致的優(yōu)化調(diào)度去支撐檀葛,只有計(jì)算資源得到充分利用、成本下降了腹缩,才能夠讓模型能力真正普惠。這也是 AI 工程化的使命之一空扎。

我們主要的工作是推出了 PAI-BladeLLM藏鹊,綜合工程層面和模型層面不同的優(yōu)化策略去做推理優(yōu)化。

模型層面最重要的就是做量化壓縮转锈,PAI-BladeLLM 通過(guò)自動(dòng)混合量化盘寡、逐層選擇精度最佳的算法策略,在推理時(shí)動(dòng)態(tài)選擇最優(yōu)計(jì)算模式撮慨,取得推理精度和速度的最佳平衡竿痰。

工程層面,PAI-BladeLLM 基于多層次分布式架構(gòu)和調(diào)度機(jī)制砌溺,進(jìn)行 Runtime 優(yōu)化影涉,充分提升集群部署性能,其中最核心的調(diào)度優(yōu)化引擎 Llumnix 的研究論文也被系統(tǒng)頂會(huì) OSDI 2024 收錄 [4]规伐。

5. 大數(shù)據(jù)平臺(tái)和 AI 平臺(tái)緊密結(jié)合

即便擁有好的基礎(chǔ)模型蟹倾、低成本的 AI 計(jì)算,缺少應(yīng)用場(chǎng)景也還是無(wú)源之水猖闪。過(guò)去一年鲜棠,Github 上模型應(yīng)用框架的熱度持續(xù)攀升,像 LlamaIndex培慌、LangChain豁陆、Prompt flow。其實(shí)模型應(yīng)用同樣會(huì)面對(duì)很多工程上的挑戰(zhàn)吵护。例如 RAG 的場(chǎng)景盒音,從文檔向量化到最終返回結(jié)果整個(gè)鏈路是很長(zhǎng)的表鳍,開(kāi)發(fā)人員需要處理不同格式的文檔,同時(shí)不斷地有新文檔產(chǎn)生里逆、舊文檔訂正进胯,最理想的狀態(tài)是可以實(shí)時(shí)更新。這些需求其實(shí)和我們?cè)诖髷?shù)據(jù)平臺(tái)里遇到的情況是類似的原押。數(shù)據(jù)的處理清洗胁镐、數(shù)據(jù)質(zhì)量的評(píng)估反饋、以及實(shí)時(shí)數(shù)據(jù)更新和發(fā)布诸衔,這些大數(shù)據(jù)平臺(tái)成熟的能力盯漂,和 AI 應(yīng)用的開(kāi)發(fā)工作只有更加緊密地結(jié)合起來(lái),才能推動(dòng)大模型應(yīng)用更加高效的落地笨农。

6. 企業(yè)化能力

越來(lái)越多企業(yè)客戶在云上微調(diào)和使用大模型就缆,模型和數(shù)據(jù)安全的問(wèn)題受到更多關(guān)注。在數(shù)據(jù)安全方面谒亦,PAI在模型訓(xùn)練竭宰、模型微調(diào)、模型推理等關(guān)鍵環(huán)節(jié)都提供數(shù)據(jù)合規(guī)和安全防護(hù)能力份招。在硬件層面切揭,我們也和阿里云基礎(chǔ)軟件團(tuán)隊(duì)、龍蜥社區(qū)合作锁摔,推出了覆蓋硬件到軟件層整體的 Confidential AI 機(jī)密計(jì)算方案廓旬。

林偉指出:“從最初服務(wù)阿里巴巴集團(tuán)內(nèi)部,到今天支撐中國(guó)超過(guò)半數(shù)以上大模型的訓(xùn)練和服務(wù)谐腰,人工智能平臺(tái) PAI 歷經(jīng)將近10年的發(fā)展孕豹,也積累了大量的核心技術(shù),包含調(diào)度十气、編譯励背、分布式、Runtime桦踊、場(chǎng)景應(yīng)用等方面椅野。”

PAI Prime 是 PAI 提供的覆蓋 AI Infra 和應(yīng)用全場(chǎng)景的工程優(yōu)化技術(shù)棧籍胯,致力于提高 AI 訓(xùn)練推理的速度竟闪、穩(wěn)定性和易用性,并且推動(dòng) AI 更好地應(yīng)用落地杖狼。

二炼蛤、人工智能平臺(tái) PAI 產(chǎn)品年度發(fā)布

阿里云智能集團(tuán)資深產(chǎn)品專家、阿里云人工智能平臺(tái) PAI 產(chǎn)品負(fù)責(zé)人黃博遠(yuǎn)帶來(lái)了人工智能平臺(tái) PAI 在模型推理蝶涩、訓(xùn)練理朋、開(kāi)發(fā)絮识、安全可信等多個(gè)方面的重磅發(fā)布。


1. 面向 GenAI 時(shí)代的推理服務(wù)

順應(yīng) GenAI 應(yīng)用爆發(fā)帶來(lái)的模型推理新特點(diǎn)嗽上,人工智能平臺(tái) PAI 全面升級(jí) PAI-EAS 推理服務(wù)模塊次舌。PAI 內(nèi)置推理優(yōu)化引擎 BladeLLM,綜合 BlaDNN 高性能算子兽愤、量化彼念、 PD 分離的分布式推理、Prompt cache 緩存優(yōu)化等技術(shù)浅萧,能有效降低首包時(shí)延 (TTFT) 60%以上逐沙、降低 token 輸出時(shí)延 (TPOT) 70%以上、提升推理吞吐80%以上洼畅。

結(jié)合 LLM 推理負(fù)載感知智能路由和專屬網(wǎng)關(guān)吩案,PAI-EAS 能根據(jù)實(shí)時(shí)業(yè)務(wù)負(fù)載和資源類型靈活調(diào)度,將推理任務(wù)動(dòng)態(tài)分發(fā)至遍布全球的推理集群進(jìn)行計(jì)算帝簇。

目前徘郭,PAI-EAS 模型在線服務(wù)平臺(tái)在全球范圍內(nèi)16個(gè) Region 提供服務(wù),集群規(guī)模超過(guò)10萬(wàn)卡量級(jí)丧肴,能提供更加貼近終端用戶的計(jì)算服務(wù)崎岂。

2. 穩(wěn)定高效的云上 AI 訓(xùn)練服務(wù)

在模型訓(xùn)練方面,人工智能平臺(tái) PAI 重點(diǎn)增強(qiáng)了集群調(diào)度優(yōu)化的能力闪湾,保障訓(xùn)練任務(wù)的性能和穩(wěn)定性。

為了進(jìn)一步提高計(jì)算資源利用率绩卤,PAI 正式發(fā)布 AI Scheduler 訓(xùn)推一體調(diào)度引擎途样,具備異構(gòu)算力混合調(diào)度、多級(jí) Quota 管理濒憋、任務(wù)形態(tài)混合調(diào)度何暇、任務(wù)無(wú)感切換等能力,可保障集群任務(wù)滿載凛驮,提升利用率裆站。

針對(duì)時(shí)延不敏感的訓(xùn)練任務(wù)和探索期業(yè)務(wù),PAI 訓(xùn)練服務(wù)全新推出競(jìng)價(jià)任務(wù)模式黔夭,提供任務(wù)級(jí)別的高可用宏胯、高性價(jià)比算力,結(jié)合 PAI 平臺(tái)的自動(dòng)容錯(cuò)和狀態(tài)恢復(fù)能力本姥,兼顧性價(jià)比和穩(wěn)定性肩袍。

在訓(xùn)練穩(wěn)定性方面,推出全維度監(jiān)控婚惫、主動(dòng)偵測(cè)氛赐、自動(dòng)容錯(cuò)全方位的支撐魂爪。

3. 大數(shù)據(jù) AI 一體、自帶最佳實(shí)踐的 AI 開(kāi)發(fā)平臺(tái)

數(shù)據(jù)是 AI 的基石艰管。尤其當(dāng)大模型能力從研究走向產(chǎn)業(yè)落地滓侍,數(shù)據(jù)質(zhì)量影響模型和應(yīng)用效果,數(shù)據(jù)價(jià)值更加受到關(guān)注牲芋。PAI 構(gòu)建了 AI 數(shù)據(jù)資產(chǎn)全鏈路增加的數(shù)據(jù)服務(wù)體系撩笆,具備全生命周期數(shù)據(jù)管理、多模態(tài)數(shù)據(jù)清洗街图、多模態(tài)數(shù)據(jù)分析浇衬、智能化數(shù)據(jù)標(biāo)注和增強(qiáng)等能力,并提供全局的模型和數(shù)據(jù)血緣追溯能力餐济。

PAI 平臺(tái)持續(xù)積累和更新各種應(yīng)用場(chǎng)景的最佳實(shí)踐耘擂,并通過(guò)模型、Notebook絮姆、Pipeline工作流等不同的載體開(kāi)放醉冤,供開(kāi)發(fā)者快速調(diào)用。

為了進(jìn)一步降低 AI 開(kāi)發(fā)門檻篙悯,PAI 推出了 QuickStart 和 ArtLab 平臺(tái)蚁阳,分別面向 LLMOps 場(chǎng)景和 AIGC 開(kāi)發(fā)場(chǎng)景提供低代碼化的工具鏈。

4. 全新發(fā)布可信 AI 系列能力

大模型能力不斷進(jìn)化鸽照,也引發(fā)了對(duì)于模型安全的擔(dān)憂螺捐。人工智能平臺(tái) PAI 推出可信 AI 模塊,具備毒性數(shù)據(jù)清洗矮燎、算法公平性/錯(cuò)誤性識(shí)別定血、機(jī)密計(jì)算容器、不當(dāng)推理內(nèi)容攔截等功能诞外,保障模型和數(shù)據(jù)安全澜沟。

5. 全方位升級(jí)企業(yè)級(jí)能力

面向企業(yè)級(jí)客戶,PAI 平臺(tái)提供全方位的企業(yè)級(jí)能力峡谊,能高效解決企業(yè)內(nèi)部 AI 計(jì)算資源茫虽、開(kāi)發(fā)人員、權(quán)限既们、AI 資產(chǎn)之間的關(guān)系濒析,創(chuàng)建生產(chǎn)級(jí)的高質(zhì)量模型及應(yīng)用。

黃博遠(yuǎn)指出贤壁,“人工智能平臺(tái) PAI 是面向企業(yè)客戶及開(kāi)發(fā)者的一站式模型開(kāi)發(fā)平臺(tái)悼枢,無(wú)縫連接云上模型訓(xùn)練服務(wù)及模型推理服務(wù)。在上層通過(guò)模型開(kāi)發(fā)和構(gòu)建的平臺(tái)連接了開(kāi)發(fā)者們和底層云上的資源脾拆,高效使用云上昂貴 GPU 資源馒索。PAI 平臺(tái)持續(xù)進(jìn)化迭代莹妒,為云上 AI 創(chuàng)新提供堅(jiān)實(shí)保障,希望企業(yè)和開(kāi)發(fā)者能以最低的成本做 AI绰上、用 AI旨怠,讓所有人都能用上最先進(jìn)的大模型◎诳椋”

注釋:

[1] PAI-Megatron-Patch

項(xiàng)目開(kāi)源地址:https://github.com/alibaba/Pai-Megatron-Patch

GTC 2024 大會(huì)分享:https://www.nvidia.cn/on-demand/session/gtc24-se63222/

[2] TorchAcc: A TorchXLA enabled Distributed Training Framework

https://www.youtube.com/watch?v=4ng1ql1sPPs

[3]ChatLearn

項(xiàng)目開(kāi)源地址:https://github.com/alibaba/ChatLearn

[4] Llumnix: Dynamic Scheduling for Large Language Model Serving

論文地址:https://www.usenix.org/conference/osdi24/presentation/sun-biao

項(xiàng)目開(kāi)源地址:https://github.com/AlibabaPAI/llumnix

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末鉴腻,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子百揭,更是在濱河造成了極大的恐慌爽哎,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,968評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件器一,死亡現(xiàn)場(chǎng)離奇詭異课锌,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)祈秕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門渺贤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人请毛,你說(shuō)我怎么就攤上這事志鞍。” “怎么了方仿?”我有些...
    開(kāi)封第一講書人閱讀 153,220評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵固棚,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我仙蚜,道長(zhǎng)玻孟,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 55,416評(píng)論 1 279
  • 正文 為了忘掉前任鳍征,我火速辦了婚禮,結(jié)果婚禮上面徽,老公的妹妹穿的比我還像新娘艳丛。我一直安慰自己,他們只是感情好趟紊,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布氮双。 她就那樣靜靜地躺著,像睡著了一般霎匈。 火紅的嫁衣襯著肌膚如雪戴差。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 49,144評(píng)論 1 285
  • 那天铛嘱,我揣著相機(jī)與錄音暖释,去河邊找鬼袭厂。 笑死,一個(gè)胖子當(dāng)著我的面吹牛球匕,可吹牛的內(nèi)容都是我干的纹磺。 我是一名探鬼主播,決...
    沈念sama閱讀 38,432評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼亮曹,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼橄杨!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起照卦,我...
    開(kāi)封第一講書人閱讀 37,088評(píng)論 0 261
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤式矫,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后役耕,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體采转,經(jīng)...
    沈念sama閱讀 43,586評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評(píng)論 2 325
  • 正文 我和宋清朗相戀三年蹄葱,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了氏义。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,137評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡图云,死狀恐怖惯悠,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情竣况,我是刑警寧澤克婶,帶...
    沈念sama閱讀 33,783評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站丹泉,受9級(jí)特大地震影響情萤,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜摹恨,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評(píng)論 3 307
  • 文/蒙蒙 一筋岛、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧晒哄,春花似錦睁宰、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,333評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至较木,卻和暖如春红符,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,559評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工预侯, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留致开,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,595評(píng)論 2 355
  • 正文 我出身青樓雌桑,卻偏偏與公主長(zhǎng)得像喇喉,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子校坑,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容