本文根據(jù)2024云棲大會(huì)實(shí)錄整理而成上枕,演講信息如下:
演講人:
林偉 | 阿里云智能集團(tuán)研究員、阿里云人工智能平臺(tái) PAI 負(fù)責(zé)人
黃博遠(yuǎn)|阿里云智能集團(tuán)資深產(chǎn)品專家奈虾、阿里云人工智能平臺(tái) PAI 產(chǎn)品負(fù)責(zé)人
活動(dòng):
2024 云棲大會(huì) - AI Infra 核心技術(shù)專場(chǎng)笙各、人工智能平臺(tái) PAI 年度發(fā)布專場(chǎng)
今年是大模型迅猛發(fā)展的一年,GenAI(生成式 AI)的應(yīng)用領(lǐng)域得到了前所未有的拓展敷矫。隨之而來(lái),技術(shù)挑戰(zhàn)也在升級(jí)汉额,硬件成本曹仗、資源管理、軟件硬件之間的配合問(wèn)題等都是大模型落地必須面對(duì)的難題蠕搜。為了應(yīng)對(duì)這些挑戰(zhàn)怎茫,阿里云人工智能平臺(tái) PAI 持續(xù)進(jìn)行技術(shù)創(chuàng)新與優(yōu)化。2024云棲大會(huì) AI Infra 核心技術(shù)專場(chǎng)妓灌、人工智能平臺(tái)年度發(fā)布專場(chǎng)轨蛤,PAI 團(tuán)隊(duì)帶來(lái)了對(duì) AI Infra 工程技術(shù)的趨勢(shì)解讀,以及 PAI 的全新能力發(fā)布虫埂。
一祥山、AI Infra 工程技術(shù)趨勢(shì)解讀
縱觀這一輪大模型熱潮,AI 工程化價(jià)值愈加凸顯掉伏。阿里云智能集團(tuán)研究員缝呕、阿里云人工智能平臺(tái) PAI 負(fù)責(zé)人林偉指出:“大模型對(duì)算力的苛求相當(dāng)高,已經(jīng)將硬件計(jì)算性能推到了極限斧散,高速網(wǎng)絡(luò)互聯(lián)的大規(guī)模 AI 集群高頻地出現(xiàn)硬件和軟件問(wèn)題供常,依賴系統(tǒng)層面整體的優(yōu)化能力〖瑁”結(jié)合阿里云人工智能平臺(tái) PAI 支撐阿里巴巴集團(tuán)和廣大云上客戶的經(jīng)驗(yàn)栈暇,林偉分享了以下幾點(diǎn)關(guān)鍵趨勢(shì)。
1. 大規(guī)模訓(xùn)練的穩(wěn)定性
超大規(guī)模訓(xùn)練任務(wù)錯(cuò)誤率是非常高的箍镜,錯(cuò)誤類型和成因定位也很復(fù)雜源祈。其中最麻煩的是 Grey-failure,它會(huì)拉低任務(wù)運(yùn)行速度但又不至于中斷任務(wù)鹿寨,因此捕捉這類錯(cuò)誤的難度很高新博。同時(shí),隨著模型尺寸變大脚草,故障恢復(fù)成本也隨之升高赫悄。
應(yīng)對(duì)穩(wěn)定性的挑戰(zhàn),PAI 主要做了兩件事。一方面埂淮,基于對(duì) PyTorch 框架和系統(tǒng)的理解姑隅,構(gòu)建了 AIMaster + 網(wǎng)絡(luò)診斷能力,探查集群中潛在的問(wèn)題并事先規(guī)避倔撞;另一方面讲仰,通過(guò) EasyCkpt 工具進(jìn)行分鐘級(jí)的異步 Checkpoint 保存和按需快照下發(fā),確保故障產(chǎn)生以后快速恢復(fù)任務(wù)痪蝇。
2. 大規(guī)模集群的自動(dòng)分布式訓(xùn)練
算法工程師天然地會(huì)去關(guān)注算法結(jié)構(gòu)創(chuàng)新鄙陡、訓(xùn)練方法、數(shù)據(jù)清洗躏啰、訓(xùn)練效果等等趁矾,但是對(duì)于分布式訓(xùn)練的環(huán)境怎么配置是不太熟悉的。在分布式訓(xùn)練方面给僵,PAI 也推出了相應(yīng)的工具毫捣。
針對(duì) Transformer 結(jié)構(gòu)模型,Pai-Megatron-Patch [1] 提供了以 Megatron-LM 為核心的開(kāi)發(fā)工具箱帝际,支持更簡(jiǎn)便的模型格式轉(zhuǎn)換蔓同,并提供熱門開(kāi)源基礎(chǔ)模型的使用實(shí)例,覆蓋預(yù)訓(xùn)練蹲诀、微調(diào)斑粱、評(píng)估、推理侧甫、強(qiáng)化學(xué)習(xí)全流程珊佣。
針對(duì)更廣泛的模型結(jié)構(gòu),PAI 自研的 TorchAcc 訓(xùn)練引擎披粟,通過(guò)算子融合咒锻、通信優(yōu)化、顯存優(yōu)化守屉、自動(dòng)分布式等技術(shù)惑艇,能實(shí)現(xiàn)分布式訓(xùn)練的高度優(yōu)化和自動(dòng)化。TorchAcc 基于 Torch/XLA 框架進(jìn)行優(yōu)化和產(chǎn)品化拇泛,在2023年 OpenXLA 舉辦的技術(shù)峰會(huì)中可以詳細(xì)了解 TorchAcc 的相關(guān)工作 [2]滨巴。TorchAcc 即將正式接入 ModelScope 魔搭社區(qū),方便更多模型開(kāi)發(fā)者無(wú)縫地調(diào)用俺叭。
3. 強(qiáng)化學(xué)習(xí)
ChatGPT 獲得重大突破的一個(gè)重要原因就是增加了 RLHF 強(qiáng)化學(xué)習(xí)恭取,讓模型能力更好地對(duì)齊人類認(rèn)知。不過(guò)熄守,強(qiáng)化學(xué)習(xí)的過(guò)程會(huì)給分布式訓(xùn)練工程帶來(lái)更大的挑戰(zhàn)蜈垮,因?yàn)檫€需要額外去訓(xùn)練一個(gè)模型結(jié)構(gòu)耗跛、參數(shù)規(guī)模對(duì)等的 Reward Model,這樣整體訓(xùn)練存儲(chǔ)和分布式計(jì)算的消耗會(huì)更大攒发。
PAI 構(gòu)建了一個(gè)新的 Alignment 訓(xùn)練框架 ChatLearn调塌,它能高效地支撐 SFT、RM惠猿、RLHF/DPO/Online DPO/GRPO 等各類 Alignment 方法全流程訓(xùn)練羔砾,例如在 Qwen2-72B 模型 Online DPO 訓(xùn)練、Qwen2-Math-Instruct GRPO 訓(xùn)練過(guò)程中偶妖,背后都運(yùn)用到了 ChatLearn姜凄。ChatLearn 框架已經(jīng)在今年8月正式開(kāi)源 [3]。
4. 推理服務(wù)優(yōu)化
最近很多大模型服務(wù)都在降價(jià)餐屎,降價(jià)背后需要極致的優(yōu)化調(diào)度去支撐檀葛,只有計(jì)算資源得到充分利用、成本下降了腹缩,才能夠讓模型能力真正普惠。這也是 AI 工程化的使命之一空扎。
我們主要的工作是推出了 PAI-BladeLLM藏鹊,綜合工程層面和模型層面不同的優(yōu)化策略去做推理優(yōu)化。
模型層面最重要的就是做量化壓縮转锈,PAI-BladeLLM 通過(guò)自動(dòng)混合量化盘寡、逐層選擇精度最佳的算法策略,在推理時(shí)動(dòng)態(tài)選擇最優(yōu)計(jì)算模式撮慨,取得推理精度和速度的最佳平衡竿痰。
工程層面,PAI-BladeLLM 基于多層次分布式架構(gòu)和調(diào)度機(jī)制砌溺,進(jìn)行 Runtime 優(yōu)化影涉,充分提升集群部署性能,其中最核心的調(diào)度優(yōu)化引擎 Llumnix 的研究論文也被系統(tǒng)頂會(huì) OSDI 2024 收錄 [4]规伐。
5. 大數(shù)據(jù)平臺(tái)和 AI 平臺(tái)緊密結(jié)合
即便擁有好的基礎(chǔ)模型蟹倾、低成本的 AI 計(jì)算,缺少應(yīng)用場(chǎng)景也還是無(wú)源之水猖闪。過(guò)去一年鲜棠,Github 上模型應(yīng)用框架的熱度持續(xù)攀升,像 LlamaIndex培慌、LangChain豁陆、Prompt flow。其實(shí)模型應(yīng)用同樣會(huì)面對(duì)很多工程上的挑戰(zhàn)吵护。例如 RAG 的場(chǎng)景盒音,從文檔向量化到最終返回結(jié)果整個(gè)鏈路是很長(zhǎng)的表鳍,開(kāi)發(fā)人員需要處理不同格式的文檔,同時(shí)不斷地有新文檔產(chǎn)生里逆、舊文檔訂正进胯,最理想的狀態(tài)是可以實(shí)時(shí)更新。這些需求其實(shí)和我們?cè)诖髷?shù)據(jù)平臺(tái)里遇到的情況是類似的原押。數(shù)據(jù)的處理清洗胁镐、數(shù)據(jù)質(zhì)量的評(píng)估反饋、以及實(shí)時(shí)數(shù)據(jù)更新和發(fā)布诸衔,這些大數(shù)據(jù)平臺(tái)成熟的能力盯漂,和 AI 應(yīng)用的開(kāi)發(fā)工作只有更加緊密地結(jié)合起來(lái),才能推動(dòng)大模型應(yīng)用更加高效的落地笨农。
6. 企業(yè)化能力
越來(lái)越多企業(yè)客戶在云上微調(diào)和使用大模型就缆,模型和數(shù)據(jù)安全的問(wèn)題受到更多關(guān)注。在數(shù)據(jù)安全方面谒亦,PAI在模型訓(xùn)練竭宰、模型微調(diào)、模型推理等關(guān)鍵環(huán)節(jié)都提供數(shù)據(jù)合規(guī)和安全防護(hù)能力份招。在硬件層面切揭,我們也和阿里云基礎(chǔ)軟件團(tuán)隊(duì)、龍蜥社區(qū)合作锁摔,推出了覆蓋硬件到軟件層整體的 Confidential AI 機(jī)密計(jì)算方案廓旬。
林偉指出:“從最初服務(wù)阿里巴巴集團(tuán)內(nèi)部,到今天支撐中國(guó)超過(guò)半數(shù)以上大模型的訓(xùn)練和服務(wù)谐腰,人工智能平臺(tái) PAI 歷經(jīng)將近10年的發(fā)展孕豹,也積累了大量的核心技術(shù),包含調(diào)度十气、編譯励背、分布式、Runtime桦踊、場(chǎng)景應(yīng)用等方面椅野。”
PAI Prime 是 PAI 提供的覆蓋 AI Infra 和應(yīng)用全場(chǎng)景的工程優(yōu)化技術(shù)棧籍胯,致力于提高 AI 訓(xùn)練推理的速度竟闪、穩(wěn)定性和易用性,并且推動(dòng) AI 更好地應(yīng)用落地杖狼。
二炼蛤、人工智能平臺(tái) PAI 產(chǎn)品年度發(fā)布
阿里云智能集團(tuán)資深產(chǎn)品專家、阿里云人工智能平臺(tái) PAI 產(chǎn)品負(fù)責(zé)人黃博遠(yuǎn)帶來(lái)了人工智能平臺(tái) PAI 在模型推理蝶涩、訓(xùn)練理朋、開(kāi)發(fā)絮识、安全可信等多個(gè)方面的重磅發(fā)布。
1. 面向 GenAI 時(shí)代的推理服務(wù)
順應(yīng) GenAI 應(yīng)用爆發(fā)帶來(lái)的模型推理新特點(diǎn)嗽上,人工智能平臺(tái) PAI 全面升級(jí) PAI-EAS 推理服務(wù)模塊次舌。PAI 內(nèi)置推理優(yōu)化引擎 BladeLLM,綜合 BlaDNN 高性能算子兽愤、量化彼念、 PD 分離的分布式推理、Prompt cache 緩存優(yōu)化等技術(shù)浅萧,能有效降低首包時(shí)延 (TTFT) 60%以上逐沙、降低 token 輸出時(shí)延 (TPOT) 70%以上、提升推理吞吐80%以上洼畅。
結(jié)合 LLM 推理負(fù)載感知智能路由和專屬網(wǎng)關(guān)吩案,PAI-EAS 能根據(jù)實(shí)時(shí)業(yè)務(wù)負(fù)載和資源類型靈活調(diào)度,將推理任務(wù)動(dòng)態(tài)分發(fā)至遍布全球的推理集群進(jìn)行計(jì)算帝簇。
目前徘郭,PAI-EAS 模型在線服務(wù)平臺(tái)在全球范圍內(nèi)16個(gè) Region 提供服務(wù),集群規(guī)模超過(guò)10萬(wàn)卡量級(jí)丧肴,能提供更加貼近終端用戶的計(jì)算服務(wù)崎岂。
2. 穩(wěn)定高效的云上 AI 訓(xùn)練服務(wù)
在模型訓(xùn)練方面,人工智能平臺(tái) PAI 重點(diǎn)增強(qiáng)了集群調(diào)度優(yōu)化的能力闪湾,保障訓(xùn)練任務(wù)的性能和穩(wěn)定性。
為了進(jìn)一步提高計(jì)算資源利用率绩卤,PAI 正式發(fā)布 AI Scheduler 訓(xùn)推一體調(diào)度引擎途样,具備異構(gòu)算力混合調(diào)度、多級(jí) Quota 管理濒憋、任務(wù)形態(tài)混合調(diào)度何暇、任務(wù)無(wú)感切換等能力,可保障集群任務(wù)滿載凛驮,提升利用率裆站。
針對(duì)時(shí)延不敏感的訓(xùn)練任務(wù)和探索期業(yè)務(wù),PAI 訓(xùn)練服務(wù)全新推出競(jìng)價(jià)任務(wù)模式黔夭,提供任務(wù)級(jí)別的高可用宏胯、高性價(jià)比算力,結(jié)合 PAI 平臺(tái)的自動(dòng)容錯(cuò)和狀態(tài)恢復(fù)能力本姥,兼顧性價(jià)比和穩(wěn)定性肩袍。
在訓(xùn)練穩(wěn)定性方面,推出全維度監(jiān)控婚惫、主動(dòng)偵測(cè)氛赐、自動(dòng)容錯(cuò)全方位的支撐魂爪。
3. 大數(shù)據(jù) AI 一體、自帶最佳實(shí)踐的 AI 開(kāi)發(fā)平臺(tái)
數(shù)據(jù)是 AI 的基石艰管。尤其當(dāng)大模型能力從研究走向產(chǎn)業(yè)落地滓侍,數(shù)據(jù)質(zhì)量影響模型和應(yīng)用效果,數(shù)據(jù)價(jià)值更加受到關(guān)注牲芋。PAI 構(gòu)建了 AI 數(shù)據(jù)資產(chǎn)全鏈路增加的數(shù)據(jù)服務(wù)體系撩笆,具備全生命周期數(shù)據(jù)管理、多模態(tài)數(shù)據(jù)清洗街图、多模態(tài)數(shù)據(jù)分析浇衬、智能化數(shù)據(jù)標(biāo)注和增強(qiáng)等能力,并提供全局的模型和數(shù)據(jù)血緣追溯能力餐济。
PAI 平臺(tái)持續(xù)積累和更新各種應(yīng)用場(chǎng)景的最佳實(shí)踐耘擂,并通過(guò)模型、Notebook絮姆、Pipeline工作流等不同的載體開(kāi)放醉冤,供開(kāi)發(fā)者快速調(diào)用。
為了進(jìn)一步降低 AI 開(kāi)發(fā)門檻篙悯,PAI 推出了 QuickStart 和 ArtLab 平臺(tái)蚁阳,分別面向 LLMOps 場(chǎng)景和 AIGC 開(kāi)發(fā)場(chǎng)景提供低代碼化的工具鏈。
4. 全新發(fā)布可信 AI 系列能力
大模型能力不斷進(jìn)化鸽照,也引發(fā)了對(duì)于模型安全的擔(dān)憂螺捐。人工智能平臺(tái) PAI 推出可信 AI 模塊,具備毒性數(shù)據(jù)清洗矮燎、算法公平性/錯(cuò)誤性識(shí)別定血、機(jī)密計(jì)算容器、不當(dāng)推理內(nèi)容攔截等功能诞外,保障模型和數(shù)據(jù)安全澜沟。
5. 全方位升級(jí)企業(yè)級(jí)能力
面向企業(yè)級(jí)客戶,PAI 平臺(tái)提供全方位的企業(yè)級(jí)能力峡谊,能高效解決企業(yè)內(nèi)部 AI 計(jì)算資源茫虽、開(kāi)發(fā)人員、權(quán)限既们、AI 資產(chǎn)之間的關(guān)系濒析,創(chuàng)建生產(chǎn)級(jí)的高質(zhì)量模型及應(yīng)用。
黃博遠(yuǎn)指出贤壁,“人工智能平臺(tái) PAI 是面向企業(yè)客戶及開(kāi)發(fā)者的一站式模型開(kāi)發(fā)平臺(tái)悼枢,無(wú)縫連接云上模型訓(xùn)練服務(wù)及模型推理服務(wù)。在上層通過(guò)模型開(kāi)發(fā)和構(gòu)建的平臺(tái)連接了開(kāi)發(fā)者們和底層云上的資源脾拆,高效使用云上昂貴 GPU 資源馒索。PAI 平臺(tái)持續(xù)進(jìn)化迭代莹妒,為云上 AI 創(chuàng)新提供堅(jiān)實(shí)保障,希望企業(yè)和開(kāi)發(fā)者能以最低的成本做 AI绰上、用 AI旨怠,讓所有人都能用上最先進(jìn)的大模型◎诳椋”
注釋:
[1] PAI-Megatron-Patch
項(xiàng)目開(kāi)源地址:https://github.com/alibaba/Pai-Megatron-Patch
GTC 2024 大會(huì)分享:https://www.nvidia.cn/on-demand/session/gtc24-se63222/
[2] TorchAcc: A TorchXLA enabled Distributed Training Framework
https://www.youtube.com/watch?v=4ng1ql1sPPs
[3]ChatLearn
項(xiàng)目開(kāi)源地址:https://github.com/alibaba/ChatLearn
[4] Llumnix: Dynamic Scheduling for Large Language Model Serving
論文地址:https://www.usenix.org/conference/osdi24/presentation/sun-biao
項(xiàng)目開(kāi)源地址:https://github.com/AlibabaPAI/llumnix