機(jī)制
- Transformer相關(guān)——(7)Mask機(jī)制
- LLM中的Causal Mask就是Sequence Mask:LLM - Make Causal Mask 構(gòu)造因果關(guān)系掩碼
- Transformer升級(jí)之路:2、博采眾長(zhǎng)的旋轉(zhuǎn)式位置編碼
- NLP學(xué)習(xí)筆記15---Dropout凿歼、attention機(jī)制
訓(xùn)練
異構(gòu)模型/數(shù)據(jù)并行:
- DistTrain: Addressing Model and Data Heterogeneity with Disaggregated Training for Multimodal Large Language Models:北大-異構(gòu)模型和數(shù)據(jù)的分離訓(xùn)練框架
- DISTMM
訓(xùn)推混部:
- DiffusionPipe:優(yōu)先
- GraphPipe: Improving Performance and Scalability of DNN Training with Graph Pipeline Parallelism
- Chimera: Efficiently Training Large-Scale Neural Networks with Bidirectional Pipelines (arxiv.org):雙向PP
長(zhǎng)序列:
MoE:
- FasterMoE:影子專(zhuān)家(訓(xùn)練時(shí)在線實(shí)時(shí)計(jì)算影子專(zhuān)家的收益,進(jìn)行專(zhuān)家參數(shù)拷貝敬飒,減少跨設(shè)備Token傳輸)、細(xì)粒度調(diào)度(拆分All2All和計(jì)算,通信和計(jì)算部分掩蓋)
- SMARTMoE:動(dòng)態(tài)專(zhuān)家調(diào)度(離線構(gòu)建僅專(zhuān)家放置可變的并行策略池矗积,在線基于歷史專(zhuān)家熱度預(yù)測(cè)后續(xù)幾百步熱度蔓倍,根據(jù)預(yù)測(cè)結(jié)果搜索更優(yōu)的專(zhuān)家放置策略悬钳,評(píng)估收益,進(jìn)行專(zhuān)家遷移調(diào)度)
重計(jì)算
- 重計(jì)算:大 Batch 訓(xùn)練特性-Document-PaddlePaddle Deep Learning Platform
- 通過(guò)重計(jì)算節(jié)省顯存(Recomputation) — MegEngine 1.6 文檔
微調(diào)
OpenAI O1帶火了基于RLHF和思維鏈(COT)的微調(diào)/后訓(xùn)練方式默勾。
- openr/reports/OpenR-Wang.pdf at main · openreasoner/openr · GitHub
- GitHub - GAIR-NLP/O1-Journey: O1 Replication Journey: A Strategic Progress Report – Part I
- GitHub - OpenRLHF/OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework
- ColossalAI/applications/ColossalChat/coati/trainer/ppo.py
- 初探強(qiáng)化學(xué)習(xí) (boyuai.com)
彈性訓(xùn)練
- PyTorch彈性分布式訓(xùn)練
- Singularity: Planet-Scale, Preemptive and Elastic Scheduling of AI Workload:其他筆記
- ReCycle: Resilient Training of Large DNNs using Pipeline Adaptation:
建模
-
Calculon: a Methodology and Tool for High-Level Codesign of
Systems and Large Language Models
:代碼 - [LLM]大模型顯存計(jì)算公式與優(yōu)化 - 知乎 (zhihu.com)
框架
模型
Llama, opensoraplan, deepseek
GLaM
谷歌,萬(wàn)億MoE聚谁,谷歌|基于大型語(yǔ)言模型的大規(guī)模多語(yǔ)言淺融合
- Massively Multilingual Shallow Fusion with Large Language Models
- 提出在自動(dòng)語(yǔ)音識(shí)別的淺層融合中使用大規(guī)模多語(yǔ)種語(yǔ)言模型(GLaM)母剥,在許多語(yǔ)言中取得了顯著的改進(jìn)。
- 盡管 GLaM 模型很大(1.9GB)形导,但由于其 MoE 架構(gòu)环疼,其推理計(jì)算量與 140M 稠密語(yǔ)言模型相似。
- 每一層的專(zhuān)家都由一個(gè)門(mén)控網(wǎng)絡(luò)控制朵耕,該網(wǎng)絡(luò)根據(jù)輸入數(shù)據(jù)激活專(zhuān)家炫隶。
- 當(dāng)專(zhuān)家數(shù)增加時(shí),每個(gè)decoding步(Token)動(dòng)態(tài)選擇2個(gè)專(zhuān)家阎曹,輸出將是兩個(gè)專(zhuān)家輸出的加權(quán)組合伪阶。
- 共有 32 個(gè) MoE 層煞檩,每個(gè) MoE 層的 64 個(gè)專(zhuān)家,1.2T 的總參數(shù)望门。
- 推理期間每個(gè)令牌預(yù)測(cè)僅激活97B(1.2T 的 8%)參數(shù)的子網(wǎng)絡(luò)形娇,推理計(jì)算量基本恒定。
- 語(yǔ)音+文本多模態(tài)筹误,語(yǔ)音-文本數(shù)據(jù)集桐早,文本-文本數(shù)據(jù)集。
算子
FlashAttention利用GPU內(nèi)存層次結(jié)構(gòu)設(shè)計(jì)的策略厨剪,通過(guò)分塊技術(shù)加速注意力計(jì)算哄酝,但導(dǎo)致了Softmax結(jié)果量化困難。INT8-FlashAttention論文通過(guò)證明SoftMax無(wú)需重量化祷膳,可以直接由計(jì)算得到陶衅,提升了計(jì)算性能。
(full-INT8)的推理速度與FP8類(lèi)型的推理速度基本相同直晨,但相比FP8-FlashAttention可兼容不支持FP8硬件如A100搀军。并且INT8-FlashAttention采用的Per Token和Per Channel的量化方式計(jì)算精度相比FP8-FlashAttention版本可以提升10倍(誤差8%->0.8%)。
我們?cè)谧赃m應(yīng)精度里也提出了類(lèi)似的Per Token量化勇皇,和分而治之的混精策略罩句。可以參考該論文敛摘,嘗試用在FlashAttention里门烂。