眾所周知乒裆,大模型的訓(xùn)練需要大量的顯存資源死讹,單卡很容易就爆了,于是就有了單機(jī)多卡父晶、多機(jī)多卡的訓(xùn)練方案哮缺。本文主要是介紹如何使用deepspeed框架做多機(jī)多卡的分布式訓(xùn)練。 由于...
![240](https://cdn2.jianshu.io/assets/default_avatar/10-e691107df16746d4a9f3fe9496fd1848.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
IP屬地:河南
眾所周知乒裆,大模型的訓(xùn)練需要大量的顯存資源死讹,單卡很容易就爆了,于是就有了單機(jī)多卡父晶、多機(jī)多卡的訓(xùn)練方案哮缺。本文主要是介紹如何使用deepspeed框架做多機(jī)多卡的分布式訓(xùn)練。 由于...