大语言模型的工程技巧(三)——分布式计算-二、两种并行

模型计算的基础是计算图,因此,模型的分布式计算实质上就是在计算图层面进行分布式运算。关于这一主题,业界出现了两种截然不同的分布式计算方法,分别是数据并行(Data Parallelism)和模型并行(Model Parallelism)。数据并行,也就是梯度累积[TODO],它根据数据将计算图纵向切分,从而进行并行计算。与之不同,模型并行是将计算图的不同层放置在不同的GPU上进行计算。这可以被形象地理解为:数据并行将计算图从竖直方向切分,而模型并行从水平方向切分,如图1所示。

图1

图1

上一篇:鸿蒙开发接口图形图像:【WebGL】


下一篇:【OrangePi AIpro】香橙派 AIpro 为AI而生-获取更多信息