大规模预训练模型高效训练的构架实践-张杰.pdf-在线下载-三个皮匠报告

1、Whale张杰阿里云-PAI超大模型高效训练的分布式框架Contents目录01模型训练的趋势和挑战02分布式框架Whale介绍03Whale实践示例和效果04超大模型训练最佳实践模型训练的趋势和挑战01模型训练发展趋势132模型算力需求：2年翻一倍3.4个月翻一倍Bert 模型参数规模越大，困惑度越低Transformer 模型参数规模越大，翻译质量越高1 https:/ GShard:Scaling Giant Models with Conditional Computation and Automatic Sharding3 https:/ Tensorflow、DeepSpeed等；

2、还有很多其他训练框架如：MindSpore、OneFlow、PaddlePaddle、MXNet等；这些框架支持各种并行策略，但仍有不少挑战：迁移代价高学习成本大并行策略单一支持的并行策略不全，例如：Horovod只支持数据并行、Gpipe只支持流水并行、Mesh只支持算子拆分；分布式版模型实现难度大，需要领域专家经验才能实现高效的分布式并行训练，例如如何在Mesh中配置拆分策略；不同框架有各自定义的DSL，当用户要切换并行策略时，需要学习各种接口，重新改写模型，迁移代价大；多模态M6模型发展进程2020.6base-3亿213452021.12021.1百亿-8128 GPU2021.3千亿

3、-128GPU2021.5万亿-480GPU2021.1010万亿-512GPUM6模型结构M6:MultiModality-to-MultiModality Multitask Mega-transformerM6体验馆M6体验馆:https:/ IR：将并行策略转成内部表达，通过TaskGraph、VirtualDevices抽象来表达各种并行策略；Whale Engine：基于Whale IR，通过图编辑工具来构建分布式执行图，同时进行计算、通信、调度、显存等优化；Runtime：将分布式执行图转成TF Graph，再调用TF 的Runtime来执行；Whale：分布式训练流程训练流程：

4、子图划分和策略配置：通过Whale API来划分TaskGraph，并为每个TaskGraph配置各种并行策略；虚拟资源划分：按并行策略为每个子图分配devices；生成分布式执行图：基于并行策略和资源，使用图编辑工具来编辑执行图（图拷贝、图拆分、流水调度、通信节点插入等），执行计算、通信、显存等优化，生成最终的分布式执行图。调用TF的runtime来执行；Whale：APIsscopereplica(数据并行)stage(模型并行)split(算子分片)pipeline(流水并行)基础并行策略基础并行策略算子，供用户组合使用Hybrid-parallel(组合和嵌套)auto(自行并行)W

5、hale：APIs 示例withwith wh.replica():with with wh.pipeline():withwith wh.stage():out=ModelPart1()withwith wh.stage():out=ModelPart2(out)withwith wh.replica():out=Model()with with wh.pipeline():withwith wh.stage():out=ModelPart1()withwith wh.stage():out=ModelPart2(out)数据并行流水并行流水并行+数据并行Grads AllReduceGra

6、ds AllReduce32Whale：APIs 更多示例withwith wh.split():out=Model()withwith wh.replica():out=ModelPart1()withwith wh.split():out=ModelPart2(out)withwith wh.replica():with with wh.split():out=Model()wh.auto_parallel()out=Model()算子拆分组合（算子拆分、数据并行）嵌套（算子拆分、数据并行）自动并行Whale实践示例和效果03Whale实践-大规模分类100,000分类模型：特征提取层参数