《赵伯罕-MegatronApp:面向万亿参数大模型的训练与推理增强实践.pdf》由会员分享,可在线阅读,更多相关《赵伯罕-MegatronApp:面向万亿参数大模型的训练与推理增强实践.pdf(47页珍藏版)》请在三个皮匠报告上搜索。
1、MegatronApp:面向万亿参数大模型的训练与推理增强实践赵伯罕目录010203040605大模型训练中的典型困境MegatronApp:把训练从“黑箱”变为“可控系统”MegaScan:让慢节点无处藏身MegaFBD:解耦前后向计算实例MegaDPP:弹性流水线调度MegaScope:训练过程实时可观测07总结与展望01大模型训练中的典型困境模型参数迈向万亿级新纪元2020175175 B B 参数开启超大规模预训练时代GPT-3 20225454 0 B0 B 参数预示未来突破与更高智能水平PaLM2024671 B671 B 参数强调规模化与性能兼顾DeepSeek R120251
2、1 T T 参数展示跨千亿到万亿的飞跃Kimi K2过去五年,大模型规模从百亿级跨越到万亿级万亿级,训练架构也从单机单卡演进至跨节点的跨节点的3D并行。并行。从单卡到万卡:训练范式的质变带来新的挑战从单维到多目标系统优化从单维到多目标系统优化挑战一:可靠性与运维挑战挑战一:可靠性与运维挑战万卡规模将“小概率故障”放大为高频事件流;没有高效排障能力就很难维持长时稳定训练。挑战二:状态观测复杂化挑战二:状态观测复杂化训练过程产生的中间结果增加,单位时间内需要保存和处理的数据量增大。挑战三:性能波动的影响被放大挑战三:性能波动的影响被放大在流水线与集体通信的耦合下,局部抖动会被放大成全局停顿或收敛退
3、化,在大规模集群中造成的损失变大。DPTP/PP/DP/EP 组合+可切换调度MegaScale:Scaling Large Language Model Training to More Than 10,000 GPUsMegatron 与分布式大模型Megatron-LM的三种并行策略1数据并行 DP把同一个完整模型复制到多张卡上,每张卡处理不同数据分片并在迭代中同步梯度/参数。张量并行 TP2把单层内的大张量运算(如矩阵乘)按维度切到多张卡上同时算,再通过张量级通信聚合结果。流水线并行 PP3把模型按层切成多个阶段,把一个批次拆成微批在各阶段流水线并行流动以重叠计算与通信。Megatro
4、n-Core is a self contained,light weight PyTorchlibrary that packages everything essential for training large scale transformer.It offer rich collection of GPU techniques to optimize memory,compute and communication inherited from Megatron-LM and Transformer Engine with cutting-edge innovations on sy
5、stem-level efficiency.Megatron-LM初代Megatron-LM2019Megatron-LM 并入 DeepSpeed2021Megatron-LM 多分支演进2023社区增强与Megatron-Core 出现2024Megatron-LM发展历程高效率训练高可用服务Megatron-LM框架下大模型训练中的新需求长时间训练性能不剧烈抖动,出现问题可快速检测、快速恢复稳定性稳定性对于给定任务,在保证训练效率的前提下降低所需的硬件平台配置低成本低成本训练过程中保证GPU 资源的整体利用效率高吞吐高吞吐训练过程中对训练产生的中间结果进行实时监控、保存和分析,定位因果链
6、可观测性可观测性效率和效果效率和效果不可兼得不可兼得02MegatronApp:把训练从“黑箱”变为“可控系统”算秩未来与上海期智研究院联合开源MegatronAppMegatronMegatron-LM LM 框架下开源智能加速工具框架下开源智能加速工具高可用:慢节点检测自适应:智能调度高效率:F-B分离可观测:LLM可视化精准识别落后节点,迅速定位网卡、GPU、PCIe 和交换机异常。MegaScan慢节点检测弹性自适应调度框架,提升复杂并行场景下的鲁棒性与扩展性。MegaDPP自适应调度前后向任务解耦执行,消除通信瓶颈,提升异构计算效率。MegaFBD F-B 分离实时捕获压缩模型状态,