当前位置:首页 > 报告详情

陈文光-国产平台上训练大模型的系统挑战-osatc.pdf

上传人: 张** 编号:159590 2024-04-05 31页 2.91MB

1、国产智能算力训练大模型的经验与教训陈文光 提纲o 大模型的计算特征o 国产平台介绍o 系统挑战n算子实现n并行策略选取n容错o 经验与教训2大模型的计算特征 -计算形态3n 核心是 Transformer 模型n 模型的计算主要集中在n 嵌入层(Embedding)n 注意力层(Attention)n 前馈网络(FFN)n 计算核心均为矩阵乘法大模型的计算特征 -运算量与运算时间o 在数据、模型、训练所用的运算量大了以后发生了涌现,一般认为涌现点是千亿模型参数,所需运算量在1024 Ops BF16(100天*1000卡)4https:/hai.stanford.edu/news/examin

2、ing-emergent-abilities-large-language-models大模型的计算特征 -运算精度o 主要运算精度BF 16,但其中SoftMax部分需要FP32才能保证收敛5大模型的计算特征 多种并行模式并存o 多种并行模式达到训练速度、通信量、显存容量的平衡6模型梯度新模型模型模型梯度 0梯度 1新模型新模型all-reduce模型P0模型P1梯度P0梯度P1新模型P0新模型P0all-gather/all-reduce节点 0节点 1节点 1节点 0串行训练数据并行(DP)模型并行(MP)gategate0 1 2 34 5 6 70 1 3 62 4 5 7专家 0专

3、家 1节点 0节点 1MoE并行AlltoAll提纲o 大模型的计算特征o 国产平台介绍o 系统挑战n算子实现n容错n框架的并行性支持n未来算法7在两个国产平台上训练大模型o 新神威计算机 Bagualu n174T参数 MOE 模型n国产超算平台o 鹏城云脑II 鹏城脑海 n2000亿参数稠密模型n国产智算平台8新神威计算机o 片上异构众核处理器,双精度:半精度算力1:4o 整机超过10万处理器9CG 0CG 1CG 2CG 3CG 4CG 5环网网卡网卡核组主核存控从核阵列超节点超节点超节点1/8 顶层裁剪 胖树主存鹏城云脑II:E级智算平台10理论研究类脑计算深度学习理论方法核心技术大规

4、模异构集群管理新型计算架构与系统智能应用超大规模AI模型靶向药物研究响应国家战略新一代人工智能开放创新平台国家级重大科技基础设施提升大湾区AI研究基础地位与创新力支撑深圳AI重大应用需求服务本地需求鹏城云脑II(4096卡)硬件系统整体概况硬件系统整体概况11Atlas 800 AI服务器4x 鲲鹏920处理器8x 昇腾910 AI加速器机柜8个AI服务器多种交换机液冷+风冷全自主CPU和NPU超高效能超高扩展的超高效能超高扩展的E E级级AIAI算力系统算力系统集群系统4096个昇腾910(NPU)2048个鲲鹏920(CPU)功耗指标系统最大功耗PUE系统指标半精度峰值存储容量点到点带宽机

5、柜个数合计计算机柜其他机柜1 EOPS64 PB100 Gbps342 个64 个278 个5MW1.25高算力计算节点高算力计算节点12液冷散热方式2 PFLOPS/5.6kW超高能效比超高能效比NPU提供2P FLOPS FP16超强算力CPU提供2T FLOPS FP64算力CPU和NPU采用HCCS、PCIe高速互连算力密度高(8+2)*100G RoCE v2高速网络适应AI训练高带宽需要高速网络带宽鲲鹏920昇腾910HCCS专连高性能本地NVMe 盘多套专用网络组网多套专用网络组网1313 共共6464柜柜(AIAI训练面)训练面)100Gbps 100Gbps RoCERoCE

6、 FM8850-64CQ-EI FM8850-64CQ-EI(设备管理平面)(设备管理平面)GES5735GES5735Atlas AIAtlas AI集群集群液冷整柜液冷整柜Atlas AIAtlas AI集群集群通用计算区(弹性云主机)通用计算区(弹性云主机)存储区(对象存储、云硬盘)存储区(对象存储、云硬盘)网络服务区网络服务区每个液冷机柜提供每个液冷机柜提供3232*25GE25GE每个液冷机柜提供每个液冷机柜提供1212*GE RJ45GE RJ45每个液冷机柜提供每个液冷机柜提供6464*100GE100GE管理区管理区2 2*100GE100GE1 1*10GE10GE采用先进采

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了国产智能算力训练大模型的经验与教训。核心数据包括:新神威计算机训练174T参数的MOE大模型,鹏城云脑II训练2000亿参数的稠密模型。关键点如下: 1. 大模型训练的计算特征:以Transformer模型为核心,计算主要集中在嵌入层、注意力层和前馈网络。 2. 国产平台介绍:新神威计算机和鹏城云脑II。新神威计算机采用片上异构众核处理器,双精度算力1:4,整机超过10万处理器。鹏城云脑II为E级智算平台,拥有4096个昇腾910 (NPU)和2048个鲲鹏920 (CPU)。 3. 系统挑战:算子实现、并行策略选取、容错。国产系统在算子库实现方面有突破,如新神威的swTensor算子库。并行策略方面,通用的有数据并行、张量并行、流水并行,针对特定模型的有专家并行(MOE)。 4. 容错:短期采用checkpoint,长期学习spark的容错机制。新神威的IO子系统Comm.在数据并行的节点间自动容错。 5. 经验与教训:BF16精度非常重要,在千亿模型和长上下文窗口时,FP16精度不足。国产系统可以训练大模型,但仍有局限,主要差距在单芯片的峰值算力上。通过软件优化可以缓解但无法完全弥补差距。
"国产智能算力训练大模型的经验与教训"有哪些亮点和不足? 如何优化大模型训练中的并行策略和容错机制? 国产平台与国外超算在大模型训练方面有哪些差距与潜力?
客服
商务合作
小程序
服务号
折叠