陈文光-国产平台上训练大模型的系统挑战-osatc.pdf-三个皮匠报告

1、国产智能算力训练大模型的经验与教训陈文光提纲o 大模型的计算特征o 国产平台介绍o 系统挑战n算子实现n并行策略选取n容错o 经验与教训2大模型的计算特征 -计算形态3n 核心是 Transformer 模型n 模型的计算主要集中在n 嵌入层(Embedding)n 注意力层(Attention)n 前馈网络(FFN)n 计算核心均为矩阵乘法大模型的计算特征 -运算量与运算时间o 在数据、模型、训练所用的运算量大了以后发生了涌现，一般认为涌现点是千亿模型参数，所需运算量在1024 Ops BF16（100天*1000卡）4https:/hai.stanford.edu/news/examin

2、ing-emergent-abilities-large-language-models大模型的计算特征 -运算精度o 主要运算精度BF 16，但其中SoftMax部分需要FP32才能保证收敛5大模型的计算特征多种并行模式并存o 多种并行模式达到训练速度、通信量、显存容量的平衡6模型梯度新模型模型模型梯度 0梯度 1新模型新模型all-reduce模型P0模型P1梯度P0梯度P1新模型P0新模型P0all-gather/all-reduce节点 0节点 1节点 1节点 0串行训练数据并行(DP)模型并行(MP)gategate0 1 2 34 5 6 70 1 3 62 4 5 7专家 0专

3、家 1节点 0节点 1MoE并行AlltoAll提纲o 大模型的计算特征o 国产平台介绍o 系统挑战n算子实现n容错n框架的并行性支持n未来算法7在两个国产平台上训练大模型o 新神威计算机 Bagualu n174T参数 MOE 模型n国产超算平台o 鹏城云脑II 鹏城脑海 n2000亿参数稠密模型n国产智算平台8新神威计算机o 片上异构众核处理器，双精度：半精度算力1:4o 整机超过10万处理器9CG 0CG 1CG 2CG 3CG 4CG 5环网网卡网卡核组主核存控从核阵列超节点超节点超节点1/8 顶层裁剪胖树主存鹏城云脑II：E级智算平台10理论研究类脑计算深度学习理论方法核心技术大规

4、模异构集群管理新型计算架构与系统智能应用超大规模AI模型靶向药物研究响应国家战略新一代人工智能开放创新平台国家级重大科技基础设施提升大湾区AI研究基础地位与创新力支撑深圳AI重大应用需求服务本地需求鹏城云脑II（4096卡）硬件系统整体概况硬件系统整体概况11Atlas 800 AI服务器4x 鲲鹏920处理器8x 昇腾910 AI加速器机柜8个AI服务器多种交换机液冷+风冷全自主CPU和NPU超高效能超高扩展的超高效能超高扩展的E E级级AIAI算力系统算力系统集群系统4096个昇腾910(NPU)2048个鲲鹏920(CPU)功耗指标系统最大功耗PUE系统指标半精度峰值存储容量点到点带宽机

5、柜个数合计计算机柜其他机柜1 EOPS64 PB100 Gbps342 个64 个278 个5MW1.25高算力计算节点高算力计算节点12液冷散热方式2 PFLOPS/5.6kW超高能效比超高能效比NPU提供2P FLOPS FP16超强算力CPU提供2T FLOPS FP64算力CPU和NPU采用HCCS、PCIe高速互连算力密度高(8+2)*100G RoCE v2高速网络适应AI训练高带宽需要高速网络带宽鲲鹏920昇腾910HCCS专连高性能本地NVMe 盘多套专用网络组网多套专用网络组网1313 共共6464柜柜（AIAI训练面）训练面）100Gbps 100Gbps RoCERoCE

6、 FM8850-64CQ-EI FM8850-64CQ-EI（设备管理平面）（设备管理平面）GES5735GES5735Atlas AIAtlas AI集群集群液冷整柜液冷整柜Atlas AIAtlas AI集群集群通用计算区（弹性云主机）通用计算区（弹性云主机）存储区（对象存储、云硬盘）存储区（对象存储、云硬盘）网络服务区网络服务区每个液冷机柜提供每个液冷机柜提供3232*25GE25GE每个液冷机柜提供每个液冷机柜提供1212*GE RJ45GE RJ45每个液冷机柜提供每个液冷机柜提供6464*100GE100GE管理区管理区2 2*100GE100GE1 1*10GE10GE采用先进采

陈文光-国产平台上训练大模型的系统挑战-osatc.pdf

相关报告