1、火山引擎云原生智算稳定性实践火山引擎云原生智算稳定性实践 张起彤 火山引擎-云原生架构师张起彤张起彤火山引擎,云原生架构师火山引擎计算云原生运维和稳定性方向技术负责人,负责云原生管控运维架构演进、建设稳定性&SRE 体系以及 DevOps 平台工程体系,同时负责火山引擎云原生智能运维产品(观测诊断自愈)研发方向。01020304 大规模智算集群保障的挑战如何衡量智算集群稳定性火山引擎智算稳定性体系实践实践案例分享大规模智算集群保障的挑战大规模智算集群保障的挑战随着人工智能领域 Transformer 架构的持续演进,参数规模突破万亿级的大模型已成为前沿研究的核心载体。这使得超大规模万卡集群训练
2、成为推动模型能力边界拓展的必要技术路径。然而,当计算集群规模突破万卡量级时,系统复杂度呈指数级增长,随之而来的稳定性挑战已成为制约模型训练效率与研究进度的关键瓶颈。大模型大模型时代对集群规模的时代对集群规模的要求要求数据预处理模型开发模型预训练模型实验模型精调模型服务加工处理高质量训练、评估、测试数据集离线批量万核小模型结构开发、调试离线持续数百卡大炼丹炉周级别离线稳定数千卡万卡单一RDMA集群亿10亿成本(200B1000B)小炼丹炉周级别周期性千卡单一RDMA集群千万级别(10B100B)Lora精调周级别周期性百卡10万级别B/C端应用小时级别弹性低延时推理流式批推理离线批推理效率成本硬
3、件与网络硬件与网络 单节点通常配置 8 张 NVL GPU,依托于 NVLink 和 NVSwitch 构建 GPU 间的全互联拓扑,确保节点内部的高带宽、低延迟通信。大规模HPC集群采用双层网络架构,可实现千台GPU服务器的网络高速互联,达成网络收敛比1:1。软件架构软件架构 使用 PyTorch 作为核心训练框架,底层通过 NCCL(NVIDIA Collective Communication Library)通信。工作负载工作负载 大型任务采用节点粒度调度,通常直接分配多个节点,以保障训练性能和通信效率。小型任务采用 GPU 粒度调度,允许多个小型任务共享同一节点,充分利用计算资源,避
4、免 GPU 空闲或碎片化问题。智算集群典型智算集群典型架构架构大规模大规模智算集群的稳定性智算集群的稳定性挑战挑战万卡集群特性万卡集群特性 计算资源极致利用,对单机的硬件、OS稳定性带来更大压力,系统规模越大故障概率呈指数级增长。以 Meta 论文分享 Llama 3.1 训练为案例:1.6 万 H100 GPU 集群,54 天内 419 次故障,MTTF 仅 3.1 小时。集群故障对训练任务的严重影响集群故障对训练任务的严重影响 训练回滚导致数据重复计算。异常单点导致Gang调度失败或者分布式训练拖尾效应,影响训练速度。缺乏实时监控和自愈,使故障修复延迟,影响有效训练时间(ETTR)。如何衡
5、量智算集群稳定性如何衡量智算集群稳定性大规模大规模GPUGPU集群下的集群下的 SLO SLO定义定义 控制面链路的稳定性:确保所有算力能够得到高效利用,主要体现在算力的申请、回收、分配及再分配方面。算力的稳定性:数据面的故障率依然是客户最为关注的内容,且客户关注的重点在于算力的整体有效利用率。有效训练时间比(有效训练时间比(ETTRETTR)ETTR 定义为有效运行时间与作业运行的可用挂钟时间的比率。ETTR 是模型无关的,主要关注作业重启和排队的影响。一般ETTR优化目标至少在90%以上 在模型训练的整个生命周期中,有以下阶段 Initialization:拉镜像,启动容器,初始化模型参数
6、,load checkpoint,初始化data loader等。Training Loop:真正的在训练。Evaluation:跑评估集。Checkpoint:将当前参数存下来。典型非生产性运行时间包括:从上次Checkpointing恢复、重新启动后的初始化任务开销 等。故障指标(故障指标(故障率故障率/MTBF/MTTRMTBF/MTTR)MTTF和MTBF可以帮助我们了解服务运维以及可用性水平,重点在于降低MTTR:硬件故障率:单位时间窗口内处于异常/维修态的硬件占总体比例。GPU集群正常一般95%GPU SM Active:对应 DCGM 的 DCGM_FI_PROF_SM_ACTI