报告预览

A4--张起彤--火山引擎云原生智算稳定性实践.pdf

编号：991655

PDF 42页 10.48MB 下载积分：VIP专享

下载报告请您先登录！

A4--张起彤--火山引擎云原生智算稳定性实践.pdf

1、火山引擎云原生智算稳定性实践火山引擎云原生智算稳定性实践张起彤火山引擎-云原生架构师张起彤张起彤火山引擎，云原生架构师火山引擎计算云原生运维和稳定性方向技术负责人，负责云原生管控运维架构演进、建设稳定性&SRE 体系以及 DevOps 平台工程体系，同时负责火山引擎云原生智能运维产品(观测诊断自愈)研发方向。01020304 大规模智算集群保障的挑战如何衡量智算集群稳定性火山引擎智算稳定性体系实践实践案例分享大规模智算集群保障的挑战大规模智算集群保障的挑战随着人工智能领域 Transformer 架构的持续演进，参数规模突破万亿级的大模型已成为前沿研究的核心载体。这使得超大规模万卡集群训练

2、成为推动模型能力边界拓展的必要技术路径。然而，当计算集群规模突破万卡量级时，系统复杂度呈指数级增长，随之而来的稳定性挑战已成为制约模型训练效率与研究进度的关键瓶颈。大模型大模型时代对集群规模的时代对集群规模的要求要求数据预处理模型开发模型预训练模型实验模型精调模型服务加工处理高质量训练、评估、测试数据集离线批量万核小模型结构开发、调试离线持续数百卡大炼丹炉周级别离线稳定数千卡万卡单一RDMA集群亿10亿成本（200B1000B）小炼丹炉周级别周期性千卡单一RDMA集群千万级别（10B100B）Lora精调周级别周期性百卡10万级别B/C端应用小时级别弹性低延时推理流式批推理离线批推理效率成本硬

3、件与网络硬件与网络单节点通常配置 8 张 NVL GPU，依托于 NVLink 和 NVSwitch 构建 GPU 间的全互联拓扑，确保节点内部的高带宽、低延迟通信。大规模HPC集群采用双层网络架构，可实现千台GPU服务器的网络高速互联，达成网络收敛比1:1。软件架构软件架构使用 PyTorch 作为核心训练框架，底层通过 NCCL（NVIDIA Collective Communication Library）通信。工作负载工作负载大型任务采用节点粒度调度，通常直接分配多个节点，以保障训练性能和通信效率。小型任务采用 GPU 粒度调度，允许多个小型任务共享同一节点，充分利用计算资源，避

4、免 GPU 空闲或碎片化问题。智算集群典型智算集群典型架构架构大规模大规模智算集群的稳定性智算集群的稳定性挑战挑战万卡集群特性万卡集群特性计算资源极致利用，对单机的硬件、OS稳定性带来更大压力，系统规模越大故障概率呈指数级增长。以 Meta 论文分享 Llama 3.1 训练为案例：1.6 万 H100 GPU 集群，54 天内 419 次故障，MTTF 仅 3.1 小时。集群故障对训练任务的严重影响集群故障对训练任务的严重影响训练回滚导致数据重复计算。异常单点导致Gang调度失败或者分布式训练拖尾效应，影响训练速度。缺乏实时监控和自愈，使故障修复延迟，影响有效训练时间（ETTR）。如何衡

5、量智算集群稳定性如何衡量智算集群稳定性大规模大规模GPUGPU集群下的集群下的 SLO SLO定义定义控制面链路的稳定性：确保所有算力能够得到高效利用，主要体现在算力的申请、回收、分配及再分配方面。算力的稳定性：数据面的故障率依然是客户最为关注的内容，且客户关注的重点在于算力的整体有效利用率。有效训练时间比（有效训练时间比（ETTRETTR）ETTR 定义为有效运行时间与作业运行的可用挂钟时间的比率。ETTR 是模型无关的，主要关注作业重启和排队的影响。一般ETTR优化目标至少在90%以上在模型训练的整个生命周期中，有以下阶段 Initialization：拉镜像，启动容器，初始化模型参数

6、，load checkpoint，初始化data loader等。Training Loop：真正的在训练。Evaluation：跑评估集。Checkpoint：将当前参数存下来。典型非生产性运行时间包括：从上次Checkpointing恢复、重新启动后的初始化任务开销等。故障指标（故障指标（故障率故障率/MTBF/MTTRMTBF/MTTR）MTTF和MTBF可以帮助我们了解服务运维以及可用性水平，重点在于降低MTTR：硬件故障率：单位时间窗口内处于异常/维修态的硬件占总体比例。GPU集群正常一般95%GPU SM Active：对应 DCGM 的 DCGM_FI_PROF_SM_ACTI

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（A4--张起彤--火山引擎云原生智算稳定性实践.pdf）为本站（可不可以）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。