1、重塑可观测边界:红书在模型时代的稳定性程实践王亚普红书可观测团队负责录01020304红书可观测现状以及 AI 时代临的挑战AI Infra 可观测:向训推服务的稳定性体系建设向稳定性提效的 AI Agent 场景建设与探索未来规划01红书可观测现状以及 AI 时代临的挑战红书可观测体系在稳定性程中的定位降发降影响红书可观测在 AI 时代的变化GPU 集群模型训练/推理Agent观测对象变化系统关系变化运为变化可观测边界变化表达式变化红书可观测在 AI 时代临的挑战盒困局加剧软硬件的问题多样性观测对象变化带来的复杂性故障放效应为什么需要 AI 可观测 AI 训练稳定性管理已经成为智能时代的精密
2、程,尤其是在千卡甚万卡以上规模,整个任务会发各种故障,导致资源利率不或任务中断。基础设施交付和运中的质量保障是稳定性基础,GPU 昂的成本使得业务对 GPU 交付质量、节点故障感知、处置时效性都要常的要求。AI 应需兼顾可性、性能与效果体验的多重质量标,使得业务连续性保障临更挑战。02AI Infra 可观测:向训推服务的稳定性建设业务痛点环境异构挑战故障发现与定位难故障率训练任务痛点问题分析整体建设思路2-1GPU 资源稳定性保障GPU 故障等级定义故障等级对 GPU 的影响示例1 Notice不影响正常运如 Corrected ECC Error、Pending Recovery2 War
3、ning可以使,存在定险如 Uncorrected ECC Error 累计值3 Error法使,需要重启恢复如 SRAM UCE、掉卡、驱动卡死4 Fatal法使,需要替换/维修如 Row Remapping FailureGPU 稳定运营与故障感知场景撑整体异常分析单节点问题排障GPU 可性 SLO多维异常度量节点/GPU 可性状态单卡诊断/监控下钻GPU 节点愈均触发 5+愈流程GPU 观测落地成果与最佳实践提供 GPU 全局监控能以及单机故障诊断能,持 20+故障指标识别,可解决 80%+GPU 硬件故障诊断定位。整体异常分析单节点问题排障2-2训练任务 Hang 的发现与故障定位训练
4、任务发 Hang 可能的表现所有任务程序志不输出指标突变并持续维持某个状态进程调栈不再变化问题分析与设计思路判定 Hang 的核思路:对矩阵计算、NCCL 调等核函数进 Hook 拦截,监控对应的操作记录;当事件超过指定的超时时间未拿到返回结果,判断为 Hang。设计的依据:NCCL 和矩阵乘是分布式训练的核操作,以此为锚点构建相关核指标统计,不仅可以实现较精确的 Hang 检测,且可以有效辅助故障定位和性能分析。整体技术案技术案差异化选型:建训练框架:xray-llm-client 低侵式,提供更全的功能 其他训练框架:仅提供 NCCL 层的监控和检测能,与框架关轻依赖的数据采集:保持 xr
5、ay-llm-client 够轻量,复杂功能尽可能上移 Unix Domin Socket DaemonSet/HostPID/进程PID映射关系故障定位的核思路(基础场景)故障表现:受影响节点:表现基本致 故障节点:与其他节点有明显表现差异通过对差异快速定位故障源头进程栈采集与聚合只要有个 rank hang,认为这个训练任务 hang 住,触发次 stack dump栈采集栈聚合 相同前缀、线程名聚合 寻找分叉点故障定位的核思路(复杂场景)故障源头 rank 和其他 rank,在 NCCL 的通信状态上有差异NCCL 络通信故障的定位与拓扑还原Send:posted-transmitted
6、-doneRev:done-transmitted-Received-posted业务实战案例分享:监控指标训练总览基础指标NCCL 通信指标矩阵乘指标业务实战案例分享:智能诊断报告诊断报告栈分析业务实战案例分享:NCCL 络通信故障定位treering03向稳定性提效的 AI Agent 场景建设与探索从可观测 AI 助开始然语&配置动化数据分析&根因诊断最佳实践 Workflow业务定义场景产品定位与标XPilot AI 稳定性作台XPilot AI 助以 AI 驱动协助研发与 SRE 完成稳定性全命周期作,提