当前位置:首页 > 报告详情

A4--张起彤--火山引擎云原生智算稳定性实践.pdf

上传人: 可*** 编号:991655 2025-12-07 42页 10.48MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
火山引擎云原生智算稳定性实践主要围绕大规模智算集群的稳定性保障展开。关键点包括: 1. 大规模智算集群稳定性挑战:随着人工智能领域的发展,超大规模集群训练成为关键,但系统复杂度增加,稳定性成为瓶颈。 2. 智算集群稳定性衡量:通过ETTR(有效训练时间比)、故障率、MTTF(平均故障间隔时间)等指标评估。 3. 火山引擎智算稳定性体系:包括高性能计算保障、云原生K8S保障、故障检测与自愈、AI全栈观测体系等。 4. 案例分享:如大规模训练场景下的GPU故障自愈,将故障恢复时间从数小时缩短到十分钟级;在线推理服务故障隔离与自愈,将业务受损时间从5分钟降低到1分钟内。
"智算集群稳定性挑战" "火山引擎如何保障智算集群" "大规模训练场景下的GPU故障自愈"
客服
商务合作
小程序
服务号
折叠