《【无问芯穹 吴保东】奇点智能技术大会PPT.pdf》由会员分享,可在线阅读,更多相关《【无问芯穹 吴保东】奇点智能技术大会PPT.pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、吴保东 无问芯穹技术副总裁大模型时代的算力基础设施发展及挑战大模型时代的算力基础设施发展及挑战Token需求的指数级爆发,正在直接驱动数据中心GPU市场进入长期高增长周期,AI基础设施从“供给侧”正式迈入“需求牵引时代”异构集群的故障统计和运维问题分析异构集群的故障统计和运维问题分析集群运维集群运维问题问题运维问题数量(2026.01.30)平均处理时间159115911.51.5小时小时故障影响范围大集群问题多且分散运维人效低故障排查困难故障排查困难传统人工运维模式面临的核心挑战传统人工运维模式面临的核心挑战面向异构集群的面向异构集群的BenchmarkBenchmark评测和运维智能体平台
2、评测和运维智能体平台GPU集群运维Benchmark及评测框架面向多GPU集群的AIOps智能体平台异构集群运维异构集群运维benchmarkbenchmarkalcor-ops-benchalcor-ops-bench系统架构系统架构alcor-ops-benchalcor-ops-bench的的评测指标评测指标 以结果为导向的评估体系,衡量智能体在真实运维场景中的表现。异构集群运维数据集异构集群运维数据集alcor-ops-dataalcor-ops-data原始数据分析原始数据分析异构集群运维数据集异构集群运维数据集alcor-ops-dataalcor-ops-data数据处理流程数据
3、处理流程历史工单历史告警异构集群运维数据集异构集群运维数据集alcor-ops-dataalcor-ops-data处理后数据分布处理后数据分布数据集概览任务难易分布场景覆盖度从从“问答问答”到到“真实故障真实故障”的集群故障模拟器的集群故障模拟器alcor-chaosalcor-chaos 核心思路核心思路:软件模拟软件模拟+真实集群的混沌工程真实集群的混沌工程通过软件层精准模拟硬件故障,结合真实业务负载构造高保真测试环境,确保故障注入可控可重复。alcor-chaosalcor-chaos模拟案例模拟案例1 1集群集群GPUGPU硬件故障硬件故障alcor-chaosalcor-chaos
4、模拟案例模拟案例2 2集群集群RDMARDMA故障故障运维运维AgentAgent端到端评测工具端到端评测工具alcor-ops-evalalcor-ops-eval 核心思路核心思路:异步并行执行异步并行执行+双重智能评测双重智能评测+全链路全链路可观测可观测alcor-ops-eval是一个专为 AI Agent 性能评测设计的通用框架,相比其他评测框架,更注重 Agent 交互过程的深度分析 和 真实用户行为的模拟,深度集成 Langfuse,同时支持规则基评测(精确验证)和 LLM 基评测(主观质量判断)。基础基础AgentAgent使用不同模型的评测结果使用不同模型的评测结果基于多智
5、能体协同的基于多智能体协同的Infini-AIops Infini-AIops 智能体平台智能体平台Infini-AIops Infini-AIops 智能体平台智能体平台系统架构系统架构Infini-AIops Infini-AIops 智能体平台智能体平台权限权限安全安全Infini-AIops Infini-AIops 智能体平台智能体平台demodemo演示演示Infini-AIops Infini-AIops 智能体处理智能体处理分布式训练任务分布式训练任务hanghang实践案例实践案例Infini-AIops Infini-AIops 智能体在智能体在alcor-ops-benchalcor-ops-bench上的测试结果上的测试结果alcor-ops-benchalcor-ops-bench的未来的未来规划规划Infini-AIops Infini-AIops 智能体的未来演进之路智能体的未来演进之路Thanks!Thanks!无问芯穹公众号欢迎大家关注!