《A4--孟令公--得物大规模GPU性能分析Agent.pdf》由会员分享,可在线阅读,更多相关《A4--孟令公--得物大规模GPU性能分析Agent.pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、得物大规模 GPU 性能分析 Agent孟令公 得物,技术保障部,高级技术专家孟令公得物,高级技术专家AI Infra 方向,现任职得物,负责大模型与传统模型相关基础设施的研发与演进。2022 年加入得物后,深度参与涵盖大模型与传统模型的通用训练与推理基础设施建设,训练侧负责云原生编排与效能优化,推理侧负责云原生部署与性能调优(含 GPU 利用率与推理加速)。此前在腾讯、阿里等互联网公司从事相关研发,长期聚焦云原生 AI、模型 Serving 与算力效能等方向。0102030405 问题定义与目标Agent 怎么设计得物 GPU Agent 怎么做真实案例总结与展望开场GPU 资源昂贵,但低利
2、用率场景普遍存在传统性能分析依赖少数专家,产能受限本分享给出一套可复制的 Agent 化路径目标:数据可证据、诊断可解释、建议可执行、收益可量化问题定义与目标三类核心痛点低利用率:GPU 空闲片段多,Busy 时长不足高成本:单位有效算力成本偏高定位慢:从告警到根因定位周期长结果:性能治理难形成规模化能力为什么传统“专家读 trace”难规模化人依赖:强依赖个人经验与隐性知识标准缺失:诊断口径不统一、复盘成本高工具割裂:监控、trace、代码上下文不连贯沉淀不足:一次成功难转化为组织能力Agent怎么设计Agent 设计原则Agent 核心循环:思考(Thought)-行动(Action)-观
3、察(Observation)工具编排设计:让模型拥有“物理抓手”,从“被动回答”走向“主动做事”上下文与记忆治理:过滤信息噪声,管理长短记忆,保障长链路任务的可靠性与稳定性架构最终目标:将大模型的“泛化智能”转化为确定性的“工程交付能力”Agent Loop 在本项目中的映射输入:GPU Profile 性能数据、GPU 监控级别数据、诊断请求动作:GPU Profile 性能分析(基于 recipe)、GPU 性能规则分析(结合性能与监控的人为规则)反馈:GPU Profile 命中规则结构化 Summary、GPU 性能规则分析结构化 Summary输出:TopN 瓶颈与优化建议Harne
4、ss 思维落地能力边界:规则层负责确定性,LLM 层负责归因推理权限约束:高风险动作默认建议模式,不直接执行事件可观测:每步输入输出可回放可审计核心收益:可控智能,而非黑盒智能架构取舍:规则引擎+LLM规则引擎:统计、阈值判断、证据抽取(强确定性)LLM:跨证据关联、瓶颈排序、策略生成(强泛化)避免两类极端:纯规则:扩展性与表达力不足纯 LLM:一致性与可解释性不足得物GPU Agent怎么做四层流水线总览Layer1 提取:提取 GPU Profiling 性能数据与 GPU 监控数据Layer2 诊断:基于 recipe 与人工诊断规则,输出结构化诊断摘要Layer3 瓶颈:TopN 问题
5、排序与归因Layer4 建议:知识库驱动优化动作提取工程细节:双通路采集与分场景策略目标明确:同时拿到 GPU Profiling 性能数据 和 GPU 监控数据通道清晰:Profiling 走 nsys profile,监控走 GPU 指标采集策略按 RT 敏感度分场景执行(服务部署在 K8s)RT 不敏感:线上临时扩一个节点,仅在该节点采集 nsys profileRT 敏感:上线前压测阶段完成 nsys profile 采集最终产物统一沉淀为两类数据:Profiling 数据+监控数据诊断工程细节:双路径诊断与证据化输出诊断工程包含两条路径:nsys recipe 诊断 与 预定规则诊断
6、统一输出 diagnosis.json:基于规则的结构化 summary支撑 summary 的 evidence(次数、时长、占比、Top 样本)核心目标:为后续 LLM 推理 提供可靠依据;保证所有结论可追溯到原始数据瓶颈层:GPU 性能瓶颈综合研判Layer3 核心任务:定位 GPU 性能瓶颈输入:诊断层 diagnosis.json 中的结构化 summary;输出:瓶颈结论+判断依据研判方向(参考 CUDA 优化分析框架):Kernel 类型:计算/内存/带宽/混合/通信/延迟敏感性能问题:Launch 开销、Host-Device 传输瓶颈、Occupancy 与 Warp 效率内