A4--孟令公--得物大规模GPU性能分析Agent.pdf

上传人：蓝***

编号：1270100

2026-06-20

PDF 36页 3.86MB

《A4--孟令公--得物大规模GPU性能分析Agent.pdf》由会员分享，可在线阅读，更多相关《A4--孟令公--得物大规模GPU性能分析Agent.pdf（36页珍藏版）》请在三个皮匠报告上搜索。

1、得物大规模 GPU 性能分析 Agent孟令公得物，技术保障部，高级技术专家孟令公得物，高级技术专家AI Infra 方向，现任职得物，负责大模型与传统模型相关基础设施的研发与演进。2022 年加入得物后，深度参与涵盖大模型与传统模型的通用训练与推理基础设施建设，训练侧负责云原生编排与效能优化，推理侧负责云原生部署与性能调优（含 GPU 利用率与推理加速）。此前在腾讯、阿里等互联网公司从事相关研发，长期聚焦云原生 AI、模型 Serving 与算力效能等方向。0102030405 问题定义与目标Agent 怎么设计得物 GPU Agent 怎么做真实案例总结与展望开场GPU 资源昂贵，但低利

2、用率场景普遍存在传统性能分析依赖少数专家，产能受限本分享给出一套可复制的 Agent 化路径目标：数据可证据、诊断可解释、建议可执行、收益可量化问题定义与目标三类核心痛点低利用率：GPU 空闲片段多，Busy 时长不足高成本：单位有效算力成本偏高定位慢：从告警到根因定位周期长结果：性能治理难形成规模化能力为什么传统“专家读 trace”难规模化人依赖：强依赖个人经验与隐性知识标准缺失：诊断口径不统一、复盘成本高工具割裂：监控、trace、代码上下文不连贯沉淀不足：一次成功难转化为组织能力Agent怎么设计Agent 设计原则Agent 核心循环：思考(Thought)-行动(Action)-观

3、察(Observation)工具编排设计：让模型拥有“物理抓手”，从“被动回答”走向“主动做事”上下文与记忆治理：过滤信息噪声，管理长短记忆，保障长链路任务的可靠性与稳定性架构最终目标：将大模型的“泛化智能”转化为确定性的“工程交付能力”Agent Loop 在本项目中的映射输入：GPU Profile 性能数据、GPU 监控级别数据、诊断请求动作：GPU Profile 性能分析（基于 recipe）、GPU 性能规则分析（结合性能与监控的人为规则）反馈：GPU Profile 命中规则结构化 Summary、GPU 性能规则分析结构化 Summary输出：TopN 瓶颈与优化建议Harne

4、ss 思维落地能力边界：规则层负责确定性，LLM 层负责归因推理权限约束：高风险动作默认建议模式，不直接执行事件可观测：每步输入输出可回放可审计核心收益：可控智能，而非黑盒智能架构取舍：规则引擎+LLM规则引擎：统计、阈值判断、证据抽取（强确定性）LLM：跨证据关联、瓶颈排序、策略生成（强泛化）避免两类极端：纯规则：扩展性与表达力不足纯 LLM：一致性与可解释性不足得物GPU Agent怎么做四层流水线总览Layer1 提取：提取 GPU Profiling 性能数据与 GPU 监控数据Layer2 诊断：基于 recipe 与人工诊断规则，输出结构化诊断摘要Layer3 瓶颈：TopN 问题

5、排序与归因Layer4 建议：知识库驱动优化动作提取工程细节：双通路采集与分场景策略目标明确：同时拿到 GPU Profiling 性能数据和 GPU 监控数据通道清晰：Profiling 走 nsys profile，监控走 GPU 指标采集策略按 RT 敏感度分场景执行（服务部署在 K8s）RT 不敏感：线上临时扩一个节点，仅在该节点采集 nsys profileRT 敏感：上线前压测阶段完成 nsys profile 采集最终产物统一沉淀为两类数据：Profiling 数据+监控数据诊断工程细节：双路径诊断与证据化输出诊断工程包含两条路径：nsys recipe 诊断与预定规则诊断

6、统一输出 diagnosis.json：基于规则的结构化 summary支撑 summary 的 evidence（次数、时长、占比、Top 样本）核心目标：为后续 LLM 推理提供可靠依据；保证所有结论可追溯到原始数据瓶颈层：GPU 性能瓶颈综合研判Layer3 核心任务：定位 GPU 性能瓶颈输入：诊断层 diagnosis.json 中的结构化 summary；输出：瓶颈结论+判断依据研判方向（参考 CUDA 优化分析框架）：Kernel 类型：计算/内存/带宽/混合/通信/延迟敏感性能问题：Launch 开销、Host-Device 传输瓶颈、Occupancy 与 Warp 效率内

A4--孟令公--得物大规模GPU性能分析Agent.pdf

相关报告