A2--黄闻欣--用监控打磨 Autonomous Agent：从有限到无限的评测之道.pdf-三个皮匠报告

1、从监控角度来看Autonomous Agent质量保障victorhuang腾讯技术总监黄闻欣（victorhuang）腾讯性能工程总监，可观测 AI 负责人不做产品的研发不是好测试目录CONTENTS从有限游戏到无限游戏的质量挑战0102 无限游戏：校验对错无限游戏：校验好坏03用无限对无限04PART 01从有限游戏到无限游戏的质量挑战越来越难把控的风险有限游戏无限游戏PC时代硬件资源紧缺移动化时代终端碎片化Web 时代浏览器兼容与网速搜广推五子棋难度AI 应用（Agentic）大盘围棋难度AI应用（workflow）小盘围棋难度有限召回-无限召回，Agentic Search单模型多模

2、型，大模型与小模型配合有限链路-无限链路超长的Trace和上下文，定位问题困难Autonomous Agent的质量挑战核心在篮框无限游戏中，我们的关键是定义篮框是什么？-对错对错-好坏好坏无限游戏中的“对错”用户提示词计划FC 列表文本块完整提示词规划规划生成生成FC调用调用FC排序排序/过滤过滤/组装组装输出结果分析分析生成非结构化的文本：生成非结构化的文本：-规划规划-输出结果输出结果生成结构化的文本：生成结构化的文本：-FuntionCall 列表列表-文档列表文档列表-工具返回工具返回JSON-结构化的计划结构化的计划生成需要渲染的文本：生成需要渲染的文本：-Markdown-Ht

3、ml格式正确：格式正确：-LLM：Markdown，html 格式、FunctionCall 格式、规划-工具返回格式事实正确：幻觉事实正确：幻觉/事实校验事实校验参数正确：参数正确：-FunctionCall 正确入参，正确出参Eg:时间范围正确，数据符合入参要求构建FunctionCall测试用例：基于 MCP Schema 泛化FunctionCall输入参数输出参数参数的属性：1.字符串、列表2.清晰、模糊3.边界值4.必填、非必填用研发思维来泛化用例，提示词：设计一个系统，地理位置作为一个类，都有什么属性？输出的参数也有属性思考的是什么输入会让参数变化eg:营业时间，普罗米修斯单值多

4、值MCP Schema构建FunctionCall测试用例：基于监控来构建配合配合 Datasets（变量）（变量）Langfuse监控采集trace 信息提取FunctionCall 生成的上下文提取FunctionCall调用的上下文LLM输出结果System prompt+user prompt数据、文本变量变量 or 常量常量减轻构建工具上下文的压力挑战：复杂的工具返回怎么构建，怎么做事实校验？挑战：复杂的工具返回怎么构建，怎么做事实校验？FC 调用输出结合 AI 来判断输出结果侧事实性（非幻觉）案例：质量门禁质量门禁阶段性成果supervisor节点路由Hint内容覆写内容覆写问题模

5、型模型toolcall内容构造异常内容构造异常APM Mcp工具工具AKSK配置配置错误rag_query_generator 构造内容构造内容语义异常异常Ag ent 执行迭代轮数超限问题平台知平台知识库文档指标命名矛盾问题-做了 AI 发现：-AI 很高级，但是会范低级错误，不要放过低级问题-测试的设计和思维，可以帮助我们在无限中找到有限-那么“好坏”呢？总结：最容易忽略的“对错”主观中客观“好坏”用户提示词计划FC 列表文本块完整提示词拆解拆解生成生成FC调用调用FC排序排序/过滤过滤/组装组装输出结果分析分析时效：正确/最新时间事实：存在的事实矛盾处理多元整合多跳逻辑问题相关性逻辑完整

6、性简洁度问：美国第一任总统的夫人是？问：美国第一任总统的夫人是？正确：第一任总统-他的夫人 VS错误1.第二任总统-他的夫人错误2.第一任-?错误3.第一任-第二任-他的夫人问：最近、最新？问：最近、最新？评断：多近/多新真消息/假消息问：问：Grafana time offset?产生矛盾的文本块问：问：APM 是什么？是什么？产生多种文本块提示词困惑度：答案的置信度=稳定性=多问长尾查询：模型知识广度与文本块整合=直接问模型专业查询：模型知识深度与文本块整合多语言查询：模型跨语言理解能力截止到截止到 2024

A2--黄闻欣--用监控打磨 Autonomous Agent：从有限到无限的评测之道.pdf

相关报告