A2--黄闻欣--用监控打磨 Autonomous Agent:从有限到无限的评测之道.pdf

编号:963838 PDF 26页 3.73MB 下载积分:VIP专享
下载报告请您先登录!

1、从监控角度来看Autonomous Agent质量保障victorhuang腾讯技术总监黄闻欣(victorhuang)腾讯性能工程总监,可观测 AI 负责人不做产品的研发不是好测试目录CONTENTS从有限游戏到无限游戏的质量挑战0102 无限游戏:校验对错无限游戏:校验好坏03用无限对无限04PART 01从有限游戏到无限游戏的质量挑战越来越难把控的风险有限游戏无限游戏PC时代硬件资源紧缺移动化时代终端碎片化Web 时代浏览器兼容与网速搜广推五子棋难度AI 应用(Agentic)大盘围棋难度AI应用(workflow)小盘围棋难度有限召回-无限召回,Agentic Search单模型 多模

2、型,大模型与小模型配合有限链路-无限链路超长的Trace和上下文,定位问题困难Autonomous Agent的质量挑战 核心在篮框无限游戏中,我们的关键是定义篮框是什么?-对错对错-好坏好坏无限游戏中的“对错”用户提示词计划FC 列表文本块完整提示词规划规划生成生成FC调用调用FC排序排序/过滤过滤/组装组装输出结果分析分析生成非结构化的文本:生成非结构化的文本:-规划规划-输出结果输出结果生成结构化的文本:生成结构化的文本:-FuntionCall 列表列表-文档列表文档列表-工具返回工具返回JSON-结构化的计划结构化的计划生成需要渲染的文本:生成需要渲染的文本:-Markdown-Ht

3、ml格式正确:格式正确:-LLM:Markdown,html 格式、FunctionCall 格式、规划-工具返回格式事实正确:幻觉事实正确:幻觉/事实校验事实校验参数正确:参数正确:-FunctionCall 正确入参,正确出参Eg:时间范围正确,数据符合入参要求构建FunctionCall测试用例:基于 MCP Schema 泛化FunctionCall输入参数输出参数参数的属性:1.字符串、列表2.清晰、模糊3.边界值4.必填、非必填用研发思维来泛化用例,提示词:设计一个系统,地理位置作为一个类,都有什么属性?输出的参数也有属性思考的是什么输入会让参数变化eg:营业时间,普罗米修斯单值多

4、值MCP Schema构建FunctionCall测试用例:基于监控来构建配合配合 Datasets(变量)(变量)Langfuse监控采集trace 信息提取FunctionCall 生成的上下文提取FunctionCall调用的上下文LLM输出结果System prompt+user prompt数据、文本变量变量 or 常量常量减轻构建工具上下文的压力挑战:复杂的工具返回怎么构建,怎么做事实校验?挑战:复杂的工具返回怎么构建,怎么做事实校验?FC 调用输出结合 AI 来判断输出结果侧事实性(非幻觉)案例:质量门禁质量门禁阶段性成果supervisor节点路由Hint内容覆写内容覆写问题模

5、型模型toolcall内容构造异常内容构造异常APM Mcp工具工具AKSK配置配置错误rag_query_generator 构造内容构造内容语义异常异常Ag ent 执行迭代轮数超限问题平台知平台知识库文档指标命名矛盾问题-做了 AI 发现:-AI 很高级,但是会范低级错误,不要放过低级问题-测试的设计和思维,可以帮助我们在无限中找到有限-那么“好坏”呢?总结:最容易忽略的“对错”主观中客观“好坏”用户提示词计划FC 列表文本块完整提示词拆解拆解生成生成FC调用调用FC排序排序/过滤过滤/组装组装输出结果分析分析时效:正确/最新时间事实:存在的事实矛盾处理多元整合多跳逻辑问题相关性逻辑完整

6、性简洁度问:美国第一任总统的夫人是?问:美国第一任总统的夫人是?正确:第一任总统-他的夫人 VS错误1.第二任总统-他的夫人错误2.第一任-?错误3.第一任-第二任-他的夫人问:最近、最新?问:最近、最新?评断:多近/多新真消息/假消息问:问:Grafana time offset?产生矛盾的文本块问:问:APM 是什么?是什么?产生多种文本块提示词困惑度:答案的置信度=稳定性=多问长尾查询:模型知识广度与文本块整合=直接问模型专业查询:模型知识深度与文本块整合 多语言查询:模型跨语言理解能力截止到截止到 2024

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(A2--黄闻欣--用监控打磨 Autonomous Agent:从有限到无限的评测之道.pdf)为本站 (B-ing) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠