1、突破泛化瓶颈:阿里云智能运维突破泛化瓶颈:阿里云智能运维AgentAgent 评测体系实践评测体系实践李也目录01020304智能运维泛化之痛智能运维泛化之痛高质量的评测集的重要性高质量的评测集的重要性如何构建高质量的评测集如何构建高质量的评测集阿里云智能运维评测集阿里云智能运维评测集(持续发布持续发布)05基于评测集的智能运维基于评测集的智能运维 Agent Agent 能力提升实践能力提升实践01智能运维泛化之痛智能运维泛化之痛智能运维的一些技术智能运维的一些技术这些技术都有难泛化的问题基于规则的智能运维规则+算法的智能运维context engineering+大模型 workflow大
2、模型智能运维Agent传统的基于规则的智能运维难泛化传统的基于规则的智能运维难泛化为CPU/内存/磁盘/响应时间等指标设置固定上/下限,超限即告警泛化瓶颈:环境变化:如大促 跨系统迁移差:不同应用/硬件固定阈值的时序告警固定阈值的时序告警用正则模板提取日志字段,基于关键字或模板频次设置规则泛化瓶颈:模板脆弱:日志格式/字段轻微变更就失效 难捕获未知错误关键词关键词/正则正则 匹配的日志告警匹配的日志告警基于基于IfIf-else else 规则的事件关联规则的事件关联用“if-then”把事件聚合,如“网络断+下游告警归为网络故障”泛化瓶颈:系统变化会使规则失效 组合爆炸:要处理各种事件的组合
3、,规则数量会激增规则规则+算法的智能运维难泛化算法的智能运维难泛化用STL分解/n-sigma/ESD-test等算法设置智能基线,超限告警泛化瓶颈:参数难设置:如敏感度,周期长度等基线基线/季节性建模的时序告警季节性建模的时序告警用spell/drain等算法挖掘出日志模板。对模板和变量的模式做告警泛化瓶颈:过度挖掘或者挖掘不充分 系统变化,概念漂移 过滤不充分:无关日志造成误报基于日志模板挖掘的日志告警基于日志模板挖掘的日志告警算法自动挖掘出if-then规则。随机游走/matrix-forest归因泛化瓶颈:规则挖掘依赖手动标注数据 数学模型的假设不一定成立 可观测数据不完整/有噪音规则
4、挖掘规则挖掘,随机游走等算法归因随机游走等算法归因大模型大模型 workflowworkflow 会遇到泛化瓶颈会遇到泛化瓶颈 数据幻觉:编造不存在的“500”因果幻觉:见GC增多就断言“内存泄漏”,忽略了Java版本变化 工具幻觉:伪造API或者参数模型幻觉模型幻觉workflow的限定容易过强 从指标触发的 workflow,难泛化到日志报错的场景 3层的workflow难处理超过3步的根因推理 workflow分支过多时,节点数爆炸Workflow 编排的局限性相比于确定编码的规则,大模型的输出可能会不遵从预期 prompt说“只做只读分析”,模型也有可能执行危险命令(如直接重启集群、删
5、库清表)顶尖的模型在超过200个指令之后,也难全遵从1不遵从提示词1 How Many Instructions Can LLMs Follow at Once?Daniel Jaroslawicz et.al.大模型大模型 AgentAgent 也有一些泛化问题也有一些泛化问题大模型Agent继承了大模型workflow里面的很多缺点 数据/因果/工具幻觉 不遵从提示词还新增了更多执行流程上的缺点 JSON、SQL等易出现格式和类型错,影响自动化 难以停止,重复探索大模型能力局限大模型能力局限 工具不全 工具太多 工具作用重叠 工具描述不清工具不成体系“按下葫芦起了瓢”强调“仅基于证据回答”
6、,模型过度保守,提早终止 强调“尽量只用内部知识库”时,模型不做合理泛化 强调“严格特定schema 格式”,模型为过度满足schema而填充mock值调调promptprompt 没有掌控感没有掌控感Demo 相对容易:接入开源的脚手架,准备好prompt 和tools,就能在特定场景完成demo02高质量的评测集的重要性高质量的评测集的重要性各个领域的评测集(benchmark)推动了大模型在这些领域的进步https:/ysymyth.github.io/The-Second-Half/规则规则“超过1s的是慢SQL”,“active_session 数量超过CPU 核数两倍则认为是打满”