1、趣丸运维 AI Agent黄金从 1.0 到 2.0 的自学习进化实战现任趣丸科技基础架构组负责人,负责多云基础设施建设和研发效能相关平台。10年工作经验,专注于多云基础设施和AIGC赋能项目。在容器技术、高可用系统架构设计以及人工智能领域积累了丰富的实践经验。积极参与开源贡献,多次在国内知名技术峰会上分享。目前正积极探索AIGC技术在研发流程中的创新赋能方式。趣丸网络-基础架构负责人黄金请替换您的照片04目录010203机遇与挑战:大模型驱动的智能运维 Agent 新范式从 0 到 1:趣丸运维 Agent 1.0 的落地与反思自我进化:Agent 2.0 的自学习机制与技术路径未来图景:目
2、标驱动的主动式人机协同新方向01大模型驱动下的智能运维 Agent 新范式机遇与挑战传统智能运维的困境泛化能力弱,规则系统维护成本高传统智能运维系统往往针对特定场景设计,缺乏通用性,导致规则系统在面对新问题时需要频繁调整,增加了维护成本和时间。人机缺乏协同,模型结果无法干预传统智能运维系统往往缺乏与人工的有效协同机制,模型产生的结果无法得到及时的人工干预和校正,限制了系统的灵活性和准确性。依赖人工经验,知识传承断层运维工作严重依赖于个人经验,缺乏有效的知识共享机制,导致经验无法有效传承,新一代运维人员难以快速掌握关键技能。非结构化数据处理难题运维中遇到的大量日志和告警信息通常是非结构化的,缺乏
3、有效的工具和技术来高效关联和分析这些数据,影响了问题的快速定位和解决。LLM Agent 在运维中的机会自然语言驱动的运维一体化利用自然语言处理技术,AI Agent 可以创建一个统一的入口,实现查询、监控和操作的一体化,简化运维流程。人机协作模式的优化AI Agent 与人类运维人员的协作模式优化,使得人员可以专注于裁决和把关,而让 Agent 执行繁重的日常运维工作。认知到决策的智能化闭环AI Agent 通过从认知到决策的闭环,将传统的自动化升级为智能化,从而提高运维效率和准确性。面向任务的自适应推理能力AI Agent 能够根据任务需求进行自适应推理,更稳健地处理各种边界情况和异常,提
4、升问题解决的灵活性。运维场景的特殊性01低容错空间运维场景中,AI Agent需容错率低以确保系统稳定,执行任务时强制确认操作,过程可控。同时,需配套权限控制、操作审计及快速回滚机制保障系统安全。03私域数据为主AI Agent处理企业私域数据,如术语、流程等,这些数据对企业决策至关重要。它依赖实时内部数据,确保决策准确实用。02复杂多模态输入运维AI Agent需处理文本、图片等输入,要有强多模态理解能力,集成算法解析数据以准确决策响应。04实时性要求AI Agent在运维场景需具备实时性,快速响应系统变化,实时监控并处理异常。这要求其有高效数据处理和快速决策能力,以提高运维效率和系统可靠性
5、。大模型在运维场景的落地思路五层基石理论大模型在智能运维上的进化方向支持问答与数据分析支持问答与数据分析AI Agent通过问答和数据分析提供决策支持,帮助用户理解复杂信息。主动规划与指导主动规划与指导AI Agent能主动规划并指导人类,完成复杂协作任务。协助执行操作协助执行操作在人类协助下,AI Agent可执行特定任务,减轻工作负担。02智能运维Agent 1.0 落地与反思从0到1AI Agent 技术落地的问题和挑战生成式模型在长对话或复杂任务中可能表现出幻觉、不一致或性能退化。这些问题往往源自模型缺乏因果推理能力、对语境极端敏感以及内部随机性。稳定性稳定性设计 AI Agent 时
6、需综合考虑模型大小、推理并行度、硬件选择以及是否采用知识检索或蒸馏等技术,以在效果与成本之间平衡。同时上线文的管理方式、记忆与工具等都会为模型调用带来额外的成本消耗成本成本运维场景下的决策通常需要实时或准实时响应,若AI Agent 在信息处理、模型推理或指令下发阶段耗时过长,会直接影响问题定位与恢复效率,导致整体 MTTR 延长。时效性时效性LLM 存在知识截断、知识鸿沟等问题无法覆盖企业内部专有系统、最新架构与配置数据,易产生错误推断。削弱运维人员信任。准确性准确性趣丸运维Agent 1.0演进路线阶段 二阶段 一阶段 三用户决定使用哪个Agent路由Agent决定使用哪个Agent主持A