1、全域智能运维平台STAROps工程实践分享刘嘉鹏,阿里云智能技术专家010203可观测智能体STAROps面向 Agentic Ops 的上下文面向长周期 Agentic Ops 的架构04总结刘嘉鹏阿里云智能技术专家Apache SkyWalking Committer,Alibaba Loongcollector Commiter,长期深耕可观测性领域。负责阿里云 MetricStore 时序引擎核心研发,参与海量时序数据存储与查询引擎的设计与优化,对高性能数据处理、分布式系统架构有深入的工程实践。目前专注于 STAROps 智能运维平台核心工程建设,致力于构建自主监控、分析、自愈的 AI
2、Ops 产品,通过实时多维数据集、AI 友好型运维工具链、领域专家经验库三大核心能力,为客户打造 724 自主运维的智能体团队。作为核心工程负责人,主导了 Agent 安全操作生产环境的工程设计,解决长周期任务执行、人机协同审批及全链路可观测等关键工程挑战。可观测智能体 STAROps企业运维领域面临的挑战门槛高、依赖深查询语句复杂、监控配置繁琐,排查强依赖经验;异常维度多、关联关系复杂,人工排查耗时长、根因定位困难;工具维护成本非常大。70%时间维护工具工具多、数据散监控/日志/链路/事件/变更等系统分散,运维人员多平台切换,跨系统分析困难;运维经验无法固化为可复用能力,新人上手慢,运维依赖
3、个人。平均使用 5+套运维工具被动响应、效率低规则阈值固化、告警风暴频发、无效告警多、缺乏智能收敛机制;只能事后救火处置,缺少主动巡检、风险预判、智能预警与自愈能力。MTTR 平均数小时以上风险概率分布式应用SOA、ESB、数据库、缓存单体应用基础架构、数据库云原生应用微服务、容器、云服务、ServerlessAI 应用大模型、智能体架构、推理服务全域智能运维平台 STAROps智能助手自然语言完成查数、日志分析、告警诊断和根因定位长期任务面向巡检、日志洞察、告警聚合和应用守护的异步任务数字员工自定义职责、权限、工具、Skill、MCP 和运维知识动态数据感知统一接入跨域可观测数据,构建实时运
4、维上下文运维世界模型结构化应用、服务、资源、告警、拓扑和变更关系AI 友好工具链连接查询、诊断、脚本、云产品 OpenAPI 和企业工具模型和智能体支撑推理、长程执行、动态调度和人机协同从被动响应到智能自治,724 小时保障业务连续稳定开箱即用智能运维降低运维信息获取成本缩短故障定位/恢复时间沉淀企业运维能力被动响应到智能自治查得快 看得懂 定得准 守得住STAROps 智能运维闭环指标/日志/链路/事件/拓扑/变更全域感知数据查询/日志模式/告警聚合/根因推理智能分析恢复建议/任务规划/工具调用/HIL 确认规划执行Runbook/历史故障/专家经验/Skills经验沉淀STAROps 三大
5、核心功能智能助手 即时洞察通过自然语言完成资源查询、指标解读、日志分析、事件调查和告警诊断等,将复杂查询转化为即时可读的分析结论,帮助用户快速理解系统状态、定位异常原因,降低运维信息获取门槛。长期任务 持续守护围绕运维目标创建跨天、跨周、跨月的异步任务,一次目标对齐,即可把重复巡检和被动排查变成持续自动流程,提前发现风险、收敛告警噪音,推动运维从“事后响应”走向“主动保障”。数字员工 专属 SRE构建企业专属 SRE 智能体,可自定义配置职责、权限、工具、技能等,让 Agent 按企业的流程和规范工作。沉淀专家经验和团队最佳实践,让企业逐步形成可复制、可扩展的智能运维能力。把经验变成可复用的智
6、能运维能力让智能体持续替你盯住系统让运维数据一问即懂从即时分析到持续守护,构建面向生产系统的 Agentic Ops 能力Kubernetes容器巡检个人 Agent 与 STAROps 对比场景需求与行为差异维度通用 AgentSTAROps工程含义上下文来源依赖用户手工补充基于 Workspace、UModel、可观测数据自动补充需要上下文装配与权限边界数据理解偏单点信息处理日志、指标、链路、拓扑、事件跨域联合分析需要统一实体模型与关联推理工具体系通用插件或外部 API 为主运维专用工具链、CLI、MCP、ToolService 一体化需要工具编排、幂等与超时控制治理能力往往偏轻量权限、审