《马千里-小米可观测性在AI基建的实践之路-v1.4.pdf》由会员分享,可在线阅读,更多相关《马千里-小米可观测性在AI基建的实践之路-v1.4.pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、小米可观测性在AI基建的实践之路马千里目录01020304问题与思考可观测平台现状AI 可观测性可观测性AI05未来规划01问题与思考业务概况指标 1400W/秒所有业务日志 700TB/天所有地区链路 300W/秒事件 200W/天高频痛点 系统多:自建系统、外采系统 框架多:开源框架、自研框架 语 言 多:Java、Python、Golang、C+用法多:各类工具混用场景多 难定位:告警多、调用关系复杂 Oncall 问题多 人力紧张效率低经常被问的问题这个功能怎么用为什么有这个告警为什么没发告警监控不可用了监 控 系 统 现 在 有 问 题 吗02可观测平台现状能力全景指标监控架构Pro
2、metheus为主Falcon支持存量场景主备集群双AZ部署日志服务架构业务日志架构Loki架构链路服务架构应用元数据上报尾采样业务独立分组自定义保留时长事件中心架构指标监控数据源管理数据源管理仪表盘聚合规则聚合规则告警规则PrometheusPrometheus日志服务ES:业务日志Loki:基础服务日志链路服务链路围绕应用关联各类数据链路围绕应用关联各类数据事件中心元数据管理元数据管理机器人管理告警样式配置告警样式配置屏蔽模版配置合并模版配置合并模版配置事件源管理事件源管理事件中心示例:屏蔽模版配置示例:屏蔽模版配置Oncall管理Oncall升级主备Oncall未处理告警升级自动化运维人
3、工操作耗时人工操作耗时长长单集群负载高业务互相影响业务互相影响部署方式不统一以以VMVM 为例为例快速交付快速交付快速扩容数据迁移数据迁移业务隔离业务隔离03AI 可观测性核心痛点:SRE 规模化运维的挑战 跨系统根因追溯难,排障耗时占比高 依赖人工经验、跨系统链路追踪断裂、工具割裂复杂场景定位困难 人力陷于重复操作,工具碎片化致响应延迟 重复oncall 吞噬创新时间,自动化覆盖不足运维琐事效率低下 系统产生的数据庞大,数据间关系复杂难以利用 海量日志中有效信息埋没,告警疲劳运维数据繁杂过载 变更频繁,变更自动化不足,变更风险预测困难 发布节奏加快与稳定性矛盾加剧高频变更风险巨大数据的质量决
4、定效果,海量数据的治理与规范是基础1.数据为基,持续迭代现阶段只是辅助,不强调取代人2.人机协同,明确定位聚焦高价值痛点,逐步深化3.场景驱动,结果导向应对运维的确定性与大模型的不确定性,规范管理权限,人决策4.安全可控,责任明晰1建设理念324建设理念:我们的思考整体架构场景数据模型基于MCP的多Agent实现MCP工具管理域名系统域名系统CMDBIAMIAM事件中心知识库知识库基于MCP的多Agent实现智能体管理A Agentgent管理管理自定义提示词自定义提示词基于MCP的多Agent实现多智能体管理Agent Agent 组合组合自定义提示词自定义提示词任务分配任务分配汇总结果汇总
5、结果基于MCP的多Agent实现任务执行Agent Agent 组合组合自定义提示词自定义提示词任务分配任务分配汇总结果汇总结果MCP 设计浅析精简参数精简参数时间戳时间戳枚举定义枚举定义写好说明写好说明04可观测性AI模型开发平台能力概览网络监控设备总览设备总览采集状态设备详情设备详情拓扑信息告警中心告警中心网络监控多云对接多云对接亚秒级监控故障自愈故障自愈网络监控SyslogSyslog 黑白名单黑白名单MIB管理SNMPSNMP配置配置配置管理网络监控架构多协议支持设备信息关联Syslog模版匹配亚秒级监控05未来规划保障质量,深化能力 数据质量 数据完整性 治理存量数据 技术升级 优化成本保障服务质量 做好 DevOps 支持 LLMOps 迈向 AIOps 根因定位 预测性预警提高运维效率 定位代码级问题 预警代码提交风险 校验环境差异预警研发风险 自然语言交互 场景化看板 自动生成报告 联动用户行为与后端链路产品交互提效THANKS大模型正在重新定义软件Large Language Model Is Redefining The Software