1、携程AiOps探索与实践李赛携程集团 AIOps算法专家李赛主要负责建设携程AIOps技术体系,包括智能告警、智能变更、容量治理、应用治理、根因定位等场景下的AIOps探索与实践,在人工智能技术结合运维场景方面有深入研究携程集团 AIOps团队算法专家目录CONTENTS携程AIOps背景01 携程智能告警体系02 智能变更03 后续规划04 携程AIOps背景携程AIOps背景质量:导致故障,造成损失效率:告警滞后,损失扩大成本:不合理的资源配置,提高了运营成本携程AIOps现有支持场景异常检测告警归因故障定位故障自愈辅助决策告警治理告警和故障容量评分HPA&VPA配置节假日容量预测压测容量
2、报告采购预测容量应用风险治理应用配置推荐流量治理服务画像服务评分服务变更风险检查智能发布变更运维大脑数据&算法驱动的辅助决策层数据(离线、实时、数据源)算法携程AIOps工具产品图数据来源平台层业务层中间件客户端前端服务端数据库容器宿主机监控平台日志平台容量管理平台告警中台故障定位平台画像平台监控告警变更管理成本管理资源管理权限管理服务管理携程智能告警体系1.数据源配置复杂,重复性劳动2.规则告警配置不灵活,维护成本高3.新配置数据源需要补历史数据4.告警重复5.规则告警容易漏告和误告业务监控告警痛点业务线监控数据源配置中心10分钟采样5分钟采样1分钟采样规则告警规则告警规则告警告警中台召回率
3、告警数量携程智能告警整体架构平台层统一资源调度:YARN分布式文件系统:HDFS实时计算引擎Flink深度学习框架TensorflowMessageQueueTimeSeriesDBHadoop底层引擎层实时平台智能告警平台配置平台监控平台智能异常检测算法业务多样订单、支付、业务监控小量纲,波动剧烈,容易误告缓慢下降,不明显智能异常检测算法异常程度衡量:点异常识别阴跌场景抑制周期下降误告告警配置 数据源采集一次,通过降采样进行多颗粒度监控点维护,避免补数据操作,降低冗余 秒级粒度告警,助力提升一分钟发现 降采样颗粒度告警,助力召回率提升检测方案选择实时性窗口定义支持容错性多种时间语义算法检测数
4、据实时检测过程7654321891054321ModelModelModel54321654326177654321891076543218910Predict valueActual value智能告警模型加载流程 模型动态加载,避免重启操作 均匀加载模型,避免数据倾斜Model 1Model 2Model 3Task Manager 1Task Manager 2Task Manager 3HDFSYARNKafka模型智能告警平台告警配置接入训练均匀加载更新智能告警检测流程图 双IDC部署,避免单机故障 告警状态机,维护告警状态 高置信度告警自动开启排障会议,加快故障介入事件A Kafk
5、aTask Manager 1Task Manager 2Task Manager 3A YARN ClusterB KafkaTask Manager 1Task Manager 2Task Manager 3B YARN Cluster告警状态机ZooKeeper告警中台是否高置信度自动开启排障会议人工处理告警状态机正常待观察持续告警开启告警冒烟点正常冒烟点冒烟点开启告警正常冒烟点正常正常开启告警持续告警持续告警待观察持续告警待观察待观察正常作用:显著降低偶发波动导致的误告智能告警示意图携程智能告警效果故障1分钟发现率由之前的10%+提升到65%+准确率80%+召回率95%+显著降低了配置
6、费力度,可以更灵活的进行告警配置智能变更变更痛点变更是稳定性杀手,70%故障由变更引起。监控看板多,观测费力度大阈值设置不准确,误告容易影响变更效率漏告容易导致故障开发、测试无法完全避免故障变更流程分批发布,保证可用性应对方案:切流,回退,拉入拉出Stage 2IDC1 50%Stage 1SandboxStage 3IDC1 100%Stage 4IDC2 50%Stage 5IDC2 100%携程智能变更整体架构平台层任务生产者任务消费者消息收集检测算子任务调度TimeSeriesDB底层计算层变更信息平台诊断