1、支付宝业务监控布防讲 师:蚂蚁集团 蒋源(毕桥)目录背景问题分析问题拆解架构设计监控布防充分度监控布防精细化监控布防中心化监控有效触达背景因此,客户投诉和用户上报依然是支付宝发现问题的主要手段之一1、支付宝有着健全的用户反馈生态(热线、客服、截图等),所以“客诉+上报”得到良好的收集。2、侧面反映了支付宝的问题提前发现能力仍然存在不足,导致体验问题暴露并被投诉。提前发现手段:监控+告警一、支付宝的技术故障,部分来自 客户投诉。二、支付宝的线上问题,部分来自 用户上报。三、支付宝的日常应急,部分来自 用户反馈。背景业务发展创建监控投递告警应急止血噪音客诉、用户上报支付宝监控体系(旧):人工梳理业
2、务配置告警阈值有效发现误告无监控、监控未发现人工梳理监控高保监控:增长约23倍监控总数:百万级(个)告警投递应急群+值班高保告警量:全年 万级(次)告警总数量:全年 十万级(次)支付宝布防策略(旧):现象:监控被大量创建,告警被大量投递。结果:故障的提前发现率却没有显著提升。怪圈/瓶颈问题分析部分故障反馈:监控未发现部分故障反馈:监控不精准部分故障反馈:告警未触达在历史故障中找规律:完全依赖人工梳理,无法回答监控布防充分性问题。凭借专家经验和历史踩坑“亡羊补牢”。充分性保鲜性业务高速发展,无法解决监控的保鲜性问题,依赖人工运维。总量监控波动小,无法发现问题,需要充足的精细化监控分拆。精细化中心
3、化需要从端、网关、系统进行中心化布控兜底。告警量庞大,消息刷屏、应急未响应、未持续跟进。有效性智能化人工阈值告警噪音大,问题发现有遗漏。问题拆解监控布控不充分监控布控不充分监控布控不精准监控布控不精准监控治理监控治理业务关口流量业务监控流量布防充分度充分度可度量业务数字化推动精准布控纯人工梳理=数据智能+人工补缺端、网关、http、系统等中心化监控精细化业务多维、多阶段监控布防面向监控全生命周期治理=部门度量敏感小流量度量商家、账单、消费券、充值数字化建模多切面监控多维多阶段端到端自动布控端中心化指标网关/http核心指标系统核心指标创建监控告警投递告警配置应急响应监控重要性分级治理前置降噪后
4、置降噪压制投递量提高告警有效率智能告警降低告警规则维护成本提升自动关单率可度量降低应急成本,保证监控有效触达静默监控演练保鲜提升监控精准发现能力业务监控充分度可度量小流量智能预警与降噪专题目标:目录背景问题分析问题拆解架构设计监控布防充分度监控布防精细化监控布防中心化监控有效触达监控布防架构设计监控充分度量运营业务数字化智能监控预警业务诊断降噪告警有效率告警量业务监控充分度降噪关单率静默监控演练精准布控覆盖度监控指标中心化管理应急群运营治理通晒红黑榜端-网关-内部服务 全链路关联业务多维、多阶段 自动挖掘与建模监控自动创建指标参数解析智能预警模板小流量稀疏预警冲高回落网关流量业务监控流量业务监
5、控布控充分度单网关部门内部服务充分度视角多维多阶段端到端精细化布控专家辅助确认数据智能推荐端监控网关/http布控系统监控中心化布防监控重要性分级静默监控保鲜预警有效性治理智能告警告警量预警有效率告警降噪智能预警模板精准发现有效触达有监督修正来源下跌单维度曲线拟合日志快查业务规则目录背景问题分析问题拆解架构设计监控布防充分度监控布防精细化监控布防中心化监控有效触达监控布防充分度完全依赖人工梳理,无法回答监控布防充分性,凭借专家经验和历史踩坑“亡羊补牢”。充分性问题数据智能解决方案可视化度量监控充分性,针对性查缺补漏。网关1网关2http服务3关口n组织部门数据关联!#$%&)*!#$%&部门布
6、防充分度=单网关用户点击业务监控1系统+日志+筛选口径业务监控n配置监控监控监控覆盖的流量网关分母的流量布防充分度=+单个关口的充分度部门下-加权充分度布防充分度 计算策略pv:网关流量寻找监控缺失的位置度量+运营=牵引充分度提高网关参数组合及分布网关链路拓扑(应用、Facade、method)网关流量经过的日志未被监控覆盖的trace及特征其他手段待拓展帮助梳理新GOC业务点指明监控缺失方向度量监控覆盖水位线治理无效监控提高充分度系统1系统2系统n全路径 traceId 透传机制类比说明网关:水龙头域内业务:水管监控布防精细化业务日志离线训练集NLP切分、模式识别2023-04-25 hh: