当前位置:首页 > 报告详情

3-支付宝业务监控布防-蚂蚁集团-蒋源(毕桥).pdf

上传人: 2*** 编号:135136 2023-07-09 18页 2.96MB

1、支付宝业务监控布防讲 师:蚂蚁集团 蒋源(毕桥)目录背景问题分析问题拆解架构设计监控布防充分度监控布防精细化监控布防中心化监控有效触达背景因此,客户投诉和用户上报依然是支付宝发现问题的主要手段之一1、支付宝有着健全的用户反馈生态(热线、客服、截图等),所以“客诉+上报”得到良好的收集。2、侧面反映了支付宝的问题提前发现能力仍然存在不足,导致体验问题暴露并被投诉。提前发现手段:监控+告警一、支付宝的技术故障,部分来自 客户投诉。二、支付宝的线上问题,部分来自 用户上报。三、支付宝的日常应急,部分来自 用户反馈。背景业务发展创建监控投递告警应急止血噪音客诉、用户上报支付宝监控体系(旧):人工梳理业

2、务配置告警阈值有效发现误告无监控、监控未发现人工梳理监控高保监控:增长约23倍监控总数:百万级(个)告警投递应急群+值班高保告警量:全年 万级(次)告警总数量:全年 十万级(次)支付宝布防策略(旧):现象:监控被大量创建,告警被大量投递。结果:故障的提前发现率却没有显著提升。怪圈/瓶颈问题分析部分故障反馈:监控未发现部分故障反馈:监控不精准部分故障反馈:告警未触达在历史故障中找规律:完全依赖人工梳理,无法回答监控布防充分性问题。凭借专家经验和历史踩坑“亡羊补牢”。充分性保鲜性业务高速发展,无法解决监控的保鲜性问题,依赖人工运维。总量监控波动小,无法发现问题,需要充足的精细化监控分拆。精细化中心

3、化需要从端、网关、系统进行中心化布控兜底。告警量庞大,消息刷屏、应急未响应、未持续跟进。有效性智能化人工阈值告警噪音大,问题发现有遗漏。问题拆解监控布控不充分监控布控不充分监控布控不精准监控布控不精准监控治理监控治理业务关口流量业务监控流量布防充分度充分度可度量业务数字化推动精准布控纯人工梳理=数据智能+人工补缺端、网关、http、系统等中心化监控精细化业务多维、多阶段监控布防面向监控全生命周期治理=部门度量敏感小流量度量商家、账单、消费券、充值数字化建模多切面监控多维多阶段端到端自动布控端中心化指标网关/http核心指标系统核心指标创建监控告警投递告警配置应急响应监控重要性分级治理前置降噪后

4、置降噪压制投递量提高告警有效率智能告警降低告警规则维护成本提升自动关单率可度量降低应急成本,保证监控有效触达静默监控演练保鲜提升监控精准发现能力业务监控充分度可度量小流量智能预警与降噪专题目标:目录背景问题分析问题拆解架构设计监控布防充分度监控布防精细化监控布防中心化监控有效触达监控布防架构设计监控充分度量运营业务数字化智能监控预警业务诊断降噪告警有效率告警量业务监控充分度降噪关单率静默监控演练精准布控覆盖度监控指标中心化管理应急群运营治理通晒红黑榜端-网关-内部服务 全链路关联业务多维、多阶段 自动挖掘与建模监控自动创建指标参数解析智能预警模板小流量稀疏预警冲高回落网关流量业务监控流量业务监

5、控布控充分度单网关部门内部服务充分度视角多维多阶段端到端精细化布控专家辅助确认数据智能推荐端监控网关/http布控系统监控中心化布防监控重要性分级静默监控保鲜预警有效性治理智能告警告警量预警有效率告警降噪智能预警模板精准发现有效触达有监督修正来源下跌单维度曲线拟合日志快查业务规则目录背景问题分析问题拆解架构设计监控布防充分度监控布防精细化监控布防中心化监控有效触达监控布防充分度完全依赖人工梳理,无法回答监控布防充分性,凭借专家经验和历史踩坑“亡羊补牢”。充分性问题数据智能解决方案可视化度量监控充分性,针对性查缺补漏。网关1网关2http服务3关口n组织部门数据关联!#$%&)*!#$%&部门布

6、防充分度=单网关用户点击业务监控1系统+日志+筛选口径业务监控n配置监控监控监控覆盖的流量网关分母的流量布防充分度=+单个关口的充分度部门下-加权充分度布防充分度 计算策略pv:网关流量寻找监控缺失的位置度量+运营=牵引充分度提高网关参数组合及分布网关链路拓扑(应用、Facade、method)网关流量经过的日志未被监控覆盖的trace及特征其他手段待拓展帮助梳理新GOC业务点指明监控缺失方向度量监控覆盖水位线治理无效监控提高充分度系统1系统2系统n全路径 traceId 透传机制类比说明网关:水龙头域内业务:水管监控布防精细化业务日志离线训练集NLP切分、模式识别2023-04-25 hh:

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了支付宝如何通过数据智能和精细化监控提升业务安全和用户体验。文章指出,支付宝过去依赖客户投诉和上报来发现问题的做法存在不足,因此提出了新的监控策略。新的策略包括:1. 构建健全的用户反馈生态,通过热线、客服等渠道收集用户反馈;2. 实现监控和告警的智能化,通过数据分析和自动化工具提高问题发现的准确性和效率;3. 实施端到端的监控和中心化布控,确保各个环节都能及时发现并解决问题。文章还提到,支付宝的监控体系已经实现了业务数字化推动精准布控,通过多维度、多阶段的监控布防,提高了监控的充分度和有效性。此外,文章还分享了一些已经落地的案例和数据,如23年1~6月的发现率相较于21年和22年有显著提升。总体而言,支付宝通过数据智能和精细化监控,实现了业务的充分性、精准性和有效性,提高了问题解决的效率和用户体验。
"支付宝如何通过监控布防提升用户体验?" "支付宝如何利用数据智能优化监控体系?" "支付宝在提升监控有效性方面遇到了哪些挑战?"
客服
商务合作
小程序
服务号
折叠