1、蚂蚁大促场景下的全链路压测体系构建与保障实践刘凯宁个人简介刘凯宁 蚂蚁集团 SRE技术专家 多次参与蚂蚁集团超大型活动的稳定性保障,承担过大促保障队长、全链路压测负责人、全链路资源容量负责人、全链路资金安全保障负责人等角色 QCon2024 上海站明星讲师目录01020304蚂蚁大型活动保障架构概览蚂蚁全链路压测体系蚂蚁大促全链路压测实战未来已来!AI 压测初探01蚂蚁大型活动保障架构概览 支付峰值型大促支付峰值型大促 玩法峰值型大促玩法峰值型大促提前布防提前布防薄弱点梳理常态化压测常态化压测模拟外部流量线上流量覆盖线上流量覆盖异步化+自适应降级挑战点挑战点1 1:支付宝:支付宝SKASKA
2、商户峰值时间不确定商户峰值时间不确定挑战点挑战点2 2:超级大促支付秒杀峰值高,链路压力巨大:超级大促支付秒杀峰值高,链路压力巨大挑战点挑战点3 3:支付商户聚集,极易引发支付链路热点:支付商户聚集,极易引发支付链路热点峰值时间不确定单商户热点支付链路瓶颈点全链路自适应降级改造全链路自适应降级改造商户热点优化商户热点优化瓶颈点异步化瓶颈点异步化高峰值验证全链路压测/仿真分析极端流量防御多层限流/降级挑战点挑战点1 1:伴随营销秒杀抢券:伴随营销秒杀抢券/红包发放,资金红包发放,资金/客诉风险高客诉风险高挑战点挑战点2 2:玩法多样复杂,:玩法多样复杂,C C 端用户行为难以预测准确端用户行为难
3、以预测准确挑战点挑战点3 3:通常带来端增,整个:通常带来端增,整个 APPAPP 以及在离线链路压力巨大以及在离线链路压力巨大算发奖提前演练算发奖提前演练对客风险识别布防对客风险识别布防用户动线分析用户动线分析会场玩法流量预估会场玩法流量预估客户端离屏灰度客户端离屏灰度端增流量分析端增流量分析/限流限流数据链路分层降级数据链路分层降级引子:大促活动形式及特点蚂蚁大促分级及活动保障 SOP评估因素评估因素因素分级因素分级用户人群M 人N 人X 人Y 人部门整个个公司大型部门中型部门小型部门预算M 元N 元X 元Y 元活动发起人大型部门负责人中型部门负责人小型部门负责人业务形态节日氛围秒杀抢购大
4、促分级大促分级匹配大促匹配大促SOPSOP分级保障分级保障信息提报门禁全链路压测门禁活动上线前N 天门禁活动信息活动信息时间/玩法/峰值必选线上值班线上值班(可选)资源评估资源评估&交付交付全链路全链路压测压测预案预案&限流限流资金安全保障资金安全保障客户端保障客户端保障二三方保障二三方保障封网封网&变更管控变更管控S+S+级级XX 项保障动作、X 种角色参与S S 级级XX 项保障动作、X 种角色参与A A 级级XX 项保障动作、X 种角色参与B B 级级XX 项保障动作、X 种角色参与蚂蚁大促保障整体流程什么是容量风险?在SRE(Site Reliability Engineering,站
5、点可靠性工程)领域中,“容量风险”“容量风险”(Capacity Risk)指的是:系统当前或未来可能因资源容量不足,无法满足用户需求或业务增长,从而导致性能下降、服务不可用或用户体验恶化的潜在风险。容量风险的本质:如何承接高并发流量?02蚂蚁全链路压测体系全链路压测定义典型使用场景全链路压测是模拟真实业务场景流量,对完整系统链路(前端后端数据库等)进行高并发压力测试,发现性能瓶颈与单点故障,确保系统在峰值(如大促)下稳定运行。通过流量染色、影子表等技术实现零业务影响 From Ling-1T蚂蚁全链路压测特点蚂蚁全链路压测平台架构介绍压压测测管管理理平平台台压压测测管管控控模模块块压压力力机
6、机模模块块压压测测风风险险模模块块项目管理项目管理场景管理场景管理压测管理压测管理压力机管理压力机管理压测监控压测监控成员管理脚本管理报告管理构建场景数据管理监控管理流量配置压测执行压测记录压力机上下线压力机扩缩容压力机状态系统监控流量监控压力机监控压力机压力机注册注册心跳心跳检查检查分发分发调度调度监控监控汇总汇总脚本脚本部署部署脚本脚本执行执行监控监控上报上报注册注册&心跳心跳压测窗口及白名单压测窗口及白名单压测熔断压测熔断压测前置校验压测前置校验蚂蚁全链路压测平台核心技术介绍_全链路染色打标生产流量压测流量流量接入层流量接入层应用服务应用服务中间件中间件缓存数据库缓存数据库压测标压测标压