1、尚玉飞蚂蚁集团技术专家尚玉飞蚂蚁集团 SRE技术专家蚂蚁支付宝内容稳定性负责人、蚂蚁大促容量架构师西安交通大学本硕毕业,17年校招加入蚂蚁集团先后参与过蚂蚁双11、蚂蚁新春红包五福、杭州消费券秒杀保障、杭州亚运会保障等大促保障专项和相关SRE负责人目录CONTENTS蚂蚁性能容量发展历程-背景介绍0102蚂蚁日常容量体系发展-从混乱走向统一蚂蚁活动性能容量-百万核资源分配模式03AI时代下性能容量未来展望04PART 01蚂蚁性能容量发展历程-背景介绍蚂蚁容量体系发展历程蚂蚁容量发展历史关键词:Platform2018关键词:Finops20232025关键词:AI手工作业期熟练的手工从业者工
2、具发展期百花齐放的平台体系成熟期统一容量架构AI+ING适配AI变化手工梳理活动资源手工收集各BU的日常容量手工提交应用扩容工单手工扩容过程中,持续找人修复问题容量额度管理平台容量应急平台管理容量Paas扩容平台预案管理平台统一各个SKU资源定价体系统一日常容量交付体系统一大促流量预测体系重塑统一日常应急容量体系AI+通算容量预测 AI+容量智能伸缩GPU 资源容量交付重塑PART 02蚂蚁日常容量体系发展-从混乱走向统一支付宝日常容量体系-业务变化更多地日常业务探索业务变化峰值驱动Vs算法驱动日常容量变化更多业务的日常资源需求更多的算法类资源需求全年降本诉求+业务痛点交付资源时间漫长交付资源
3、要求高资源统筹规划难支付宝日常容量体系-统一解决方案目标:技术依赖活动自动交付Finops日常运营触达通晒日常cpu治理日常业务优化深挖供给流程规范业务支持合理业务增长采购控制交付流畅度治理自动拆解预估支付业务专项直播业务专项大促优化专项活动业务核心架构域重点业务+架构升级长尾业务日常水位治理日常应用托管各域水位管理底层资源供给优化多池合并优化组合供给优化底层平台交付标准透明最小交付标准明确上升机制明确容量风险常态压测回归资源透明化应用容量预估容量风险识别应急资源压测场景仿真度常态化压测效率各域成本透明化成本透明化性能优化应用水位/成本基线应用性能优化支付宝日常容量体系-整体效果业务ROI低应
4、用逐步下线业务应用中心化蓄水池中心化蓄水池低水位应用重点交付业务应用重点活动业务应用高水位应用应急抽水交付定期回溯追踪缩容稳定性管理存量业务挖潜新增业务控制资源治理本质是治理浪费,而不是治理增长资源治理本质是治理浪费,而不是治理增长1234多层应急体系HPA技术秒级维度-面向突发(自动)识别高水位业务扩容T+1 面向周期(30天周期预测)业务扩容SRE-应急池(手工补齐)业务扩容+PART 03蚂蚁活动性能容量-百万核资源分配模式支付宝活动容量体系-技术挑战资源规模巨大 活动信息报备较晚,无法获得获取明确活动信息 每年多次的大促活动带来的全年资源量巨大分配时间短 每年活动周期不定,带来资源分配
5、时间不确定且有提前的趋势 大促保障周期的压缩,面向上百应用分批,整个链路应用分配时间短链路复杂 整体链路复杂,涉及上xxx个系统,xx个sku,整体资源分批的复杂程度 涉及同步链路、异步链路,业务有多重属性支付宝活动容量体系-背景峰值大促保障营销类大促容量保障确定时间点确定时间点xx.xx xx点点xx分分xx秒秒确定性玩法确定性玩法重要玩法重要玩法+重要商品提前报备重要商品提前报备确定支付峰值确定支付峰值双双11已有已有x年历史年历史营销玩法多样营销玩法多样秒杀抢券、亿级别红包同秒杀抢券、亿级别红包同时发放等时发放等玩法玩法APP端增端增整个整个APP以及在离线链路压力巨大以及在离线链路压力
6、巨大玩法多样复杂玩法多样复杂C端用户行为难以预测准确端用户行为难以预测准确淘系大促端内大促相对灵活的资源保障相对灵活的资源保障策略:提前准备弹性策略:提前准备弹性+采买服务器采买服务器相对固定的资源保障相对固定的资源保障策略:当前资源最大化使用策略:当前资源最大化使用确定不确定部署优化应用容量优化容量盘点常态化场景圈定常态化容量交付预测准/交付快/迭代快容量度量T+1度量资源回收容量供给常态化运行资源盘点算法工程-流量预测/HPA/应用分级新增BU需求盘点性能容量基线大指标子场景BU补充流量预测自动扩容压测验收量级运维资源人工批量回收长尾HPA自动回收超