1、平安银行云原生转型背景下全链路监控体系江杰平安银行云原生平台应用监控领域负责人江杰自2017年以来,一直负责平安银行的应用监控平台和日志平台。主导公司应用监控体系和日志管理体系从0到1的建设和全面落地。目前主导监控领域全面朝向云原生可观测转型。崇尚简洁,喜欢从目的出发去寻找答案。曾任职携程,历任应用架构师、高级技术经理平安银行云原生平台应用监控领域负责人嘉宾照片目录CONTENTS云原生下的可观测挑战01 平安银行全链路监控难点02 平安银行全链路监控5大核心挑战03 平安银行全链路监控体系简介04 信创和自主创新05 01云原生下可观测挑战云原生转型的可观测挑战动态云原生环境的复杂性微服务和
2、容器的监测实时性金融科技起步较晚,但发展速度极快,存在大量异构老旧系统。银行体系下的核心应用安全合规要求高,需随时保持高可用的状态。需实时监测并了解应用的内部状态、微服务所依赖的其他相互依赖组件以及对用户的影响。前后端服务的一体性。银行体系业务范围广、应用规模大。业务、研发、测试及运维人员,基于繁杂的前后端工具,尚未规范化的指标,产生了大量的信息孤岛及盲区。且即使实现了对后端组件的全方位可视化,若缺乏前端的用户视角,也会使整个可观测性能力大打折扣。随着云计算的不断深入发展,业务系统的逻辑结构变得越来越复杂。大量单体应用在云原生转型的过程中,需要面临应用拆分和上容工作的同步推进。云环境、遗留环境
3、及混合环境的并行,导致复杂性骤增。动态海量数据的混乱性动态多重云环境下产生的数据量呈指数式增长。日常运行过程中,要尽其所能从各孤岛式工具产生的海量数据中,监测出潜在的以及正在发生的问题点。消耗大量内部IT资源的同时,仍无法应对快速发展的业务节奏。由此,系统间依赖梳理、关键性能指标展示、端到端问题诊断能力,不可或缺。02平安银行全链路监控难点平安银行云原生全链路监控的难点02.安全监管大规模混合部署场景大量老旧系统和外购系统环境复杂,大量防火墙01.部署环境监控中敏感信息较多,需满足监管要求因监管对日志的特殊要求,日志需全量记录04.数据规模微服务框架未统一存储/中间件等基础设施的统一还在持续推
4、进中研发团队多,研发人员多研发对日志排障依赖强,监管对日志也有强要求研发依赖全文检索排查问题03.基础生态每日产生超400TB原始日志,还在持续增长03平安银行全链路监控5大核心挑战平安银行全链路监控5大核心挑战1.安全合规2.部署环境3.数据体量4.埋点5.数据串联挑战1:安全合规日志中敏感信息均需脱敏已定义的敏感信息类别多,识别成本高日志满足最少一年的存档需求需满足监管年底检查的各种诉求敏感信息识别海量日志实时检测,不能影响日志时延指标检测规则管理支持规则动态添加,规则检测资源消耗要可控,规则生效满足多场景脱敏展示确保无敏感信息展示,不影响页面响应速度技术挑战按应用抽检,抽检结果实时统计,
5、支持告警抽样算法使用固定资源消耗自动择机执行专业灵活且简单的规则管理模块,确保规则的高效和安全。依赖高效的规则管理模块,保证了敏感信息识别和转换的极低消耗。自主的转换算法和敏感元素控件,让转换结果通俗易懂,方便误掩排查和规则调整。常用低效的正则规则(地址和人名判断),提供自主算法替换,执行效率提升1000,资源消耗降至1/100敏感信息识别检测规则管理脱敏展示如何应对挑战2:数据体量每日超200TB原始日志需实时检索每日超230TB的原始块日志,需关联日志需提供7+天实时在线查询(在线可查原始数据规模超2PB)块日志需提供至少一个月在线查询能力。海量数据每日200TB+日志全文检索实时检索日志
6、延迟小于1分钟系统高可用需提供7*24小时不间断服务技术挑战分区分块管理高效的标准日志解析算法时延实时监控告警时延全局分析视图便利的单元调度标准化日志存储单元避免过大存储集群日志流量额度管理实时监控,按需调整迁移友好设计,存储迁移对用户无感海量数据实时检索系统高可用日志标准规范日志标准化(超90%为标准日志)日志收集过程标准化管理自主的分布式流式处理引擎如何应对SEEmetrics(influxdb)Applicationcat-clientHost or Containercat-agent(Go)通用处理机(CAT)memory queue日志转埋点