1、BACKGROUND一、背景平台系统13套监控环境3套网络/安全设备 200+物理机 700+1.博睿数据运维环境现状平台承载量RUM日活 4000W+APM探针 100000+LOG日志 60TB/日指标量Zabbix 2万/秒Prometheus 35万/秒PAIN POINTS二、痛点改变传统的运维模式,化被动为主动2.运维目标SOLUTION三、解决方案1.提前发现并解决潜在风险,运维监控从被动走向主动 AI风险检测功能系统运作过程中,风险虽然不影响用户体验,但多个风险累积容易发生平台打不开、数据丢失等故障问题。为了提前发现风险将故障扼杀在摇篮中,运维团队不断完善 Bonree ONE
2、 的指标体系建设,AI风险检测更加准确。在日常运行中,当系统检测到有一个多活程序挂了,运维人员便能立刻发现去解决;CPU过高时,系统发出告警,负责人员便能及时打堆栈,并联系研发部门分析原因,在风险累积衍生成故障之前解决问题,降低故障发生率。Bonree Pilot的自动巡检和即时巡检功能利用自动巡检与即时巡检功能,对Bonree ONE全套组件以及核心指标实施全面健康监测,涵盖主机监控、服务监控、运营分析、告警管理、业务监控等多个关键模块。当巡检报告中出现了告警和问题,例如磁盘容量告急:过去的被动运维:磁盘容量告急,立马缩减/扩容现在的主动运维:磁盘容量告急,先看表详情,观察这些表的增长趋势是
3、否合理,表结构设计是否合理,是否存在优化空间,将空间释放、不合理设计优化后再采取对应的解决措施进行缩减/扩容,对运维成本进行主动管控。2.平台统一监测,打破孤岛,避免运维多线作战 集成能力将Zabbix、Prometheus等监控方式通过集成功能,实现一体化存储,用全栈根因分析,统一告警,运维人员无需监控每一个平台,通过Bonree ONE便可以直观查看所有数据。3.AI智能观测,快速定位根因问题与影响范围 全域分析将数据统一集成到Bonree ONE后,运维团队以实体关系为核心构建数据指标体系,平台统一对数据进行分析、关联、查看等,问题定位更加准确。过去查看日志需要上机器,且日志需符合等保3
4、级对日志审计系统的要求,系统日志、安全日志、关键配置等均要能够保存和分析,现在在平台上便能立即查看相关日志信息,打破运维传统的流程惯例。可用性监测运维团队抢先体验了Bonree ONE 3.0的新功能:可用性监测。可用性监测支持HTTP多地址访问,释放了运维人员写脚本的工作量。同时能够自定义内外网监测点,以前对公网域名监控时需要给Zabbix机器增加外网访问的能力,因Zabbix机器有访问所有机器的权限,具备外网能力后,这显然不符合安全 规定。可用性监测功能够同时使用内网和外网的监测点,很好地解决了这个问题。新功能弥补了开源工具对HTTP监控的缺失,也降低运维人员对shell脚本开发能力的依赖
5、。接入Zabbix、Prometheus等第三方数据后,运维人员能够通过查看依赖分析影响范围,很直观地看出当前程序访问了哪些服务,以及哪些服务访问了当前程序。调用链分析能够在问题出现时帮助运维团队定位到Server领域或者慢方法,定位更准确,节约时间。根因分析发现风险报警问题后,打开问题详情,通过详情清单查看本次故障所涉及到的实体信息。根据系统提供的初步判断查看具体的方法、SQL等RESULTS AND BENEFITS四、成果及收益通过使用Bonree ONE,运维团队的工作模式实现了从被动应对问题向主动治理风险的根本性转变。主动运维策略将风险与问题前置,团队能够提前识别并解决风险,显著提升
6、系统稳定性的同时极大地减轻了运维人员的工作负担。同时,风险与问题前置也为运维人员争取了充裕的时间,能够在问题出现前对系统进行深入的观察和分析,及时进行必要的调整优化,这不仅提升了运维效率,还实现了资源成本的节约。2024年1月至9月期间,Bonree ONE的运用及运维团队工作模式的转变已成功为公司节约成本近80w人民币(物理机12台)。风险预防能力显著提升,2024年风险问题主动发现率提升至96%相比2023全年,2024H1治理数量提升77%,主动治理风险达242项,风险