当前位置:首页 > 报告详情

05-宋庆羽-期货行业的Oncall实践.pdf

上传人: 张** 编号:171740 2024-07-24 19页 3.56MB

1、期货行业的期货行业的Oncall实践实践目 录Catalogue.1业务痛点2解决方案3具体实施4后续展望业务痛点业务痛点期货业务需根据不同的交易所的分布,存在多时段交易,分为早盘、夜盘,运维全程参与保障,要求运维人员全天需要进行值班。期货交易的连续性、特殊性、实时性、高风险性及交易高峰时的压力等综合因素对期货信息系统的安全稳定运行提出了极高的要求。业务痛点通过夜莺将分散且多源的告警进行了整合,但是仍有一些行业特色的监控告警平台(OceanBase、沃趣、天旦、科莱等)。运维人员平均每周需要处理数万个报警通知。面对庞大的数量,导致对报警敏感度下降,错过重要的报警,曾因遗漏关键报警而引发生产事故

2、。解决方案需要统一高效的Oncall体系统一、高效Oncall体系合理值班体系告警聚合抑制统一告警通知Oncall体系建设思路OncallOncall平台的建设平台的建设选型成熟的相关平台,以实现统一告警接入、值班排班、报警升级以及报警降噪等核心需求,全面覆盖我司的运维场景。OncallOncall制度的建设制度的建设公司层面,建立相关的制度及岗位,配备专职团队(EEC监控岗),负责建立、完善Oncall制度,沉淀相关的能力,跟进Oncall中的遗留问题。持续运营的能力持续运营的能力通过数据量化的方式(如MTTA、MTTR),定期量化各团队的运维Oncall工作,持续进行告警治理,提升Onca

3、ll的效率。内部平台打通,提升效率内部平台打通,提升效率与内部CMDB等元数据信息系统实现打通,复用相关元数据,从而有效降低平台的建设成本。具体实施Oncall工具的选型实现值班实现值班/排班的能力,建立合理的报警升级策略;排班的能力,建立合理的报警升级策略;利用服务日历功能,适配金融行业的运营特点;利用服务日历功能,适配金融行业的运营特点;对接我司体系内的各类告警数据源;对接我司体系内的各类告警数据源;实现统一的告警降噪实现统一的告警降噪/抑制处理策略;抑制处理策略;借助Flashduty来实现:落地困难行业的特殊性存在“非标监控平台”如:网络分析(天旦、科莱)、OceanBase、Tdsq

4、l、沃趣Qfusion、SmartX平台,仅提邮件供告警方式,很难通过webhook的方式和第三方联动,无法实现告警IM化;借助Flashduty的“邮件集成”的能力,解决相关问题。Flashduty定位我司统一告警中心,实现对接全部告警源解决方案发送告警邮件接收邮件根据内置模板提取邮件信息形成Flashduty中的定义的告警事件最终实现了告警系统的全覆盖。Oncall机制Oncall中心团队1团队2底层系统团队系统报警直接分派到团队ECC监控团队业务类告警首先发送给ECC监控团队直接处理A业务主管B业务主管相关值班同学相关值班同学相关报警转派给业务方主管直接处理公司各领导同步分派分派 识别系

5、统告警/业务告警;业务告警同步到公司核心报警群,各负责人均需要关注各类告警内部系统对接 与CMDB对接:内部正在建设CMDB的元数据系统,实现资源与人的关系管理,如何能在告警系统中复用这个能力?资源出现问题,可以直接关联到人,避免关系的重复维护;(建设中)客户白名单对接:公司有客户白名单数据(比如IP白名单),但是之前很难和各报警系统进行对接,经常造成误发告警,通过Flashduty实现与其统一的白名单关联,报警更具针对性;通过标签增强对接内部系统Oncall中心CMDB各类告警(IP:xxx)白名单数据根据IP查询设备负责人根据IP查询是否在白名单告警事件IP:xxx负责人:xxx白名单:Y/N报警信息增强正确的报警处理人报警通知举例后续展望后续展望持续优化Oncall体系随着业务的发展和技术的进步,持续对Oncall体系进行优化,确保其适应性和高效性。提升告警智能化水平通过引入人工智能、机器学习等技术,对告警进行更智能的分析、分类和处理,减少误报和漏报。其他行业合作交流积极与其他行业进行Oncall领域的合作与交流,学习借鉴先进经验,推动自身Oncall体系的发展和创新。感谢聆听Thank you for listening

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要讨论了期货行业中的Oncall实践,旨在通过解决业务痛点,建立一个统一高效的Oncall体系。期货业务的连续性、实时性、高风险性使得运维人员需要全天值班,面临巨大的报警压力。为了解决这一问题,文章提出了以下解决方案:一是建立统一高效的Oncall体系,包括值班排班、报警聚合、统一告警通知等;二是建立公司层面的Oncall制度及岗位,配备专职团队进行Oncall制度的建立和完善;三是通过数据量化方式,提升Oncall的效率;四是借助Flashduty实现告警邮件的集成和统一处理。此外,文章还提到了Oncall机制的实施,如系统报警直接分派到团队,业务类告警首先发送给ECC监控团队等。在后续展望中,文章提出将持续优化Oncall体系,提升告警智能化水平,并积极与其他行业进行合作交流。
期货行业Oncall实践如何整合多源告警? 如何通过Oncall体系提高期货交易安全稳定性? 未来期货行业Oncall体系有哪些优化和展望?
客服
商务合作
小程序
服务号
折叠