07-马千里-可观测系统的多机房实践.pdf

编号:171762 PDF 20页 4.62MB 下载积分:VIP专享
下载报告请您先登录!

07-马千里-可观测系统的多机房实践.pdf

1、可观测系统的多机房实践小米 马千里大纲能力现状架构介绍关键问题当前工作能力现状能力现状架构介绍监控架构还保留有 Open-Falcon 的元素,比如Falcon Agent、Transfer、Judge。增加了 Prometheus 相关的能力。将 Open-Falcon 的 Alarm 提取为告警平台。VMgatewayInsert 和 VMgatewaySelect 为自研组件,起到代理和主备切换的作用。VM 在各机房本地化部署,双 AZ 部署。日志架构底层以 ES 为主要方案。Loki 用作冷备存储,同时在多个场景有深度使用。ES、Loki 在各机房本地化部署。告警接入告警平台。链路架构

2、应用:“应用”来自不同的平台,包括主机、容器平台、Flink 等。应用中心:在应用元数据基础上,提供的应用的管理能力。Sampling-Trace-ETL:尾采样。只保留异常、慢查相关的 trace。性价比高。Metric-Trace-ETL:服务端计算指标。优点是和客户端语言解耦,不足是会在指标产生额外的维度,有高基数的风险。底层以 ES 为主要方案,在各机房本地化部署。告警架构从 Open-Falcon 的 Alarm 演化而来。增加了“告警源”,以及相关样式、策略的抽象。告警服务只在国内部署,各机房的告警事件统一回国发送。为了应对专线故障,开通了公网的加密链路,作为备用通道。设计之初,参

3、考了 PagerDuty、FlashDuty 等产品。致敬。关键问题问题一:大文件 merge 导致查询超时简介现象:查图功能异常。原因:VM 的文件合并没有被有效限制,大文件 merge 导致严重写放大,单个节点负载升高,集群的查询请求被间接 delay 并超时。方案故障期间将查询切换到备用集群更新 VM 版本增加告警,比如 vm_actived_merge 告警问题一:大文件 merge 导致查询超时排查1.单个节点的刷盘线程数达到 CPU 核数限制(45 核);该节点请求延迟严重,锁定故障节点。VM 查询需要等到所有节点返回结果,单个节点故障会导致整个集群查询超时。2.vmselect

4、到 vmstorage 之间 RPC 长连接,不需要重复建立连接,但在故障期间有大量建连。“cannot process vmselect conn xx.xx.xx.xx:35630:cannot process vmselect request:cannot read rpcName:cannot read data size:cannot read data in 8.730 seconds:read tcp4 xx.xx.xx.xx:8401-xx.xx.xx.xx:35630:read:connection reset by peer”3.查询大量积压。VM 优先保证写入,写入延迟高

5、时会自动 delay 查询。4.当天故障节点的合并文件数在故障期间飙升,可以确定是引起大量磁盘 IO 的原因(近一周内:故障时间外合并大文件数量不超过 4 个,故障期间达到 12 个)5.社区 2022 年 06 月 07 日修复了该问题(PR2673)。问题二:存储集群容量不足,迁移数据时影响写入简介现象:监控数据有丢失,影响监控、报警功能。原因:存储集群迁移过快,存储集群容量不足,一个节点发生故障导致整个集群写入异常。方案适当扩容,确保集群能承载当前 150%左右的写入流量。调整 vmagent 组件参数,对写入流量的上限进行限制。其他全部 vmagent 增加数据积压的监控报警,采集端出

6、现积压时能够第一时间感知。问题二:存储集群容量不足,迁移数据时影响写入排查1.迁移集群时,为了加快迁移进度,迁移过程中让一个节点承载了线上全部写入流量。该节点触发了 compaction 过程,负载升高,数据无法写入该节点。2.存储集群发生上述故障后,采集组件 vmagent 无法把采集到的监控指标数据全部写入存储集群,未写入数据会保存在磁盘上,随后进行无限重试,即发生数据积压。3.在数据积压发生后,vmagent 会尝试同时把积压的数据和新采集的数据写入到存储集群,这使得存

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(07-马千里-可观测系统的多机房实践.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠