阿里云大数据计算平台基于 AIOps 的根因定位实践-张颖莹 .pdf

编号:153069 PDF 31页 4.93MB 下载积分:VIP专享
下载报告请您先登录!

阿里云大数据计算平台基于 AIOps 的根因定位实践-张颖莹 .pdf

1、阿里云大数据计算平台基于AIOps的根因定位实践阿里云算法专家/张颖莹演讲大纲阿里云大数据运维背景010203大数据运维中的根因定位阿里云根因定位实践0405根因定位背后的算法和工程链路总结和展望阿里云大数据运维背景阿里云大数据运维背景01阿里灵杰阿里云大数据计算平台阿里云ABM 运维中台大数据计算平台典型业务场景大数据计算服务MaxCompute实时计算Flink版实时数仓Hologres智能运维AIOps大规模架构复杂核心业务效率稳定性成本AIOps海量多源异构数据实时性大数据运维中的根因定位大数据运维中的根因定位02根因定位业务价值问题发生异常发现根因定位问题恢复Mean Time To

2、 Resolve(MTTR)缩短MTTR,保障SLA(Service Level Agreement)根因定位问题定义当我们在谈论根因定位时,我们究竟在谈论什么?维度下钻根因分类因果推断核心挑战庞大搜索空间特征构建因果图构建和推断定位结果根因维度根因类别根因节点/路径根因定位的普遍性难点数据来源和类型复杂指标间存在复杂的关联关系标注样本数量少性能和实时性要求高全新的根因类型或表现形式专家经验与模型能力的结合阿里云根因定位实践阿里云根因定位实践03案例1:多维数据下钻分析服务整体流量指标地域用户集群应用机房应用Q:哪些维度导致了服务整体流量下跌?具体是哪几个用户/机房?难点解决方案显著度(自身变

3、化)惊喜度(子节点分布)贡献度(总体占比)面对庞大的搜索空间如何提升性能如何量化一个维度是根因的可能性自动选择最优的搜索方向快速剪枝高效的数据结构(BitMap)案例1:DrillUp下钻分析框架案例2:计算平台故障根因类型定位模块FlinkFlinkMaxComputeMaxComputeHologresHologres根因类型资源调度YARN NM decommissionedFuxi master failASI server overloadYARN RM switchFuxi tobo failASI node failYARN resource preemptionFuxi api

4、server overloadASI apiserver overload存储HDFS service unavailablepangu server unavailableHDFS usage over limitpangu master failoverHDFS call queue fullpangu master queue size fullpangu server write slowpangu chunkserver failover机器oomio hangdisk failurecpu usage over limitmachine breakdown网络martnet exc

5、eptionqos exceptionlvs exception其他Upstream-TTTunnelPOPUpstream-SLSFrontendDNSQ:故障发生时是平台哪个模块导致的?具体是哪种类型的原因?案例2:计算平台故障根因类型定位特征构建事件指标日志拓扑异常检测日志聚类log实时在线聚类指标构建NLP层次聚类日志类别维度案例2:计算平台故障根因类型定位样本积累故障演练数据增强FlinkMaxComputeHologres案例2:计算平台故障根因类型定位定位模型事件指标日志实体关系拓扑专家定义的根因类型值为0/1的时间序列指标层根因层模块1模块2模块3类型1类型2类型3基于知识的层

6、次贝叶斯网络(KHBN)指标层因果关系构建 PC Algorithm根因分类 条件概率typei=argmaxtiP ti|mk,s1,s2,sj P mk|s1,s2,sj 案例2:CloudRCA根因定位框架预处理指标向量化(Word2Vec)实时聚类(Hierarchical Clustering)异常检测模板提取(AFT-tree)实体关系基于知识的层次贝叶斯网络(KHBN)根因推断日志聚类特征数据(标准化0/1时间序列)带标注样本数据故障演练日志存储系统周期识别和分解PMDB事件中心事件日志1 Zhang Y,Guan Z,Qian H,et

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(阿里云大数据计算平台基于 AIOps 的根因定位实践-张颖莹 .pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠