马旭华-大规模节点故障预测技术实践-v2.pdf

上传人： 2***

编号：153967

2024-02-05

PDF 24页 2.23MB

《马旭华-大规模节点故障预测技术实践-v2.pdf》由会员分享，可在线阅读，更多相关《马旭华-大规模节点故障预测技术实践-v2.pdf（24页珍藏版）》请在三个皮匠报告上搜索。

1、大规模云计算下节点故障预测AIops技术实践马旭华阿里云演讲嘉宾马旭华阿里云高级技术专家负责弹性计算产品的异常智能预测体系团队，负责AI算法在弹性计算产品稳定性体系的算法工程体系研发，聚焦于故障预测技术，受损感知，异常检测等领域的AIops系统研发目录CONTENTS1.大规模节点故障预测的背景&问题定义2.大规模节点故障预测的问题（数据/算法/工程）3.大规模节点故障预测实践4.总结与展望大规模节点故障预测的背景&问题定义PART 01背景弹性计算产品介绍又名云服务器ECS(Elastic Compute Service)云计算最核心基础IaaS服务之一让大家像使用水、电、天然气等公

2、共资源一样便捷、高效地使用服务器，实现计算资源的即开即用和弹性伸缩 ECS稳定性目标：用x86的硬件，提供小型机级别的稳定性现实目标体感可用率体感可用率小型机X86服务器10X小型机X86服务器ECSX86ECS平台VMVMVM热迁移识别问题宕机，夯机，抖动现象:ECS资源100%不可用，多数因基础设施、服务器硬件或底层软件原因导致。影响:所有未持久化的数据和配置都将丢失，该ECS实例上的业务将完全中断。现象:ECS资源服务时断时续，甚至某些核心功能不可用或无法连接和操作。如:OS 夯，IO hang等。影响:未持久化数据尚未丢失，但整个ECS几乎无法使用，有时甚至无法恢复、没有备

3、份的机会。现象:ECS资源核心服务可以正常使用，但在极端情况下会出现网络或性能抖动。影响:着重影响抖动敏感用户，性能抖动可能导致用户压测等容量规划付之东流，甚至可能因抖动引发用户应用系统雪崩效应，导致整体业务中断。宕机夯机抖动定义算法问题 Fault/Error/Failure predictionFault predictionFailure prediction标签简单标签难度大静态runtime状态变化突发性实时性需求低实时性要求高硬件传感器数据依赖full stack数据Failure Prediction：节点Failure预测（宕机，夯机，性能受损）Error Predicti

4、on：UE（内存、PCIe、CPU）Prediction Fault prediction：硬件失效预测（内存，Disk Fault Prediction）大规模节点故障预测问题（数据/算法/工程）PART 02AIops工业落地需要解决的问题提升问题可解上限（数据质量，数据覆盖率）提升业务场景覆盖面（算法架构，算法工程系统）业务场景数据算法&特征算法工程业务问题算法问题面积=业务价值数据建设的问题与挑战：数据质量和复杂度质量：算法“可用”的数据复杂度：横纵向技术栈机器覆盖率（采集一致性，发布效率）特征数据覆盖率（平台差异，特征精细度）数据准确率(标签，数据清洗)现状：业界无开源数据集，技术栈

5、复杂，需要大规模环境下下长期积累算法面临的问题与挑战：适配故障预测问题的算法框架缺失现状与问题：改造问题与数据来适配算法框架特征工程复杂度高/可复用性低样本极度不均衡算法可解释性节点故障预测图像处理NLP同质数据：单词数据维度：一维序列特性：局部相关性/远程相关性，位置敏感同质数据：像素数据维度：2/3维特性：局部相关性/平移/缩放不变性多模态泛时间序列预测问题异质数据：单词/数值序列/异常特征数据维度：多维(远3维)特性：局部相关性/远程相关性多模态/时间敏感设计算法框架适配故障预测问题算法工程系统的问题与挑战：实时性，数据污染，风险控制大规模下预测实时性要求高（延时需求，计算复杂性，规模）

6、算法迭代(模型退化)，上线的准确性评价（误预测结果污染标签导致性能衰退）“黑盒”模型，大规模运维风险控制 Reference from“Hidden Technical Debt in Machine Learning Systems”大规模节点故障预测实践PART 03数据采集系统-full stack数据&高准确率标签CPU内存主板电源/风扇OS日志Kernel日志coredump资源隔离虚拟化组件云网络组建管控运维组建CIPU组件块存储组件.硬件故障资源争抢服务器掉电.网络设备异常IDC环境异常基础设施工单.实例crash心跳异常实例hang.资源

马旭华-大规模节点故障预测技术实践-v2.pdf

相关报告