1、飞天基础设施智能运维创新和实践01020304飞天基础设施业务介绍飞天基础设施智能化进展针对稳定性提升的智能化实践总结&展望飞天基础设施业务大图向基础设施全新的运维模式演进-AIOpsAIOps所有操作线上化规范,效率,数据积累过程结果数字化透明,可衡量,智能化的基础分析决策智能化准确,高效,全局优化飞天基础设施技术演进路线自动化数字化智能化01020304飞天基础设施业务介绍飞天基础设施智能化进展针对稳定性提升的智能化实践总结&展望DCDC-BrainBrain:飞天基础设施智能运营决策平台规模应用落地场景集群和服务器智能化运维大规模计算系统供应链智能化数据中心智能化运维供应链智能化整体方案
2、:针对供应链特点,打造需求、运营、分析、决策智能化方案 实现数据驱动、基于算法的需求预测、库存优化、TCO分析和优化自动闭环环境:打通自动化工具和系统平台与智能化算法的闭环系统 为未来进行先进AI算法和系统探索、部署奠定基础数据中心智能化运维目标:针对数据中心电热性能进行优化包括:冷量预测控制、Power预测控制、IDC电热感知、PUE优化等 对现场运维进行智能化改造包括:多媒体信息处理巡检、安防视频识别、工单智能派发等集群智能化方案:提升集群和服务器的稳定性和可靠性包括:服务器和部件故障预测,跨域关联,根因分析,规则生成 提升集群资源利用率和流转率包括:集群资源异常检测,关联分析智能决策01
3、020304飞天基础设施业务介绍飞天基础设施智能化进展针对稳定性提升的智能化实践总结&展望云的稳定性是客户关注的重中之重超过半数的全球财富500强企业,每周至少会经历超过1.6小时【2】的服务不可用时间美国67个数据中心,平均宕机成本代价是$9,000/分钟【1】阿里云始终把稳定性和安全性放在第一位并且不断尝试采用先进智能化技术,提前发现,主动解决问题。Reference:【1】https:/ 集群利用率异常检测 低水位和闲置智能判断和预警服务器&部件故障预测智能管理&修复 集群自动管控 故障智能化在线修复决策集群和服务器智能化布局 硬盘故障预测 内存宕机故障预测 根因分析实现从专家规则-智能
4、分析的演进实现问题和故障的处理方式,从被动响应-主动发现-提前预测集群和服务器智能运维 大量的数据缺失和噪音 如何有效构造时间序列和序列数据特征 数据样本极不均衡 正样本占比 远小于 1%高效、快速检测数据分布和特征重要性变化 提供长期稳定预测噪音&特征数据不均衡动态可适配预测性维护关键技术挑战00.20.40.60.81100101102103104Raw ValuesDensity20142015201620172018实践1:HDD1:HDD故障预测数据不均衡动态可适配噪音&特征 年化故障率1%1%按天预测,故障样本比例为万分之0.30.30.80.8 标注方案非标准化 数据(特征)噪音
5、+标注噪音 故障类型占比分布发生变化 重要特征分布发生变化重要特征数据分布变化典型故障分布占比变化三大核心挑战00.20.40.60.81100101102103104Raw ValuesDensity20142015201620172018RODMANRODMAN:A A rorobustbust d disk failure predictionisk failure prediction manmanagement pipelineagement pipeline整体解决方案Bayesian Change Detection检测变点发现Pre-failing状态并增加正样本提前发现模式突
6、变点,进行预测提前发现模式突变点,进行预测正常硬盘 Vs.不同类型故障硬盘关键指标对比统计特征特征工程 针对时间序列数据 多种不同维度统计特征生成专家知识 结合专业领域知识,进行特征构造模型生成 采用深度学习进行特征构造多种特征工程方案RodmanRodman与业界方案对比 RGF RGF:KDDKDD 1616 RF RF:ATCATC 1717 误报率FPRFPR 0.04%0.04%条件下,A1A1硬盘故障预测覆盖率(左)误报率FPRFPR 0.08%0.08%条件下,B1B1硬盘故障预测覆盖率(右)针对典型