1、-阿里基础设施智能化之实践 周宝方 阿里基础架构资深专家 Alibaba Data Center BrainAlibaba Data Center Brain DC Brain,缘起 挑战 挑战 电信传输电信传输/网络 网络 NFV 数据中心网络数据中心网络/骨干网骨干网/城域网 城域网 SDN 服务器 服务器 网上开店 网上开店 虚拟层 虚拟层 Iaas 效率挑战-研发协同平台-服务产品化-虚拟化/软件定义-解耦-提高资源利用效率-再然后呢再然后呢?数据中心 数据中心 LinuxOS/基础软件 基础软件 Tair TDDL DRDS ODPS 金融云 金融云 应用部署应用部署、弹性调度弹性调
2、度、计费计费 行业大数据计算 行业大数据计算 Paas Saas 越复杂 反应要更快 DC 架构-Data Center As A Computer 数据中心网络数据中心网络/骨干网骨干网/城域网 城域网 服务器 服务器 虚拟层 虚拟层 1.大规模的、可扩展的数据中心数据中心 数据中心 数据中心 Linux OS/Linux OS/基础软件 基础软件 DC DC 大脑 大脑 应用部署应用部署、弹性调度弹性调度、计费计费 2.架构简单、高速的物理网络物理网络 3.规模一体化/规格少的服务器服务器 4.可软件定义的虚拟化虚拟化解决业务灵动 5.调度调度解决资源的利用率 6.6.智能化(Data D
3、riven)DC Brain 之形态 DC Brain 形态 数据高度整合 大规模计算 算法/模型层-正反馈的”精益”-闭环 -度量/策略/仿真 .数据驱动的基础设施治理模式 模型的运作 基础设施知识图谱 深度学习 智能化 RootCause 发现鲜为人知的知识 易于特征标记 基础设施运营:故障率统计:search groupByWithCount(edge(批次,edge(host,obj(hwLacpNegotiateFailed)拓扑查询:search edge(拓扑,obj(host1)数据联系知识 简单事件引擎 网络设备log分析 流量基线预警 服务状态模型 Ping探测 Bgp状态
4、监控 离线日志模型 在线日志分析模型 基线异常模型 事件引擎 服务状态模型 收敛模型 故障影响面范围推断 拓扑+图计算模型+消息 例如:S1发生slot-1故障,可以确定PC2受到影响,而PC1不受影响 DC Brain网络领域 故障的快速定位和恢复 l 分光镜 对赌 l 故障现象的快速发现 l 故障原因的快速定位 l 故障影响的快速评估 l 故障设备的快速隔离 配置审计/巡检/变更影响感知 l 发现配置错误 l 发现配置不一致 l 规范配置格式 DC Brain数据中心&服务器硬件 服务器性能智能诊断 服务器性能智能诊断 硬件的配置硬件的配置 BIOS选项、内核选项、内核配置、系统配置、硬件
5、配置型号(内存、网卡)CPU -CPU -选型选型 Cache使用情况、Instruction/Data Cache命中率、运算类型(浮点?整形?)内存 内存 -内存配置内存配置 内存带宽、延时、物理利用率、虚拟内存、页面中断次数、NUMA使用情况。网络 网络 -网络选型网络选型 带宽、延时、数据包大小 硬盘 硬盘 -硬盘选型与配置硬盘选型与配置 带宽、利用率、延时、数据块大小、读写比例、顺序/随机比例。n明确给出硬件性能状态硬件性能状态百分比 n发现硬件瓶颈点瓶颈点和热点操作热点操作、特征特征 n找出瓶颈点/热点操作,帮助业务性能优化业务性能优化 n为硬件方案方案、选型选型、配置配置提供依据 n为软硬件结合软硬件结合提供输入 数据驱动IDC选址 DC Brain全局资源调度 DC Brain还在路上 期待你加盟