1、GOPS 全球运维大会2019上海站GOPS 全球运维大会2019上海站阿里巴巴海量服务器下的基础运维和智能化实践GOPS 全球运维大会2019上海站目录业务介绍1整体架构2安全运维3智能化之路4GOPS 全球运维大会2019上海站我们是谁?一套自动化数据中心管理系统,管理数据中心中的软硬件生命周期,各类静态资源编排,基础软件的版本和发布GOPS 全球运维大会2019上海站解决什么问题GOPS 全球运维大会2019上海站设计理念设计理念l 终态系统:当前态向终态逼近,假设失败会在任何地发l 吞吐和可靠:热备,快速服务切换能力l 稳定性和鲁棒性:即使天基系统瘫痪也不能影响管理的服务l 版本维护,
2、天基运维天基:部署,从到有部署天基的能飞天智能运维平台系统最核心的设计,业务联动的监管控一体化安全运维以及恢复机制和变更机制的统一l 声明式(Declarative)变更。无论是配置变更,还是软件升级、硬件变更,都是通过一个格式化的说明文件来提交。这个对于避免人工失误是非常有效的。l 变更、恢复和修复机制的统一:面向终态的设计使得这三类操作采用同样的机制。l 集成的监控机制:自动发现故障运维系统要解决的问题:l能够最大化的无人干预,信息化-自动化-智能化l稳定安全,能够尽量避免人工失误,并且在失误或故障发生的情况下,能快速进行恢复GOPS 全球运维大会2019上海站目录业务介绍1整体架构2安全
3、运维3智能化之路4GOPS 全球运维大会2019上海站Region化GOPS 全球运维大会2019上海站不做100%可用的假设,不能因为中心服务不可用,而影响别的服务版本兼容和自管理相邻三个版本之间必须保证向下兼容版本和升级自维护,自己运维自己减少单点故障master存状态,其他模块无状态,可重入每个模块功能设计尽量简单确定信号触发确定行为轻量快速的服务状态检查Monitor状态机反馈,监管空一体化自包含:Package Model,减少对环境的依赖,易于清理分布式设计?TianjiAdaptorECS Yaochi?TjMaster On Paxos GOPS 全球运维大会2019上海站变更
4、变更定义:通过平台进行的软件部署、版本升级、配置变更、扩容、缩容等操普通模式:所有的机器同等对待,审批之后开始升级。金丝雀模式:先选两台机器,试着升级,成功了再升级剩下的。grayunit模式:灰度升级,用户可以自定义灰度策略。滑动窗口模式:自定义机器升级并发数,保证任意一个时刻,升级机器不超过并发数非安全模式:不考虑服务可用性,所有的机器直接升级Adaptor业务灰度模式:天基 品 用户 提交发布 查询批次 返回机器 GOPS 全球运维大会2019上海站灰度模式普通 金丝雀 grayunit 滑动窗口 Adaptor业务灰度GOPS 全球运维大会2019上海站灰度模式普通 金丝雀 grayu
5、nit 滑动窗口 Adaptor业务灰度GOPS 全球运维大会2019上海站灰度模式普通 金丝雀 grayunit 滑动窗口 Adaptor业务灰度GOPS 全球运维大会2019上海站灰度模式普通 金丝雀 grayunit 滑动窗口 Adaptor业务灰度GOPS 全球运维大会2019上海站灰度模式普通 金丝雀 grayunit 滑动窗口 Adaptor业务灰度GOPS 全球运维大会2019上海站自愈系统应用系统机器整机替换离线修复故障注入在线修复机器机器系统机器HealingServiceRepairServiceReplaceServiceChaosManager自愈领域自愈范围负责服务G
6、OPS 全球运维大会2019上海站自愈实现方式发现问题决策修复动作MonitorState1.基础硬件monitor2.应用上报1.按照规则触发修复action2.quotamanager3.action manager4.action translatorServiceDecider1.对action进行审批2.simple decider3.custom decider1.x_labor2.xx_labor3.xxx_laborLaborGOPS 全球运维大会2019上海站目录业务介绍1整体架构2安全运维3智能化之路4GOPS 全球运维大会2019上