1、云环境下的企业运维平台演进历程阿里云 朱超健十年互联网行业技术经验,专注于运维、安全、网络,具备丰富的运维平台产品建设经验;早期就职于安全公司,经历了从传统安全模式到云环境安全体系的运维工具平台建设及落地;后就职阿里云,经历了云技术快速发展的关键时期,有从云平台底层到业务最上层的全链路专家经验,洞察运维平台关键点,长期专注智能运维领域,从事技术服务工作,聚焦金融、互联网、教育、泛娱乐等行业客户,基于客户业务打造托管式的云上智能运维解决方案,擅长用云最佳实践、产品管理、研发管理、业务重保、疑难问题攻坚等。阿里云 朱超健目录多角度洞察运维痛点企业演进过程中运维解决之道阿里集团用云最佳实践企业运维平
2、台的未来目录多角度洞察运维痛点企业演进过程中运维解决之道阿里集团用云最佳实践企业运维平台的未来智能运维发展的必然性智能运维发展的必然性运维从人工到工具,从自动化到智能化也是互联网发展及企业业务发展的必然趋势必然趋势。1.手工运维2.脚本运维3.自动运维4.智能运维手工运维阶段的特点以人为主劳动,效率相对较低。因此,在这个阶段当企业IT系统发展到一定规模后,就会引发很多问题。正如生产力发展的农业时代。自动化运维工具和平台大幅度提升运维效率,让运维团队从机械、重复的劳动中解放出来。但随着运维工作的深入,自动化运维一些潜在缺点也逐渐暴露出来。正如生产力发展的工业时代。在可以预见的未来,IT系统架构的
3、复杂度越来越高,规模越来越大,同时伴随人力成本不断提高,渐渐地对于重型信息化企业来讲,运维不是简单依靠人力或传统的运维软件能解决问题了。正如生产力发展的智能时代。脚本运维,常常是运维人员通过实践沉淀了一小部分场景逻辑,使用shell来实现一小段简单的逻辑。只能说在手工运维的基础上做了简单升级,实则还有很大问题。正如生产力发展的蒸汽时代。农业时代蒸汽时代智能时代工业时代运维资源不足标准化程度低知识体系转移较慢企业对IT系统依赖度高问题判断依赖经验问题判断依赖经验缺少数据量化支撑缺少数据量化支撑操作对事件影响不明操作对事件影响不明知识复用性低知识复用性低机器学习根因分析趋势预测故障画像智能运维发展
4、的必然性智能运维发展的必然性运维从人工到工具,从自动化到智能化也是互联网发展及企业业务发展的必然趋势必然趋势。1.手工运维2.脚本运维3.自动运维4.智能运维农业时代蒸汽时代智能时代工业时代脚本适用范围小脚本适用范围小无法自动运维无法自动运维依靠人力运维依靠人力运维运维稳定性差运维稳定性差目录多角度洞察运维痛点企业演进过程中运维解决之道阿里集团用云最佳实践企业运维平台的未来 企业云上运维的核心问题企业云上运维的核心问题应用架构师应用开发应用运维CCB专业运维云平台架构师如何运维平台如何运维平台,如何保障业务稳定如何保障业务稳定、高效运行高效运行,支支撑企业稳定用云撑企业稳定用云?逻辑态、部署态
5、模型;流程编排;资源创建云上应用如何运维云上应用如何运维?资源供给部署监控与可观察性监控指标,告警阈值,trace,事件定级运维操作与自动化扩缩容,巡检,备份与恢复,应急操作可靠性与可恢复性快恢,自愈,限流降级,容灾合规与运维风控风险识别、防护、检测、评估和处置业务监控、智能基线、自愈能力故障导致公司资金损失客户流失还可能产生社会舆情及群体事件随着社会对互联网的依赖不断提升,互联网服务故障,影响越来越大摩菲定律告诉我们,如果一件事情有可能发生,那么必然将会发生,无法彻底避免虽然故障无法彻底避免,但可以通过监控手段快速发现,缩短故障时长,降低影响业务监控的意义业务监控的意义为何选择业务监控业务监
6、控发现故障?相比其他监控,对公司核心业务指标进行监控,更易发现业务异常历年故障分析监控发现 恢复时长远小于恢复时长远小于 非监控发现监控对于故障快速恢复非常重要监控对于故障快速恢复非常重要异常发生付款成功量异常监控业务监控选择SDKExport拨测日志 代码无侵入 业务改造少 信息详细XXX业务监控概述业务监控概述P1P2P1P2故障故障故障发现时长故障发现时长故障持续时长故障持续时长(MTTRMTTR)监控发现分钟级分钟级*4用户上报小时级小时*2数据流任务流原始日志原始日志时序监控时序监控 调度调度1010万万+核计算资源,提供分钟级百核计算资源,提供分钟级百T T日志处理能力,存储亿级监