1、 2024年2月 SRE-E SRESRE 实践白皮书实践白皮书 v v1.01.0.1.1 目目 录录 1 SRE 整体介绍.2 1.1 前言.2 1.2 SRE 发展历程.3 1.3 SRE 的目标.4 2 SRE 的组织架构.6 3 SRE 的流程.10 3.1 可靠性构架设计.10 3.1.2 基础设施保障.13 3.1.3 数据灾备.14 3.2 研发保障.14 3.2.1 代码可靠性.14 3.2.2 代码仓库可靠性.26 3.2.3 构建可靠性.32 3.2.4 制品可靠性.36 3.3 入网控制.39 3.3.1 运行环境适配.39 3.3.2 运行环境交付.50 3.3.3
2、测试策略.56 3.3.7 变更评审.66 3.4 发布管理.75 3.4.1 发布准备.75 3.4.2 发布实施.89 3.4.3 发布总结.96 3.5 故障应急.97 3.5.1 故障发现.97 3.5.2 故障诊断.101 3.5.3 故障恢复.106 3.5.4 故障复盘.109 3.6 上线后持续优化工作.117 3.6.1 用户体验优化.117 3.6.2 重大技术保障.122 3.6.3 运维琐事的日常管理及优化.142 3.6.4 业务全生命周期工具建设.147 3.6.5 运营成本分析及优化.152 3.6.6 混沌工程.163 3.6.7 应用服务 SLI/SLO.16
3、7 3.6.8 持续改进.174 3.7 平台工程.182 3.7.1 标准应用平台工程建设.182 3.7.2 异构应用平台工程建设.202 4 附录.226 4.1 参考文献.226 4.2 术语.227 SRE实践白皮书(2023年)址:SRE-E 微信:SRE 精英联盟 2 1 SRE 整体介绍 1.1 前言前言 Google 在 2003 年启动了一个全新的团队“SRE 团队”,该团队旨在通过软件工程的方法提高应用系统的可靠性;随着 SRE 相关理论和实践在 Google 的日臻成熟,SRE 实践也从 Google慢慢地扩散到了整个行业。自从 SRE 的理念进入中国以来,就已经引起了
4、很多企业的关注和效仿,但各企业实施 SRE 的方法各异,SRE 的实现效果也各不相同。与此同时,中国的互联网行业中涌现出了一批对SRE 充满热情的倡导者,他们为社区做出了各种贡献;包括:孙宇聪翻译出版了SRE:Google 运维解密、赵成在极客时间开设了课程SRE 实战手册,以及赵舜东在社区里积极地布道分享等等,不胜枚举。2022 年,由赵成等人牵头,首批来自于互联网、运营商、金融等行业领军企业的 SRE 团队负责人齐聚一堂,组织了 SRE 研讨社区,定期开展社区分享活动,共同探讨 SRE 在各企业里的发展路径,分享各自的实战经验,并总结出了这份来自一线实战的、详实而持续更新的SRE 实践白皮
5、书。社区每年都吸纳新的成员,逐年更新本白皮书内容,力求真实客观地描述国内企业 SRE 团队的工作方式。在实践白皮书初稿长达两年的整理过程中,我们看到了不同企业对 SRE 的理解,并尽可能统一大家对相似场景的定义;我们看到了不同企业对 SRE 职能领地的扩展,并将成功团队的经验提SRE实践白皮书(2023年)址:SRE-E 微信:SRE 精英联盟 3 炼成案例供大家参考;我们也看到了在这两年的编写过程中,不同企业 SRE 团队的真实变化,并及时将其更新到实践白皮书中。总之,在未来的每个季度,我们都会将各 SRE 团队的最新职能、组织形式、技术迭代等现状,补充到实践白皮书中。2023 年,中国信息
6、通信研究院(下简称信通院)云计算与大数据研究所(下简称云大所)稳定性保障实验室的专家加入了 SRE 研讨社区,深度的参与到社区交流当中,为SRE 实践白皮书的编写工作提供了专业指导。1.2 SRE发展历程发展历程 SRE 运动在全球的发展经历了 20 年,下面是部分重要事件:l 2003 年,Google 成立了第一个 SRE 团队;l 2010 年,Facebook 拥有了一个 SRE 团队;l 2014 年,USENIX 协会主办的首届 SREcon(网站可靠性工程会议)在美国举行,大会成为了SRE专业人士交流经验和最佳实践的重要平台,标志着SRE作为一个独立且重要的专业领域在全球范围内的