1、 EMS 弹性内存存储技术白皮书 Elastic Memory Service Whitepaper 文档版本 01 发布日期 2024-06-21 华为云计算技术有限公司华为云计算技术有限公司 文档版本 01(2024-03-301)版权所有 华为云计算技术有限公司 i 版权所有版权所有 华为云计算技术有限公司华为云计算技术有限公司 2024。保留一切权利。保留一切权利。非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。商标声明商标声明 和其他华为商标均为华为技术有限公司的商标。本文档提及的其他所有商标或注册商标,由各自的所有人拥有。注意注意
2、您购买的产品、服务或特性等应受华为云计算技术有限公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为云计算技术有限公司对本文档内容不做任何明示或暗示的声明或保证。由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。华为云计算技术有限公司 地址:贵州省贵安新区黔中大道交兴功路华为云数据中心 邮编:550029 网址:https:/ 存储服务技术白皮书 目 录 文档版本 01(2024-03-301)版权所有 华为云计算技术有限公司
3、ii 目目 录录 1 概述概述.3 2 背景和动机背景和动机.4 2.1 AI 技术的发展.4 2.2 AI 场景中的存力痛点.5 2.2.1 持久化存储性能不足.5 2.2.2 DRAM 利用率低.6 2.2.3 HBM 内存墙.6 2.3 EMS 的构建动机.8 3 产品架构和关键技术产品架构和关键技术.10 3.1 软件架构.10 3.2 内存解耦池化.11 3.2.1 内存池融合部署架构.11 3.2.2 内存池分离部署架构.12 3.2.3 分级存储.12 3.2.4 数据冗余.12 3.3 面向 AI 推理的加速技术.13 3.3.1 以存代算.14 3.3.2 显存扩展.15 3
4、.3.3 计算卸载.16 3.4 面向 AI 训练的加速技术.16 3.4.1 并行训练拓扑感知的检查点保存.17 3.4.2 基于 NPU 通信的检查点恢复.18 3.4.3 选择性检查点持久化.18 3.5 面向推荐模型的加速技术.19 3.5.1 Embedding 池化存储.20 3.5.2 Embedding 均衡打散.20 3.5.3 增量检查点.21 4 总结总结.22 5 缩略语缩略语.23 存储服务技术白皮书 1 概述 文档版本 01(2024-03-301)版权所有 华为云计算技术有限公司 3 1 概述概述 基于大模型的生成式 AI 技术的重大突破推动了人工智能的应用范围从
5、传统的分类任务扩展至广泛的生成任务,引发了 AI 应用的爆发性增长,并引领 IT 产业迈入全新的“AI 时代”。随着 AI 产业的迅猛发展,云计算基础设施也在从以通用算力为核心向以智能算力为核心转变。在这种新型云计算基础设施中,数据的“算力”和“存力”是相辅相成的。尽管云数据中心在智能算力方面取得了显著进步,但是在存力方面的不足已成为制约效率的关键瓶颈。存力问题主要表现在三个方面:持久化存储性能不足、DRAM 利用率低、以及 HBM 内存墙问题。为解决这些存力问题,华为云推出了全球首创的弹性内存存储服务 EMS(Elastic Memory Service),一种以内存为主要存储介质的云基础设
6、施服务。通过 EMS,华为云将传统的“计算-存储”分离的两层云架构升级为“计算-内存-存储”分离的三层云架构,其中新增的“内存层”即为 EMS。这种新型的三层云架构能有效解决上述存力痛点,从而具有高资源弹性、高资源利用率和高性能等优势。具体来说,EMS通过以下方式解决三大存力问题:1)作为计算与存储之间的高性能缓存层,使用 DRAM 介质缓存来自HDD 和 SSD 的数据,显著提升数据访问速度,解决“持久化存储性能不足”问题;2)将 AI 服务器中的DRAM 资源解耦并池化,形成 EMS 内存池,实现 DRAM 资源的按需分配和高效利用,解决“DRAM 利用率低”问题;3)扩展 AI 加速器中