《益企研究院:2025年AI时代的存储基石(80页).pdf》由会员分享,可在线阅读,更多相关《益企研究院:2025年AI时代的存储基石(80页).pdf(80页珍藏版)》请在三个皮匠报告上搜索。
1、 1AI 时代的存储基石张广彬 张翼 王海峰 I 著AI时代的存储基石 2目录 CONTENTS前言:存储是人工智能的关键基座 04第一章:AI 与存储技术 开启未来数据新纪元 09典型 AI 应用带来的存储增长趋势 12大模型场景下的以存强算 12自动驾驶 3.0 时代的数据循环 14边缘 AI 存储成为热点 17存储技术的挑战与机遇17存储系统的智能化 18算力与存力高效协同 19计算存储协同促进 AI 落地 19第二章:AI 应用场景与存储需求 21准备数据22训练过程24检查点及其作用 24数据量与读写压力 25检查点的保存 27检查点的恢复 29推理过程33KV Cache 及容量需
2、求 33RAG 与向量数据库 35内容生成37生成式 AI 促进数据生产 39边缘侧计算和存储能力增长 40数据留存与复用 41小结42 3AI 时代的存储基石第三章:AI 应用中的存储层级 43存储层级架构44HBM 与 SRAM 45存储容量46HDD 47SSD 49存取性能52顺序读写 52随机读取 53随机写入 54耐久性 55分层存储56第四章:技术演进与生态59容量趋势60硬盘 60SSD 62性能趋势64多磁臂 65FDP 67统一生态68绿色节能 71功耗水平 72增长趋势 72液冷选项 74长效节能 74硬盘再生 76结语:AI 重新定义数据存储的量与质 77 4因“数”而
3、变,以存强算存储是人工智能的关键基座自 2022 年底通用大模型技术取得突破以来,人工智能领域进入发展快车道。2024 年 2 月发布的多模态生成式模型,标志着基础大模型正从单一数据处理向多维度信息整合演进。这类系统通过融合文本、图像、音频等多模态数据,实现更接近人类认知的复杂信息处理能力,在医疗、交通、工业制造和气象预测等领域展现出显著应用价值。近期,得到广泛采用的开源大模型通过系统性优化,在保持高性能的同时大幅降低训练成本,引发行业广泛关注。而另一技术方案则通过大规模算力集群的部署,验证了算法效率与算力规模协同发展的重要性,为行业提供了多样化的技术路径参考。从 2018 年始,希捷参与了益
4、企研究院发起的数字中国万里行活动。几年来,数字中国万里行团队足迹遍布“东数西算”八大枢纽节点,考察了云计算、自动驾驶、高教、金融、制造等相关行业上百个数据中心,见证了云计算、人工智能高速发展下的技术应用趋势和架构演进。Jason Feist 希捷科技市场营销高级副总裁前言 I 因“数”而变,以存强算 存储是人工智能的关键基座 5AI 时代的存储基石2024 年,希捷科技再次联合益企研究院,针对不同行业场景深入调研和解读。我们发现算力和存力的紧密结合,正推动着数字经济高质量发展。基于本次调研,我们认为以下三个方面值得在更大的范围内进行探讨。首先,随着数据的爆炸式增长,生成式 AI 应用走向普及,
5、更丰富的内容、更频繁的复制以及更持久的数据留存,带来了更多的数据创建和存储需求。根据市场研究机构 IDC 的预测,到 2028 年,全球预计将产生 394ZB 数据。而现代数据中心存储的所有数据中,有80%90%是非结构化数据,包括文本文件、图像、视频和电子邮件等,它们无法规则地纳入到传统数据库中。在 AI 赋能业务的过程中,企业利用数据的能力提升,带动数据存储、管理、使用的需求增长。用户越来越关注数据存储容量、数据访问速度、设备与系统的能效等方面。IDC:全球生成的数据中,只有不到 5%会被保存下来。预计到 2028 年,存储在云端的数据约 10ZB(具体构成如上图,HDD 占比约 80%,
6、是 SSD 的 6 倍多),企业端约6ZB,消费端约 4ZB 6更重要的是,高质量数据是构建可信人工智能的支柱。数据的准确性、完整性、一致性和时效性直接影响着 AI 模型的训练效果和决策的可靠性。不准确的数据可能导致模型产生错误的预测和判断。反之,良好的数据管理,跟踪模型历史和数据脉络不仅可以帮助企业实现精准决策,还确保企业遵守人工智能法规。同时可以避免企业依赖于单一来源或者商业利益驱动下的专有数据,使 AI 模型更加全面准确地反映现实世界情况,确保推理的可确定性。其次,AI 工作负载在不同阶段需要不同特点和类型的算力、存力支撑。在大型数据中心部署中,AI 相关数据在使用和创建的无限循环中流动