1、 中国信息通信研究院技术与标准研究所 华为技术有限公司 2025年9月 基于智能基于智能 IPIP 广域网广域网 (AI WANAI WAN)的存算分离与)的存算分离与 云边协同训推技术研究报告云边协同训推技术研究报告 (20252025 年年)版权声明版权声明 本报告本报告版权属于版权属于中国信息通信研究院、华为技术有限公中国信息通信研究院、华为技术有限公司司,并受法律保护,并受法律保护。转载、摘编或利用其它方式使用转载、摘编或利用其它方式使用本报告本报告文字或者观点的,应文字或者观点的,应注明注明“来源:中国信息通信研究院、华“来源:中国信息通信研究院、华为技术有限公司”为技术有限公司”。
2、违反上述声明者,。违反上述声明者,编者编者将追究其相关法律将追究其相关法律责任。责任。前前 言言 智能时代加速到来,企业模型训练、推理算力需求爆炸式增长。对于企业来说,采用第三方云上智算资源是降低资本支出的最佳选择,但在数据入算、模型微调、推理输出等过程中可能面临数据、模型泄漏的问题。对于企业和行业用户来说,一方面要降低算力成本,同时又要保障训练、推理过程中的数据安全、用算安全。本报告研究面向政企模型微调训练、推理等业务场景,围绕企业安全用算需求,基于智能 IP 广域网(AI WAN)研究并提出了存算分离与云边协同训推技术方案,满足企业原始数据不出域、安全租用云端算力、降低企业用算成本的需求。
3、在存算分离模型微调训练场景下,针对企业敏感数据园区外“不落盘”需求,采用精准流控、自动流级调度技术实现用户私有存储与远端算力中心之间的高效无损传输,可保障拉远 100KM、400KM 达到 97%以上高算效,满足拉远训练需求。在云边协同推理场景下,通过企业侧部署一体机提供少量算力,利用模型拆分学习技术、精准流控和自动流级调度技术,实现推理性能 95%以上高算效,满足企业推理数据不出域的安全推理诉求。本报告中同步给出了实验室环境下的测试验证,希望为业界提供企业安全用算、灵活用算的技术参考。目目 录录 一、概述.1(一)背景.1(二)AI 大模型训练与推理技术应用.2 二、大模型微调训推场景面临的
4、挑战.4 三、基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术方案.6(一)方案总体架构.6(二)模型拆分学习技术.8(三)精准流控技术.11(四)自动流级调度技术.14 四、关键技术典型场景实验.17(一)存算分离拉远算效.17(二)云边协同推理安全性.18(三)云边协同算力资源配置优化.19 五、总结展望.22 图图 目目 录录 图 1 当前企业大模型微调训推场景算力解决方案示意图.4 图 2 存算分离与云边协同训推技术方案.6 图 3 模型拆分学习技术工作机制.9 图 4 Transformer 模型架构.10 图 5 租户级拥塞导致整体算效下降示意图.12 图 6 租
5、户级拥塞不会导致拥塞扩散示意图.12 图 7 精准流控技术工作机制.13 图 8 现有流级调度技术.14 图 9 自动流级调度技术工作机制.15 图 10 实验室验证组网示意图.17 图 11 集中式推理网络抓包示意图.19 图 12 云边协同推理网络抓包示意图.19 图 13 集中式推理算力利用率.20 图 14 云边协同推理算力利用率.20 表表 目目 录录 表 1 典型行业 AI 训推技术应用情况表.3 表 2 各类网络训推技术方案安全性对比.22 基于智能 IP 广域网(AI WAN)的存算分离与云边协同训推技术研究报告(2025 年)1 一、一、概述(一)背景(一)背景 近年来,我国
6、人工智能创新成果持续涌现,技术加速与实体经济深度融合,从自动驾驶汽车、智能医疗诊断,到人机交互、智能家居、智能教育等场景,人工智能的广泛应用不仅为人们生活带来诸多便利,更推动生产模式实现从“传统机械自动化”到“智能自动化”的关键转型 其作为新一代信息技术的通用性目的技术,已催生出数据、算力、算法等新型生产要素,并凭借智能化、自动化优势,在生产过程中实现对劳动要素的直接替代,为千行百业注入新动能。与此同时,我国正不断加大力度,推动人工智能技术迈向更高水平的发展阶段。2024 年政府工作报告中提出实施“人工智能+”行动,明确强调人工智能技术与实体经济的深度融合,将培育未来产业作为重要目标。同年,工