1、算力网络人工智能模型推理算力度量研究报告算力网络人工智能模型推理算力度量研究报告中国联通研究院中讯邮电咨询设计院联通数字科技有限公司2025 年 8 月算力网络人工智能模型推理算力度量研究报告版权声明版权声明本报告版权属于中国联合网络通信有限公司研究院,并受法律保护。转载、摘编或利用其他方式使用本报告文字或者观点的,应注明“来源:中国联通研究院”。违反上述声明者,本院将追究其相关法律责任。算力网络人工智能模型推理算力度量研究报告目录目录一、研究背景与意义.2(一)算力网络概念与架构.2(二)人工智能模型推理的算力需求加速.3(三)算力网络为人工智能模型推理提供算力.5二、算力网络人工智能模型推
2、理算力度量.7(一)算力度量相关研究进展.7(二)算力网络人工智能模型推理算力度量概念.8三、模型推理算力度量方法.10(一)算力度量模型.10(二)算力消耗量度量方法.11(三)算力使用量度量方法.12四、模型推理算力度量指标.13(一)模型推理算力度量指标体系.13(二)算力消耗量度量指标.13(三)算力使用量度量指标.15五、模型推理算力度量关键技术.16(一)模型剖析技术.16(二)模型推理并行技术.17(三)基本操作数测量技术.18六、模型推理算力度量案例.20(一)模型推理算力消耗量度量案例.20(二)模型推理算力使用量度量案例.22(三)联通云计量计费案例.22七、总结.25参考
3、文献.26算力网络人工智能模型推理算力度量研究报告-1-前 言随着人工智能技术的迅猛发展,模型推理已成为算力需求的核心驱动力。从 AI 搜索、智能体的兴起到多模态内容生成的广泛应用,模型推理的算力需求呈现出前所未有的加速态势。在此背景下,算力网络作为计算与网络深度融合的新型基础设施,为人工智能模型推理提供了灵活、高效的算力支持。然而,如何精准度量模型推理所需的算力资源,并实现算力的高效调度与优化,是当前行业面临的重要挑战。本报告深入研究了算力网络人工智能模型推理算力度量的理论框架、方法体系及关键技术,并结合典型应用案例验证其有效性。本报告旨在提出一套科学、系统且可落地的算力度量方案,推动人工智
4、能的规模化、普及化应用。编写组成员编写组成员(排名不分先后):中国联通研究院:曹畅、张岩、刘永生、王施霁、曹云飞、崔煜喆中讯邮电咨询设计院:刘扬、尼松涛、张奎、裴培、何万县、段谊海、马威、申佳、周旭晖、王迪联通数字科技有限公司:温源、姜辉、刘点、刘文涛、宋占军算力网络人工智能模型推理算力度量研究报告-2-一、研究背景与意义一、研究背景与意义(一)算力网络概念与架构(一)算力网络概念与架构算力网络是指在计算能力不断泛在化发展的基础上,通过网络手段将计算、存储等基础资源在云-边-端之间进行有效调配的方式,以此提升业务服务质量和用户的服务体验。中国联通在探索计算与网络融合思路的基础上,结合业界先进经
5、验,制定了算力网络体系架构,如图 1 所示。在该算力网络架构图中,主要包含服务提供层、服务编排层、网络控制层、算力管理层和算力资源层/网络转发层等若干功能模块,其中服务提供层主要实现面向用户的服务能力开放;服务编排层负责对虚机、容器等服务资源的纳管、调度、配给和全生命周期管理;网络控制层主要通过网络控制平面实现算网多维度资源在网络中的关联、寻址、调配、优化与确定性服务;算力管理层解决异构算力资源的建模、纳管与交易等问题;算力资源层和网络转发层扁平化融合,并需要结合网络中计算处理能力与网络转发能力的实际情况和应用效能,实现各类计算、存储资源的高质量传递和流动。算力网络人工智能模型推理算力度量研究
6、报告-3-图 1 中国联通算力网络架构算力网络中的计算资源类型包括通用 CPU、专用 AI 芯片(如 GPU、FPGA、ASIC 等)、以及各类加速卡等。不同类型的计算资源在处理AI 模型推理任务时,性能表现各异,如 GPU 擅长并行计算,适合大规模矩阵运算为主的深度学习模型推理;而 FPGA 在特定定制化推理任务中具有低功耗、高能效优势。算力网络被明确定义为提供“整体算力服务”,并强调“按需分配和灵活调度计算资源、存储资源以及网络资源”。这种转变意味着网络的核心价值正从单纯的数据传输演进为集成化的计算能力交付。这不仅是网络技术的升级,更是数字经济中价值创造的新范式,它将网络从被动的传输介质提