用时:26ms

互联网报告-PDF版

您的当前位置:首页 > 互联网
  • 未来网络发展大会:2025DeepSeek行业大模型算力网加速应用生态白皮书(50页).pdf

    未来网络技术发展系列白皮书(2025)DeepSeek行业大模型算力网加速应用生态白皮书第九届未来网络发展大会组委会2025年8月版版权权声声明明本白皮书版权属于紫金山实验室及其合作单位所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来来源源:紫紫金金山山实实验验室室等等”。否则将可能违反中国有关知识产权的相关法律和法规,对此紫金山实验室有权追究侵权者的相关法律责任。编编写写说说明明主主要要编编写写单单位位:紫金山实验室、江苏省未来网络集团主主要要编编写写人人员员:侯聪、张晨、张玉军、高新平、徐政、孙婵娟、芮美芳、杨荣、陈晓波、陈刚、赵芷晴特特别别鸣鸣谢谢(无无先先后后顺顺序序):苏交科集团、笑领科技、贵州师范大学、江宁数据局新华三、浪潮信息、中兴通讯南京智能计算中心、火山引擎、算力互联、安徽提尔液冷科技天数智芯、沐曦集成电路、燧原科技、昆仑芯科技、海光信息、寒武纪、壁仞科技I前前言言自 OpenAI 问世后,各路大模型如雨后春笋般涌现,它们基于互联网上爬到的数据进行训练,要花费成千上万张 GPU 资源才能训练出来,这些大模型可以陪人闲聊、回答问题甚至求解方程,但是它无法知道的企业流水线的工艺制造方式、学校对学生的个性培养计划、医院为老人的病症诊疗方案。这些大模型我们称其为“通用大模型”,它知道的很多很杂、但不深不准。如果要让 AI 真正服务于千行百业,需要的是把“通用大模型”与行业数据充分结合,再通过算力加工成“行业大模型”。“行业大模型”的发展,需要迈过三座大山,一是模型部署太贵,企业要部署一套聪明的大模型动辄要大几百万上千万,二是数据流通不畅,企业的生产数据通过互联网传输既不安全也不高效,三是算力使用不便,国家建设了大量的公共算力却未充分被企业所知所用。DeepSeek 为“行业大模型”的征程开了个好头,它既足够聪明又开源免费,将大模型成本直降到 0。模型的问题解决了,数据流通和算力使用的问题又该如何解决?今年春节前后,DS 云部署和一体机一时间蔚然成风:云部署基于互联网提供了轻量化的 DS 服务,但面对 B 端市场存在着“数据传不出,网络运不动,算力信不过”的众多约束;一体机基于局域网部署本地化的 DS 设备,可有效解决云部署的上述挑战,但在 B 端落地应用时则面对着“建设成本高、服务性能僵、模型更新慢”等新的挑战。II为实现云部署与一体机两者优势的“兼而得之”,未来网络联合多方合作伙伴,共同打造了基于算力网加速的 DeepSeek 行业大模型边云一体化解决方案,可实现全域的算力按需供给、数据可信流转与模型实时同步,有效破解鱼掌难题:(1)高效安全的数据传输,基于确定性网络调度技术,可保障超过 1000GB 的自动驾驶数据不到5min 就传输完毕,而传统网络则需要 10 天左右,让时间“不耗在路上”;(2)全局协同的资源调度,基于计算存储网络协同调度技术,可根据全网计算资源的动态调度结果自动匹配相应的数据存储与网络传输资源,实现“货朝店走,路随货通”;(3)案前手边的使用入口,基于调度系统边缘接入技术,可通过一体机或更轻量的小盒子实现一键加速全网通达,作为企业接入东数西算的算力阀、算力表,把“路铺到家门口”。众所周知,东数西算与全国一体化算力网的最终目标,就是让千行百业像用水和用电一样用算。如何实现这个目标?(1)对于用算方而言:回想一下,在通水网之前我们需要找一口水井、买一个水缸,这就类似于当前云计算基于门户网站下单购买算力资源,当通水网之后我们只需要在屋子里面装一个水龙头、装一块水表,这就类似于未来算力网基于算力阀、算力表动态使用算力资源,需要就用不需要就停,用多少付多少,真正实现“最优匹配、按需启停”;(2)对于供算方而言:在通电网之前,水电、风电、轮机、集中式光伏、分布式光伏都有不同的发电技术与电流特性,但经过并网后都将转换至标准电压大小与统一电流特性,当前云计算中业务逻辑复杂难归一,基III于门户下单购买算力资源的方式,就好比用户指定用何种发电技术为自己发电,未来算力网中大语言模型业务逻辑可统一抽象为 Token 输入输出,基于算力阀、算力表动态使用算力资源,用户无需指定厂商、架构、型号,进而拉动国产算力的充分消纳,真正实现“精准计量、效用付费”。DeepSeek 行业大模型算力网加速应用生态白皮书(简称白皮书)的编制,得到了来自应用场景方、一体机设备厂商、算力服务商、国产芯片厂商等众多合作伙伴的大力支持,白皮书的发布期间正值全国一体化算力网并网、计量等国家标准技术文件的出台制定,希望能够为国家东数西算与全国一体化算力网提供未来网络实践经验,未来能够赋能每个企业都能够拥有自己专属的企业大模型、让各个行业都能发展出领域的行业大模型,走出一条我国特色的 AI 发展与应用路线。IV目目录录前言.I目录.IV一、现状与挑战.11.1DeepSeek.11.2行业大模型.21.3算力网加速.4二、算力网加速解决方案.62.1方案定位.62.2总体架构.72.2.1功能架构.72.2.2组网架构.92.2.3部署方案.102.3业务流程.152.3.1推理加速.152.3.2微调加速.172.4关键能力.192.4.1极简接入.192.4.2柔性访问.212.4.3安全流转.232.4.4可观可感.24三、算力网资源量化测评.25V3.1测评概述.253.2测评环境.253.3吞吐测评分析.273.4时延测评分析.31四、典型场景与应用案例.374.1入企 交通规划报告.374.2入企 医疗问答推理.384.3入园 医疗诊断微调.394.4入校 基因检测编辑.404.5政务 政务推理问答.411一一、现现状状与与挑挑战战1.1DeepSeek自 2024 年 3 月到 2025 年 3 月,我国大模型在一年之内先后完成了从技术(2024.3,Kimi 长文本重大升级)产品(2024.5,豆包上线头条/抖音)市场(2025.2,DeepSeek 现象级爆火)的华丽转身,DeepSeek 的“深度慢思考”获得了“全民加速度”。DeepSeek 深度思考的产品能力与国民出圈的市场热度,引发了 C端使用 DeepSeek 的风潮。在 DeepSeek 之前,业界并非没有开源大模型,但当时它们要么血统不够纯正(如 Llama 部分开源)、要么智商不够聪明(如 Qwen 开源小参数)、要么情商不够细腻(如 GLM 主要 2B)。DeepSeek 集血统(充分开源)、智商(深度思考)、情商(人文关怀)于一身,一经发布就获得了万千宠爱,加之“东升西落”话题的论战式传播,一时全球震惊。除了 C 端出圈以外,DeepSeek 开源更为深远的意义在于 B 端。在 DeepSeek 之前,私有化部署一套足够聪明的大模型动辄要大几百万上千万,令企业望而却步。而 DeepSeek 的开源将模型成本直降为0,一时间全行业竞相争用。DeepSeek 自身作为通用大模型,它知道的虽多、却杂,但当企业落地应用 DeepSeek 并将其与自身管理生产经营数据充分结合,就能够让 DeepSeek 掌握的更深、更准。未来的不久,DeepSeek 将不再仅仅是陪人闲聊、回答问题甚至求解方程,2而且它能够知道企业流水线的工艺制造方式、了解学校对学生的个性培养计划、知悉医院为老人的病症诊疗方案,让大模型不仅能够飞入千家万户,更能走进千行百业。目前,DeepSeek 已经在众多行业得到了应用,在落地过程中企业也已经逐步从对 671B 的盲目追风恢复到 32B/70B 的理性落地,各类智能体也渐渐走进了企业的办公与管理流程。虽然如此,但客观上而言 DeepSeek 目前仍存在很多先天缺陷,其中最大问题之一就是DeepSeek-V3/R1 目前仍然不具备多模态能力,“只会听不会看”使其在很多业务生产场景有心而无力。未来,随着 DeepSeek-R2 的发布,这块短板一定会得以弥补,并在实际落地中扮演更多关键角色。1.2行行业业大大模模型型从“通用大模型”到“行业大模型”,并非一步之遥,更非一日之功。从演进路线来看,“通用大模型”首先需要结合各个企业自身的数据变为“企业大模型”,然后汇集多个企业的数据/智能方能变为“行业大模型”。“企业大模型”目前已经在众多企业起步,其使用细致来看又可分为推理和微调两种方式。推理的架构是“大模型 知识库”,其本质可理解为“查字典”,虽然稍显机械但已经能够解决企业日常办公、管理中的很多问题。微调的架构是“大模型*数据集”,其本质可理解为“背字典”,其好处是在背字典的过程中可能会组合并涌现出新的知识以便“举一反三”,但其处理过程会消耗大量资源增加使用成3本。对于企业而言,推理和微调并不矛盾,通常是先基于开源大模型旁挂知识库进行推理,以供日常使用,当有效数据积累到一定程度时就可以进行一次微调,微调生成新的大模型后,可以对推理所用模型进行更新,以此往复加以时日,企业就能够真正拥有自己的“专属大模型”。“行业大模型”目前更多地还处于研究阶段,其潜在方式可分为以下几种:(1)将一个行业内部多家典型企业的数据统一汇集,然后通过算力直接训练得到行业大模型,这种方式虽然直截了当,但跨企业汇集数据的难度较大,在现实层面可行性受限;(2)把一个行业里面的多个企业大模型汇聚在一起,通过一个行业大模型的入口来进行问题的分流和答案的整合,这种方式架构上与 MoE 有所类似但存在分权分域问题,目前技术路线仍在摸索之中;(3)把一个行业里面的多个企业大模型汇聚在一起,通过群体协作方式相互启发增智从而得到行业大模型,这种方式较为新颖但同时具有无限潜力,是未来应重点探索的技术路线。纵观行业大模型的演进路线,我们处在企业大模型阶段,正从“推理”走向“微调”。不过,无论是推理还是微调,当前在企业落地中都仍面临着不小的挑战与问题。虽然模型成本的大山已经被DeepSeek 移除,但数据流通不畅、算力使用不便仍影响着 DeepSeek在企业中的规模应用。41.3算算力力网网加加速速企业部署 DeepSeek 的方式,主要可分为云部署和一体机两种,春节期间各大公有云争先恐后适配 DeepSeek,力求通过更好的资源弹性与更强的安全防护,让 DeepSeek 问答不再“服务超时”,不过节后落地时却发现企业更青睐于本地部署,于是各路 IT 厂商纷纷发布 DeepSeek 一体机,主打一站式交付和傻瓜式使用。两者相比而言,云部署基于互联网提供了轻量化的 DeepSeek 服务,但面对 B 端市场存在着“数据传不出,网络运不动,算力信不过”的众多约束,即:企业关键的业务数据不敢随意地传到互联网上,即使敢传出去在互联网上传的也比较慢,而且传到云上还担心公有云窥视窃取自身的业务数据。一体机基于局域网部署本地化的DeepSeek 设备,可有效解决云部署的上述挑战,但在 B 端落地应用时则面对着“建设成本高、服务性能僵、模型更新慢”等新的挑战,即:企业不仅需要为一体机的采购投入不菲的项目成本而且后续还面对着日常的用电与运维开销,采购回来的机器在使用规模与性能上具有明确的限制而无法灵活调节,机器上虽然预装了当前版本的模型文件但一旦模型升级就束手无策。实际上,云部署和一体机是一个硬币的两面,云部署的优势就是一体机的缺点,而云部署的劣势恰恰是一体机的优点。当下,云部署和一体机可以说仍然处在对立面上,未能融会贯通。但对于企业而言,事情本不应是非此即彼的选择。如何破解这种僵局?算力网即是理想的解决方案。2025 年 4 月,5全国一体化算力网监测调度平台建设指南公开征求意见,对算力网的内涵进有如下阐述:“算力网可通过专用网络实现入企、入园、入校、入户,为用户提供最优匹配、按需启停、精准计量、效用付费的算力资源供给能力,使用户获得即开即用的用算体验”。如果将一体机看作算力网入企、入园、入校、入户的载体,那么我们就可以在一体机上加装一种叫做“算力阀”和“算力表”的能力:当一体机本地资源充足时优先使用本地资源,当访问突发而本地资源不足时即发生“需求溢出”,再通过算力网动态调配云端算力加以灵活补充,当访问下降时云端算力自动释放直至为 0。“算力阀”和“算力表”就正如水网中的“水龙头”、“水表”,用户只需要拧开阀门就能连接到全国范围算力网上的算力资源,也不必关注这些算力资源的归属、架构、位置,从而真正实现“用水用电一样用算”。6二二、算算力力网网加加速速解解决决方方案案2.1方方案案定定位位基于上述现状与挑战,未来网络团队设计并研发了面向DeepSeek 行业大模型的算力网加速解决方案。基于国家东数西算安全新总线的广域确定性网络传输能力,连接用户本地与包括国家东数西算八大枢纽节点在内的全网算力资源,突破网络传输安全性、可靠性和速率瓶颈。当用户本地算力不足以支撑大模型业务时,可利用算力网调度平台,将本地任务请求动态溢出至性价比最高的云端算力。未来网络致力于构建便捷、高效、可信的全网算力分销渠道,集成异属、异构、异地算力资源并感知其状态,支持通过软件服务、型号硬件、一体机集成等多种方式实现用户接入,并为用户提供 PaaS层数据、算力、模型的一体化任务式调度和按需服务能力,为用户呈现极极简简(任任务务一一键键加加速速)、柔柔性性(访访问问无无级级变变速速)、安安全全(数数据据可可信信流流转转)的使用体验,以及任务运行状态可观、访问效果评级可感、账单透明真实可信的服务闭环。方案通过构建“前端轻量化交互 后端分布式计算”的新型算力网入口形态,使得用户无需了解技术参数细节,只需聚焦大模型应用的业务目标,即可一键获取最优性价比云端资源,进而突破单机性能瓶颈,拓展大模型训推业务范围、显著缩短高并服务延迟与模型更新时间,有效解决由本地资源不足和互联网性能限制引起的服务受限和体验降级问题。产品采用 Serverless 容器按需启停、精准计量和效用7付费特色服务体系,相比纯本地算力方式,可节省用户推理成本达50%。同时,方案可有效盘活云端国产算力资源,赋能算力供应方拓展分销渠道、扩大用户规模,进而实现算力中心的资源消纳。2.2 总总体体架架构构2.2.1功功能能架架构构图 2-1 功能架构方案总体功能架构如图 2-1 所示。其中,算力网调度平台支持任务式的算网协同调度能力,可实现数据、模型跨广域的自由高效流通。基于算力网调度平台,本白皮书将重点阐述用户接入调度平台进行大模型业务加速所需的功能架构,主要包括以下五个模块:(1)用用户户管管理理。负责用户的账户管理、身份认证与权限管理,具体包括创建、信息维护、状态管理、密码重置、注销等账户全生命周期管理,用户名密码、多因素认证(MFA)、单点登录等身份认证8功能,以及定义 RBAC 等细粒度访问控制策略的权限管理。(2)算算力力阀阀。负责增、删、改、查等云端任务的操作管理,以及任务相关资源管理,包括对接知识库生成提示词、推调业务镜像的纳管与算力资源适配、模型全生命周期管理、微调数据集管理、业务流量管理及网络组网管理。(3)算算力力表表。负责账单查询、在线结算等运营计费功能,任务状态监控、资源状态上报信息接收与展示等监控功能,以及访问效果评级功能,主要对微调效果及推理首字时延等服务质量进行评级。(4)运运维维管管理理。负责产品统一运维管控与效能优化,提升业务效率及连续性,包含基础设施层的采控与对接,平台层的版本配置管理、流程管理、监控告警、智能运维,应用层的全栈自动化远程运维作业、可视化综合大屏及分类分级视图等模块。(5)安安全全管管理理。负责用户私有知识库、数据集、模型与镜像的安全出域,在数据分级分类与用户合规基础上,构建可信数据空间(连接器),基于分布式架构与区块链智能合约互操作框架,运用数据主权保障与隐私增强技术,实现各要素在授权范围内的可信流通。92.2.2组组网网架架构构图 2-2 组网架构用户企业内网以及云端算力内网均可以通过隧道与光纤/专线等方式接入广域网络,进而与算力网调度平台互通,实现边云一体的算力网加速调度,两种连接方式的组网架构分别如图 2-2 所示。图 2-3 部署形态业务的部署形态如图 2-3 所示,支持用户以纯软件、轻量硬件、标准硬件、硬件集成等多种形态接入加速平台:纯纯软软件件。支持一键安装,能够灵活部署在容器、服务器等载体上,用户通过购买软件授权获取算力网加速增值服务;10轻轻量量硬硬件件。算力网接入盒具有轻量便携、联网接入、一点入算和数据导入等特点,支持以 SDWAN 通过互联网接入平台,并实现本地业务与云端业务的负载均衡;标标准准硬硬件件。网关接入机覆盖处理任务、数据、流量等网关接入功能,实现高速读写、光纤专线接入、数据快递,以及基于接入服务的全域负载均衡等能力;硬硬件件集集成成(推推理理一一体体机机)。具有预装模型,能够拉远微调拓展本地不支持的微调业务,并对本地推理业务进行加速;硬硬件件集集成成(训训推推一一体体机机)。为用户提供模型预装、微调加速、推理加速、算网一体的大模型云边协同推调业务。2.2.3部部署署方方案案推理应用层典型部署方案分为以下四种:(1)如图 2-4 所示,推理部署应用业务平台(包含本地部署和云端增值部署)、推理会话平台部署在 CPU 服务器上;大模型训推一体机作为本地算力节点,包含推理模型和推理引擎镜像,并部署推理实例;知识库、状态库和模型管理系统独立部署。11图 2-4 推理应用层典型部署方案 1(2)如图 2-5 所示,推理部署应用业务平台(云端增值部署)、推理会话平台部署在 CPU 服务器上;用户侧无本地算力,仅能选择远端算力进行模型部署和推理服务;知识库、状态库和模型管理系统独立部署。图 2-5 推理应用层典型部署方案 2(3)如图 2-6 所示,推理部署应用业务平台(包含本地部署和云端增值部署)、推理会话平台、推理模型和推理引擎镜像均部署在大模型训推一体机上;知识库、状态库和模型管理系统独立部署。12图 2-6 推理应用层典型部署方案 3(4)如图 2-7 所示,推理部署应用业务平台(本地部署)、推理会话平台、推理模型和推理引擎镜像均部署在大模型训推一体机上;推理部署应用业务平台(云端增值部署)部署在独立的 CPU 服务器上,管理员用户需要进行远端推理部署时,使用独立的云端增值部署界面下发任务;知识库、状态库和模型管理系统独立部署。图 2-7 推理应用层典型部署方案 4微调应用层典型部署方案也可分为以下四种:(1)如图 2-8 所示,微调部署应用业务平台(包含本地部署和云端增值部署)部署在 CPU 服务器上;大模型训推一体机作为本地13算力节点,包含微调前源模型文件和微调镜像文件;用户数据中心和模型管理系统独立部署。图 2-8 微调应用层典型部署方案 1(2)如图 2-9 所示,微调部署应用业务平台(云端增值部署)部署在 CPU 服务器上;用户侧无本地算力,仅能选择远端算力进行微调;用户数据中心和模型管理系统独立部署。图 2-9 微调应用层典型部署方案 2(3)如图 2-10 所示,微调部署应用业务平台(包含本地部署和云端增值部署)、微调前源模型文件和微调镜像文件均部署在大模型训推一体机上;用户数据中心和模型管理系统独立部署。14图 2-10 微调应用层典型部署方案 3(4)如图 2-11 所示,微调部署应用业务平台(本地部署)、微调前源模型文件和微调镜像文件均部署在大模型训推一体机上;微调部署应用业务平台(云端增值部署)部署在独立的 CPU 服务器上,管理员用户需要进行远端微调部署时,使用独立的云端增值部署界面下发任务;用户数据中心和模型管理系统独立部署。图 2-11 微调应用层典型部署方案 4152.3 业业务务流流程程2.3.1推推理理加加速速算力网调度与加速的推理业务包括两个阶段:推理任务协同调度与负载均衡推理服务。在调度阶段,管理员用户通过主动查询监控、终端用户反馈、系统自动提示等渠道获悉加速需求,发起资源调度请求,随后调度平台选定靠近用户的边缘算力或远端高性价比算力,以无服务器(Serverless)占位的方式将资源绑定,并同步信息至负载均衡模块。在推理服务阶段,由终端用户发起推理会话,负载均衡模块根据最小路径等均衡策略,将业务流量分流至本地或远端算力。在调度阶段,若存在多个可用资源,将进行无服务器占位,直至推理服务阶段,负载均衡模块将终端业务流量分发至占位节点后,调度平台再继续完成推理镜像在该节点的实际部署,即“算随网动”模式。图 2-12 推理调度阶段业务流程图推理调度阶段的业务流程如图 2-12 所示,具体如下:(1)管理员用户在推理应用业务平台发起云边协同的推理调度16请求,其中携带当前任务相关的推理模型、费用、时延、任务模式等要求信息。(2)推理应用业务平台同步调度请求至算力网调度平台。调度平台根据大模型算网需求图谱、用户画像以及本次请求中携带的用户输入要求信息,自动补齐算力厂家、型号、位置、卡数、网络时延等算网规格要求,完成算力、网络与存储资源的云边协同调度。(3)调度平台以 Serverless 方式绑定调度方案中的资源信息。(4)推理应用业务平台发起推理数据准备工作。(5)调度平台开通广域网络传输隧道。(6)广域网络传输隧道将模型文件和推理引擎镜像文件等同步至已调度的远端算力节点。(7)远端算力节点返回当前占位状态。(8)算力网调度平台向负载均衡系统同步推理调度结果,包括算力节点路由信息,以及资源状态、推理部署情况等监控信息。(9)算力网调度平台向推理应用业务平台返回推理调度结果。图 2-13推理服务阶段业务流程图17推理服务阶段的业务流程如图 2-13 所示,具体如下:(1)终端用户向推理会话平台发起高并发推理服务请求。(2)负载均衡系统收到大量推理请求,并为业务流量提供包含本地算力节点和远端算力节点的全局路由信息。(3)负载均衡系统向算力网调度平台发起算力资源弹性扩缩容请求。(4)算力网调度平台根据远端算力的资源利用率实时下发扩缩容调度指令。(5)包含以下两个并行步骤:(5-1)本地算力节点生成推理服务结果,继续步骤(6-1)。(5-2)等待扩容的推理实例完成部署后,远端算力节点生成推理服务结果,继续步骤(6-2)。(6)包含以下两个并行步骤:(6-1)本地算力节点向负载均衡系统返回推理服务结果。(6-2)远端算力节点向负载均衡系统返回推理服务结果。(7)负载均衡系统向推理会话平台返回推理服务结果。2.3.2微微调调加加速速微调业务仅涉及管理员用户。用户本地算力不足,无法微调或微调排队时间过长时,管理员用户发起微调部署任务,将微调任务部署在远端算力节点,然后在该节点执行微调业务,以缩短任务排队时间、拓展本地业务范围,即“网随算动”模式。18图 2-14 微调业务流程图微调调度与加速业务流程如图 2-14 所示,具体如下:(1)管理员用户在微调部署应用业务平台发起微调算网调度和部署请求,其中携带微调模型、任务费用、任务模式、微调完成时间、微调数据集、微调后模型回传路径等信息。(2)微调部署应用业务平台请求算力网调度平台进行微调远端调度和部署。(3)算力网调度平台开通广域网络传输隧道。(4)微调部署应用业务平台发起微调文件准备请求,包括微调源模型文件、微调镜像文件、微调使用的用户数据集等。(5)算力网调度平台向远端已调度算力下发微调启动指令。(6)广域网络传输隧道将已准备的微调文件传输至调度的远端算力。(7)远端算力部署微调任务,进行模型微调。(8)模型微调完成,回传至数据中心。(9)远端算力向算力网调度平台返回本次微调任务的结果。19(10)算力网调度平台向微调部署应用业务平台返回本次微调任务的结果,并向用户展示。2.4 关关键键能能力力2.4.1极极简简接接入入(1)极简资源配置由于配置算力网调度与加速任务的用户通常不具备专家知识,难以确定满足 DeepSeek 大模型全尺寸型号推理与微调(推调)业务需求的资源规格。为此,需构建算力网业务需求图谱,旨在免除用户手动配置算力资源信息,实现极简化配置与自动化调度。该图谱通过评测国内外主流算力卡对大模型全链条推调业务的支持能力,明确加速任务所需的算力规格,最终实现异属、异地、异构算力的统一对齐与自动调度,为国产 GPU 分销模式突破及大模型云边协同一键式配置提供坚实的科学依据。算力网业务需求图谱的构建步骤如下:首先,通过分析大模型推调业务典型场景的计算密集需求(如矩阵运算效率)和通信密集需求(如多卡互联、分布式推调同步延迟),建立典型场景的业务需求模型。其次,在充分调研各厂家支持不同推调业务的显卡型号、显存规格、单卡算力、所需卡数、多卡辅助配置要求、可用卡位置及相应一体机信息的基础上,开展场景化算力度量评测验证。评测核心指标聚焦于使用不同算力卡时的推理首 Token 延迟(TTFT)、每 Token 延迟(TPOT)、每秒查询数(QPS)以及微调完成时间等(详见第 320章)。最后,构建 DeepSeek 全尺寸模型推调业务的“模型-场景-算力-资源”四维图谱,该图谱将特定场景下的关键参数(如模型参数规模、精度要求、服务 SLA 等)映射为具体的算力需求向量(例如 70B 模型推理需算力200 TFLOPS、显存80GB),并进一步与实际算力资源信息关联,为大模型云边协同自动化调度提供核心策略输入,显著简化用户操作。(2)无感交互体验用户以本地大模型服务为入口,即可无感接入算力网调度与加速平台,无感交互体验由以下三方面能力支撑:任任务务自自动动化化创创建建能能力力。管理员用户手动创建算力网调度与加速任务时,配置模型、业务类型(如推理、微调)、任务预算(费用)、任务模式(如省心模式、放心模式)、时延要求(SLA)等信息,若用户选择将本次配置保存为任务模板,则在后续任务执行过程中,平台会实时监测算力资源状态,一旦检测到本地算力资源不足或大模型推调任务排队积压,平台将自动触发创建调度与加速任务。此过程对用户透明,实现“无感升级”,有效保障关键业务的连续性与时效性。资资源源灵灵活活调调度度机机制制。平台默认依据预先构建的“模型-场景-算力-资源”四维业务需求图谱,调度匹配最优的算力资源,极大简化了用户接入配置和操作流程,显著降低使用门槛。同时,平台提供高级配置入口,供具备专业知识的高级用户根据特定需求,手动指定或精细调整算力资源(如指定算力厂商、GPU 卡型号、集群位置或网络配置等)。21任任务务可可选选启启动动模模式式。为满足不同管理员的风险偏好和操作习惯,平台支持两种任务启动模式:省心(自动择优)模式下,系统根据四维图谱及当前资源状况,自动选择最优算力资源方案并直接执行,无需用户确认,最大化操作便捷性;放心(用户确认)模式下,系统同样提供推荐的资源方案及其预估费用,但需管理员用户确认方案后任务才会启动,此模式赋予用户最终决策权,提升操作可控性与透明度。无感接入交互体验设计,使平台既能通过高度自动化服务大多数用户,提升效率与业务连续性,又能为专家用户保留深度控制能力,并通过灵活的交互模式适配不同管理需求,最终实现算力资源调度的高效化、智能化和用户友好化。2.4.2柔柔性性访访问问(1)负负载载均均衡衡通过“标识感知动态决策弹性闭环”三位一体的全域智能负载均衡技术,实现业务流量的云边跨域动态分发。构建覆盖资源属性-业务特征-网络状态的多维度算力网标识体系,并基于标识体系利用强化学习与博弈论模型,实现多目标优化的请求分发机制。创新性融合算力网标识策略与动态调度算法,优先保证本地业务运行,在本地资源不足情况下,根据地理位置、QPS 加权等负载均衡策略,辅以多级探针、故障自愈等健康检查增强机制,将大模型推调业务请求分发至云端,实现多业务场景下的精细化流量治理,保障高并发、异构化、跨地域环境下的服务等级协议(SLA)业务闭环。22(2)弹弹性性伸伸缩缩平台具备弹性伸缩能力,根据业务需求、算力状态及用户前期配置,自动发起调度与加速任务。业务并发量过大超过算力水位时,进行弹性扩容;业务并发量过大低于算力水位时,将云端资源释放。通过差异化业务的弹性伸缩策略,打破传统互联网不可被调度现状,实现算力与网络的协同调度及扩缩容,以扩容为例:对于微调业务,调度系统完成云端算力网调度后即启动实例进行扩容,再将业务流量分发至云端;对于推理业务,调度阶段对可用算力资源仅进行无服务器占位操作,并未真正启动实例,在推理服务阶段业务流量被负载均衡分流至云端后,才启动云端实例进行扩容。(3)模模型型适适配配基于“模型算力卡业务类型服务协议镜像文件”的五维映射矩阵,实现镜像文件的多维动态适配与全域统一纳管,从应用层确保云边协同调度与加速的灵活普适性及业务连续性。推调业务镜像的框架与代码因模型架构、算力硬件等条件差异存在显著分化,例如当用户本地采用 A 卡推理时,其镜像(无论来自 A卡厂商、算力经销商或自主开发)难以适配云端异属异构算力环境,导致本地业务无法在云端实现无级加速。通过全网镜像统一纳管与多维映射矩阵构建,形成覆盖全量模型、调度异构算力、支持混合任务部署、兼容多种协议的镜像全维度适配能力。该机制可提前完成云端环境镜像适配或生成同等性能替代方案,有效解决跨域协同镜像不兼容问题。232.4.3安安全全流流转转云边协同推调业务需要将用户本地的私有知识、数据集、模型、镜像文件上传至云端,为保证这些私有资产能够安全可信地跨域跨空间流通,构建算力网调度与加速可可信信数数据据空空间间。采用分布式架构,将数据分散存储在多个节点上,避免集中存储带来的风险和依赖性,通过建立一套信任机制和规范,确保多主体数据的真实性和可信度,使数据提供者及使用者相互信任并顺利开展数据共享与流通。在数据文件分类分级的基础上,利用数字智能合约技术描述算力提供方、一体机厂商、管理员用户、推理服务用户、调度与加速平台等各个参与方对数据文件、使用方式、使用次数等流通使用行为的预期,并达成共识。通过数字智能合约对数据的共享、流通和使用进行规范约束,确保数据安全合规,建立统一的管理制度、技术标准、业务流程,不与现行法律法规相抵触,同时兼容现有的各类技术标准,允许数据提供者和使用者自由协商并定义使用策略,在满足不同主体需求的同时,提供更加个性化的数据流通解决方案。通过集成在特定软硬件环境中的数据沙箱、隐私保护计算、多租户隔离等使用控制技术,对使用数据文件的算法、应用进行控制和审计,实现对访问、分析、计算等行为的管控。采用基于联盟链的区块链存证技术,将数据哈希、操作日志上链,确保数据完整性、操作不可篡改,对数据使用阶段的共享数据、存储、使用、销毁等全流程进行日志记录,内置 GDPR、CCPA 等法规合规检查工具,自动生成数据流转审计报告,保证数据流通及使用过程如约执行,结果符合预期。242.4.4可可观观可可感感(1)任务运行状态可观通过动态拓扑仪表盘,实时映射本地设备与云端集群的立体化算力资源及网络状态,绘制推理与微调任务流水线,统计任务并发量、分布及实时状态。以热力图、水位图等形式展示 CPU/GPU 利用率、内存负载与网络流量密度等资源饱和度;以拓扑流量图监控网络节点间吞吐量,以时空矩阵视图呈现 GPU 池分布与弹性伸缩状态。针对推理任务,分析边缘预处理、云端聚合、结果回传时延;针对微调任务,跟踪数据上传、模型回传、资源释放等流程,并监控梯度同步状态、参数更新轨迹及迭代轮次等微调过程关键指标。当 GPU 占用率持续超过预警阈值时,自动触发预测性弹性扩容,显著降低大模型推调业务异常处理耗时。(2)访问效果评级可感通过智能可视化看板展示微调与推理业务核心指标,即时、精准、敏捷地评估访问效果,直观把握模型及算力网状态,实现云边协同推调业务的合理评分、精准归因、敏捷优化。针对微调业务,绘制精度-时延曲线、算力能效矩阵,并通过 A/B 测试等方式对比微调前后模型的损失函数收敛轨迹及参数分布变化;针对推理业务,及时评估推理访问的 TTFT、TPOT、QoS 等关键指标,预测性规避 SLA 违约;通过集成 AutoML 技术自动优化引擎,实现微调参数自主寻优与推理SLA 自保障。25三三、算算力力网网资资源源量量化化测测评评3.1 测测评评概概述述为使用户能够仅关注自身大模型业务需求,而无需关注具体所用的算力资源类型,算力网调度系统需掌握各型号算力资源对DeepSeek 大模型的支持情况,以便优化调度策略提升用户体验。以此为驱动,未来网络团队开展了多维的资源量化测评。传统算力测评的目标,是帮助用户更好地选购算力资源,而本测评旨在为算力网调度提供依据,从而在保证服务质量的前提下,可自动调度在网算力资源为用户提供服务,从而使得用户并不感知所使用的算力归属、架构与位置。本次测评的算力资源,包括了 H20、L40、V100 等三种英伟达GPU,以及 5 款主流国产智算芯片,在多样化的卡数及并发设定下,对 DeepSeek 大模型的吞吐量、延迟、QPS、Token 生成速率等多维度关键指标展开量化测评,为算力网调度策略的制定与优化提供了丰富详实的性能基线。本节将重点对于其中:输出 Token 吞吐量、每一并发平均吞吐量等吞吐性能结果、首 Token 延迟(TTFT,Time To FirstToken)、每 Token 输出时间(TPOT,Time Per Output Token)等时延性能结果进行介绍。3.2 测测评评环环境境本次测评基于 vLLM 框架,针对 DeepSeek 两种模型在 8 款算力26卡上的推理性能进行全面评估。由于各种算力卡对 vLLM 版本及模型精度的支持情况有所不同,本次测评结果不能完全代表算力卡的实际芯片性能,在总体测试条件尽量一致的前提下,记录测评环境和操作的差异性,具体测评环境信息请参考表 3-1。表 3-1 测评环境说明参参数数测测评评配配置置模型种类DeepSeek-R1-Distill-Qwen-32BDeepSeek-R1-Distill-Llama-70B推理框架H20vllm-0.8.xL40V100E 卡A 卡vllm-0.9.xD 卡B 卡vllm-0.6.xC 卡vllm-0.10.x输入长度1024输出长度1024最大上下文5000精度H20bfloat16A 卡B 卡27C 卡D 卡E 卡V100float16L40bfloat16、float163.3 吞吞吐吐测测评评分分析析通过在不同数量的算力卡环境上运行DeepSeek-R1的32B和70B模型,分析输出令牌(Token)吞吐量与每一并发吞吐(输出 Token吞吐/并发数)的情况,如图 3-1 至图 3-7 所示。图 3-132B 1 卡运行的输出吞吐(左)与每一并发吞吐(右)图 3-232B 2 卡运行的输出吞吐(左)与每一并发吞吐(右)28图 3-332B 4 卡运行的输出吞吐(左)与每一并发吞吐(右)图 3-432B 8 卡运行的输出吞吐(左)与每一并发吞吐(右)图 3-570B 2 卡运行的输出吞吐(左)与每一并发吞吐(右)图 3-670B 4 卡运行的输出吞吐(左)与每一并发吞吐(右)29图 3-770B 8 卡运行的输出吞吐(左)与每一并发吞吐(右)从测评结果来看,各种卡型的吞吐表现在 7 种不同测试条件下相对稳定,本次测评总体性能从高到低排序依次为 H20、D 卡、E 卡、C 卡、V100、L40、A 卡与 B 卡,但是因为各种算力卡支持的 vLLM版本不统一,本次结果仅反应基于当前测评版本的算力卡业务性能。值得一提的是,本次测评中 L40 性能表现并不理想,运行 32B模型时性能不如 V100,通过测评 bfloat16、float16(性能影响不明显),以及更改最大显存占用、添加推理加速参数等方式多次核验,L40 的测评结果均不理想。我们认为这种情况一方面是由于 L40 无 NVLink卡间互联,而 V100 使用了 NVLink 互联;另一种可能的原因是 L40缺乏专用 Tensor Core 对 float16 及 bfloat16 进行硬件加速,而是通过FP32 模拟计算,需要额外的 FP32 缓存用于存储中间结果,导致计算效率下降,而 V100 的计算无需此步。通过分析吞吐数据,我们发现针对在特定卡数下运行特定模型的情况,随着并发数增加,各个卡型的输出 Token 吞吐呈现从快速增长到趋于平稳的走势,每一并发平均吞吐则是从快速下降到趋于平稳。从低并发阶段随并发数敏感变化,到最后趋于平稳,这一过程主要受运行环境的最大吞吐量影响,对应的并发数拐点随卡数的增加而增加,30随模型增大而下降。例如,E 卡在 2 卡运行 32B 模型时,输出 Token吞吐的并发拐点为 64 并发;在 8 卡运行 32B 模型时,输出 Token 吞吐的并发拐点大于 256 并发;在 8 卡运行 70B 模型时,输出 Token吞吐的并发拐点为 128 并发。表 3-2SLA 限定每一并发吞吐 15 token/s 时的最大并发算算力力卡卡型型号号算算力力卡卡数数量量32B 最最大大并并发发70B 最最大大并并发发H20124280304149808250140L402164156V100433A 卡41并发已经不满足 SLA89B 卡41并发已经不满足 SLA1并发已经不满足 SLA81并发已经不满足 SLA1并发已经不满足 SLAC 卡215442133185040D 卡2664160608256135E 卡24846520812722通过分析测评结果,可以推断更多性能指标,为调度策略优化提供坚实的数据基础。例如,在推理 SLA 要求每一并发平均吞吐不低于 15token/s 的情况下,根据每一并发吞吐曲线,估算如表 3-2 所示的各种环境最大支持并发数,进而在并发数超过阈值之前进行提前预判与扩容加速,快速匹配满足并发量与 SLA 需求的合适资源,显著提升用户体验。3.4 时时延延测测评评分分析析使用 32B、70B 模型在多样化推理并发量情况下,测评不同算力卡的 TTFT 及 TPOT,如图 3-8 至图 3-21 所示。图 3-832B 1 并发的平均 TTFT(左)与 TPOT(右)32图 3-932B 16 并发的平均 TTFT(左)与 TPOT(右)图 3-1032B 32 并发的平均 TTFT(左)与 TPOT(右)图 3-1132B 64 并发的平均 TTFT(左)与 TPOT(右)图 3-1232B 128 并发的平均 TTFT(左)与 TPOT(右)33图 3-1332B 256 并发的平均 TTFT(左)与 TPOT(右)图 3-1432B 512 并发的平均 TTFT(左)与 TPOT(右)图 3-1570B 1 并发的平均 TTFT(左)与 TPOT(右)图 3-1670B 16 并发的平均 TTFT(左)与 TPOT(右)34图 3-1770B 32 并发的平均 TTFT(左)与 TPOT(右)图 3-1870B 64 并发的平均 TTFT(左)与 TPOT(右)图 3-1970B 128 并发的平均 TTFT(左)与 TPOT(右)图 3-2070B 256 并发的平均 TTFT(左)与 TPOT(右)35图 3-2170B 512 并发的平均 TTFT(左)与 TPOT(右)从测评结果来看,在小并发情况下,各种算力卡环境的 TTFT 与TPOT 对比趋势基本一致,在大并发情况下,部分算力卡性能到达瓶颈、性能骤降,且对 TTFT 与 TPOT 的影响不完全一致,导致 TTFT与 TPOT 的对比趋势出现不同。以 32B 模型 32 并发的推理服务为例,在 SLA 设定平均 TTFT 小于 2s、TPOT 小于 100ms 的情况下,调度系统通过测评能够精准匹配可选资源列表,见表 3-3。表 3-3 根据测评数据调度算力资源示例TTFT 满足要求的资源列表TPOT 满足要求的资源列表TTFT与TPOT均满足要求的资源列表H20-8 卡、C-2 卡、C-4卡、C-8 卡、D-8 卡除了 A-4 卡、B-4 卡、B-8 卡,其余均满足H20-8 卡、C-2 卡、C-4卡、C-8 卡、D-8 卡以上测评结果是在关闭 Prefix 缓存属性,或者每次测试前重启vLLM 服务的情况下测得,不受 Prefix 缓存影响。如果开启 Prefix 缓存属性,如图 3-22 所示是在 H20 及 E 卡上运行 32B 模型,进行 64 并发的首次推理与非首次推理 TTFT 对比,经过首次推理预热,非首次推理的 TTFT 将大幅下降,但是预热不会对TPOT 性能产生如此跨数量级的剧烈影响。36图 3-2232B 64 并发的首次/非首次推理平均 TTFT(Prefix 缓存开启)图 3-2332B 2 卡运行 H20(左)与 E 卡(右)平均 TTFT(Prefix 缓存开启)最后,我们针对 H20 与 E 卡开启 Prefix 属性,连续测试每个并发下的首次推理与非首次推理性能,每次更换并发数时重启 vLLM 服务,以保证首次推理性能不受 Prefix 缓存影响,测试结果如图 3-23所示。可以看出,无论是首次推理还是非首次推理场景,平均 TTFT在低并发情况下随并发缓慢增长,但是在高并发情况下,随着并发数增大超过算力承载能力,平均 TTFT 出现指数级激增,性能急剧下降;非首次推理由于高并发的 Prefix 缓存命中率降低,与首次推理的性能差异逐渐减小,并趋于统一。37四四、典典型型场场景景与与应应用用案案例例4.1 入入企企 交交通通规规划划报报告告图 4-1 交通规划报告生成加速本案例中,苏交科集团使用毕昇开源大模型应用开发平台与新华三一体机算力资源开展 DeepSeek-R1-Distill-Llama-671B 大模型本地推理服务,通过构建个性化智能体工作流,推理生成甘肃天水张家川县公路规划图文报告。由于本地智算资源有限,当推理并发数超过阈值后,将发生资源抢占,影响推理速度。实测低并发情况下,生成报告耗时 42s,当推理并发数增大至 60,生成报告耗时增大至 72s,继续增大推理并发数至 100,生成报告耗时超过 300s。通过接入算力网调度与加速平台,实现推理业务云边协同负载,此时,本地计算压力被分流至全网可用算力节点,60 个并发的推理报告耗时缩短至约 45s,100 个并发数的推理报告耗时约 75s,推理速度和效率得到极大提升。384.2 入入企企 医医疗疗问问答答推推理理苏 州 某 医 疗 研 究 所 的 权 威 医 疗 知 识 库,基 于DeepSeek-R1-Distill-Llama-32B 大语言模型构建私有化医疗智能推理引擎,实现病理分析、用药推荐、诊疗路径推演等高阶医疗问答服务,为医生、科研人员及患者提供合规、可溯源的专业临床决策支持,显著提升医疗知识转化效率与诊疗准确性。然而,在本地 L20 智能计算资源受限场景下,高并发推理请求易触发资源竞争瓶颈,导致服务时延激增、响应质量下降。通过引入算力网智能调度与加速能力,调用云端寒武纪 MLU370 算力进行推理加速,利用全局算力池化技术规避本地资源过载风险,实现推理效率与资源利用率的双重跃升。借助近源计算卸载与高速确定性网络,构建跨地域云边协同负载均衡能力:基于算力、时延、成本、碳排放等多目标优化动态分流策略,将本地推理压力自动分配至全网最优算力节点,降低端到端推理延迟 40%、提升并发吞吐量 3 倍、节省大模型部署成本 50%以上。394.3 入入园园 医医疗疗诊诊断断微微调调图 4-2 医疗诊断微调提高相似度南京笑领科技有限公司的口腔医疗 SaaS 服务平台,使用DeepSeek-R1-Distill-Llama-70B 医疗行业大模型提供推理问答服务。由于 DeepSeek 通用模型处理垂直领域问题效果欠佳,即使挂载专业知识库仍然不能满足医疗行业的专业推理需求,而笑领科技本地智铠100 算力不支持企业模型微调升级,导致其 SaaS 服务平台推理问答业务发展受到严重影响。依托算力网调度与加速平台,动态调度天数智芯宿州机房的天垓150 算力,为笑领科技拓展拉远微调业务。实测微调前模型推理结果与测试集目标答案之间的平均相似度为 8%,使用 15GB 训练集微调140 迭代次数后,平均相似度提升至 75%,有效降低大模型损失函数、提升推理准确度。本案例中15GB训练集的微调时间为5小时40分钟,通过11Gbps确定性网络传输仅 10s,算力效能超过 99.998%。实测表明,确定性40网络的超高带宽可显著提升云边协同微调效率,通过压缩数据集传输时间,在相同服务等级协议(SLA)时限内最大化有效计算时长,从而允许选用低成本边缘算力执行微调任务,最终实现用户微调成本下降与效率提升的双重优化。4.4 入入校校 基基因因检检测测编编辑辑图 4-3 茶树多分氧化酶基因研究图示贵州茶树资源丰富,曾发现世界唯一茶籽化石四球茶籽化石,是茶树起源的核心区域和原产地中心之一,世界茶树各大聚类群都有贵州的茶树种质资源分布。开展贵州茶树的基因研究对全球茶叶品质加工、维持遗传种质多样性及杂交品种选育具有重要意义。在本案例中,贵州师范大学(简称“贵师大”)师生选用多酚氧化酶(polyphenol oxidase,PPO)作为基因研究对象。PPO 可催化氧化儿茶素类物质形成茶黄素类(TFs)色素,对茶叶色、香、味等品质形成具有关键作用,是茶叶加工尤其是红茶品质形成的关键酶。41基因研究队列分析需处理百至上千样本的多组学数据,完成由10 个以上任务构成的分析链,基因组和蛋白结构分析及可视化需处理复杂序列比对,依赖高性能算力实现实时整合与交互分析,对时效性要求极高。贵师大本地算力不足,多组学研究亟需高性能智能算力,支撑茶树、荞麦等组学数据单次分析多达 10Tb 数据的行业大模型推理与结构比对研究。通过接入算力网调度与加速平台,拉远拓展本地不支持的推理业务,赋能贵师大师生进行茶树多分氧化酶基因研究。使用DeepSeek-R1-Distill-Qwen-32B 大模型推理进行多酚氧化酶基因测序,在此基础上编辑及比较基因序列。图 4-3 中基因测序部分为比较两个多酚氧化酶线段状结构图示,紫色部分为两个酶共有,黄色部分和蓝色部分分别为两个酶独有结构。通过研究茶树多酚氧化酶基因序列,贵师大师生精准识别出普安哈马四球茶、团龙贡茶古茶树等多样性重点或划片保护对象,根据亲缘远近关系选育出鸟王种茶树与鱼钩茶古茶树等优良杂交种,有效提升茶叶加工品质。4.5 政政务务 政政务务推推理理问问答答江宁区数据局(政务办),负责贯彻落实省市区关于数据和政务服务管理工作的决策部署,以数据要素市场化配置改革为主线,统筹推进区域数字基础设施布局、数字经济、数字社会、数字政府规划和建设工作,牵头行政审批制度改革,优化政务服务等。民生服务要求高,遇到特殊时间节点导致短时间激增的访问需求,42需要系统能实时精确的解答群众问题,避免等待时间长。但是本地算力不足,因此借助确定性网络无缝连接远方大模型算力中心,试点按需调配资源,降低整体成本。图 4-4 江宁数据局推理加速如图 4-4 所示,基于算力网调度系统与政务通智能体,结合浪潮大模型一体机与远端算力资源,试点以本地部署的大模型作为计算核心枢纽,支持快速响应本地数据处理需求;当业务量激增,本地资源难以负荷时,可通过该平台灵活调用部署在云端的算力资源,保障智能体在高并发场景下的稳定运行,为推理用户提供及时、准确的服务。

    发布时间2025-08-22 50页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 未来网络发展大会:2025卫星互联网承载网技术白皮书(85页).pdf

    未来网络技术发展系列白皮书(2025)卫星互联网承载网技术白皮书第九届未来网络发展大会组委会2025年8月版权声明版权声明本白皮书版权属于紫金山实验室及其合作单位所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:紫金山实验室等来源:紫金山实验室等”。否则将可能违反中国有关知识产权的相关法律和法规,对此紫金山实验室有权追究侵权者的相关法律责任。编写说明编写说明主要编写单位:主要编写单位:紫金山实验室北京邮电大学主要编写人员:主要编写人员:刘韵洁、黄韬、刘江、潘恬、张然、王颖、郑宇冰、孙士然I前言随着 5G、人工智能、空天地一体化等新一代信息技术的迅猛发展,全球数字化进程加速推进,卫星互联网作为实现全域无缝覆盖、支撑数字边疆守护与全球互联互通的关键基础设施,其战略地位日益凸显。与此同时,碳达峰、碳中和战略下绿色低碳发展的要求,以及国家重大战略对通信韧性、产业升级的需求,为卫星互联网技术创新与产业演进提出了更高标准。因此,如何突破轨道/频谱资源约束、空间环境干扰等特殊难题,构建高效、可靠、智能的卫星互联网承载体系,成为推动卫星互联网高质量发展的核心挑战。传统卫星通信网络存在覆盖局限、资源利用率低、星地协同不足等问题,难以满足全域通信、应急保障、产业赋能等多元化需求。卫星互联网承载网作为连接卫星星座与地面终端的“太空信息高速公路”,通过星间/星地链路技术、动态路由与交换技术等关键技术创新,实现了数据的高效传输与交互,为破解传统网络瓶颈提供了系统性解决方案。本白皮书首先系统梳理了卫星互联网承载网的发展背景与需求愿景,涵盖国家重大战略、产业经济升级、人民服务保障及全球科技竞争等维度;其次详细阐述了通信增强、应急保障、产业赋能、科学研究等典型应用场景,并深入剖析了集中式、分布式、混合式三种卫星互联网承载网体系架构及星间/星地链路、路由、交换等七大关键技术;同时,本白皮书分析了全球主要卫星互联网的产业现状与标准II化进展,探讨了轨道/频谱资源紧张、空间环境复杂等特殊问题及应对策略,最后对未来发展方向进行了总结与展望。本白皮书期望为业界提供对卫星互联网承载网的全面认知,促进技术交流与创新协作,推动相关技术在国防安全、应急通信、智慧农业等领域的广泛应用,助力我国卫星互联网产业从“技术并跑”迈向“体系领跑”,为构建空天地一体化信息基础设施、支撑数字中国建设提供有力支撑。III目录前言.I目录.III一、需求与愿景.11.1 国家重大战略需求.11.2 产业驱动经济升级.21.3 人民服务需求.21.4 世界科技引领.3二、卫星互联网承载网概述.1三、卫星互联网承载网体系架构.53.1 集中式架构.53.1 分布式架构.73.3 混合式架构.9四、卫星互联网承载网关键技术.124.1 星间/星地链路技术.124.2 路由技术.184.3 交换技术.224.4 移动切换技术.244.5 网络管理与控制技术.274.6 网络测量技术.31IV4.7 仿真与验证技术.34五、卫星互联网应用场景.385.1 通信增强类应用场景.385.2 应急保障类应用场景.415.3 产业赋能类应用场景.445.4 科学研究类应用场景.47六、卫星互联网承载网产业现状及趋势.506.1 Starlink 进展.506.2 OneWeb 进展.516.3Amazon Kuiper 进展.526.4 星网进展.536.5 垣信进展.54七、卫星互联网承载网标准化现状.567.1 3GPP 进展.567.2 IETF 进展.587.3 ITU 进展.597.4 CCSA 进展.61八、卫星互联网特殊问题剖析.638.1 轨道/频谱资源紧张导致承载网容量瓶颈.638.2 空间环境复杂导致承载网链路可靠性下降.648.3 卫星互联网安全风险的承载网级联效应.658.4 星地融合难题对承载网端到端 QoS 的挑战.66V九、总结与展望.68附录 A:术语与缩略语.70参考文献.731一、一、需求与愿景需求与愿景本白皮书创新性提出卫星互联网承载网这一前沿概念。卫星互联网承载网是连接卫星与地面终端,实现数据高效传输与交互的关键网络架构,如同信息高速公路一般,确保卫星互联网中的各类信息能够快速、稳定地流通。具体而言,本章从国家战略需求、产业发展驱动、人民生活需求以及世界科技发展趋势入手,深入分析卫星互联网承载网在各领域的重要作用与发展契机。1.1 国家重大战略需求国家重大战略需求随着我国综合国力的不断提升,在经济、安全、外交等多领域对信息技术的依赖程度日益加深,数字化转型成为国家发展的核心任务之一。卫星互联网承载网作为新一代信息技术的重要基础设施,其重要性日益显著,我国也在大力推动卫星互联网承载网基础设施的建设和布局。国家对卫星互联网承载网的战略需求聚焦于数字边疆守护、应急通信保障及“一带一路”互联互通三大场景。在数字边疆守护中,我国通过天基与地面融合网络实现边境地区通信覆盖,如新疆 34 个边境县城 5G 和千兆光网覆盖、西藏阿里地区中星 16 号高通量卫星提供 20Gbps 通信容量,构筑“数字国界”的天基防线。应急通信保障方面,卫星互联网承载网在灾害中发挥关键作用,2024 年甘肃积石山地震中,通过便携站部署与星上资源调度,保障了 72 小时黄金2救援期的指挥链路畅通。“一带一路”建设中,承载网为沿线国家提供跨境电商、远程医疗等服务支撑,促进区域信息共享与经济联动。1.2 产业驱动经济升级产业驱动经济升级卫星互联网承载网正以“空天地一体化”架构重构产业生态,深度融入国家“东数西算”与“算网能一体化”战略布局。通过卫星制造、火箭发射、激光通信等核心技术的跨域协同,天基节点正成为绿色算力网络的空间支点,驱动海洋经济、跨境贸易等产业向智能化、低碳化跃迁,为区域经济联动注入新动能。产业链协同推动卫星制造与火箭技术突破,如蓝箭航天完成火箭垂直起降回收验证,银河航天发射 48Gbps 低轨宽带通信卫星,构建星地融合 5G 试验网络。海洋经济领域,海卫通以“卫星 5G AI”构建船岸云平台,提升船舶智能化水平。青岛“星海互联”项目建设低轨卫星互联网海洋数据枢纽,推动海洋产业升级。跨境经济中,低轨卫星互联网改善“一带一路”国家通信条件,洲际航天与阿拉伯信息通讯组织合作的 6000 颗卫星星座计划,将实现手机直连卫星大规模商用,弥合数字鸿沟。1.3 人民服务需求人民服务需求卫星互联网承载网正突破传统地面网络覆盖极限,将数字服务延伸至山川、海洋、荒漠等物理空间末梢,在乡村振兴、民生应急、大众消费三大领域重塑服务可及性。乡村振兴中,卫星互联网承载网赋能智慧农业,新疆棉田通过智能灌溉系统节水 30%、增产 15%。云3南偏远山村电商销售额增长 200%,农民收入显著提升。生态环保领域,承载网支撑三江源国家公园生态监测、长江经济带水污染防控,实现全域动态监管。大众消费场景中,无人机配送时效提升 50%,低空旅游与户外探险通过卫星通信保障安全,遇险救援响应时间缩至15 分钟内。1.4 世界科技引领世界科技引领卫星互联网承载网正成为大国科技博弈的制高点。据国际电信联盟(ITU)预测,2028 年全球天基网络市场规模将突破 4200 亿美元,而核心技术标准主导权将决定未来产业生态格局。我国在星地协同协议架构中占据主导地位,3GPP Release-19 吸纳“星间协同 Xn 接口增强方案”,IETF天基网络切片标识符草案成为 RFC9437 标准。技术突破方面,清华大学“智慧天网一号 01 星”实现中轨星间激光通信 120Gbps 稳定传输,之江实验室“三体计算星座”构建星上算力网络,提升应急响应效率。全球合作中,“天基丝路”平台为中老铁路、瓜达尔港提供服务,技术模式被纳入联合国空间 2030 议程。1二、二、卫星互联网承载网卫星互联网承载网概述概述卫星互联网承载网是构建全球空天地一体化通信系统的关键枢纽,其核心使命是贯通卫星星座、地面终端与地面核心网,实现跨地域、跨域的高速数据传输与灵活调度。在整个卫星互联网的体系中,卫星互联网接入网负责为用户提供“最后一公里”的接入服务,地面核心网承担业务治理与资源编排,而卫星互联网承载网则在二者之间形成一条覆盖全球的高速信息干线。这一承载体系以卫星星座为核心节点,依托星间链路和星地链路,将分布在轨道各处的卫星节点与地面信关站、高空平台等通信节点紧密连接,构成独立于地表的骨干通信网络。与地面互联网中的光纤骨干网类似,卫星互联网承载网直接决定了卫星互联网的通信能力上限,其性能优劣关系到系统能否真正实现全球覆盖、低时延和高可靠的服务目标。图 2-1 卫星互联网架构图2卫星互联网承载网的结构由在轨卫星、地面节点和多类型链路共同构成。在轨卫星既包括低轨卫星,也包括中高轨道的区域中继节点,它们通过高速星间链路形成一个动态的网状拓扑。这些卫星节点不仅仅承担信号转发的作用,还具备一定的路由计算、缓存和处理能力,使得网络在链路变化频繁的空间环境中依然能够保持高效的数据调度。地面节点主要由信关站和核心骨干节点组成,前者承担卫星与地面网络之间的数据注入与卸载,完成物理层和链路层的对接,后者则与地面核心网紧密结合,实现跨域业务的统一编排与管理。链路方面,星间链路主要采用高速激光通信或高频微波实现,具有大带宽、长距离、低误码率的特性,是卫星互联网承载网的骨干通道;星地链路则负责连接卫星与地面站,支持多频段传输以适应不同业务需求;同时,承载网还需与地面光纤网或无线骨干网形成互联接口,实现跨域无缝对接。由于卫星在轨运行形成高度动态化的拓扑结构,卫星互联网承载网的控制平面必须具备快速的拓扑感知与预测能力,通过基于轨道力学的链路预测实现路由的提前优化配置,并借助分布式控制与跨域编排机制,在多域多业务并行运行的情况下保持网络稳定。在能力特征方面,卫星互联网承载网的首要优势是全球覆盖。依托大规模卫星星座的轨道布局,它可以为地面基础设施难以覆盖的海洋、极地、沙漠等区域提供稳定的骨干通信服务,真正实现全域无缝连接。其次是高速传输能力,现代星间激光链路单通道容量已可达数十 Gbps,未来有望迈向 Tbps 级别,结合多链路聚合与智能路由,可为全球范围的海量业务提供骨干传输支持。在时延方面,低轨星座单3跳传输延迟仅为数毫秒,跨洲通信延迟甚至可优于部分跨洋光缆路径,满足对低时延敏感的应用需求。与此同时,卫星互联网承载网具备高度的动态路由与自适应调度能力,能够应对卫星轨道变化、链路中断、业务突发等复杂情况,保障业务连续性。此外,星座规模和节点分布的高度冗余赋予了网络极强的抗毁性和弹性,在单点故障或区域性灾害中仍能维持通信链路畅通,这对于应急通信、国防安全等领域具有战略意义。从网络协同的角度看,卫星互联网承载网与卫星互联网接入网之间是骨干与接入的关系,接入网完成用户与卫星之间的直接通信,承载网则负责将这些接入流量在全球范围内进行传递与交换。与地面核心网的关系则更加紧密,核心网不仅提供业务控制与资源调度的逻辑支撑,还与卫星互联网承载网形成控制信令与业务流量的双向交互,共同完成端到端业务的传输与管理。在与地面承载网的关系中,卫星互联网承载网起到互补与增强的作用,在地面光缆发达地区可以作为低时延的跨洲通道或高可靠冗余链路,在偏远或基础设施受限的地区则可独立承担骨干通信任务。此外,在空天地融合的网络架构中,卫星互联网承载网还可与高空平台网络、无人机中继网络协同工作,构建多层次立体化的通信体系。未来,卫星互联网承载网的发展趋势将朝着更高速率、更低时延、更智能化以及更开放的方向演进。在高速率方面,将通过更高频段的微波通信和光通信技术,结合新一代高速调制编码和自适应链路控制,实现 Tbps 级骨干通道;在低时延方面,将优化轨道布局和跨域路由4算法,以满足 6G 及其后续网络对超低时延通信的需求;在智能化方面,将引入人工智能和机器学习技术,用于链路状态预测、路由动态优化和资源自适应分配,推动网络具备更高的自治能力;在开放性方面,承载网将逐步实现与地面互联网标准的深度融合,支持多运营商、多服务平台的接入与共享。然而,这一发展过程中仍面临诸多挑战,包括高动态性拓扑带来的路由与资源管理复杂性、跨域互操作的标准化问题、空间环境对通信链路的干扰与衰减,以及信息安全和抗干扰能力的持续提升等。这些问题的解决不仅需要通信、航天、信息安全等多个领域的协同创新,也需要在国际范围内形成技术标准与合作机制。总体而言,卫星互联网承载网作为空天地一体化通信体系的战略中枢,是全球通信基础设施的重要组成部分。它不仅将突破地面网络的物理和地域限制,为全球用户提供高速、稳定、低时延的通信服务,还将在应急救援、海洋开发、极地科考、空中交通管理、全球物联网等领域发挥不可替代的作用。随着卫星通信技术、星座部署规模和智能化水平的持续提升,卫星互联网承载网将在未来全球信息基础设施体系中占据越来越核心的位置,成为真正意义上的“太空信息高速公路”。5三、三、卫星互联网承载网卫星互联网承载网体系架构体系架构卫星互联网承载网作为支撑空天信息传输与交互的核心基础设施,其体系架构的设计直接关系到网络的传输效率、可靠性、扩展性以及对复杂任务的适应性。随着航天技术与通信技术的深度融合,卫星互联网承载网的体系架构不断演进,目前主要形成了集中式、分布式和混合式三种典型模式。本章将详细阐述卫星互联网承载网的集中式、分布式和混合式三种体系架构。3.1 集中式集中式架构架构集中式架构基于软件定义网络(Software Defined Network,SDN)理念构建,如图 3-1 所示。在这种架构下,卫星互联网承载网中的卫星互联网路由器统一接收地面网络控制器上注的流表/转发表,并依据这些表项进行数据转发。所有的路由计算工作均在地面控制器完成,卫星互联网路由器本身无需具备路由计算功能。集中式架构的主要优势在于简化了星上处理过程。由于复杂的路由计算任务由地面强大的计算资源承担,星上设备只需专注于按照既定规则进行数据转发,这降低了星上设备的复杂度和成本,同时也便于对网络进行统一管理和控制。例如,通过地面网络控制器,能够方便地对整个卫星互联网承载网的路由策略进行调整和优化,以适应不同的业务需求和网络状况。6然而,集中式架构也存在明显的缺点。由于所有的路由计算均依赖于地面中心,一旦地面控制器出现异常故障,整个卫星互联网承载网的路由功能将受到严重影响,甚至可能导致网络瘫痪。而且,在面对一些实时性要求较高的业务场景时,地面控制器计算路由并将转发表上注到卫星互联网路由器的过程可能会产生较大的时延,无法及时响应用户需求。例如,在突发的军事通信场景中,对网络的快速响应能力要求极高,集中式架构可能难以满足这种实时性需求。图 3-1 卫星互联网承载网集中式架构图为了应对这些问题,研究人员进行了相关研究。例如,采用基于拓扑快照的静态路由方法。网络控制器根据星座拓扑变化规律,将一个周期内的星座拓扑划分为一系列快照序列。在任何一个快照内,可以认为拓扑保持不变,从而计算相应的转发表。当星座要从一个快照切换到下一个快照时,需要快速切换成为下一代快照对应的转发表。这种方法在一定程度上提高了路由的稳定性和适应性,但仍然无法完7全解决依赖地面控制器的问题。此外,为了进一步提升路由算法的负载均衡、运行效率、故障容错以及差异化服务保障能力,部分研究引入了网络状态感知机制以及深度强化学习等人工智能方法,进一步优化路由策略。通过实时感知网络状态,并利用人工智能算法进行智能决策,提高了集中式架构下卫星互联网承载网的性能。3.1 分布式架构分布式架构分布式架构与集中式架构截然不同。在分布式路由方案中,卫星互联网承载网中的每一个卫星互联网路由器都必须动态地自主维护网络全局拓扑结构,并独立进行路由计算和决策,如图 3-2 所示。分布式架构的最大优势在于其具有较强的自主性和鲁棒性。由于每个路由器都能自主决策,即使部分路由器出现故障或网络局部出现异常,其他路由器仍然能够根据自身维护的拓扑信息继续进行路由转发,保障网络的基本通信功能。例如,在受到空间碎片撞击导致部分卫星节点故障的情况下,分布式架构的卫星互联网承载网能够通过其他正常节点的自主调整,维持网络的连通性,确保关键业务的通信不中断。而且,分布式架构能够更好地适应卫星互联网承载网拓扑动态时变、链路频繁切换的特点。每个路由器能够实时根据本地的链路状态和邻居节点信息,快速调整路由策略,从而实现更高效的路由转发。8图 3-2 卫星互联网承载网分布式架构图然而,分布式架构也面临一些挑战。一方面,每个卫星互联网路由器都需要具备强大的计算能力和存储能力,以维护复杂的网络全局拓扑信息并进行实时路由计算,这对星上设备的硬件资源提出了很高的要求。在卫星资源受限的情况下,实现这样强大的星上处理能力存在一定的困难。另一方面,由于每个路由器都独立进行路由决策,可能会导致网络中出现路由冲突和不一致的情况,影响网络的整体性能。例如,不同路由器对网络拓扑的理解可能存在偏差,从而导致数据包在网络中出现循环转发等问题。从产业落地角度看,分布式架构的标准化与兼容性难题显著增加了工程化难度。不同卫星制造商的载荷硬件、操作系统及通信协议存9在差异,而分布式协同依赖统一的交互接口与算法逻辑,若缺乏跨厂商的标准规范,极易出现“信息孤岛”。例如,某星座的卫星采用自主研发的邻居发现协议,将无法与采用国际通用协议的其他星座节点建立有效协同,限制了卫星互联网承载网的跨系统互联能力。这种标准化滞后问题,不仅推高了组网成本,更制约了分布式架构在全球一体化卫星互联网网络中的规模化应用。3.3 混合式混合式架构架构混合式架构结合了集中式和分布式架构的优点,试图在两者之间找到一个平衡。在混合式架构中,一部分路由决策由地面网络控制器集中进行,另一部分则由卫星互联网路由器分布式自主完成,如图3-3 所示。通常情况下,对于一些全局性、稳定性要求较高的路由策略,如网络的骨干路由规划等,由地面网络控制器根据对全网拓扑和业务需求的综合分析来制定,并将相应的路由表项下发给卫星互联网路由器。而对于一些局部性、实时性要求较高的路由调整,如应对局部链路故障或突发业务流量变化等情况,则由相关的卫星互联网路由器自主进行决策和处理。10图 3-3 卫星互联网承载网混合式架构图混合式架构的优势显而易见。它既利用了集中式架构便于统一管理和全局优化的特点,又发挥了分布式架构自主性强、响应迅速的优势。通过合理划分集中式和分布式路由的职责范围,能够在保障网络整体稳定性和可控性的同时,提高网络对局部变化的适应能力和实时响应能力。例如,在正常网络运行状态下,地面网络控制器可以根据长期的业务流量统计和预测,为网络规划出最优的骨干路由,确保网络资源的高效利用。而当某个区域突然出现大量业务请求或链路出现故障时,该区域的卫星互联网路由器能够立即自主调整路由,将流量快速疏导到其他可用路径,避免业务中断,同时及时将网络状态变化反馈给地面网络控制器,以便其对全局路由策略进行进一步优化。然而,混合式架构的设计和实现较为复杂。如何合理地划分集中式和分布式路由的边界,以及如何确保两者之间的协同工作顺畅,是11混合式架构面临的关键问题。如果划分不合理,可能会导致集中式和分布式部分的优势无法充分发挥,甚至出现两者相互干扰的情况。例如,如果将过多的路由决策下放给卫星互联网路由器,可能会使网络失去全局的一致性和可控性。而如果过于依赖地面网络控制器,又会降低网络对局部变化的响应速度。为了解决这些问题,需要深入研究网络拓扑、业务流量特征以及星地通信链路特性等因素,建立合理的数学模型,通过优化算法来确定最优的集中式和分布式路由协同策略。同时,还需要设计高效的信息交互机制,确保地面网络控制器和卫星互联网路由器之间能够及时、准确地传递网络状态信息和路由决策指令。综上所述,集中式、分布式和混合式架构各有优劣,在实际的卫星互联网承载网建设中,需要根据具体的应用需求、网络规模、卫星资源以及成本等多方面因素综合考虑,选择最适合的体系架构。随着技术的不断发展和应用需求的日益多样化,未来卫星互联网承载网的体系架构可能会朝着更加灵活、智能、融合的方向发展,以更好地满足全球通信、军事应用、科学研究等领域对卫星互联网网络的高性能要求。12四、四、卫星互联网承载网卫星互联网承载网关键技术关键技术卫星互联网承载网作为卫星通信网络的重要组成部分,其性能的优劣直接关系到整个卫星通信系统的效能。为了实现高效、可靠、灵活的卫星互联网承载网,需要一系列关键技术的支持。本章将详细介绍星间/星地链路技术、路由技术、交换技术、移动切换技术、网络管理与控制技术、网络测量技术以及仿真与验证技术等卫星互联网承载网的关键技术。4.1 星间星间/星地链路技术星地链路技术星间/星地链路是卫星互联网承载网实现卫星之间以及卫星与地面之间通信的基础,其性能直接影响着网络的传输速率、可靠性和覆盖范围。根据所采用的通信技术不同,星间/星地链路技术主要可分为激光技术和微波技术。4.1.1 激光技术激光技术激光技术在星间/星地链路中的应用具有诸多优势。首先,激光具有极高的频率,能够提供非常高的数据传输速率。在当今对大容量数据传输需求日益增长的背景下,激光链路能够满足如高清视频传输、大数据量科学探测数据回传等高速率业务的要求。例如,一些先进的13卫星激光通信系统能够实现数 Gbps 甚至更高的数据传输速率,相比传统的微波链路有了质的飞跃。其次,激光束的方向性极强,发散角极小,这使得激光链路具有很强的抗干扰能力。在复杂的空间电磁环境中,激光信号不易受到其他电磁信号的干扰,能够保证通信的稳定性和可靠性。而且,由于激光束的高指向性,在卫星之间建立激光链路时,所需的发射功率较低,这对于能源受限的卫星来说具有重要意义,可以有效降低卫星的能源消耗,延长卫星的使用寿命。然而,激光技术在星间/星地链路应用中也面临一些挑战。一方面,激光通信对卫星之间的捕获、对准和跟踪(Acquisition,Pointingand Tracking,APT)精度要求极高。由于卫星处于高速运动状态,且激光束的发散角极小,微小的角度偏差都可能导致通信中断。因此,需要开发高精度的 APT 系统,能够实时精确地调整卫星的指向,确保激光束始终对准目标卫星。这涉及到精密的光学测量技术、高精度的卫星姿态控制技术以及快速的信号处理技术等多个领域的协同发展。另一方面,大气对激光信号的衰减和散射作用较为明显,特别是在星地链路中,激光信号需要穿越大气层,天气条件如云雾、沙尘等会严重影响激光信号的传输质量。为了克服这一问题,研究人员提出了多种解决方案。例如,采用自适应光学技术,通过实时监测大气扰动对激光波前的影响,并利用变形镜等光学元件对激光波前进行校正,以补偿大气引起的信号畸变。此外,还可以通过优化激光通信的波长选择,尽量避开大气吸收和散射较强的波段,提高激光信号在大气中的传输性能。14在编码调制方面,针对空天地光信道的特点,研究人员提出了一系列新型的编码调制方案。例如,基于空天地光信道的新型低密度奇偶校验(Low Density Parity Check,LDPC)编码非等差映射幅度位置调制(Amplitude and Position Modulation,APPM)方案,该方案结合了 LDPC 编码的强大纠错能力和 APPM 调制的高效频谱利用率,能够在复杂的光信道环境下实现可靠的数据传输。还有RS-LDPC-CC乘积码编码方案,通过将里德-所罗门(Reed-Solomon,RS)码、LDPC码和卷积码(Convolutional Code,CC)进行级联,进一步提高了编码的纠错性能,增强了系统对信道噪声和干扰的抵抗能力。此外,基于码重判决的低复杂度Turbo匹配编码方案也在一定程度上提高了编码的效率和性能,降低了编码解码的计算复杂度,更适合在资源受限的卫星平台上实现。4.1.2 微波技术微波技术微波技术是目前星间/星地链路中应用较为广泛的一种通信技术。微波的波长范围在毫米到米之间,其在空间通信中的优势在于对卫星的捕获、对准和跟踪精度要求相对较低。相比激光链路,微波链路的建立和维护更加容易,系统复杂度相对较低。这使得微波技术在早期的卫星通信系统以及一些对通信设备复杂度和成本较为敏感的应用场景中得到了广泛应用。例如,在一些低轨卫星星座系统中,为了实现快速组网和低成本部署,部分星间链路采用了微波技术。微波技术在大气传输中的性能相对较为稳定,受天气条件的影响15较小。与激光信号相比,微波信号在穿越大气层时的衰减和散射程度较轻,能够在不同的天气条件下保持相对稳定的通信质量。这使得微波链路在星地通信中具有一定的优势,尤其是在需要保证全天候通信的应用场景中,如全球通信服务、军事通信等。频段特性决定微波链路的应用定位:L/S 波段(1-4GHz)穿透性强,雨衰影响小,适用于全球覆盖的移动通信(如铱星、Globalstar系统),但带宽有限(单波束通常低于 10Mbps),主要服务于语音与低速率数据业务;Ku 波段(12-18GHz)在覆盖范围与带宽间取得平衡,广泛用于广播电视与宽带接入(如 OneWeb 的 Ku 波段用户链路提供 50Mbps 终端速率),雨衰中等(典型值 10-20dB),可通过功率控制补偿。Ka 波段(26-40GHz)带宽资源丰富(单波束可达1GHz),是高通量卫星的核心频段(如 Starlink 的 Ka 波段用户链路支持 1Gbps 速率),但雨衰严重(暴雨时可达 40dB),需结合波束成形与自适应编码调制提升可靠性。毫米波频段(如 50.2-52.4GHz)正被探索用于馈线链路,Telesat、Boeing 等企业的星座计划通过该频段实现卫星与地面站的超高速回传,潜在速率可达 100Gbps,但需解决大气吸收(氧分子在 60GHz 附近有强吸收峰)与设备功耗问题。如图 4-1 所示,当前商业星座广泛使用 L/S 波段(Iridium、Globalstar)、Ku/Ka 波段(OneWeb、Starlink),并正在探索 50.2-52.4GHz 毫米波频段。16图 4-1 商业星座的频率使用分布然而,微波技术也存在一些局限性。首先,微波的频率相对较低,所能提供的数据传输速率有限。随着业务需求的不断增长,传统微波链路的传输速率逐渐难以满足高清视频、大数据传输等高速率业务的要求。为了提高微波链路的传输速率,研究人员不断探索新的技术手段,如采用多输入多输出(Multiple-Input Multiple-Output,MIMO)技术,通过在发射端和接收端同时使用多个天线,利用空间复用技术增加信道容量,从而提高数据传输速率。其次,微波信号的波束较宽,17抗干扰能力相对较弱。在空间电磁环境日益复杂的情况下,微波链路容易受到其他电磁信号的干扰,影响通信的可靠性。为了增强微波链路的抗干扰能力,通常采用扩频技术,将信号频谱扩展到较宽的频带范围内,降低信号功率谱密度,从而提高信号的抗干扰性能。此外,还可以通过优化天线设计,提高天线的方向性和增益,减少外界干扰信号的接收。在星间链路的构建方面,不同轨道高度的卫星之间以及同一轨道平面内卫星之间的微波链路设计各有特点。对于低轨卫星星座,同轨道面卫星星间采用全贯通或非全贯通激光微波链路,而异轨道面星间也可采用类似的链路方式。在基于高轨星座的星间星地承载网网络构建中,高轨星座的星间承载网,如地球静止轨道(Geostationary EarthOrbit,GEO)星 间 承 载 网 和 倾 斜 地 球 同 步 轨 道(InclinedGeosynchronous Orbit,IGSO)星间承载网,借助星地承载网进行转接互通,且均采用常态化通联的激光微波链路。卫星和信关站之间的星地承载网则常采用常态化通联的微波链路,以实现稳定的通信连接。在卫星互联网承载网中,星间微波链路可采用高频波段(如 Ka波段、毫米波频段),而星地微波链路对高频波段的使用存在显著限制,核心差异源于传输环境与链路特性的不同。从星间链路来看,其处于太空真空环境,几乎无大气衰减、雨衰等干扰因素,高频波段的优势可充分发挥。高频波段(如 Ka 波段单波束带宽可达 1GHz,毫米波频段潜在速率可达 100Gbps)具备丰富的频谱资源,能支撑星间大容量数据传输,满足激光链路之外的高速18率需求。例如,低轨卫星星座的星间链路可通过 Ka 波段或毫米波实现星间高速协同,无需考虑大气吸收等问题,因此成为星间微波通信的优选。而星地链路需穿越大气层,高频波段面临严重的环境干扰。根据白皮书内容,Ka 波段在星地传输中雨衰严重(暴雨时可达 40dB),毫米波频段(如 50.2-52.4GHz)还存在氧分子在 60GHz 附近的强吸收峰,导致信号衰减剧烈。此外,大气湍流、云雾等也会加剧高频信号的散射与损耗,严重影响通信可靠性。因此,星地微波链路更倾向于选择 L/S 波段(抗干扰、雨衰小)或 Ku 波段(平衡覆盖与带宽),高频波段仅在特定场景(如需超高速回传且可接受复杂补偿技术时)有限应用,且需搭配波束成形、自适应编码调制等技术抵消环境影响。综上,星间真空环境消除了高频波段的传输障碍,使其能依托大带宽优势提升星间协同效率。而星地链路的大气衰减特性,决定了高频波段难以成为星地微波通信的主流选择。4.2 路由路由技术技术路由技术是解决卫星互联网承载网中数据如何在不同节点之间高效转发的关键技术。由于卫星互联网承载网具有拓扑动态时变、链路频繁切换等特点,传统的地面网络路由技术无法直接应用,需要专门针对卫星互联网网络的特性设计路由算法。按照路由控制方式,卫星互联网承载网的路由技术通常可分为集中式路由、分布式路由以及集中式与分布式相结合的混合式路由。19集中式路由基于 SDN 理念,其核心逻辑是将路由计算与数据转发相分离。在这种模式下,卫星互联网路由器仅承担数据转发功能,统一接收地面网络控制器上注的流表/转发表,而路由计算、路径规划、资源分配等核心决策均在地面控制器完成。地面控制器通过全局感知卫星星座的轨道参数、链路状态、业务需求等信息,运用复杂的优化算法生成最优路由策略,并将其转化为流表/转发表定期或实时上注至卫星互联网路由器。这种方式显著简化了星上处理载荷的设计复杂度,降低了对卫星平台的功耗、算力和存储资源要求,尤其适合早期小容量卫星星座或对成本敏感的任务场景。然而,集中式路由对地面中心的依赖性极强,当地面控制器与卫星互联网路由器之间的通信链路出现延迟、中断或干扰时,路由策略的更新将受阻,导致网络无法及时响应突发故障(如卫星节点失效、链路质量骤降)或动态业务需求(如紧急通信任务的带宽扩容)。此外,随着卫星数量增多和业务量增长,地面控制器的计算压力会急剧增大,可能引发路由更新延迟,影响网络的实时性。分布式路由中,每个卫星互联网路由器均具备完整的路由计算与决策能力,通过实时与周边节点交换链路状态信息(如带宽、时延、误码率等),动态自主维护网络全局拓扑视图,并基于预设的路由算法(如改进的 OSPF、RIP 或自定义协议)独立完成路由计算。这种模式下,卫星互联网路由器无需依赖地面干预,能够快速响应局部网络变化,例如当某条星际链路突然中断时,相邻卫星可立即重新计算替代路径,确保业务不中断,展现出极强的自主性和抗毁性。但分布20式路由对星上设备的硬件性能提出了严苛要求,需要卫星互联网路由器配备高性能处理器、大容量存储器和高效的通信接口,以支撑实时拓扑维护和复杂路由算法的运行,这无疑增加了卫星的载荷重量、功耗和成本。同时,由于各节点仅基于局部信息进行决策,可能出现路由冲突问题 例如不同卫星对同一业务流计算出的路径存在交叉干扰,或对网络拓扑的理解存在偏差导致数据包循环转发,进而影响网络的整体传输效率和稳定性。混合式路由则巧妙结合了集中式与分布式路由的优点,通过分层或分域的方式实现路由控制的合理分配。具体而言,对于覆盖范围广、业务周期长、对路径优化要求高的骨干路由(如洲际卫星通信链路),由地面控制器进行集中决策,利用全局信息规划最优路径并动态调整资源分配;而对于局部区域内的突发业务、短周期通信或故障恢复路由(如单颗卫星覆盖范围内的用户终端接入),则由卫星互联网路由器自主处理,通过实时感知周边节点状态快速生成局部路由。这种模式既保留了集中式路由在全局优化和资源管控方面的优势,确保核心业务的稳定性和高效性,又发挥了分布式路由在实时响应和局部协同方面的特长,提升了网络对动态业务和突发故障的适应能力。例如,当地面控制器规划的骨干路由因突发干扰中断时,沿线卫星互联网路由器可立即自主协商生成临时替代路径,维持业务的连续性,待地面控制器重新计算并上注新的骨干路由后,再平滑切换回优化路径。通过这种“全局管控 局部自主”的协同机制,混合式路由能够在网络的可控性、实时性和抗毁性之间取得精准平衡,成为大规模卫星互联21网承载网的主流路由技术选择。为了提高卫星互联网承载网路由算法的性能,研究人员还引入了多种优化策略。例如,网络状态感知机制能够使路由算法实时获取网络的拓扑结构、链路状态、流量负载等信息,从而根据网络的实际情况动态调整路由策略。在网络拓扑发生变化或出现链路故障时,能够及时发现并重新计算最优路由,避免数据包的丢失和网络拥塞。深度强化学习等人工智能方法也被应用于路由算法中。通过构建强化学习模型,让路由算法能够在不断与网络环境交互的过程中学习到最优的路由策略。例如,将网络的吞吐量、时延、丢包率等性能指标作为奖励函数,让路由算法通过不断尝试不同的路由决策,以最大化奖励为目标,逐步学习到适应不同网络场景的最优路由策略。这种基于人工智能的路由算法能够更好地应对卫星互联网承载网复杂多变的特性,提高网络的整体性能。此外,针对卫星互联网承载网中不同业务对网络性能的不同要求,还需要设计支持差异化服务的路由算法。例如,对于实时性要求极高的语音通信和视频会议业务,路由算法应优先选择时延小、抖动低的路径进行数据转发,以保证通信的流畅性和质量。而对于一些对数据完整性要求较高的文件传输业务,则应选择可靠性高、丢包率低的路由路径。通过对不同业务进行分类,并为每类业务制定相应的路由策略,能够更好地满足多样化的业务需求,提高卫星互联网承载网的服务质量。224.3 交换交换技术技术卫星互联网承载网的交换技术是实现卫星节点间数据高效转发的核心支撑,其发展历程与卫星处理能力的演进密切相关。早期卫星主要采用透明弯管转发模式,仅在物理层完成信号放大和频率转换,交换功能完全依赖地面站,这种模式虽简单但灵活性极差,无法适应复杂业务需求。随着星上处理能力的提升,现代卫星已能在链路层甚至网络层执行交换功能。目前主要的交换实现方式包括:透明转发架构:仅进行频率转换和信号放大,保持波形透明但功能有限,适用于对时延敏感且无需复杂处理的场景。例如,在一些简单的气象数据采集卫星网络中,由于数据量相对较小且对实时性要求较高,透明转发架构能够快速将采集到的数据传输回地面,满足业务需求。信道化交换:通过分析/合成滤波器组实现灵活带宽分配,可根据业务需求动态调整信道资源,提升频谱利用率。在多业务并发的卫星通信场景中,不同业务对带宽的需求各异,信道化交换技术能够针对语音、视频、数据等不同业务类型,精准分配所需的带宽资源。如在一个同时支持高清视频传输和大量物联网设备数据上传的卫星网络中,信道化交换可将频谱资源合理划分,为高清视频业务分配较大带宽以保证画质流畅,为物联网设备分配相对较小但足以满足其数据传输速率的带宽,从而有效提升整个网络23的频谱利用效率。分组交换:支持星上 IP 路由和存储转发,能实现数据的智能调度,但对星上处理能力要求较高,需平衡处理延迟与传输效率。以Starlink 卫星网络为例,其采用分组交换技术,在面对大量用户的互联网接入请求时,能够根据每个数据包的目的地址和网络实时状态,智能选择最优路径进行转发。然而,由于卫星上的计算资源和存储资源有限,在处理大量数据包时,如何在保证高效路由的同时,避免因处理延迟导致数据包积压,是分组交换技术在卫星互联网承载网应用中需要重点解决的问题。交换可在多个维度展开,包括空间维度(波束间切换)、频率维度(频段间转换)和时间维度(时隙调度)。在空间维度,当卫星的覆盖区域内存在多个地面终端需要通信时,通过波束间切换,可将通信波束从一个终端切换至另一个终端,实现不同区域用户的通信需求。例如,在城市上空的卫星通信中,当某一区域的用户密集度发生变化时,卫星可通过调整波束指向,将更多通信资源分配给用户密集区域。在频率维度,根据不同业务对频率特性的要求以及当前频谱使用情况,进行频段间转换,确保通信质量。如在一些对电磁干扰较为敏感的通信业务中,可将通信频段切换至干扰较小的频段。在时间维度,时隙调度能够在不同时间段为不同业务分配传输时隙,提高传输效率。例如,对于实时性要求极高的语音通话业务,优先分配时隙以保证通话的连续性。对于非实时性的文件传输业务,则可在语音业务空闲时隙进行传输。24未来发展趋势聚焦于软件定义交换,通过可编程架构实现灵活重构。软件定义交换允许网络管理者通过软件编程的方式,对网络交换设备的功能和行为进行灵活配置和控制。在卫星互联网承载网中,面对复杂多变的业务需求和网络拓扑,软件定义交换能够快速调整交换策略。当网络中某条链路出现故障时,可通过软件定义的方式,迅速将数据流量切换至其他可用链路,保障通信的不间断。光子交换技术将提供超高吞吐量,满足海量数据传输需求。光子交换利用光信号进行数据交换,具有高速、大容量、低能耗等优势。随着高清视频、大数据传输等业务的迅猛发展,卫星互联网承载网对数据传输速率的要求越来越高,光子交换技术有望成为解决这一问题的关键。在未来的卫星遥感数据传输中,大量高分辨率图像和视频数据需要快速回传至地面,光子交换技术能够以其超高的吞吐量,满足这一需求。而 AI驱动的智能调度算法能优化资源利用效率,动态适配业务波动。AI算法可实时分析网络流量、业务类型、链路状态等信息,智能地调度网络资源。在突发业务流量高峰时,AI 驱动的智能调度算法能够迅速感知并调整资源分配,优先保障关键业务的通信质量,同时合理分配资源给其他业务,提高整个网络的资源利用效率。4.4 移动切换移动切换技术技术卫星互联网承载网的移动切换技术需应对卫星高速运动(如 LEO卫星约 7.8km/s)带来的拓扑动态变化,主要涉及三类切换场景:波束间切换:发生在单星多波束覆盖区内,需毫秒级快速切换以25保证业务连续性,关键技术包括基于信号噪声比和位置预测的切换算法,可显著降低切换失败率。在一个拥有多个波束覆盖城市区域的卫星网络中,当移动终端(如手机、车载终端)在城市中快速移动时,会从一个波束覆盖区域进入另一个波束覆盖区域。基于信号噪声比的切换算法会实时监测移动终端接收到的信号噪声比,当该值低于某个阈值时,触发切换流程。同时,结合位置预测算法,根据移动终端的历史移动轨迹和当前速度、方向等信息,预测其即将进入的波束区域,提前做好切换准备,从而在毫秒级时间内完成波束间切换,确保用户的通话、视频播放等业务不中断。卫星间切换:由 LEO 卫星过顶引起,需星间协同确保平滑过渡,多卫星协同的软切换技术和基于轨道参数的预先切换准备能减少服务中断时间。当 LEO 卫星在轨道上运行时,地面终端会随着卫星的移动而需要从一颗卫星的覆盖范围切换到另一颗卫星的覆盖范围。多卫星协同的软切换技术,让目标卫星提前与源卫星进行信息交互,获取移动终端的相关信息,包括通信状态、业务类型等。同时,基于轨道参数的预先切换准备,通过精确计算卫星的轨道参数,预测卫星间切换的时间和位置,提前为移动终端分配目标卫星的资源,如信道、时隙等。在实际应用中,例如在全球卫星移动通信系统中,当用户乘坐飞机跨越不同卫星覆盖区域时,通过多卫星协同的软切换技术和基于轨道参数的预先切换准备,可将服务中断时间降低至极短,保障用户在飞行过程中的通信体26验。轨道间切换(如 LEO-GEO 切换):涉及不同高度卫星的配合,需解决链路特性差异带来的适配问题,双连接技术可保持新旧链路的临时并行传输,提升切换成功率。LEO 卫星和 GEO 卫星具有不同的轨道高度和链路特性,LEO 卫星链路具有低时延、高带宽但覆盖范围小的特点,而 GEO 卫星链路具有高时延、相对较低带宽但覆盖范围大的特点。当移动终端需要从 LEO 卫星网络切换到 GEO 卫星网络时,双连接技术发挥作用。在切换过程中,移动终端同时与 LEO 卫星和 GEO 卫星建立连接,先通过 LEO 卫星链路保持当前业务的持续进行,同时逐渐将业务转移到 GEO 卫星链路上。例如,在偏远地区的应急通信场景中,一开始通过 LEO卫星提供高速率的通信服务,满足应急救援初期对大量数据传输的需求。随着救援工作的持续推进,当 LEO 卫星即将离开覆盖区域时,通过双连接技术,平滑地将通信切换到 GEO 卫星上,确保应急通信的稳定性和连续性,提升切换成功率。移动切换的核心挑战在于多普勒频移补偿和业务感知策略。由于卫星和移动终端的相对高速运动,会产生多普勒频移现象,导致信号频率发生偏移,影响通信质量。通过终端 GPS 信息和卫星星历数据可实现多普勒效应的精准预测与补偿。利用终端的 GPS 模块获取自身的位置、速度等信息,结合卫星的星历数据(包括卫星的轨道参数、位置、速度等),精确计算出多普勒频移的大小和方向,然后在接收端和发射端进行相应的频率调整,补偿多普勒频移的影响。针对不同27业务类型(如紧急通信需无缝切换,普通数据业务可容忍短暂中断),需制定差异化切换策略。对于紧急通信业务,如医疗急救、消防救援等通信场景,要求切换过程必须无缝进行,以保障关键信息的及时传递。此时,移动切换技术应优先采用快速、可靠的切换算法,不惜消耗更多资源来确保切换的零中断。而对于普通数据业务,如文件下载、电子邮件收发等,可在保证数据完整性的前提下,适当容忍短暂的中断,采用相对节能、资源消耗较少的切换策略。性能指标方面,切换中断时间需控制在 50ms 以内,成功率要求超过 99.9%,同时需优化信令开销以避免网络拥塞。在实际的卫星互联网承载网建设和优化中,通过不断改进移动切换技术和算法,努力满足这些严格的性能指标要求,提升用户体验。4.5 网络管理与控制技术网络管理与控制技术卫星互联网承载网的管理与控制技术旨在实现异构资源的高效协同和网络状态的精准调控,SDN 和网络功能虚拟化(NetworkFunctions Virtualization,NFV)是核心支撑技术。SDN 通过分离控制平面和数据平面,实现集中式网络视图和可编程转发规则,地面控制中心可基于全局视角优化资源配置。在一个包含多种轨道卫星(如 LEO、MEO、GEO 卫星)以及地面站的卫星互联网承载网中,地面控制中心利用 SDN 技术,能够实时获取整个网络的拓扑结构、链路状态、流量分布等信息,形成全局网络视图。然后,根据业务需求和网络状态,通过编程的方式为各个卫星节点和28链路制定转发规则。当某一地区突发重大活动,导致该区域的网络流量剧增时,地面控制中心可通过 SDN 技术,迅速调整相关卫星节点的转发策略,将更多网络资源分配给该区域,保障通信质量。NFV 将传统网络功能虚拟化,支持服务功能链的动态部署,提升网络弹性。NFV 技术将原本由专用硬件设备实现的网络功能(如路由、交换、防火墙等),通过软件方式在通用的服务器、存储和网络设备上实现。在卫星互联网承载网中,可根据业务的变化和需求,灵活地在卫星或地面站上动态部署和调整这些虚拟网络功能。例如,在应对自然灾害等紧急情况时,可快速在受灾地区附近的卫星上部署应急通信所需的网络功能,如临时的路由功能和流量调度功能,增强网络的应急响应能力和弹性。管理功能涵盖:资源编排:联合优化计算、存储和频谱资源,基于博弈论和优化理论解决多维约束问题。在卫星互联网承载网中,卫星的计算资源、存储资源以及频谱资源都十分有限且珍贵。资源编排需要综合考虑各种资源的分配和利用。基于博弈论的方法,将不同的业务和用户看作博弈参与者,通过构建博弈模型,分析各方在资源竞争中的策略和行为,寻求资源分配的最优解。例如,在频谱资源分配中,不同业务对频谱的需求和优先级不同,通过博弈论模型,让各业务在竞争中达到一种平衡,实现频谱资源的高效利用。同时,运用优化理论,建立包含计算资源、存储资源和频谱资源等多维度约束条件的数学模型,通过优化算法求解,得到最优的资源分配方案,提高整体资源利用率。29 性能监控:实时采集关键绩效指标,通过数字孪生技术构建网络虚拟映像,支持事前仿真和优化决策。通过在卫星互联网承载网的各个节点(卫星、地面站等)部署监测设备和软件,实时采集诸如网络吞吐量、时延、丢包率、卫星设备的 CPU 利用率、内存使用率等关键绩效指标。利用数字孪生技术,根据采集到的实时数据,在虚拟环境中构建与真实卫星互联网承载网完全一致的网络虚拟映像。这个虚拟映像能够实时反映真实网络的运行状态。在进行网络升级、新业务部署等操作之前,可在虚拟映像中进行事前仿真,模拟不同操作对网络性能的影响,通过对仿真结果的分析,提前优化决策,避免在真实网络中实施时出现问题,保障网络的稳定运行。故障管理:结合区块链的去中心化信任机制和入侵检测系统,实现故障的自主检测与修复。区块链技术具有去中心化、不可篡改、可追溯等特点,将其应用于卫星互联网承载网的故障管理中,可建立一个去中心化的故障信息记录和共享系统。每个节点都参与到故障信息的记录和验证中,确保故障信息的真实性和可靠性。入侵检测系统(Intrusion Detection System,IDS)实时监测网络流量,识别异常流量和攻击行为。当检测到故障或入侵时,系统能够自动触发故障诊断流程。利用区块链上记录的历史故障信息和解决方案,结合实时监测数据,实现故障的自主检测与修复。例如,当某颗卫星的通信链路出现异常时,IDS 首先发现异常流量,然后通过区块链上的信息,快速判断故障类型和可能的原因,自30动采取相应的修复措施,如切换备用链路、调整通信参数等。人工智能技术的引入正在重塑管理模式,深度学习算法可自动发现网络性能瓶颈,强化学习能通过试错自主改进资源分配策略。深度学习算法能够对大量的网络运行数据进行深度分析,自动识别出网络中的性能瓶颈所在。例如,通过对网络流量数据、节点资源使用数据等的深度学习分析,发现某个卫星节点由于计算资源不足,导致数据包处理延迟过高,成为网络性能瓶颈。强化学习算法则通过不断地在网络环境中进行试错,以网络性能指标(如吞吐量、时延、资源利用率等)为奖励信号,自主学习和改进资源分配策略。在资源分配过程中,强化学习算法尝试不同的资源分配方案,根据得到的奖励信号判断方案的优劣,逐渐找到最优的资源分配策略。未来趋势包括 AI 驱动的自主管理、意图驱动网络管理,以及 3GPP 5G 管理框架、ETSI MEC 管理接口等标准化体系的深度融合,推动卫星互联网网络向智能化、自动化演进。AI 驱动的自主管理将使卫星互联网承载网能够自动感知网络状态变化、自主决策并执行相应操作,减少人工干预。意图驱动网络管理则允许网络管理者以自然语言或高级抽象的方式表达网络管理意图,系统自动将其转化为具体的管理操作和策略。通过与 3GPP 5G管理框架、ETSI MEC 管理接口等标准化体系的深度融合,促进卫星互联网网络与地面 5G 网络等其他网络的协同工作,提升整个网络生态的智能化和自动化水平。314.6 网络测量技术网络测量技术网络测量作为卫星互联网承载网运维的核心环节,是实现网络性能评估、故障诊断和优化决策的基础。由于卫星互联网网络处于特殊的空间环境,面临着非平稳信道、长延迟、断续连接等诸多挑战,传统地面网络的测量方法难以直接适用,必须针对其特性进行专门设计。从测量内容来看,卫星互联网网络的测量涉及多个层面,且每个层面都有其独特的技术要点:链路级测量:主要针对物理层的关键参数,包括误码率、载噪比、多普勒频偏和信道状态信息等。在轨测试(In Orbit Testing,IOT)系统是实现链路级测量的重要手段,它通过专用测试信号来测量高功率放大器非线性、相位噪声等关键参数。不过,传统的 IOT方法需要中断业务传输,在一定程度上影响了网络的正常运行。为解决这一问题,新型认知测量技术应运而生,它利用扩频信号实现非侵入式测量,能够在不影响正常业务的情况下完成参数采集。例如,通过在业务信号中嵌入特定的扩频探测序列,接收端可以通过信号处理技术分离出探测序列,从而实时监测链路的误码率、载噪比等参数,既保证了测量的连续性,又不干扰正常通信。网络级测量:着重关注端到端的性能指标,如端到端时延、吞吐量、丢包率和路由收敛时间等。不同轨道的卫星,其端到端时延存在显著差异,GEO 卫星的单向传播延迟约 240ms,而 LEO 卫星32仅 4-20ms。SERENADE 测试平台是网络级测量的典型工具,它支持多维度的性能评估,能够全面反映网络的运行状态。在卫星互联网网络中,由于卫星的高速运动和复杂的空间环境,链路经常出现断续连接的情况,针对这种场景,专门设计的测量协议发挥着重要作用。这些协议采用存储-携带-转发的机制,能够适应链路的断续性,准确评估服务质量(Quality of Service,QoS)。例如,在延迟容忍网络中,测量协议会根据链路的连接状态,动态调整测量数据的发送和存储策略,确保即使在链路中断的情况下,也能收集到有效的测量数据。安全测量:聚焦于攻击检测、异常流量分析和系统脆弱性评估,为网络安全防护提供量化依据。随着卫星互联网网络在军事、通信等关键领域的广泛应用,其安全问题日益凸显。安全测量通过对网络流量的实时监测和分析,能够及时发现恶意干扰、未授权接入等攻击行为。同时,通过对系统脆弱性的评估,能够找出网络系统中存在的安全漏洞和薄弱环节,为网络安全策略的制定提供支持。区块链技术的引入进一步提升了安全测量的可靠性,其去中心化的信任机制和不可篡改的特性,确保了测量数据的真实性和完整性,为安全审计和追溯提供了可信的依据。在技术创新方面,卫星互联网网络测量技术呈现出以下几个重要的发展方向:基于机器学习的信道状态预测:非平稳信道是卫星互联网网络面临的主要挑战之一,传统的测量方法难以实时准确地反映信道的33变化。基于机器学习的信道状态预测算法,通过对历史测量数据的学习和分析,建立信道状态的预测模型,能够提前预判链路质量的变化。这为路由调整、资源分配等网络优化操作提供了前瞻性的支持,有助于提高网络的性能和可靠性。分布式测量架构结合边缘计算:卫星互联网网络覆盖范围广,节点分布分散,集中式的测量架构往往会导致测量数据的传输延迟大、开销高。分布式测量架构结合边缘计算技术,将测量任务分布到卫星、地面网关等边缘节点,在边缘节点处就近处理测量数据,仅将关键的测量结果上传至控制中心。这种方式不仅减少了测量数据的传输量,降低了网络开销,还实现了测量数据的近实时处理,提高了网络测量的效率和响应速度。例如,在物联网网关处,通过边缘计算技术对本地的流量特征进行分析和处理,及时发现异常流量,并将处理结果上报给控制中心,以便快速采取应对措施。主动探测与被动监测相结合的综合方法:主动探测通过发送专门的探测包来获取网络信息,能够准确测量网络的某些性能指标,但会消耗一定的网络资源;被动监测通过分析业务流量来获取网络信息,不占用额外的网络资源,但测量的准确性可能受到业务流量特性的影响。主动探测与被动监测相结合的综合方法,能够平衡测量精度与资源开销。例如,对于时延敏感业务,采用主动探测的方式,以确保测量结果的准确性;对于普通数据业务,则通过被动监测的方式统计丢包率等指标,以减少网络资源的消耗。34测量数据的价值不仅体现在实时监控上,更重要的是为网络优化提供支持。通过对大量测量数据的大数据分析,能够构建网络性能预测模型,实现对网络拥塞等问题的预警,并提前进行资源预分配。同时,异常检测算法能够快速识别网络中的异常情况,为故障定位和排除提供量化依据,推动卫星互联网网络从“被动运维”向“主动管理”转型。4.7 仿真与验证技术仿真与验证技术卫星互联网承载网的部署成本高昂,且一旦部署后修改难度极大,同时空间环境复杂多变,难以在地面完全复现,因此仿真与验证技术在卫星互联网承载网的研发过程中具有至关重要的作用,它贯穿于从概念设计到在轨运行的全生命周期,是保障系统性能、降低部署风险的关键环节。在仿真方法上,需要根据卫星互联网网络的多维度特性,采用不同的仿真手段:系统动力学仿真:主要用于模拟卫星的轨道力学特性,包括卫星轨道的衰减、空间碎片碰撞的 Kessler 效应等,评估星座长期运行的稳定性。通过建立精确的卫星轨道模型和空间环境模型,能够仿真卫星在不同轨道上的运行状态,预测卫星的轨道变化和寿命。同时,通过建立卫星姿态控制模型,分析卫星姿态变化对波束指向和链路质量的影响,为卫星的姿态控制系统设计提供依据。例如,在仿真 LEO 卫星星座时,系统动力学仿真能够模拟卫星在大气层阻力、引力摄动等因素影响下的轨道变化,评估星座的轨道35维持成本和长期运行的稳定性。离散事件仿真:重点关注通信协议的性能验证,如路由算法的收敛速度、移动切换机制的中断时间等。常用的仿真工具包括MATLAB/Simulink(主要用于链路级仿真)和 OPNET/NS3(主要用于系统级仿真)。通过构建网络拓扑模型、业务流量模型和协议模型,能够仿真不同协议在卫星互联网网络环境下的运行性能。例如,在仿真 LEO 星座的星间链路动态拓扑时,离散事件仿真能够模拟卫星的运动导致的星间链路连接和断开,评估分布式路由协议在这种动态拓扑环境下的收敛速度和数据包传输效率。多智能体仿真:用于模拟卫星节点的自主决策与协同行为,如基于博弈论的频谱共享策略、分布式资源竞争机制等,评估大规模星座的协同效率。在多智能体仿真中,每个卫星节点被视为一个智能体,具有自主决策能力和与其他节点的交互能力。通过定义智能体的行为规则和交互协议,能够仿真卫星节点之间的协同工作过程,分析不同策略对网络性能的影响。例如,在仿真卫星的频谱共享时,多智能体仿真能够模拟不同卫星节点根据自身的业务需求和频谱使用情况,通过博弈论的方法进行频谱资源的分配,评估这种分布式频谱共享策略的效率和公平性。验证手段方面,需要构建“虚实结合”的验证体系,以确保仿真结果的准确性和可靠性:硬件在环(Hardware-in-the-Loop,HIL)测试:将实际的卫星终端、调制解调器等硬件设备接入虚拟的仿真环境,验证设备在复36杂场景下的工作性能。SERENADE 硬件在环仿真器是典型的 HIL测试工具,它支持多波束信道仿真、非线性放大器建模等功能,实时处理延迟控制在 1ms 以内,能够复现大气衰减、多普勒频偏等真实的链路特性。通过 HIL 测试,能够在实验室环境下模拟卫星与地面设备之间的通信过程,测试设备的性能和兼容性,发现设备在实际运行中可能出现的问题。星地联合测试:通过地面站与在轨卫星的协同试验,验证端到端的网络功能。例如,5G-NTN 验证平台(如 SATis5 项目)集成了SDN 控制器,通过星地联合测试,能够演示网络切片在卫星-地面一体化场景中的可行性,验证 5G 技术与卫星网络的融合性能。星地联合测试能够充分利用在轨卫星的实际运行环境,获取真实的测试数据,为卫星互联网网络的技术验证和优化提供有力支持。IOT:利用实际在轨运行的卫星开展技术验证,获取真实空间环境下的性能数据。例如,欧洲数据中继系统的激光链路测试,通过在轨卫星之间的激光通信试验,验证了激光链路在空间环境下的传输性能,为激光链路技术在卫星互联网网络中的应用提供了重要的参考依据。在轨验证是最接近实际运行环境的验证手段,能够有效验证新技术、新方案的可行性和可靠性。未来,卫星互联网承载网的仿真与验证技术将呈现以下几个重要的发展趋势:高保真度:不断提升仿真模型的精细度,更加精确地模拟大气湍流、雨衰、硬件非线性等物理特性,缩小仿真结果与实际情况的37差距。通过引入更先进的物理模型和数值计算方法,提高仿真的准确性和可靠性,使仿真结果能够更好地指导实际的系统设计和优化。大规模:支持超万颗卫星的星座级仿真,能够评估巨星座的网络拥塞、干扰协调等问题。随着卫星星座规模的不断扩大,传统的仿真工具和方法难以满足大规模星座的仿真需求。未来的仿真技术需要具备更强的计算能力和并行处理能力,能够高效地仿真大规模星座的运行状态,为巨星座的设计和优化提供支持,如Starlink 的大规模路由策略验证。智能化:引入人工智能驱动的自动化测试,通过机器学习算法自动生成测试用例,提高测试的效率和覆盖率。同时,利用数字孪生技术构建“虚实交互”的验证环境,将物理卫星与虚拟卫星模型实时关联,实现对卫星运行状态的实时监测和仿真预测。这有助于加速新技术从概念到应用的转化,提高卫星互联网网络的研发效率。国际标准化组织也在积极推动仿真工具的规范化,如 ITU 的EPFD 计算软件、ESA 的星座干扰分析器等,为频谱协调和系统兼容设计提供了标准化的验证手段,促进了卫星互联网承载网仿真与验证技术的统一和发展。这些标准化的工具和方法,有助于提高不同仿真和验证结果的可比性和一致性,推动卫星互联网网络技术的标准化和产业化进程。38五、卫星互联网五、卫星互联网应用场景应用场景卫星互联网作为新兴的通信技术,正逐渐融入各个领域,为人们的生活和工作带来了诸多便利。本章将给出卫星互联网在不同领域的应用场景,包括通信增强类、应急保障类、产业赋能类和科学研究类等,展示其在提升通信能力、保障应急救援、推动产业升级和支持科学探索等方面的重要作用。5.1 通信增强类应用场景通信增强类应用场景卫星互联网通过突破地表物理限制,构建无缝覆盖的立体网络,显著提升传统地面网络难以服务的区域(如偏远陆地、远洋、航空航线)的连接能力。其核心价值在于以经济可行的方式实现全球范围的高质量通信覆盖,尤其适用于地广人稀、基建薄弱的区域。5.1.1 偏远地区通信覆盖偏远地区通信覆盖在新疆、西藏、青海等地形复杂区域,传统光纤基站建设成本高昂,且维护困难。低轨卫星星座凭借低时延和高带宽能力,成为经济高效的解决方案。例如,在青藏高原牧区,可通过低轨卫星星座为牧民提供 4G/5G 级移动通信服务,支持视频通话、在线教育及农产品电商直播。在塔克拉玛干沙漠边缘,为石油勘探队提供实时数据回传通道,实现与总部的无缝联络。此类场景将覆盖全国的陆地和海洋网39络通信盲区,惠及超千万人口,并带动远程教育、智慧牧业等衍生应用。我国规划的三个万颗级星座正在稳步推进,其中星网集团的“GW星座”已完成 4 组 40 颗低轨卫星部署,垣信的“千帆星座”完成 5组 90 颗卫星发射,计划分三期推进,2030 年底将实现 1.5 万颗卫星部署。5.1.2 航空机载通信服务航空机载通信服务传统航空通信依赖 L 波段海事卫星或空对地网络,存在带宽窄、资费高的痛点。新一代 Ka/Ku 频段低轨卫星可为民航客机提供200Mbps 以上带宽,时延控制在 50ms 以内。卡塔尔航空的波音 777飞机搭载 Starlink 卫星网络服务,2024 年实测显示单机峰值速率达350Mbps,无论是观看流媒体、在线游戏,还是高效办公,乘客都可享受媲美乃至优于家庭宽带的快速可靠连接体验。美国联合航空也在飞机上部署了Starlink服务,并计划在2025年内持续扩展到更多机型。传统机上网络中每架飞机的整体带宽约为 3Mbps,下载速度 500 至600Kbps,安装 Starlink 后机上 WIFI 最高可达 250Mbps,远高于传统机上网络服务。5.1.3 远洋船舶全域联网远洋船舶全域联网全球约 90%的远洋船舶长期面临通信中断率高、数据传输成本大的挑战。低轨卫星星座通过激光星间链路构建太空骨干网,结合船舶上部署的通信终端,实现全球海域稳定覆盖,如图 5-1 所示。从 202240年起,Starlink 开始全面进军邮轮行业。皇家加勒比邮轮公司是最早宣布全面部署 Starlink 的公司,旗下所有邮轮、包括未来新建的邮轮都将使用星链服务,乘客可流畅进行 4K 视频直播,邮轮娱乐系统带宽保障可达 350Mbps。山东“智慧渔港”体系中,借助先进的传感器技术和卫星定位及通信系统,渔船的实时位置、航行速度、航向等关键信息被精准捕捉并实时传输至指挥中心。即便在夜晚或是浓雾弥漫的海面,监管人员也能通过系统清晰掌握每一艘渔船的动态,真正做到了全天候、无死角的监管。曾经那些因监管盲区而发生的渔船碰撞、非法越界捕捞等事件,如今已大幅减少,海上航行安全得到了前所未有的保障。图 5-1 远洋船舶全域联网架构415.1.4 手机直连卫星通信手机直连卫星通信2023 年起,基于 3GPP R17 NTN 协议的 5G 技术成功上星验证推动了手机直连卫星技术商业化。该技术利用高轨卫星大波束覆盖与低轨卫星高容量优势,使普通智能手机无需外设即可实现卫星通话、短报文及定位。中国电信联合华为、小米等厂商推出支持天通卫星电话功能的消费类手机终端,累计销量近 2000 万部,支持在珠峰大本营、塔克拉玛干沙漠等区域发送 10 秒内可达的应急短信。SpaceX 与T-Mobile 合作的“Direct to Cell”服务则通过星上 LTE 射频转发器,实现 iPhone 用户的无感卫星接入,单星支持百万级用户并发。未来技术将向新旧终端兼容演进,一方面通过软件升级使存量 4G/5G 手机支持基础卫星通信,另一方面在新终端中集成新一代天线技术,提升天线增益并显著降低功耗。5.2 应急保障类应用场景应急保障类应用场景卫星互联网在极端环境与关键任务中构建高可靠通信链路,成为国家应急管理体系的核心基础设施。其价值体现在快速部署、抗毁性强及广域覆盖三大特性,为灾害救援、公共安全提供“不断线的生命通道”。5.2.1 灾害应急通信响应灾害应急通信响应卫星互联网在灾害应急通信中发挥不可替代的“神经中枢”作用,42尤其在极端天气导致地面通信瘫痪的场景下,如图 5-2 所示。2025年 7 月,陕西省洛南县在易受灾区域建成 25 个卫星通信节点,通过室外天线部署形成网络化应急通信体系,确保在汛期“断网、断电、断路”情况下指挥指令的实时传递,提升县域灾害防控效能。同步地,中国电信在 2025 年北京暴雨灾害中紧急投入 2 辆卫星通信车、6 部卫星背包站及 15 部卫星电话,使密云、怀柔、延庆等光缆损毁区域实现卫星通联,保障了 43 个断网基站的行政村灾情上报与救援调度。问界 M9 在青海德令哈无人区实现救援突破,当车辆爆胎且地面网络完全中断时,车主通过车载卫星通信 eCall 功能一键求助,救援团队依托卫星语音通话 61 分钟精确定位,历经 3.5 小时穿越无人区完成救援,成为行业首例车载卫星救援成功案例。图 5-2 卫星互联网灾害应急通信响应图435.2.2 边境安防通信保障边境安防通信保障在边境复杂地形与拒止环境下,卫星互联网承载网提供全天候、高精度通信与态势感知能力。我国北斗系统是边境安防的核心基础设施,其综合服务平台星基模块可为 3 公里范围内的无人机提供实时高精度定位,解决无信号区设备巡检难题,已在新疆电网运维中应用。2025 年 7 月发布的应急管理北斗卫星导航系统应用总体技术要求国家标准,进一步规范了终端接口与通信协议,确保边境应急数据传输的标准化与可靠性。国际前沿方面,美国 AST 公司联合军方成功完成全球首个非地面网络战术卫星通信演示,通过未改装智能手机直连卫星,实现战术突击套件的多媒体流传输、加密视频通话及 VPN互联,验证了卫星互联网直连设备在边境突击作战中的可行性。我国同类技术虽未公开细节,但北斗短报文的预置部署政策显示其在边防通信中的基础性作用。5.2.3 重大活动高密度瞬时通信重大活动高密度瞬时通信卫星互联网承载网通过融合低轨星座与智能计算能力,为大型活动提供大容量、低时延通信保障。我国全球首个太空计算卫星星座于2025 年 5 月发射,12 颗卫星搭载星载智算系统与高速路由器,通过星间激光链路组网形成分布式算力池,将传统卫星数据响应时间从天级缩短至秒级,可支持百万级终端并发接入,为重大活动高密度瞬时通信提供服务保障。卫星互联网宽带互联网架构如“虹云工程”(规44划 156 颗卫星)为空天地一体化通信奠定基础,而中国电科为天舟九号任务开发的测控通信网亦展示高稳定性数据传输能力,其卫星通信系统实现发射实况高清视频流回传与多路指令同步分发,此类技术可迁移至赛事直播、人流监控等瞬时高负载场景。5.3 产业赋能类应用场景产业赋能类应用场景卫星互联网通过星地数据协同与通导遥融合,深度赋能传统产业数字化升级,催生智慧农业、海洋经济、低空物流等新业态。其核心价值在于打破信息孤岛,实现生产要素全域互联。5.3.1 智慧农业物联网智慧农业物联网卫星互联网承载网通过“空天地一体化”监测体系,显著提升了农业生产的精准性和效率。在山东济南中科北斗数字农业示范基地,该系统整合“天网”(卫星全域监测,实现分钟级高分辨率重访)、“空网”(无人机自动巡查与精准作业)和“地网”(30 余类土壤、气象等感知设备),构建全链条数据闭环。这套技术模式在济南新旧动能转换起步区应用后,实现粮食增产 9%、收益增值 10%,并减少机收机播及自然灾害导致的损失 5%。类似地,广东清远的智慧水产基地通过中国移动“5G 天基”立体监测网络,实时分析养殖水域污染与富营养化问题,保障水产品质量安全。英德红茶产业则依托卫星遥感与全球产销信息链对接,驱动产品畅销国际市场。这些实践验证了卫星互联网物联技术在农业资源优化、风险预警与市场拓展中的核45心价值。5.3.2 海洋经济支持海洋经济支持海洋通信领域已形成“卫星主导远洋、光缆承载骨干、5G 覆盖近海”的立体网络架构,2025 年中国市场规模达 320 亿元。其中,低轨星座(如中国星网“鸿雁星座”)将海洋通信时延从 500ms 降至50ms,带宽提升 10 倍,支撑全球海域 1 小时重访,满足远洋航运与资源勘探的实时需求,占市场 58%份额。海底光缆技术同步升级,中天科技为东南亚铺设的超低损耗光缆传输容量达 100Tbps,损耗降低30%。岸基“5G 卫星”双链路备份在广东、浙江试点,实现船舶调度零延迟。在应用层,华为“海洋数字孪生平台”融合卫星遥感与AI 算法,提升环境监测效率 60%。江苏如东风电场采用动态海缆集成光纤传感,运维成本降 30%。此外,中交疏浚中标 5.24 亿元火箭海上回收船项目,船舶需在离岸 300-700 公里复杂海况下执行高精度回收任务,体现卫星互联网定位与通信技术对高端海工装备的赋能。5.3.3 低空经济支撑低空经济支撑卫星互联网承载网通过高轨中继卫星与低轨星座组网,破解低空飞行器通信覆盖与管控难题,如图 5-3 所示。深圳苍宇天基启动全球首个高轨商业中继卫星项目,计划 2026 年发射“苍宇一号”,形成60%低轨覆盖和 40%地表覆盖能力。2027 年三星组网后,将实现 100%低轨覆盖与南北纬 80间地表覆盖,为无人机、载人航天等提供全46天候天基测控与数据传输服务。在组网技术层面,北京邮电大学研发的“卫星互联网承载网控制系统”解决了卫星动态切换与资源调度难题,2025 年初于雄安部署,获商业航天企业广泛对接。这些技术共同构建低空经济“空天地协同一张网”基础设施。图 5-3 卫星互联网低空经济支撑图5.3.4 数字乡村全域覆盖数字乡村全域覆盖卫 星 互 联 网 承 载 网 结 合 地 面 去 中 心 化 物 理 基 础 设 施(Decentralized Physical Infrastructure Networks,DePIN)终端,推动乡村通信、产业与治理的数字化跃迁。在政策与产业协同方面,中马合作设立的|“科技合作平台”在港口、农业场景部署 DePIN 终端,下沉边缘算力,并利用区块链构建跨境数据网络,优化东盟区域乡村产业链。山东济南王老村作为全国数字乡村典范,整合 72 处泉水资源与非遗工坊,通过天基宽带支持民宿、智慧市集等业态,形成“文47旅 生态”发展模式,被联合国粮农组织誉为乡村振兴中国样板。全域覆盖的通信网络正成为缩小城乡数字鸿沟的关键载体。5.4 科学研究类应用场景科学研究类应用场景卫星互联网为大尺度、跨学科科研活动提供关键信息基础设施,实现全球数据即时共享与协同分析,推动地球系统科学、空间探测等领域的范式变革。5.4.1 极地极地/深海科考通信深海科考通信卫星互联网承载网通过中高轨卫星与地面移动通信系统的融合,为极地与深海等极端环境提供了突破性通信支持。在极地科考领域,中国电信卫星公司联合上海清申科技于 2025 年 1 月在南极科考站成功实现我国首次基于中轨卫星“智慧天网 01 星”的 4G/5G 网络互通验证。该卫星由清华大学主导设计,运行于中轨泛同步轨道,通过星地链路将南极科考站的手机终端接入中国电信 4G/5G 核心网,实测网速超 100Mbps、时延约 300ms,支撑了高清视频通话、实时数据传输等业务,显著提升了极地科研效率与人员安全保障水平。这一技术突破解决了传统极地通信受低温、强风及极昼极夜环境影响导致的信号中断问题,为全球高纬度无网络覆盖区提供了可靠解决方案。5.4.2 空间科学实验空间科学实验卫星互联网承载网通过动态组网与星地直连技术,为在轨科学实48验提供了高可靠通信底座。欧洲航天局支持的 LIDE 任务于 2025 年 7月 23 日发射首颗验证卫星,首次实现立方体卫星与地面小型 5G 终端的直接宽带互联。该卫星由意大利 Tyvak International 公司研制,搭载 K/Ka 波段转发器,通过低地球轨道直连非常小口径终端,开展吞吐量、时延及信噪比测试,旨在验证未改装民用设备(如手机)在偏远地区直连卫星的可行性,为未来全球 5G 非地面网络铺路。这一技术若规模化应用,可支持空间站实验数据实时回传、太空育种监测等场景,例如宇航员在舱外活动中直接通过轻量化终端传输高清实验影像,大幅提升在轨科研灵活性。此外,中国“天通一号”卫星系统为空间实验设备提供自主可控通信保障,例如搭载于 AORO P1100三防平板的卫星模块,支持科考人员在无人区远程操控空间实验设备,并通过北斗短报文回传关键数据。这些创新推动空间科学从“单星孤岛式实验”迈向“多星协同智能科研”新范式。5.4.3 全球气候监测全球气候监测卫星互联网承载网通过高分辨率遥感星座与人工智能模型的融合,实现了对地球气候系统的全链条监测预警。欧洲气象卫星组织将于 2025 年 8 月 12 日发射 Metop-SGA1 卫星,这是新一代欧洲极轨气象卫星的首星,由空客防务与航天公司建造,携带包括 CopernicusSentinel-5 大气监测载荷在内的 6 台先进仪器。该卫星运行于 800 公里太阳同步轨道,可获取全球温度、降雨、风场、气溶胶及火山活动的高精度数据,通过星上高速处理器与激光链路实现分钟级数据回传,49大幅提升极端天气预警能力。50六、六、卫星互联网承载网卫星互联网承载网产业现状及趋势产业现状及趋势卫星互联网承载网作为构建太空信息基础设施的核心组成部分,正随着全球航天技术的飞速发展和商业航天市场的持续升温,迎来前所未有的发展机遇与挑战。本章将系统梳理全球卫星互联网承载网领域的发展态势,聚焦国际及国内具有代表性的卫星互联网项目,包括Starlink、OneWeb、Amazon Kuiper 等国际巨头主导的星座计划,以及我国的星网、垣信等重点项目。6.1 Starlink 进展进展作为全球低轨宽带卫星项目的标杆,美国“星链”(Starlink)项目展现出强大的执行力与创新能力。截至 2025 年 7 月,Starlink 已发射超 9100 颗卫星,在轨正常业务状态的卫星超 7000 颗,其中 V2 卫星 3626 颗,V1 卫星 3402 颗,构建起规模空前的低轨卫星网络,为全球多地区提供高速互联网接入服务。在用户终端方面,Starlink 已生产超 1000 万套用户终端设备,用户数量超 500 万,覆盖地面、海洋、低空及空间等多个领域。地面上,为偏远地区弥补网络覆盖不足的缺陷。海洋中,为远洋船只提供稳定通信服务。航空领域,为乘客带来优质机上互联体验;空间任务中,为飞船提供通信服务,美军也关注其在空间中继卫星计划中的应用潜51力。手机直连卫星(Direct to Cell,DTC)业务是 Starlink 的重要发展方向。截至 2025 年 7 月,已部署 660 颗 V2MiniDTC 卫星,完成第一阶段星座建设,并与多个国家和地区的运营商合作推出服务,目前主要集中在短信和物联网领域,覆盖户外场景和偏远地区。虽存在网络覆盖非实时、有延迟及语音服务未推出等问题,但发展潜力巨大。技术创新上,Starlink 每次发射 V2mini 卫星可新增 2.7Tbps 容量,利用先进相控阵天线和低轨道设计,具备更低延迟和更高速率,适合动态场景下的卫星移动通信。成本控制成效显著,ARPU 降至 45 美元/月,50GB 套餐外流量 1 美元/GB,资费逐渐与地面网络相当,市场竞争力大幅提升。6.2 OneWeb 进展进展欧洲“一网”(OneWeb)项目聚焦低轨卫星互联网建设,通过部署大规模低轨卫星星座,依托先进卫星制造工艺和终端技术,为全球用户提供广覆盖、低时延的互联网服务,并持续拓展在航空、汽车、偏远地区通信等多领域的应用场景。OneWeb 成立于 2012 年,总部位于伦敦,截至 2024 年 12 月,其拥有全球第二大规模的卫星星座,在轨运行卫星 648 颗,仅次于Starlink 星链。OneWeb 业务范围广泛,涵盖全球通信、航空低时延宽带通信、汽车蜂窝网络服务、直接到家庭及公共机构的互联网服务、偏远农村52地区覆盖、核心网搭建等。技术上,星座链路切换方案避免干扰同频地球静止轨道卫星,成为多数低轨星座技术范例;空客公司为其设计的全新卫星总装集成测试工艺,超大规模卫星制造能力成航天技术典范;用户终端免操作、免维护,还研制了口袋式终端。6.3Amazon Kuiper 进展进展作为美洲低轨卫星互联网领域的新玩家,亚马逊 Kuiper 项目采取后发制人的云原生星座策略。亚马逊在云计算领域的深厚技术积累与庞大用户基础,为该项目发展提供了独特优势。卫星部署方面,截至 2024 年底,Kuiper 卫星数量约 300 颗,相对较少,但发展速度可观。其计划构建由数千颗卫星组成的巨型星座,以实现全球宽带覆盖,致力于为地面网络覆盖不足的偏远地区及发展中国家,提供高速、低延迟的互联网接入服务。技术上,Kuiper 充分借助亚马逊在云计算、大数据和人工智能领域的技术优势。卫星采用先进通信技术与高效星间链路,实现数据快速传输处理;通过云原生架构,能与亚马逊云服务良好结合,为用户提供无缝云计算体验,例如方便用户快速访问云存储、云计算资源以高效处理数据和运行应用。未来,随着技术成熟和星座规模扩大,Kuiper 有望在卫星互联网承载网市场占据重要地位。其云原生的独特优势可能吸引大量对云计算服务有需求的企业和个人用户,为天基互联网发展带来新活力与竞争格局。536.4 星网进展星网进展中国“GW 千帆”项目是国家统筹的自主卫星互联网承载网体系。近年来,中国在该领域投入大量资源,致力于构建具有自主知识产权、安全可靠的卫星互联网系统。卫星星座规划方面,中国航天科技集团主导的 GW 星座计划稳步推进,采用高、中、低轨卫星混合组网,实现全球覆盖与多样化业务需求:高轨卫星提供大面积稳定覆盖,适用于广播、固定通信等;中轨卫星在保障一定覆盖范围的同时,实现较高数据传输速率;低轨卫星凭借低延迟特点,满足高清视频直播、在线游戏等实时交互类业务需求。“千帆”计划作为星网重要组成部分,侧重为特定区域或行业提供针对性服务,如通过构建专门低轨卫星子星座,为海洋渔业、海上运输等产业提供通信保障,实现船只与陆地指挥中心实时信息交互,提升海洋产业运营效率与安全性。技术创新上,中国在星间链路、星上处理、卫星制造等关键领域成效显著。星间链路采用激光通信等先进技术,提高数据传输速率与可靠性,减少对地面基础设施的依赖;星上处理技术让卫星具备更强计算能力,可实时处理分析数据,如遥感卫星能快速筛选关键信息并及时下传;卫星制造不断提升集成度与可靠性,降低重量和功耗,延长使用寿命。应用领域中,星网项目在国防安全、应急通信、远程教育、远程医疗等方面作用突出。国防安全领域,为军队提供可靠通信保障,确54保复杂环境下的指挥控制与信息传输;应急通信方面,在自然灾害导致地面网络瘫痪时,迅速提供服务保障救援;远程教育和远程医疗领域,助力偏远地区对接城市优质资源,促进资源公平分配。未来,随着星网项目的完善与扩展,中国卫星互联网承载网将进一步提升全球竞争力,为国家经济发展、社会进步和国家安全提供坚实支撑,同时中国也将积极参与国际合作,与各国共同推动天基互联网技术的发展与应用。6.5 垣信进展垣信进展中国“千帆星座”是由地方国资驱动的卫星互联网商业补充,垣信卫星通信科技(海南)有限公司在其发展中发挥重要作用。该星座主要聚焦商业应用领域,旨在为企业用户提供定制化卫星通信解决方案。卫星部署上,计划构建规模适中的低轨卫星星座,目前已发射部分试验卫星,用于验证关键技术和开展初步商业服务,为后续大规模部署奠定基础。业务模式方面,与众多行业企业深度合作。能源行业,为石油、天然气等企业的海上钻井平台、偏远矿区提供通信服务,保障数据传输和指挥调度;交通运输行业,与物流企业合作,为长途运输车辆、集装箱船舶提供实时定位和通信服务,实现物流信息全程跟踪管理;物联网领域,助力构建全球物联网通信网络,为各类设备提供可靠连接,推动物联网产业发展。技术创新上,注重引入先进通信技术和智能化管理系统。采用新55型调制解调技术,提高频谱效率和数据传输速率;利用人工智能算法对卫星网络智能管理优化,动态调整通信资源,提升网络整体性能。未来,在地方国资支持下,“千帆星座”有望扩大星座规模、提升服务质量,在商业卫星通信市场占据一席之地,为中国卫星互联网承载网产业多元化发展贡献力量,并通过与其他项目协同合作,推动产业整体进步。56七、七、卫星互联网承载网卫星互联网承载网标准化现状标准化现状卫星互联网承载网作为未来通信网络体系的关键构成,其标准化工作不仅是技术发展的内在需求,更是国家战略布局的重要体现。本章将详细阐述卫星互联网承载网在国内外主要标准化组织中的进展情况。7.1 3GPP 进展进展3GPP 在非地面网络(Non Terrestrial Network,NTN)领域的标准化工作持续推进,从 Release 17 奠定技术基础,到 Release 18 实现能力升级,再到 Release 19 迈向智能化融合,逐步构建起覆盖空天地的泛在通信体系,并为 6G 时代 NTN 的演进指明了方向。Release 17 是 NTN 标准化的关键一步,正式将 NTN 纳入 5G 新无线(New Radio,NR)标准体系,顺应全球通信网络向空天领域拓展的趋势。该版本于 2022 年完成 ASN.1 数据结构冻结,支持基于透明卫星架构的 GEO、LEO 和 NGSO 卫星接入,卫星仅作为无线信号的透明转发节点,借助地面 CU/DU 和 Core 网关实现空中中继。在NB-IoT 和 eMTC-NTN 方面,相关研究定义了物联网设备在卫星链路下的延迟、编码与功耗优化机制,使 NB-IoT/eMTC 能在空中平台稳定连接。总体而言,Release17 构建了 NTN 的完整技术基础,为其在远程场景的实际应用开辟了道路。57Release 18 致力于优化 NTN 多方面能力以满足丰富应用场景需求。在空地链路与功耗优化上,引入基于时延的移动管理策略、优化邻小区测量触发方式等增强机制,并支持 NB-IoT 和 eMTC 的星历信令,引入裸 ACK 模式减少吞吐量下降。频段扩展上,将 NTN 频谱覆盖延伸至 Ka-band FR2 高频段,实现该频段 NR-NTN 标准化,还提出 L/S 结合频段用于相关场景。定位增强方面,将 NR 定位能力引入NTN,提升地空协同定位能力。在标准落地与产业协同上,行业组织发布白皮书指导商业化应用,推进相关兼容测试和运营商部署。Release 19 标志着 NTN 标准体系向智能化、空地融合方向重大转变,核心关注“再生型卫星载荷”(Regenerative Payload,RP)。该版本明确采用 RP 架构,将完整 gNB 部署到卫星上,使卫星具备多种功能,提升 NTN 性能和灵活性。引入存储与转发服务用于 IoT 设备,支持星间链路功能,增强卫星网络自主性和抗毁性。在链路与设备性能指标上,明确多项增强需求,使 NTN 成为具备广域覆盖、智能化能力的 5G 网络分布单元。3GPP 在 Release19 后启动 Release20 工作,标志 NTN 向 6G 演进,涵盖多个前沿议题。未来 Release21、22 将继续推进可再生链路与边缘协同功能发展,重点包括空地端融合治理、自主传输控制等,星间链路将扩展应用,为 6G NTN 创造更强大基础设施能力,推动卫星互联网承载网向更高效、智能、融合方向发展。587.2 IETF 进展进展IETF 与 3GPP 不同,其任务聚焦于传输层和网络层协议,致力于使现有 Internet 协议在高时延、链路动态变化的卫星网络中维持性能与可靠性,主要进展集中在传输协议卫星适配(以 TCP 为主、扩展至 QUIC/SCTP 等)、网络层的星座动态路由以及整体协议栈增强工作三个方向。在传输层协议适配方面,这对提升卫星链路性能、保障数据高效可靠传输至关重要。1999 年发布的 RFC2488 是 TCP 协议针对卫星链路性能增强的早期重要成果,针对 GEO 卫星环境下信号 RTT 高的特点,提出设置大拥塞窗口、引入 Fast Retransmit/Recovery 机制等优化建议,为后续传输层协议优化奠定基础。draft-jones-tsvwg-transport-for-satellite 草案将优化视野从 TCP 拓展至 SCTP 和 QUIC,针对加密协议带来的新挑战,提出延长 ACK周期、调整初始窗口、优化多流控制等措施。draft-smith-tsvwg-quic-satellite-performance 针对 QUIC 在 GEO 卫星链路的问题,提出专用性能回归测试方法,通过具体量化指标评估性能并针对性优化。这些工作旨在深度优化核心传输机制,以及为QUIC 提供可靠高效的卫星链路导入路径。网络层协议与路由架构方面,2025 年初发布的 RFC9717 提出可扩展星座路由架构,利用轨道预测机制实现动态链路通知,通过时间窗“路径时效性”与“分区划分”方法保持收敛稳定性,无需改动现59有 IGP 协议语义。该架构能减少星座网络中常规重路由事件,提高通信链路稳定性,且依托现网技术栈可实现快速部署,在技术创新、性能提升和实际应用方面意义重大。协议层次的通用增强建议上,IETF 对 IPv6、DNS、TLS 等做了补充标准化调查。IPv6 方面,研究头压缩与可变头方案以缓解带宽开销、适配低吞吐场景;DNS 方面,优化查询以减少延迟,支持本地缓存与分层加速;TLS/QUIC 方面,通过 0-RTT 等技术缩短加密启动握手延迟,将前向纠错多流机制与 QUIC 重传结合改善链路稳定性。此外,IETF MASQUE 工作组研究 QUIC 代理模型,通过显式代理设计避开加密封装限制,使 QUIC 与卫星链路分段器协同发挥作用。这些研究从多维度解决卫星通信技术难题,为卫星通信与地面网络高效融合提供支撑。7.3 ITU 进展进展国际电信联盟(International Telecommunication Union,ITU)在卫星互联网承载网标准化领域担任系统级统筹角色,协调频谱监管、无线接入规范、网络互联与管理控制,其标准化体系主要由 ITU-R和 ITU-T 合作推进,确保 NTN 在国际移动通信体系中具备可监管、可互通与可操作性。ITU-R 通过世界无线电通信大会主导全球频谱资源分配,如将Ka 波段用于卫星与移动地球站协调使用,监管卫星轨道与频谱注册流程,接受成员国频谱使用申请以保障国际协同免干扰运行。作为60IMT-2020(5G)规范一部分,NTN 自 M.2514 报告起被 WP 4B 工作组认可为重要无线接口方向;2023 年发布的 Recommendation ITU-RM.2160-0 构建 IMT-2030 系统整体框架,明确 NTN 为“无处不在智能连接”关键组成部分,定义六项能力需求,提出 NTN 与卫星星座等空中平台协同融入。2025 年 WP 5D 推进 IMT-2030 技术性能需求文档,设定 NTN 相关目标,后续会议将制定提交格式等内容。在高频段与共频互通方面,M.2541 文档探索 IMT 在 100GHz 以上频段可能性,M.2370 与 M.2412 等报告提出共频干扰抑制策略,解决 NTN与地面系统共存互操作问题。ITU-T Study Group 15(SG15)定义承载层传输与网间网关接口规范,相关方案用于地面中心与卫星地面站高可靠链路桥接,Recommendation H.248 支持卫星网关控制与信令交互。网络智能与OAM 协调上,Y 系列文档引入 AI-native 网络评估与 OAM 架构,适用于 NTN 场景,助力实现空地链路切片等功能。安全、QoS 与统一网管方面,Recommendation X.1814 适用于 NTN 保障通信安全,SG15与 SG13 合作构建一体化地空网络管理体系,支持端到端服务可控及SLA 合规运行。ITU-R与ITU-T强调与其他标准化组织协同,M.2160-0明确ETSI、3GPP 等组织应联合推进 NTN 与其他无线接入技术的互通机制。ITU-T 焦点小组提供快速应对机制,便于 NTN 向边缘智能等领域拓展。ITU-R WP5D 正协调 WRC-27 的 NTN 频谱议程,为相关频段商用奠定基础,预期 NTN 的 ESIM 使用规范将在 WRC-27 中更新,推61动商用注册模式完善。7.4 CCSA 进展进展在国内,中国通信标准化协会(China Communications StandardsAssociation,CCSA)在卫星互联网承载网标准化工作中发挥着核心引领作用。自 2019 年成立航天通信技术工作委员会以来,CCSA 围绕星地一体化开展了一系列深入研究与标准制定工作,积极推动卫星互联网承载网与地面通信网络的融合发展。在星地融合通信标准方面,CCSA 紧密跟踪国际 3GPP 等组织的研究成果,结合我国国情与产业需求,开展了诸多针对性立项。2023年 4 月,CCSATC5 WG9、WG10 和 WG12 工作组全面推进基于 3GPPNTN 星地融合通信标准的立项工作。其中,WG12 工作组通过了 5G非地网络的核心网技术要求(第一阶段)行业标准立项,此为国内首个基于 3GPP R17 的非地面网络核心网标准立项。该项目聚焦支持NTN 的核心网关键技术研究与规定,致力于为卫星核心网与地面核心网的互联互通筑牢技术根基,对后续构建统一、高效的星地融合核心网体系意义重大。基于 5G 的卫星互联网标准化工作同样取得重要进展。2023 年,航天通信技术工作委员会航天通信系统工作组(TC12WG1)第 7 次会议讨论通过了“基于 5G 的卫星互联网第 1 部分:总体要求”行业标准立项申请。该标准由中国卫星网络集团总体牵头,联合中国电信、中国移动、中国卫通、中国联通、中国信息通信研究院等十余家单位62共同推进。其预期成果是以地面移动通信网络技术标准、3GPP 的R17-NTN 技术标准等为基线,形成涵盖核心网、承载网、接入网以及操作维护系统等在内的卫星互联网总体技术规范。该标准的制定将有力推动移动终端直连卫星、物联接入等重要场景的规模应用,切实指导我国卫星互联网的建设与运营实践。此外,CCSA 还积极组织产学研用各方力量,针对卫星互联网承载网的路由技术、网络管理、频谱资源分配等关键领域开展技术研讨与标准预研工作。在路由技术标准制定上,充分考量集中式、分布式及混合式路由在卫星互联网环境下的适用性,力求制定出既能保障网络高效运行,又能适应卫星网络高动态、长时延等特性的路由标准体系。在网络管理方面,研究构建统一的星地融合网络管理架构标准,以提升网络资源的协同管理效率,增强网络的可控性与稳定性。而在频谱资源分配标准研究中,综合考虑卫星通信与地面通信的频谱复用需求,探索高效、合理的频谱分配机制,避免频谱干扰,提高频谱利用率。总体而言,CCSA 通过一系列扎实有效的工作,已初步搭建起我国卫星互联网承载网标准化框架,在核心网、承载网以及关键技术标准制定上成果显著,为我国卫星互联网产业的有序发展、技术创新以及国际竞争力提升奠定了坚实基础,未来还将持续深入推进相关标准的细化与完善工作。63八、八、卫星互联网特殊问题剖析卫星互联网特殊问题剖析卫星互联网作为实现全球无缝覆盖的关键基础设施,其承载网在运行过程中面临着诸多特殊问题。本章将重点剖析轨道/频谱资源紧张、空间环境复杂、安全风险的级联效应以及星地融合难题对承载网造成的影响,并针对这些问题提出相应的应对策略。8.1 轨道轨道/频谱资源紧张导致承载网容量瓶颈频谱资源紧张导致承载网容量瓶颈轨道和频谱资源是卫星互联网运行的核心基础,其稀缺性和紧张状况直接制约承载网容量,形成显著瓶颈。从轨道资源看,地球轨道资源有限,低地球轨道因传输延迟低、链路损耗小成为发展热点,但可利用空间有限。随着各国加大投入,大量卫星进入低轨导致轨道日益拥挤,增加卫星间干扰风险,为避免干扰需保持距离和角度,限制了可部署卫星数量,而承载网容量与卫星数量相关,有限数量难以满足用户需求,造成容量不足。频谱资源同样紧张。卫星通信依赖特定频段,低频段绕射能力强、损耗小但带宽窄,高频段带宽丰富却受天气影响大、损耗高。目前低频段已被大量占用,高频段开发面临技术难题。频谱由国际电信联盟统一管理,各国竞争激烈,分配难以满足卫星互联网快速发展需求,直接限制承载网数据传输速率和容量,使其无法高效处理海量用户数据。64应对策略方面,轨道资源上,优化卫星星座设计,如采用多层架构合理搭配不同轨道高度卫星,实现无缝覆盖并减少干扰;加强国际合作协调,建立公平的轨道分配机制,避免资源过度争夺和浪费。频谱资源上,加大高频段研发投入,突破技术瓶颈,提高利用效率;推广动态频谱共享技术,感知空穴供非授权用户临时使用;通过频谱聚合技术将分散资源聚合,形成更宽带宽,提升承载网容量。8.2 空间环境复杂导致承载网链路可靠性下降空间环境复杂导致承载网链路可靠性下降空间环境的复杂性给卫星互联网承载网的链路可靠性带来极大挑战,各种空间环境因素相互作用,导致链路信号传输不稳定、中断概率增加,严重影响承载网正常运行。宇宙射线是影响链路可靠性的重要因素,其高能粒子会对卫星电子设备产生辐射效应,引发单粒子翻转、锁定等故障,降低卫星信号处理能力,导致链路信号误码、中断,如击中处理器可能使卫星无法正常收发信号,造成链路中断。太阳活动的影响同样不容忽视,太阳风暴释放的高能带电粒子流和电磁辐射会与地球磁场、电离层相互作用,引起电离层扰动,导致卫星信号折射、散射、吸收,使信号强度衰减、延迟增加甚至中断,对高频段卫星链路影响更显著,可能导致完全中断。空间碎片也是重大威胁,大量空间碎片高速运行,与卫星碰撞会损坏通信天线、太阳能电池板等关键部件,导致卫星失效和链路中断,微小碎片也可能划伤设备影响信号质量,降低链路可靠性。为提高承载网链路可靠性,需采取多项应对策略。卫星设计制造65阶段,加强抗辐射和抗干扰能力,采用抗辐射加固电子元器件,设计冗余备份系统,确保设备故障时能迅速切换备份设备。建立完善的空间环境监测和预警系统,实时监测太阳活动、宇宙射线和空间碎片,及时发布预警,便于运营商提前应对,如调整卫星工作模式、轨道以避开风险。优化链路设计,采用自适应调制解调技术,根据空间环境变化调整调制方式和编码速率,同时增加链路冗余度,通过多路径传输和分集接收技术,如多颗卫星同时传输信号,接收端合并信号,减少链路中断概率。8.3 卫星互联网安全风险的承载网级联效应卫星互联网安全风险的承载网级联效应卫星互联网的安全风险具有特殊性和复杂性,一旦发生安全事件,很容易在承载网中产生级联效应,对整个卫星互联网的安全运行造成严重威胁。网络边界模糊对承载网信任模型造成严重瓦解。卫星互联网覆盖广、涉及多国家地区,网络节点多且分散,通信链路复杂,使网络边界难以清晰界定。这导致承载网无法有效区分合法与非法用户,传统基于边界的信任模型失效,非法用户易突破边界进行攻击破坏,如伪装成合法节点窃取信息、篡改数据等。同时,安全策略难以有效实施,传统安全设备无法准确识别攻击来源和路径,节点的移动性和动态性也增加了安全策略制定和更新难度,降低了承载网安全防护能力。应对措施包括构建新的信任模型和安全机制,采用基于公钥基础设施的身份认证机制结合区块链技术;加强访问控制和权限管理,实施细粒66度策略及动态权限管理;引入零信任安全架构,对每个实体和访问请求严格验证,加密认证数据包并监测异常访问。卫星系统漏洞易在承载网中横向渗透。卫星系统的漏洞可能存在于操作系统、应用软件、通信协议等方面,如操作系统的缓冲区溢出漏洞、通信协议缺乏有效认证加密机制等。由于承载网高度互联,攻击者攻破存在漏洞的卫星后,可利用通信链路向其他卫星或地面站发起攻击,实现横向渗透,如控制更多卫星节点发起大规模攻击。这会导致敏感信息被窃取、数据被篡改、承载网瘫痪等严重后果。应对措施包括加强卫星系统漏洞管理,建立发现、评估和修复机制,加强开发过程安全管理;在承载网部署入侵检测和防御系统,实时监测并阻止渗透;采用加密技术保护通信数据及控制指令;建立应急响应机制,制定预案并加强合作共享情报。8.4 星地融合难题对承载网端到端星地融合难题对承载网端到端 QoS 的挑战的挑战星地融合是卫星互联网发展的必然趋势,通过将卫星网络与地面网络有机结合,可实现全球无缝覆盖和高效通信,但融合过程中面临诸多难题,对承载网端到端 QoS 构成严峻挑战。星地网络的异构性是主要难题之一。卫星网络传输延迟大、带宽有限、链路稳定性差,地面网络则传输延迟小、带宽充足、链路稳定性高,二者在网络架构、通信协议、传输特性等方面差异显著,导致融合后承载网出现协议不兼容、数据格式转换复杂等问题,影响端到端 QoS,例如协议差异会增加数据传输延迟和丢包率。67星地网络的动态性也带来挑战。卫星运行使星地通信链路的长度、延迟、信号强度等动态变化,地面网络拓扑也随用户移动和设备增减改变,导致承载网难以维持稳定端到端连接,降低数据传输可靠性和稳定性,如卫星切换地面站时可能出现数据传输中断。资源分配不均同样影响 QoS。卫星网络资源有限,地面网络资源相对充足,融合后如何合理分配资源满足不同用户需求是难题,分配不当会导致部分用户服务质量受影响,如卫星网络用户过多可能引发带宽拥堵,而地面网络资源可能闲置。星地链路的不对称性也不利 QoS,上行和下行链路在带宽、延迟等方面差异大,降低数据传输效率,如上行带宽窄可能导致数据积压、延迟增加,下行带宽宽可能资源闲置。应对策略方面,需推动星地网络协议融合与统一,制定统一标准,优化改进现有协议,开发新型协议;采用智能资源管理和调度技术,实时监测分析资源,动态调整分配策略,建立资源共享机制;优化切换机制,采用快速切换和多连接技术,减少中断,保证传输连续性;针对链路不对称性采用链路均衡技术,平衡负载,提高效率;构建端到端 QoS 保障体系,对业务分类分级,建立监测评估机制,优化网络性能。68九、九、总结与展望总结与展望当前我国卫星互联网承载网仍面临轨道与频谱资源争夺加剧、空间环境适应性不足、星地融合异构性突出、安全防护体系待完善等挑战,迫切需要从“技术突破”向“体系引领”演进,构建自主可控、全域覆盖、智能高效的空天地一体化信息基础设施。作为连接天基与地面的“太空信息高速公路”,其不仅是国家战略竞争力的核心标志,更是支撑数字边疆防护、产业数字化转型、全球科技竞争的关键底座。相比于早期单一链路的天基通信模式,我国已形成的“三架构、七技术”(集中式/分布式/混合式架构,星间链路、路由交换、移动管理等七大核心技术)承载网体系展现出显著优势:在技术层面,突破中轨星间激光通信、星上算力网络等核心技术,主导 3GPP 星地协同协议、IETF 天基网络切片标准。在应用层面,实现偏远地区 4G/5G级服务、手机直连卫星商用、灾害应急通信存续等规模化落地。在产业层面,形成“国家统筹 市场协同”格局,星网“GW 千帆”项目与垣信“千帆星座”互补,推动卫星批量化生产与火箭回收技术突破。同时,国际合作深化、应用需求多元化、技术融合加速等为其高质量发展带来重大机遇。因此,本白皮书系统梳理了卫星互联网承载网的需求愿景、应用场景、技术体系、产业现状及标准化进展,揭示其在国家重大战略、产业升级、民生服务及全球科技竞争中的关键价值,提出“三架构、69七技术”体系框架,并对未来发展方向进行前瞻性研判。未来,我们将聚焦四大方向深化工作:一是推进核心技术突破,重点研发 1Tbps 级星间激光通信与量子加密融合技术、PB 级星上算力网络、AI 驱动的动态路由与数字孪生网络管理系统。二是完善标准体系,主导 3GPP 星地融合空口协议、IETF 分布式路由优化、ITUKa/毫米波频段分配等关键标准制定。三是加速产业协同,推动卫星批量化生产降本、口袋式低功耗终端研发、“天基丝路”国际合作平台扩容。四是开展原型验证,依托国家级实验室推进星上智算载荷、手机直连卫星增强技术、应急通信一体化设备的测试与优化。诚邀业界同行共同参与,携手推动卫星互联网承载网从“技术并跑”迈向“体系领跑”,为数字中国建设与人类命运共同体构建提供坚实的空天地一体化信息支撑。70附录 A:术语与缩略语中文名称中文名称英文缩写英文缩写英文全拼英文全拼人工智能AIArtificial Intelligence手机直连卫星DTCDirect to Cell低地球轨道LEOLow Earth Orbit国际电信联盟ITUInternational Telecommunication Union公钥基础设施PKIPublic Key Infrastructure服务质量QoSQuality of Service非地面网络NTNNon Terrestrial Network第三代合作伙伴计划3GPP3rd Generation Partnership Project互联网工程任务组IETFInternet Engineering Task Force软件定义网络SDNSoftware Defined Network网络功能虚拟化NFVNetwork Functions Virtualization地球静止轨道GEOGeostationary Earth Orbit倾斜地球同步轨道IGSOInclined Geosynchronous Orbit中地球轨道MEOMedium Earth Orbit捕获、对准和跟踪APTAcquisition,Pointing and Tracking低密度奇偶校验码LDPCLow Density Parity Check幅度位置调APPMAmplitude and Position Modulation71制里德-所罗门码RSReed-Solomon卷积码CCConvolutional Code多输入多输出MIMOMultiple-Input Multiple-Output开放最短路径优先OSPFOpen Shortest Path First分布式哈希表DHTDistributed Hash Table无线电链路中断RLFRadio Link Failure频分双工FDDFrequency Division Duplex全球导航卫星系统GNSSGlobal Navigation Satellite System简化能力终端RedCapReduced Capability存储与转发S&FStore-and-Forward星间链路ISLInter-Satellite Link国际移动通信IMTInternational Mobile Telecommunication下一代节点B(5G 基站)gNBnext Generation Node B用户设备UEUser Equipment往返时间RTTRound-Trip Time硬件在环HILHardware-in-the-Loop在轨测试IOTIn Orbit Testing用户面功能UPFUser Plane Function接入和移动性管理功能AMFAccess and Mobility Management Function全球认证论坛GCFGlobal Certification Forum72中国通信标准化协会CCSAChina Communications StandardsAssociation73参考文献1 央视网.(2024).国家航天局:加快“一带一路”空间信息走廊建设.https:/ 新华社.(2025).太空新基建:中国商业航天提速.https:/ 徐珉.(2014).面向 5G-Advanced 和 6G 的星基移动通信网络标准技术研究.移动通信.4 赛迪顾问.(2020).2020 新基建之中国卫星互联网产业发展研究白皮书.https:/ 中国电信卫星.(2025).中国电信直连卫星全场景应用正式发布天通卫星守护 318 国道“生命线”.https:/ Liberg O,Lwenmark S E,Euler S,et al.(2021).NarrowbandInternet of Things for non-terrestrial networks.In IEEE Communications Standards Magazine.7 Yue P,An J,Zhang J,et al.(2023).Low earth orbit satellite security and reliability:Issues,solutions,and the road ahead.In IEEE Communications Surveys&Tutorials.8 Kodheli O,Lagunas E,Maturo N,et al.(2020).Satellite communications in the new space era:A survey and future challenges.In IEEE Communications Surveys&Tutorials.9 Zhou D,Sheng M,Li J,et al.(2023).Aerospace integrated networks innovation for empowering 6G:A survey and future challenges.In IEEE Communications Surveys&Tutorials.7410工业和信息化部,中央网信办,教育部等.(2023).算力基础设施高质量发展行动计划.https:/ S,Moustafa N,Reisslein M.(2024).Cybersecurity ofsatellite communications systems:A comprehensive survey of thespace,ground,and links segments.In IEEE Communications Surveys&Tutorials.13Kodheli O,Lagunas E,Maturo N,Sharma SK,Shankar B,Montoya JF,Duncan JC,Spano D,Chatzinotas S,Kisseleff S,Querol J.(2020).Satellite communications in the new space era:A survey and future challenges.In IEEE Communications Surveys&Tutorials.14Zhang,Y.,Pan,T.,Zheng,Y.,Ruan,G.,Li,H.,Liu,Y.,&Huang,T.(2025).Topology-Adaptive LEO Satellite Network Telemetry via Graph Isomorphism and Topology Partitioning.In Proceedings of the 9th Asia-Pacific Workshop on Networking.15Zhang,Y.,Pan,T.,Fu,Q.,Zheng,Y.,Feng,X.,Liu,J.,&Huang,T.(2024).In-band Network-Wide Telemetry for Topology-Varying LEO Satellite Networks.In GLOBECOM 2024-2024 IEEE Global Communications Conference.

    发布时间2025-08-22 85页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • Telenor IoT:2024全面了解物联网漫游:消除误解洞悉优势指南(21页).pdf

    全面了解物联网漫游真相?误解?消除误解,洞悉优势TELENOR IoT|全面了解物联网漫游|2TELENOR IoT|全面了解物联网漫游|2全面了解物联网漫游消除误解,洞悉优势本指南旨在澄清关于物联网漫游的常见误解,剖析漫游为 企业跨国经营带来的战略优势。了解漫游的真实情况,让灵活、可靠、经济高效的物联网连接助您的业务发展再上新台阶。全面了解物联网漫游2序言3 物联网漫游的战略优势4 消除误解5 误解1 6 误解2 8 误解3 10 误解4 11 误解5 13 误解6 14 误解7 16 Telenor IoT的漫游与网络接入解决方案18 结论20 Telenor Connexion 21TELENOR IoT|全面了解物联网漫游|3TELENOR IoT|全面了解物联网漫游|3然而,围绕网络接入和漫游*存在诸多误解,阻碍了一些企业发挥连接的全部潜力。有观点认为漫游已经过时,事实并非如此,它仍然是物联网连接的重要组成部分。对于跨国经营的企业而言,漫游仍是非常重要的工具,为各行业的多种用例提供了出色的灵活性和可靠性。在此,我们对有关物联网漫游和网络接入的七大常见误解进行剖析,分析漫游的战略优势,以期消除误解。本指南以事实为依据,对于技术和网络连接投资决策者,或者专注于拓展业务、探索新市场的人士来说,尤其具有参考价值。序言摘要随着企业应对全球化运营带来的挑战,充分利用漫游和 网络接入是在全球成功部署联网产品的关键。*漫游:设备离开归属网络,连接到其他网络的能力,确保在不同地区或国家实现无缝连接。TELENOR IoT|全面了解物联网漫游|4物联网漫游的 战略优势对于在全球范围内开展业务的企业而言,物联网漫游具有诸多战略优势:灵活性和可扩展性:借助漫游功能,设备可连接到不同地区的多个网络,有助于企业的全球化运营与业务拓展。这种灵活性确保企业在扩大业务规模时,无需担忧连接问题。1.业务运营连续性:漫游技术可提供冗余和备份机制,保障业务运营连续性。由于在每个市场可接入多个网络,企业可以降低网络连接中断风险,提升业务韧性。2.3.提升客户体验:无缝通信和服务交付对于维持客户满意度尤为关键。无论客户身处何地,漫游服务都能确保企业为其提供一致且可靠的用户体验。漫游是一种经过数十年市场验证的解决方案,拥有标准化协议和技术。Telenor为客户提供漫游服务,涵盖全球200多个国家和地区的500多家运营商网络。4.前瞻性解决方案:NB-IoT、LTE-M、5G等所有新兴蜂窝物联网技术均支持漫游功能,这为企业提供了一种面向未来、长生命周期的解决方案。5.优化成本和快速上市:具有竞争力的定价模式和经济高效的漫游解决方案有助于企业有效管理连接成本。使用漫游服务时,企业无需针对每个市场单独对接本地连接管理平台和eSIM平台,从而显著降低成本并缩短产品上市周期。TELENOR IoT|全面了解物联网漫游|4TELENOR IoT|全面了解物联网漫游|5这些误解会阻碍高效连接解决方案的应用部署,导致企业错失提升运营效率和客户满意度的机会。在接下来的内容中,我们将详细剖析关于漫游和网络接入的七个常见误区。通过展示漫游解决方案的现状,帮助大家更清晰地认识其战略优势。从成本、可靠性到复杂性和适用性,我们将结合具体案例来逐一分析这些误解,揭示为何漫游仍然是全球连接不可或缺的组成部分。消除误解了解物联网漫游的真正价值漫游能为企业跨国运营提供显著的战略优势,但由于误解的存在,导致许多企业无法充分获享这项业务的益处。7个常见 误解让我们逐一剖析这些误解,了解漫游和网络接入的真实情况。TELENOR IoT|全面了解物联网漫游|6真相:得益于物联网应用场景的推动,到2028年,漫游服务收入预计将达到340亿美元。漫游技术比以往任何时候都更具生命力。误解1物联网漫游日渐式微TELENOR IoT|全面了解物联网漫游|7众多分析师预测,2020年至2026年期间,物联网漫游连接数的增长速度将超过物联网连接领域的整体增长,年复合增长率将达到35%1。据Kaleido Intelligence的数据,预计到2028年,漫游批发收入将达到340亿美元,其中物联网漫游用例的贡献将达到73%,凸显了漫游在满足物联网应用不断扩大的连接需求方面的重要作用2。1 https:/ https:/ Intelligence3%3sdb63%旅行eSIM批发流量5G独立组网(SA)漫游用例5G非独立组网(NSA)漫游用例新型低延迟漫游用例新型网络切片用例其他非地面网络服务新型区域本地接入枢纽(RLAH)通道面向虚拟运营商/CaaS提供商的IMSI代管服务68家虚拟运营商参与调研TELENOR IoT|全面了解物联网漫游|8真相:在具有挑战性的环境中,漫游借助多网络连接特性,能够确保出色的网络覆盖和可靠性,性能往往优于本地接入。误解2本地接入总是性能更优TELENOR IoT|全面了解物联网漫游|9认为本地接入*性能更好的观点忽略了其在某些关键场景存在短板。漫游凭借其多网络接入能力,与单网络接入的本地访问相比,能提供更广泛的覆盖范围和冗余保障,确保在复杂且具有挑战性的环境中实现可靠连接。以下示例清晰表明,与单网络本地接入相比,通过漫游接入多个网络能提供更佳覆盖率。表格列出了各LTE网络的覆盖率,以及使用该国所有列出的网络组合后的综合覆盖率(覆盖率采用Ookla公司的“Cellmaps”覆盖范围工具计算得出)。这张表格清晰表明,与依赖单一网络相比,通过漫游接入多个网络能显著提高整体覆盖范围。整合不同运营商的网络覆盖范围后,各国的综合覆盖率显著提高,从而确保物联网设备能在更大的范围内接入网络。国家运营商1运营商2运营商3运营商4综合覆盖率澳大利亚14.4.1%6.2%N/A23.1%智利18.2%.9.5%5.90.2%法国95.6.5.4.1.9%日本58.4g.0%N/AN/A71.6%南非60.5b.1%N/AN/A71.3%认为本地接入总是性能更优的观点忽略了其在某些关键场景存在短板。*本地接入:设备在其物理位置直接连接到本地网络。TELENOR IoT|全面了解物联网漫游|9TELENOR IoT|全面了解物联网漫游|10真相:灵活的定价模式使漫游成为一种经济高效的联网解决方案。当前的漫游解决方案提供了高性价比的选择,包括灵活的定价模式和固定套餐,使漫游成为许多企业负担得起的可行之选。漫游支持多供应商模式,有利于实现成本优化。这些量身定制的解决方案消除了漫游成本高昂这一误解,证明了漫游既经济又高效。值得注意的是,基于移动虚拟网络运营商(MVNO)协议的本地接入商业条款可能需遵循所在国的监管要求。误解3漫游费用高昂TELENOR IoT|全面了解物联网漫游|11真相:如今,先进的漫游技术通过多网络接入提供冗余功能,在大多数应用场景中能够达到媲美本地网络甚至更优的稳定性。误解4漫游可靠性不佳TELENOR IoT|全面了解物联网漫游|12依托网络基础设施的稳健性和冗余性,漫游技术高度可靠。虽然在极少数需要极高数据传输速度和极低时延的情况下,本地接入可能更为合适,但漫游能为大多数使用场景提供稳定、可靠的连接。由于具备多网络接入能力,漫游提供了更高的冗余性。也就是说,如果某个网络出现故障,联网设备可以及时切换到另一个网络,保持连接,从而提高设备利用率。下表列举了客户日常应用的真实案例。在2024年78月期间,我们与全球漫游合作伙伴共遭遇了八次连接故障(以粉色突出显示)。在受影响的市场上,除一次情况外,客户均能接入其他网络,享受不间断的服务(以绿色标记)。全球移动通信系统协会(GSMA)和行业报告强调,这种多网络连接能力对于物联网设备的可靠性至关重要,能确保在主网络不可用时,设备仍能保持连接。除了几乎能在所有市场提供多网络连接的优势外,漫游服务还便于实施集中式网络监控,从而更快速地发现问题,并在必要时采取应对措施。开始时间终止时间国家运营商1运营商2运营商3运营商48月29日,16:40(UTC)8月30日,11:30(UTC)南非2G故障OKOKN/A8月29日,00:00(UTC)8月29日,01:40(UTC)英国2G故障OKOKOK8月5日,14:46(UTC)8月5日,16:30(UTC)意大利LTE接入异常OKOKN/A8月2日,04:30(UTC)8月2日,09:30(UTC)意大利OK2G故障OKN/A7月30日,06:15(UTC)7月30日,09:00(UTC)比利时PS数据服务中断OKOKN/A7月19日,09:00(UTC)7月19日,13:15(UTC)南非OK2G/3G故障OKN/A7月8日,00:30(UTC)7月8日,16:00(UTC)博茨瓦纳2G/3G故障N/AN/AN/A7月2日,20:50(UTC)7月3日,07:30(UTC)乌克兰2G/3G/LTE接入异常OKOKOKTELENOR IoT|全面了解物联网漫游|13误解5漫游管理颇为复杂真相:与本地接入相比,漫游管理更简单,要求更少,提供了 精简的单一集成解决方案。认为漫游管理颇为复杂的观点具有误导性。实际上,与漫游相比,本地接入解决方案往往有更多要求,管理起来更为复杂。漫游通常只需进行一次集成即可实现,简化了技术和运维管理,使其成为企业更便捷、高效的选择,尤其在本地接入方案涉及多个连接管理平台(CMP)和嵌入式UICC(eUICC)平台时,漫游的优势更为显著。TELENOR IoT|全面了解物联网漫游|14真相:漫游非常适合位置固定的设备,凭借多网络接入能力,确保在单一网络故障时仍能保持稳定连接。误解6漫游不适用于固定部署设备TELENOR IoT|全面了解物联网漫游|15截至2024年,实际上只有极少数国家的法规禁止永久漫游,例如巴西、尼日利亚、沙特阿拉伯和土耳其。在其他一些国家(例如中国、埃及、新加坡和阿联酋),在获得监管机构的许可后可以使用永久漫游。此外,在澳大利亚、加拿大和美国等国家,部分运营商可能会在特定情况下对永久漫游实施商业限制。不过,总体而言,漫游完全可以作为物联网设备在归属运营商授权区域外长期部署时的连接解决方案(更多信息参阅GSMA发布的2024年物联网指南:全球物联网法规)。欧洲通常不会限制永久漫游,但欧盟法规允许在某些情况下采取相关限制。中东和北非地区沙特阿拉伯和阿联酋没有明确禁止,但服务必须在当地托管或由获得许可的当地运营商提供,这实际上禁止了永久漫游。阿曼禁止超过90天的漫游,除非运营商能证明存在例外情况。在埃及,永久漫游协议必须得到电信监管机构的批准。其他地区除了在此列出的国家外,其他许多国家也有关于永久漫游的规定。有些是明确禁止,有些则是基于当地许可要求、数据主权或其他类似问题的事实上的禁止。北美洲没有具体规定,但加拿大和美国的移动网络运营商通常会主动对入境漫游连接实施限制。巴西巴西不允许永久漫游。当地运营商必须确保没有此类设备接入其网络。尼日利亚不禁止永久漫游。土耳其不允许永久漫游,即在120天内,用户不能在同一设备上使用漫游服务超过90天。此外,当地新的eSIM法规要求SIM卡只能由土耳其本地移动运营商管控。印度如今许多运营商依赖漫游服务,但新的eSIM规定将国际漫游限制为6个月。运营商有义务遵守“客户身份识别”(KYC)规定。日本允许永久漫游,但需获得总务省(MPHPT)的许可。中国基于互惠协议,在某些情况下允许直接永久漫游,但要求对连接和数据进行本地化管理。澳大利亚对于境外设备(包括物联网设备)的永久漫游服务没有具体规定。移动网络运营商可能会对境外物联网设备或服务使用其网络加以限制。来源:Transforma Insights,2024TELENOR IoT|全面了解物联网漫游|15TELENOR IoT|全面了解物联网漫游|16真相:漫游技术随着5G与物联网的创新而不断发展,始终处于连接解决方案的前沿。误解7漫游技术已过时TELENOR IoT|全面了解物联网漫游|17漫游技术不仅与时俱进,更与5G、LTE-M和NB-IoT等先进技术无缝融合,确立了其作为全球物联网连接基石的地位。截至2024年,5G非独立组网(NSA)漫游的部署规模正在迅速扩大。这一进展对于需要高速数据传输的应用场合至关重要。此外,专为物联网设计的LTE-M和NB-IoT等技术在当前的漫游框架内得到了全面支持,使设备能够在全球范围内受益于低功耗广域连接。这些创新清楚地表明:漫游远未过时,而是在不断演进,以满足物联网生态系统的复杂需求,确保设备无论位于何处都能保持稳定连接并正常运行3。3 https:/ IoT|全面了解物联网漫游|17TELENOR IoT|全面了解物联网漫游|18连接解决方案概览Telenor IoT基于漫游、物联网协议和本地接入提供全球范围的网络接入服务。我们的专职物联网网络接入团队与Telenor全球批发业务团队密切合作,确保无缝连接。我们持续关注市场发展动态,就监管要求向客户提供建议,确保合规运营,并为客户提供高质量网络服务。Telenor IoT的漫游与网络接入解决方案Telenor IoT为全球企业提供全面的连接解决方案,涵盖200多个国家和地区的500多家运营商网络,几乎在每个市场上都支持多网络接入。限制漫游的国家本地接入(监管限制)物联网漫游协议Telenor集团漫游服务TELENOR IoT|全面了解物联网漫游|18TELENOR IoT|全面了解物联网漫游|19 全球部署:我们的成熟解决方案简化了部署流程,经过充分测试,满足全球化运营需求。覆盖范围与韧性:几乎在每个市场均可接入多个网络,确保更广泛的覆盖范围并增强韧性。成本效益:具有竞争力的定价模式使漫游成为经济高效的全球连接解决方案。前瞻性:对新技术的支持确保我们的解决方案实用、高效。.漫游接入.本地接入 全球范围的网络接入 涵盖200多个国家和地区的500多家运营商网络 全球SIM卡和物联网平台 本地接入,包括多网络接入 本地SIM卡和物联网平台 全面满足监管要求 涵盖标准市场和特定客户市场一份合同/账单一张SIM卡一个网站/API 一个虚拟专用网络(VPN)一站式支持具备本地接入功能的全球订阅服务优势:TELENOR IoT|全面了解物联网漫游|20欢迎联系我们,了解哪些连接解决方案最适合您的业务需求。让我们协助您应对全球市场拓展的复杂性,充分释放连接潜力。结论Telenor IoT深知网络接入对于全球企业的成功经营至关重要。我们的 解决方案兼具灵活性、可靠性和成本效益,不断提升客户体验。TELENOR IoT|全面了解物联网漫游|20Telenor Connexion Telenor IoT是全球知名电信运营商Telenor集团旗下的物联网业务品牌,提供物联网综合解决方案。作为全球领先的物联网服务提供商之一,20多年来,Telenor为各种规模的企业提供全球物联网连接服务和专业支持。Telenor IoT在约200个国家为客户管理逾2,000万台联网设备,服务于沃尔沃、斯堪尼亚、日立、Verisure和富世华等全球化企业。我们在北欧经由Telenor在当地的机构提供物联网解决方案,在全球其他地区则由Telenor Connexion为需要定制产品和服务以及专业支持的大型跨国企业提供物联网解决方案。

    发布时间2025-08-22 21页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 未来网络发展大会:2025中国移动云智算新一代网络基础设施白皮书(64页).pdf

    未来网络技术发展系列白皮书(2025)中国移动云智算新一代网络基础设施白皮书第九届未来网络发展大会组委会2025年8月中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书编写说明编写说明主要编写单位:主要编写单位:中国移动云能力中心主要编写人员:主要编写人员:徐小虎、范文韬、姚军1目录目目录录.1第第 1 章章 AI 时代云计算发展新趋势时代云计算发展新趋势.41.1 云计算市场趋势洞察.41.2 云计算技术趋势洞察.51.3 云计算产业竞争格局变化.6第第 2 章章 云智算云智算发展方向发展方向与网络技术体系构建与网络技术体系构建.82.1 云智算发展方向.82.1.1 AI 优先:打造算力驱动的核心能力体系.82.1.2 全球化&多云互联:构建全域覆盖、多云互联的网络资源体系.92.1.3 内生安全:构筑多层次可编排的安全能力.102.1.4 差分服务:提供可预期的优质服务体验.112.2 云智算网络技术体系构建.112.2.1 物理网络:云智算高性能算网承载基础.122.2.2 虚拟网络:云智算灵活调度与安全编排核心.13第第 3 章章 云智算云智算物理物理网络网络架构:架构:智算网络智算网络.143.1 Scale-Out 网络:构建超大规模训练集群.143.1.1 Scale-Out 网络需求.143.1.2 技术路线对比:以太网 VS InfiniBand(IB).163.1.3 Scale-Out 网络架构.17中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书23.2 Scale-Up 网络:构建更大规模超高带宽域.193.2.1 Scale-Up 网络需求.193.2.2 网络技术选型:以太网 VS PCIe.203.2.3 超节点硬件选型:开放架构 VS 封闭架构.223.2.4 Scale-Up 网络架构.233.3 Scale-Out 与 Scale-Up 融合组网方案:支撑百万卡级 AI 集群的下一代智算网络.253.3.1 Scale-Out 与 Scale-Up 融合组网需求.253.3.2 Scale-Out 与 Scale-Up 融合组网架构.253.3.3 技术挑战性、创新性和先进性.26第第 4 章章 云智算物理网络架构:数据中心云智算物理网络架构:数据中心网络网络.284.1 数据中心网络需求.284.2 数据中心网络架构.294.3 技术挑战性、创新性和先进性.31第第 5 章章 云智算云智算物理网络架构:广域网络物理网络架构:广域网络.335.1 广域 IP 网络.335.1.1 可预期网络需求.345.1.2 DCI-TE:跨境数据中心互联场景下的可预期网络能力.355.1.3 EPE-TE:BGP 出口智能选路能力.375.1.4 SGA:云网一体的跨境超级全球加速.395.1.5 技术挑战性、创新性和先进性.415.2 广域光网络.425.2.1 光网络发展趋势.425.2.2 广域光网络技术架构.435.2.3 技术挑战性、创新性与先进性.44第第 6 章章 云智算云智算虚拟网络架构虚拟网络架构.456.1 云内网络:SDN.456.1.1 SDN 网络需求.466.1.2 SDN 技术架构.47中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书36.1.3 技术挑战性、创新性与先进性.486.2 云间网络:云联网.496.2.1 云联网需求.496.2.2 云联网架构.506.2.3 架构对比:云联网架构 VS TR 架构.516.2.4 技术挑战性、创新性与先进性.526.3 内生安全:网络安全服务链.536.3.1 网络安全服务链需求.536.3.2 网络安全服务链架构.556.3.3 技术挑战性、创新性与先进性.56第第 7 章章 结语结语.58附录:术语与缩略语附录:术语与缩略语.59中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书4第第 1 章章AI 时代云计算发展新趋势时代云计算发展新趋势随着人工智能技术的迅猛发展,以大语言模型(LLM)为代表的 AI 应用场景不断拓展,对云计算基础设施提出了前所未有的性能与规模挑战。AI 不仅正在重塑云计算的使用方式,也正在推动公有云服务进入新一轮技术革新周期。1.1云计算市场趋势洞察云计算市场趋势洞察AI 云服务爆发增长云服务爆发增长全球 AI 云市场呈现井喷式发展态势。据相关研究报告预测,至 2030 年,AI 云服务市场规模将突破 6476 亿美元,年复合增长率(CAGR)高达 39.7%。这主要受到两个因素驱动:1)大模型训练需求激增;2)AI 原生应用加速普及。然而,AI 基础设施的高性能网络、算力资源和技术体系仍存在巨大挑战,亟需云服务商加快布局和创新。多云战略加速落地多云战略加速落地企业在追求业务连续性、成本优化与数据安全的多重目标下,正全面拥抱多云部署策略。数据显示,已有 86%的企业采用多云架构,其中混合云仍是主流。如何实现多云环境下的网络互通与安全隔离,成为云网络架构面临的关键技术难题。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书5网络安全仍是网络安全仍是上云首要上云首要关注点关注点在复杂多变的网络安全环境中,云上安全问题始终是企业上云的首要顾虑。Gartner 预测,全球云安全支出将从 2024 年的 115.12 亿美元增长至 2028 年的217.73 亿美元,CAGR 达到 17.27%。多云架构带来的安全策略碎片化和合规复杂性,亟需新的网络安全解决方案进行系统性应对。全球化云服务成为企业出海刚需全球化云服务成为企业出海刚需伴随中国企业加速“出海”,东南亚、中东等新兴市场的数字化转型迅猛推进,催生了跨区域云服务的强劲需求,跨国企业的云服务支出将不断提升。如何在保障数据主权和合规性的前提下,提供低延迟、可视化、广覆盖的云网服务,成为云基础设施全球化部署的核心挑战。特别的,云游戏作为低延迟、高并发的应用代表,其市场规模将于 2030 年突破 210.4 亿美元,年 CAGR 高达 44.3%。以中国游戏出海东南亚市场为例,网络延迟与覆盖能力成为制约用户体验关键。1.2云计算技术趋势洞察云计算技术趋势洞察AI 扩张定律扩张定律持续生效持续生效伴随大模型向多模态进化,其参数规模正以每年 10 倍的速度增长,已迈入十万亿级阶段。同时,万卡集群成为训练大模型的最低标配,十万卡级训练集群已成为主流趋势(如 xAI 基于 20 万卡集群训练 Grok3 模型)。这一趋势对智算网络和集群架构提出了超大规模、超高吞吐、超低延迟的极致要求。多云部署技术多云部署技术日趋日趋成熟成熟容器化技术(如 Docker)和编排调度系统(如 Kubernetes)已成为多云部署的基础设施标准。同时,Terraform 等基础设施即代码(IaC)工具的广泛应用,使得跨云资源管理实现了高度自动化与标准化。AI 赋能网络安全成为新趋势赋能网络安全成为新趋势AGI 为网络犯罪分子提供了提升攻击复杂度的工具,ACL 安全组传统安全防护手段难以应付。Gartner 预测,到 2028 年,60%的零信任安全技术将集成 AI功能(Predicts 2025:Scaling Zero-Trust Technology and Resilience),实现主动识中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书6别威胁并实时响应,为云环境构建更加智能、精准的防护体系。云网协同云网协同效应持续放大效应持续放大随着企业上云与出海的不断推进,利用覆盖全球的高质量广域网提供企业虚拟广域网服务,相对 SDWAN1.0 更安全、更可靠。广域网流量工程实现网络资源的精细化运营,为客户(如云游戏客户)提供优质网络服务的同时,优化网络资源成本。1.3云计算产业竞争格局变化云计算产业竞争格局变化AI 基础设施军备竞赛加速升级基础设施军备竞赛加速升级全球头部云厂商纷纷加大对 AI 基础设施的研发和部署投入,以抢占智能时代的算力制高点。AWS 推出第二代自研 AI 芯片,并规划建设 40 万卡超大集群“Rainer”;GCP 发布第六代 TPU,服务于 10 万卡集群;阿里云则计划未来三年投资 3800 亿元用于云与 AI 基础设施建设,投资额超越过去十年总和。国内厂商亦积极推进自研智算网络方案,力求实现 AI 大模型训练所需的十万卡集群部署能力。多云互联升级多云互联升级AWS Cloud WAN:2022 年,升级 Transit GW 架构为 Cloud WAN,多云互联自动化和可视化能力大幅提升。谷歌云 Cloud WAN:2025 年 4 月份,发布 Cloud WAN,为全球化客户提供便捷的虚拟广域网和多云互联方案。云上安全能力持续强化云上安全能力持续强化网络安全已成为云服务价值的重要组成部分。微软、谷歌等国际巨头持续通过高额收购扩大云安全版图:谷歌继斥资 54 亿美元并购 Mandiant 之后,2024年拟以 320 亿美元收购 Wiz,成为其有史以来最大一笔收购案,同时也刷新全球网络安全领域的并购纪录。国内云厂商则通过“自研产品 第三方市场”双轮驱动,依托 MarketPlace平台引入行业知名安全厂商,打造丰富灵活的云安全生态体系。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书7云网协同能力日益成为核心竞争力云网协同能力日益成为核心竞争力差异化的网络服务能力正成为云服务商打造竞争优势的新焦点。Azure、GCP借助全球广域网与流量工程能力,为企业客户提供跨区域、高品质、低延迟的定制化服务。阿里云、腾讯云则基于广域流量调度系统,聚焦出海游戏等高价值客户,提供精细化、场景化的网络服务方案,提升客户体验与资源运营效率。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书8第第 2 章章云智算云智算发展方向发展方向与网络技术体系构建与网络技术体系构建2.1云智算发展方向云智算发展方向在 AI 技术快速演进的时代背景下,云基础设施正从通用计算平台向以 AI为中心的云智算形态加速转型。中国移动云智算顺应趋势,从战略层面聚焦“AI优先、全球化、内生安全、差分服务”四大发展方向,全面推动云网架构升级和能力体系重塑,打造面向未来的智能基础设施底座。2.1.1AI 优先:打造算力驱动的核心能力体系优先:打造算力驱动的核心能力体系随着大模型与生成式 AI 快速演进,AI 原生需求正重构云网算基础设施体系。面向未来,AI 优先的发展路径将以算力为核心、以网络为底座,推动算力供给体系和网络架构深度融合,形成支持智能调度、高效服务和弹性编排的基础平台。核心技术突破核心技术突破面向 AI 流量高爆发、高带宽需求的演进趋势,技术体系需围绕网络、计算、存储等关键模块加快突破。在芯片层面,推进自研 AI 加速芯片、智能 DPU、RDMA中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书9NIC 等核心部件优化升级;在设备层面,推动高通量交换机、低时延拓扑架构适配 AI 集群需求。通过端到端软硬协同,打通数据处理瓶颈,为 AI 训练与推理提供高性能承载平台。标准牵引产业生态标准牵引产业生态为实现多厂商设备与系统的协同演进,有必要推动形成统一开放的 AI 基础设施标准体系。面向 AI 集群组网结构、通信协议、调度接口、性能指标等方向构建规范标准,提升产业间协同效率。通过标准牵引,联动芯片商、设备商、主机商、网络厂商、调度平台等上下游生态共同参与建设,推动形成开放、兼容、灵活的智算产业生态体系。构建一流智算集群构建一流智算集群面向未来 AI 大模型演进趋势,应规划超大规模智算集群的布局方向。智算资源配置将向“集中 分布”融合演进,集中承载模型训练、分布支撑任务推理。训练集群将具备百万卡级别规模、超高网络带宽域和灵活任务调度能力;推理资源池将按服务域动态部署,实现算力节点与用户流量的灵活适配。依托智算平台统一调度,推动算力高效供给和资源弹性使用。2.1.2全球化全球化&多云互联多云互联:构建全域覆盖构建全域覆盖、多云互联的网络资源体系多云互联的网络资源体系在“出海战略”与“全球服务”的持续推进背景下,构建全球可用、体验一致、路径可控的云智算网络基础设施,正成为全球业务发展的关键支撑。云网一体架构需面向全球广域资源能力的融合发展,全面提升覆盖能力与业务支撑能力。全球骨干网络一体化全球骨干网络一体化推动境内骨干网与中移国际网络的架构融合是全球化能力建设的重要方向。通过统一的控制平面与调度策略,实现境内外路径互通、策略统一、服务一致。境外 POP 节点与境内数据中心之间应具备高速、安全、低时延的传输能力,为全球业务提供端到端的路径保障。同时,增强跨区域链路质量感知与带宽弹性调配能力,实现多业务并发承载下的稳定服务输出。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书10多云互联能力升级多云互联能力升级面向全球范围内的多云环境,需持续强化跨云、混合云、异构云的网络互联能力。未来互联能力建设将从基础连通走向智能调度,支持 BGP 多路径互联、动态路径切换、QoS 策略传递等机制。基于云联网架构演进,构建支持多云互联、云边协同、可编排调度的广域连接体系,为全球范围的混合部署场景提供灵活的网络底座支撑。2.1.3内生安全:构筑多层次可编排的安全能力内生安全:构筑多层次可编排的安全能力随着数据要素价值持续提升与攻击手段愈发复杂,构建内生安全能力已成为云基础设施演进的关键方向。未来的安全体系将不再是被动防御的附加模块,而是与网络、计算、存储等能力深度融合的原生组成部分。基于“云网安一体、能力即服务”的理念,安全能力的体系化构建可从以下几个方向推进:产品体系融合发展产品体系融合发展将安全能力体系化、标准化、平台化是未来云安全服务演进的重要方向。一方面,可通过整合自研能力与第三方生态能力,形成覆盖 IaaS、PaaS、SaaS等层级的多样化安全产品池;另一方面,应重点推动产品间策略统一、接口兼容与协同编排能力,提升整体安全产品生态的可插拔性与服务灵活度。构建安全资源池构建安全资源池面向多租户、多业务场景的安全能力交付,需探索将各类安全功能资源池化、服务化的组织方式。通过统一抽象防护能力单元,建立可动态扩缩、策略隔离、安全隔区灵活组合的安全资源池,有助于提升资源利用率与响应效率。同时,结合自动化调度与平台化运维,可增强大规模弹性安全能力的服务支撑能力。云网安一体化部署云网安一体化部署安全能力与网络能力融合将是下一阶段能力演进重要路径。通过安全服务链等机制,在流量路径中按需加载安全能力,打破传统单点设备部署模式,推动安全能力随业务动态编排。未来应重点提升安全功能模块插入、并发承载、状态同步等能力,实现更高粒度、更强隔离、更可控的网络安全策略实施。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书112.1.4差分服务:提供可预期的优质服务体验差分服务:提供可预期的优质服务体验在多样化业务场景和细分行业快速发展的趋势下,传统统一化的网络能力难以同时满足对性能、成本、体验的多元化需求。面向未来网络服务体系,可从能力分级、调度智能化、策略可编排等方向开展差异化服务能力构建:按需定制网络能力按需定制网络能力网络能力应具备面向业务特征的定制交付能力,支持在带宽、时延、隔离性、SLA 保障级别等维度灵活组合。结合租户自服务能力和可视化配置平台,业务方可自主选择服务参数并完成在线配置。网络能力按需生成、定向激活,将成为通用云网络向行业专用网络演进的关键抓手。网络资源精细调度网络资源精细调度未来网络调度将从链路级别走向业务级别。需构建以用户等级、业务类型、实时负载等为输入的多因子调度引擎,实现链路资源按策略动态分配与路径选择。同时,应提升调度闭环能力,支持调度策略实时回调与效果反馈,在性能可控基础上提升调度效率和调度稳定性。多层次服务能力体系多层次服务能力体系构建统一架构下的多等级服务供给模型,是实现差异化服务能力的核心路径。可在标准网络服务之上构建增强型、高保障型能力模块,提供带宽预留、低时延链路选择、优先调度等功能。面向行业用户,还可支持 SLA 协议签署、专属资源预置、定制化路径控制等能力,实现通用服务与特定场景的兼容覆盖。2.2云智算网络技术体系构建云智算网络技术体系构建为支撑云智算在 AI 原生、多云协同与全球部署等多场景下的持续演进,中国移动云智算构建了“物理网络 虚拟网络”双层协同的技术体系,全面满足高性能、高可靠、高灵活的云网融合需求。技术体系示意图如图 1 所示。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书12图 1云智算网络技术体系示意图2.2.1物理网络:物理网络:云智算高性能云智算高性能算网承载算网承载基础基础物理网络作为云智算运行的底层支撑体系,承担着算力、存储、服务等核心资源的互联互通与调度保障职能。中国移动云智算聚焦“高吞吐、低延迟、高可靠、可扩展”的网络能力要求,从数据中心内部网络延伸至广域承载与边缘接入,形成了结构清晰、功能完备、性能领先的物理网络体系。智算网络智算网络面向大模型训练与推理等高密度计算场景,围绕“超高吞吐、超低延迟、超高可靠性”三大特征进行优化,通过 Scale-Out 网络实现大规模 GPU 集群间的高速互联,通过 Scale-Up 网络支持高带宽域内部跨 GPU 的高性能通信,构建起满足 AI 原生需求的智算网络。数据中心网络数据中心网络是算力基础设施的核心承载。数据中心网络面向通用计算资源池建设,强调可扩展性、高可用性、低延迟与低成本的综合均衡,采用 SHALL(Scalability、High Availability、Low latency、Low cost)设计理念,支撑大规模资源的灵活部署与高效调度。IP 广域广域网络网络承担着数据中心之间和用户终端之间的跨域连接任务,体系分为 Internet 广域网与 DCI 广域网两个部分。前者服务于公网访问场景,提供低延迟、广覆盖、高可用的网络体验;后者面向数据中心互联场景,支持 SLA 感知的路径调度与带宽保障,实现跨地域、跨园区智能算力调度。两者协同构建了具备差分保障能力的广域承载体系,为多业务类型提供多级别的网络服务支持。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书13光传输光传输广域广域网络网络为数据中心与边缘节点之间提供高速、稳定的物理链路。中国移动采用分布式集群互联与开放解耦架构,实现大容量、低时延的传输通道建设,全面支撑超大规模 AI 训练流量、数据同步与跨节点访问需求,夯实算力全球化布局的底层传输能力。2.2.2虚拟网络:虚拟网络:云智算云智算灵活调度与安全编排核心灵活调度与安全编排核心基于统一的物理承载底座,虚拟网络作为云智算的服务交付层,承担着资源调度、流量管理与安全隔离的核心功能。中国移动云智算围绕“云内网络”与“云间网络”两大关键模块,构建了具备灵活编排、弹性调度与全球互通能力的虚拟网络体系,全面支撑多租户、多业务、多云环境下的高质量云网服务。云内网络云内网络是支撑云智算计算与服务调度的关键基础。依托 SDN 架构实现控制与转发解耦,使网络具备集中管控、灵活编排与高可扩展性,满足多租户环境下的高性能通信与资源隔离需求。在此基础上,构建网络安全服务链能力,将防火墙、入侵检测、DDoS 防护等安全功能以服务链方式灵活插入业务路径,提升整体网络环境的安全性、可控性与弹性。云间网络云间网络聚焦于实现不同区域、不同云环境之间的互联互通与统一调度。依托“云联网”平台,中国移动云智算构建了横跨全国乃至全球的多云互联能力,支持跨区域 VPC 打通、异构云资源融合、路径策略编排与 QoS 保障等能力。云间网络不仅提升了资源的使用效率,还为多云部署、混合云协同与全球业务出海提供了高品质、可预期的连接保障。通过物理网络与虚拟网络的双层协同,中国移动云智算构建了具备“强承载、广覆盖、易编排、高可靠”能力的新型网络技术体系,为智算网络、多云协同、智能算力调度与全球业务部署提供了坚实的底座与灵活的网络服务能力。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书14第第 3 章章云智算云智算物理物理网络网络架构:架构:智算网络智算网络随着 AI 大模型参数规模突破十万亿级,训练数据集规模迈入数十万亿 Token,AI 训练集群的计算强度与通信复杂度呈指数级提升。智算网络作为云智算基础设施的核心组成部分,支撑超大规模 AI 训练任务,是保障大模型训练效率与稳定性的关键底座。智算网络主要由 Scale-Out 网络和 Scale-Up 网络两部分构成,分别服务于 GPU 服务器间以及单服务器或超节点内部 GPU 之间的高效互联通信。3.1Scale-Out 网络:构建超大规模网络:构建超大规模训练训练集群集群Scale-Out 网络主要用于实现 GPU 服务器或超节点之间的互联,是大规模集群数据并行、流水线并行等通信模型的基础支撑网络。3.1.1Scale-Out 网络需求网络需求Scale-Out 智算网络作为 GPU 服务器之间通信的主干网络,需承担海量数据并行、流水线并行等任务中的高频参数同步,其性能直接决定集群整体训练效率和可扩展性。当前 AI 训练集群对 Scale-Out 网络提出如下核心诉求:超大规模超大规模随着集群规模迈向十万卡级别,网络体系必须具备大规模横向扩展能力,中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书15支持海量 GPU 节点的高效互联,同时确保系统在扩展过程中的可管理性与可靠性。在如此规模下,训练任务依赖于 GPU 之间的大量并行通信进行梯度同步与参数交换,集合通信成为高频操作。网络架构需要支持扁平化拓扑、低阻塞比的三层 CLOS 结构,确保在高并发通信场景中维持稳定的吞吐和较低的路径开销,支撑超大规模 AI 集群稳定高效运行。超高可靠超高可靠AI 模型训练通常持续数小时至数天,训练中断将导致整个流程被迫停止,并需从上一次 checkpoint 进行断点恢复并重新训练当前轮次,不仅严重影响整体训练效率,还显著增加计算资源浪费与系统管理复杂度。因此,智算网络在架构设计中需高度关注连续性保障能力,通过路径冗余、设备高可用、故障快速切换等机制,提升系统在大规模长周期训练任务中的稳定性和容错能力。当前主流的集合通信广泛采用 RDMA 技术(InfiniBand/RoCE),以实现高性能、高并发的并行通信。然而,RDMA 对网络丢包极其敏感,即便仅出现 1%的丢包,也会导致通信吞吐性能下降一半以上。为保障大规模集群通信的可靠性,网络系统需具备完整的无损传输能力,构建端到端稳定可控的通信路径,降低训练中断风险,确保训练任务在复杂网络环境下仍能高效完成。超高吞吐超高吞吐AI 训练过程呈现“计算通信”交替进行的模式,通信时长直接决定整体训练周期。提高网络系统的吞吐能力,有助于缩短通信阶段耗时,降低通信占比,从而释放 GPU 算力资源,提高集群整体运行效率。在训练规模不断扩大的背景下,网络高吞吐能力成为系统扩展性的核心基础。AI 训练负载呈现流数少、流量大、并发度高的特征,若缺乏精细的调度机制,易导致链路资源利用不均,引发局部路径拥塞。为此,网络体系需支持精细化流量调度机制,结合高效负载均衡与拥塞控制算法,实现通信任务的合理分发和链路负载均衡,避免单路径瓶颈影响全局训练性能。超低延迟超低延迟在大模型训练过程中,参数同步通常采用全节点参与的集合通信方式,训练任务必须等待所有 GPU 完成当前轮次的通信,才能进入下一轮计算。这种同步机制使得网络延迟成为决定训练效率的关键因素。一旦某些 GPU 因通信路径中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书16延迟较高而拖慢整体同步进度,成为“木桶效应”中的短板,导致其他 GPU 处于等待状态,形成整体性能瓶颈。为有效应对“木桶效应”带来的性能损失,网络系统需从多个层面提升通信路径的时延控制能力。3.1.2技术路线对比:以太网技术路线对比:以太网 VS InfiniBand(IB)当前,构建 AI 训练集群的网络互联方案主要面临两条技术路线选择:一是以 IB 为代表的高性能专用网络方案,二是基于开放以太网进行协议与架构升级的技术路线。两者在性能表现、产业生态、成本控制及可扩展性等方面各有特点,适用场景与发展路径也存在明显差异。性能性能:IB 在 AI 训练场景中长期占据主流地位,具备低延迟、高带宽的通信优势,且其原生支持 RDMA(远程直接内存访问)机制,适用于集合通信密集的计算任务。但随着训练规模扩展至万卡甚至十万卡级,其网络调度灵活性和系统稳定性面临更高挑战。产业生态:产业生态:IB 技术相对封闭,其核心芯片与设备长期被国外厂商垄断,国内替代方案不足,存在一定的技术依赖风险。相比之下,以太网产业生态开放,拥有广泛的应用基础,涵盖数据中心、企业网络与互联网等多个领域,国内厂商具备较强的设计与制造能力,为系统建设与国产化提供更大自主空间。成本与运维:成本与运维:IB 网络设备价格较高,网络建设与运维成本昂贵,尤其在大规模部署下,对网络管理经验要求较高。而以太网方案在设备采购、部署、故障排查等环节更为成熟,运维体系完善,具有明显的成本优势,适合在大规模训练场景中推广应用。负载与流控机制:负载与流控机制:IB 支持自适应路由和基于信用的流控机制,能够动态应对链路拥塞,保障传输稳定性。而传统以太网则依赖静态的 ECMP(等价多路径)负载均衡和 PFC(优先级流控)机制,在面对 AI 集合通信这类流量大、并发高的场景时,容易出现拥塞传播、队头阻塞等问题。下表总结了两种技术路线在主要维度下的差异:中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书17表 1IB 与以太网技术路线对比表比较维度IB 技术路线以太网技术路线产业生态技术封闭,长期被海外厂商垄断,国产替代难度大产业生态开放,国内具备完整链条,国产替代潜力强成本结构网络设备价格昂贵,运维成本高建设与运维成本大幅低于 IB,经济性优越负载均衡能力支持自适应路由,链路动态调度能力强传统 ECMP 为静态均衡,对集合通信流量支持不足流控机制基于信用的流控机制,拥塞控制效果佳基于 PFC,易出现队头阻塞等问题,需协议优化性能扩展性性能强,但协议私有,扩展性与成本面临挑战借助协议创新,可满足百万卡集群需求,具备长期可演进性在 AI 大模型训练对网络规模、可靠性和成本提出更高要求的背景下,中国移动云智算选择以开放以太网为基础,通过自研协议和网络架构创新,构建具备强可扩展性与国产可控能力的智算网络技术体系,规避核心技术依赖风险,为支撑百万卡级别的训练集群奠定坚实基础。3.1.3Scale-Out 网络架构网络架构面向 AI 大模型训练规模不断扩展的趋势,中国移动云智算围绕万卡至十万卡级 GPU 集群的互联需求,设计了基于开放以太网的新一代 Scale-Out 智算网络架构,如图 2 所示。该架构通过拓扑优化、设备升级、协议创新与冗余保障,全面支撑大规模训练任务对网络性能的极致要求。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书18图 2Scale-Out 网络架构示意图拓扑结构设计:拓扑结构设计:多多层层 CLOS 与多轨道与多轨道多平面多平面组网组网在拓扑结构设计上,Scale-Out 网络采用了多层 CLOS 架构,并引入多轨道多平面组网策略。相比传统 CLOS 网络布局,多轨道设计通过连接不同服务器内的同号 GPU,有效降低了跨层数据转发,降低了整体网络延迟。多平面连接则通过增加单卡对外接口数量,使得集群规模倍增。本拓扑结构设计,单 PoD 内部可支持多达 6 万张 GPU 互联,显著优于当前主流集群架构,为未来百万卡级集群扩展预留了充分空间。设备与链路配置:高带宽支撑设备与链路配置:高带宽支撑在设备配置方面,核心交换设备基于最新一代 51.2Tbps 单芯片交换机,具备高端口密度与超大交换容量,充分释放集群内部网络能力。每张 GPU 配置双200G 端口,分别接入两个独立的网络平面,扩大集群规模的同时,通过物理隔离实现双平面互不干扰,确保大模型训练中梯度同步、参数传输等高频集合通信场景下的高效传输需求。协议创新:协议创新:FARE 协议协议提升负载均衡提升负载均衡性能性能与带宽利用率与带宽利用率为进一步突破以太网在集合通信流量模型下存在的负载均衡瓶颈,中国移动云智算自主创新提出 FARE(Full Adaptive Routing Ethernet,全自适应路由以太中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书19网)协议。FARE 协议针对 AI 训练中流数少、单流大、高并发的流量特征,支持多路径动态包喷洒(packet spraying)机制,能够根据链路实时拥塞状态灵活选择转发路径,极大提升了网络带宽利用率,有效缓解了传统以太网 ECMP 静态均衡导致的链路资源浪费问题。基于 FARE 协议,Scale-Out 网络实测带宽利用率达到 95%以上,显著优化了大规模训练集群的通信效率与资源利用水平。高可靠性设计:多平面冗余容灾高可靠性设计:多平面冗余容灾为增强网络的整体可靠性与业务连续性,Scale-Out 网络通过多平面冗余机制提升系统韧性。GPU 服务器双网口分别接入两套独立交换平面,在任一链路、交换设备或平面发生故障时,另一平面能够无缝接管流量,确保训练任务不中断。同时,在跨设备连接中引入端口故障转移机制、链路状态实时探测与快速切换策略,提升训练网络的稳定性与可用性。延迟优化与性能指标:极致低时延与高带宽利用延迟优化与性能指标:极致低时延与高带宽利用在延迟控制方面,通过多轨道组网缩短了跨服务器转发路径,结合 FARE 协议优化动态负载分配,Scale-Out 网络端到端通信延迟控制在 10 微秒以内。集合通信密集型的训练场景下,网络尾延迟得到显著压缩,有效避免了因单节点通信延迟导致的整体训练进度拖慢,进一步提升了 GPU 利用率和训练吞吐能力。3.2Scale-Up 网络:网络:构建更大规模超高带宽域构建更大规模超高带宽域Scale-Up 网络主要面向服务器内部或超节点内部 GPU 间的高速通信,是实现张量并行、MoE 专家并行、远端内存访问等 AI 模型通信需求的关键通道。3.2.1Scale-Up 网络需求网络需求Scale-Up 网络主要面向超节点内部的高性能 GPU 互联,是满足 AI 模型张量并行、专家并行等深度融合计算需求的关键承载体系。随着模型规模的不断扩大,集群内部对带宽、延迟、语义兼容性及通信效率的要求持续提升。未来Scale-Up 网络需面向以下关键技术指标进行持续演进与能力强化。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书20超高带宽超高带宽当前主流的 AI 大模型均采用 Transformer 架构,且逐步引入 MoE(Mixture ofExperts)框架,以支撑万亿级参数规模。MoE 的引入虽然显著提升了参数稀疏性与模型效果,但也使得通信需求急剧增长,尤其在专家路由和反向梯度传播中产生大量 All-toAll 通信。随着参数规模突破单机承载能力,跨服务器、跨节点的专家并行需求已成为刚性诉求。为了保障 MoE 训练效率,Scale-Up 网络需构建支持 64 卡以上的高带宽域,实现数十至上千卡 GPU 的高速互联。超低延迟超低延迟在 AI 模型训练过程中,为实现高效集合通信,GPU 间需进行频繁的数据交换与远端内存访问。为了满足跨 GPU 远程访问需求,网络系统需具备亚微秒级(如百纳秒)通信延迟控制能力。过高的转发延迟将直接影响到内存访问效率和计算通信重叠能力,进而导致 GPU 资源空闲与整体训练效率下降。内存语义内存语义Scale-Up 网络的性能优化不仅依赖带宽与延迟,还涉及语义支持。在 GPU服务器内部,跨卡通信通常通过 Load/Store/Atomic 等原生内存语义访问操作实现直接交互,在性能和编程模型统一方面均具有显著优势。为延续此种原生内存语义通信,Scale-Up 网络需尽可能提供对内存语义的支持能力,尤其是在 RoCE或新型以太传输机制下扩展语义能力接口,在保持应用生态无感知迁移、简化通信编程复杂度方面具备重要意义。在网计算在网计算随着集群规模扩大与通信流量增加,集合通信算子所带来的网络压力不断上升。部分 Scale-Out 智算网络系统,如 NVLink 与 IB 系统,已在交换设备中实现了在网计算能力,支持基于数据包的加法运算操作,在交换过程中完成部分集合通信逻辑。Scale-Up 网络域具有带宽高交换节点密集的特点,同样适合在网计算架构部署,以降低集合通信流量。3.2.2网络技术选型:以太网网络技术选型:以太网 VS PCIe在 Scale-Up 通信中,传统方案通常依赖 PCIe 交换芯片作为节点内部互联手中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书21段,但随着规模扩大,其局限性日益明显。以太网则在带宽能力、生态开放性和国产可控性方面展现出更大潜力。具体来看,PCIe 在互联延迟方面具有天然优势,通常可控制在 100ns 以内,并且原生支持内存语义操作,如 Load/Store/Atom。但 PCIe 受限于带宽扩展速度,目前主流商用芯片(如 PCIe Gen5)每个 Lane 仅支持 32Gbps,总交换容量仅为4.6Tbps,难以满足大规模超节点互联需求。同时,PCIe 交换芯片市场长期由少数海外厂商主导,国产替代难度较大,存在显著的技术风险。相比之下,以太网已经实现了 224G SerDes 商用,下一代单芯片交换容量可达 102.4Tbps,远超 PCIe 体系。虽然以太网原生只支持消息语义(MessageSemantics),不直接支持内存语义,但通过增加适配层,可以实现对 Load/Store接口的兼容。此外,通过优化转发流程,先进以太网交换芯片可将延迟压缩至300ns 以内,基本满足跨 GPU 高效通信需求。更重要的是,以太网产业生态开放,国内已具备从芯片到设备完整的产业链基础,支持长期可控发展。综合比较如下表所示:表 2PCIe 与以太网技术路线对比表比较维度PCIe 技术路线以太网技术路线带宽能力Gen5速率 32Gbps/Lane,总容量约 4.6T商用 224G SerDes,交换容量达 51.2/102.4Tbps产业生态技术封闭,主导厂商少,国产替代困难开放标准,国内芯片与设备产业链成熟内存语义支持原生支持Load/Store/Atom 操作需通过适配层实现内存语义映射延迟特性极低,约 100ns 以内以太网可优化至 300ns 以内可扩展性与演进潜力带宽增长缓慢,扩展受限带宽提升迅速,支持大规模超节点布局综上,基于开放以太网的技术路线,在大规模训练集群建设中更具发展潜力和系统弹性,成为 Scale-Up 智算网络的优先选择。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书223.2.3超节点硬件选型:开放架构超节点硬件选型:开放架构 VS 封闭架构封闭架构在超节点系统设计方面,中国移动云智算围绕开放、模块化、灵活部署的理念,构建了面向未来 AI 大模型训练的硬件选型方案,示意图如图 3 所示。计算节点采用轻量化定制的 8 卡 OAM 2.0 GPU 服务器,单机柜内部署 4 台服务器,合计 32 卡。交换节点选用标准以太网交换机,具备高密度高速接口,支持 AEC 铜缆连接计算节点、CPO 光模块连接交换节点之间高速互联。这样的设计既保证了高带宽互联需求,又大幅提升了硬件部署灵活性和系统扩展性。在互联方式上,服务器与交换机之间采用标准 AEC 铜缆实现 L1 层高速互联,交换机之间则通过 CPO(Co-Packaged Optics)光纤互联构建 L2 扩展层。该模式充分利用了以太网的带宽扩展优势,降低了整体互联系统的延迟与功耗。图 3超节点硬件架构示意图在散热方式上,超节点硬件系统根据机房环境条件灵活适配风冷或液冷散热方案,单机柜功耗控制在 40kW 至 60kW 区间,大幅降低对数据中心供电与制冷改造的要求,具备更好的适配性与部署灵活性。在超节点硬件架构选择上,开放架构方案相比封闭式超节点具有明显优势:封闭架构(如 NVIDIA NVL72 方案)采用高度集成设计,将计算单元与交换中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书23模块封装于一体,虽然初期性能强大,但存在硬件绑定、扩展受限、运维复杂、功耗极高(120kW 以上)且必须液冷改造等问题,后期升级与维护成本巨大,缺乏长期演进能力。开放架构(中国移动提出方案)则将计算与交换节点物理解耦,采用标准化组件与接口互联,不仅支持按需扩展,灵活部署,而且单柜功耗适中,无需强制液冷改造,具有更优的成本结构与国产替代潜力,能够更好适配未来 AI 基础设施发展的需求。表 3封闭架构与开放架构技术路线对比表比较维度封闭架构(如 NVIDIA NVL72)开放架构(移动云方案)系统集成计算与交换节点高度集成计算节点与交换节点物理分离,标准接口互联扩展灵活性扩展受限,需整机柜整体升级支持按需横向扩展,灵活叠加资源功耗控制单柜功耗高达 120kW 以上,需大规模机房改造单柜功耗控制在 40-60kW,适配常规 IDC散热方式必须采用液冷系统,成本高、维护复杂支持风冷/液冷灵活切换,适配多种环境厂商锁定风险定制化严重,绑定单一供应链,升级受限开放标准,避免锁定,支持国产自主可控因此,中国移动云智算选择基于开放以太网 标准硬件组件的开放架构路线,既实现了超节点内部高效互联,又为后续系统扩展与演进奠定了坚实基础。3.2.4Scale-Up 网络网络架构架构基于上述硬件与网络技术选型,Scale-Up 网络架构设计如图 4 所示。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书24图 4Scale-Up 网络架构示意图局部互联局部互联(L1):以 32 卡为基础单元,服务器通过高速铜缆连接至本地交换节点,构建高带宽通信域。跨单元互联(跨单元互联(L2):):多个基础单元通过 CPO 光纤高速互联,形成支持最多1024 卡的大规模超节点集群。通信协议支持通信协议支持:基于优化的 RoCE 协议实现远端内存访问,同时通过适配层支持内存语义访问,兼容 AI 大模型训练通信需求。性能指标:性能指标:跨 GPU 远端访问延迟控制在 300ns 以内,满足超大规模模型推理和训练中对高速同步的一致性要求。通过开放解耦的 Scale-Up 网络架构,移动云开放超节点方案能够在满足高性能通信需求的同时,保持系统的开放性、灵活性与长期演进潜力,为 AI 智算时代的超大规模基础设施建设提供坚实支撑。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书253.3Scale-Out 与与 Scale-Up 融合组网方案:支撑百万卡级融合组网方案:支撑百万卡级 AI集群的下一代智算网络集群的下一代智算网络面对大模型训练中跨节点高带宽、高并发、低延迟通信的复合需求,急需构建一种融合两类网络优势、具备统一调度能力与弹性扩展能力的新型网络架构。为此,中国移动云智算提出基于开放以太架构的 Scale-Out 与 Scale-Up 融合组网方案。3.3.1Scale-Out 与与 Scale-Up 融合组网融合组网需求需求单一 Scale-Out 或 Scale-Up 网络体系在大规模训练任务中存在明显瓶颈:Scale-Out 适合大规模节点之间的数据并行任务,但在跨节点专家访问与远程读写方面延迟偏高;而 Scale-Up 擅长低延迟互联,但扩展能力受限,难以支撑百万卡规模部署。因此,需要兼顾超高带宽、极致低延迟与规模可拓展性的融合网络架构,打通 AI 集群内部与外部的通信瓶颈,全面释放 AI 大模型的训练潜力。3.3.2Scale-Out 与与 Scale-Up 融合组网融合组网架构架构融合组网方案将智算网络划分为超节点通信域、Segment 通信域与 Segment互联域三个层级,实现覆盖三个维度的高性能网络架构。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书26图 5Scale-Out 与 Scale-Up 融合组网架构示意图在超节点通信域,采用 128 卡液冷开放架构超节点作为基础计算单元,节点内通过优化 RoCE 协议配合内存语义支持,构建高性能高带宽通信域。高带宽铜缆与高容量以太交换芯片构成局部互联网络,通信延迟控制在 300 纳秒以内,满足亚微秒级别访问需求。在Segment通信域,以128个超节点构建一个Segment单元,支持最多16,384张 GPU 的高效互联。内部采用多轨双平面 CLOS 结构,提升集合通信的并发处理能力;通过冗余路径设计和多平面隔离机制,实现训练任务的通信稳定性与高可用性。在 Segment 互联域连接所有 Segment,全局网络部署 FARE 协议,实现端到端的动态路径选择与全局负载均衡。网络支持包级粒度的动态调度与路径喷洒机制,能够根据链路负载与拓扑变化智能调整数据传输路径,确保百万卡规模集群通信稳定高效。3.3.3技术挑战性、创新性和先进性技术挑战性、创新性和先进性技术挑战性技术挑战性Scale-out 网络支持百万卡集群:网络支持百万卡集群:当前业界最大规模为十万卡集群,网络规中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书27模扩张十倍将面临稳定性挑战增加、网络转发延迟增大、网络吞吐性能变差等严峻挑战。Scale-up 网络支持千卡超节点:网络支持千卡超节点:对标英伟达私有 NVLINK 协议,通过以太网技术优化,实现超高带宽(相对scale-out高一个数量级)、超低延迟(相对scale-out降低一个数量级)的高带宽域,存在巨大挑战。技术创新性技术创新性网络架构创新:网络架构创新:以超节点作为基本建设单元,采用双层多轨道、单层多平面的 CLOS 网络架构,可基于两层网络构建百万卡集群。网络协议创新网络协议创新:主导 IETF 个人草案-FARE(draft-xu-idr-fare,draft-xu-lsr-fare,draft-xu-rtgwg-fare-in-sun),确保智算网络高吞吐、低延迟。主导 IETF 国际标准(RFC9793),助力高效 MoE 通信。硬件工程创新硬件工程创新:业界首创开放解构超节点架构,遵循 OCP 倡导的开放解构理念。技术先进性技术先进性百万卡集群规模:百万卡集群规模:两层网络支持百万卡集群规模,单 PoD 可以容纳更大集群(收敛比 15:1,6 万卡,是阿里 HPN7.0 的 4 倍)。业界最佳网络性能:业界最佳网络性能:采用 FARE(全自适应路由以太网)协议,支持多路径包喷洒,带宽利用率可达 95%以上,与业界最佳水平即英伟达以太网方案看齐。开放解构系统架构:开放解构系统架构:消除厂商锁定风险,AI infra 朝着更加开放方向发展。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书28第第 4 章章云智算物理网络架构:数据中心云智算物理网络架构:数据中心网络网络随着云计算服务从资源即服务向能力即服务加速演进,数据中心网络作为支撑通用计算、存储与平台服务的基础连接架构,正面临前所未有的扩展需求与性能挑战。一方面,超大规模数据中心不断涌现,百万级服务器与多可用区异构资源的统一调度成为常态;另一方面,云原生、微服务等新型应用架构带来网络流量模型深刻变化,对网络的可扩展性、可靠性、低时延与低成本提出更高要求。为应对这一趋势,中国移动面向云智算新型基础设施,系统性提出了数据中心网络的 SHALL 架构设计理念,即可扩展(Scalability)、高可靠(HighAvailability)、低延迟(Low latency)与低成本(Low cost),构建具备未来导向的数据中心网络演进目标体系。该架构不仅回应了云智算时代通用算力承载的核心诉求,也为大规模异构计算资源的灵活调度、高效接入与敏捷部署提供坚实网络支撑。4.1数据中心网络数据中心网络需求需求在云智算持续演进和超大规模云数据中心快速建设的背景下,数据中心网络作为承载海量通用算力的底层连接架构,面临着从容量、可靠性到性能与成本的多重挑战。中国移动聚焦“SHALL”四大核心特性,明确提出数据中心网络的新一代需求体系。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书29S:可扩展(:可扩展(Scalability)数据中心网络需具备超大规模水平扩展能力,满足未来百万核级别通用算力节点的统一接入与管理。面对资源池化趋势,数据中心网络应支持多可用区、分区部署,实现大二层或多租户间灵活互联,构建具备超强弹性与横向拓展能力的基础网络架构。多平面可扩展架构成为新型数据中心的重要支撑。HA:高可靠(:高可靠(High Availability)传统二层网络难以应对大规模环境下的收敛与稳定性要求,数据中心网络需采用“全三层组网 集中控制”模式,消除二层广播域带来的瓶颈风险,提升网络的稳定性与自愈能力。同时,需具备跨节点、跨区域的多活冗余机制,提升业务承载连续性与服务可用性,满足云上多租户高可用场景下的连接保障需求。L:低延迟(:低延迟(Low latency)随着微服务架构和多容器部署的普及,服务间频繁调用带来了更敏感的网络响应要求。数据中心网络需具备端到端低时延能力,确保关键业务流程在 10微秒量级内完成通信转发,避免延迟瓶颈拖累业务处理效率。同时,网络需具备智能拥塞感知与缓解能力,保障延迟稳定性,降低长尾延迟对任务完成时间的影响。L:低成本(:低成本(Low cost)为应对算力快速增长带来的成本压力,数据中心网络架构需基于白盒交换设备与分布式控制平台构建,支持开放协议与自动化运维,降低设备采购与运维成本。在满足高性能与高可靠基础上,通过扁平化组网结构与资源调度优化实现 TCO 压降,为通用计算场景提供更加经济高效的网络支撑能力。4.2数据中心网络数据中心网络架构架构面向云智算多样化通算场景,中国移动提出构建具备可扩展(Scalable)、高可靠(High Availability)、低延迟(Low Latency)、低成本(Low Cost)的 SHALL架构型数据中心网络,满足大规模算力资源池的承载需求,并具备面向未来演进的灵活性与可持续性,架构示意图如图 6 所示。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书30图 6数据中心网络架构示意图可扩展(可扩展(Scalable):支撑十万级服务器的横向扩展能力支撑十万级服务器的横向扩展能力为满足超大规模算力集群的接入与东西向高密通信需求,数据中心网络采用五级 CLOS 架构,具备高度对称性与横向扩展能力。单集群网络规模可支持 10万台服务器并发连接,通过集群间横向拼接实现跨区域、跨资源池的算力统一承载能力。同时,每个可用区(AZ)支持部署多个独立集群,形成多集群联动、弹性扩容的网络体系,满足未来多区域算力调度需求。高可靠(高可靠(High Availability):全三层网络保障业务连续性全三层网络保障业务连续性架构设计全面摒弃传统堆叠式与大二层组网方式,全面采用全三层网络架构,实现控制面与转发面的解耦,显著提升系统稳定性与故障隔离能力。通过多平面冗余、多路径保护、业务无损倒换等机制,实现分钟级的网络故障自愈与业务快速恢复,构建具备电信级可用性的云底座网络。低延迟(低延迟(Low latency):确保关键业务的数据转发效率确保关键业务的数据转发效率数据中心内部网络采用单芯片全盒式设备构建,替代传统多芯片框式设备,消除内部多级背板转发延迟。配合全对等多轨网络拓扑设计,显著减少网络层次与中转路径,使得端到端通信时延降低百倍以上,为高性能计算、实时推理、数据库分布式处理等低时延业务提供强有力支撑。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书31低成本(低成本(Low cost):白盒硬件与集中控制驱动资源效率最大化白盒硬件与集中控制驱动资源效率最大化从设备选型到系统建设,数据中心网络坚持“简洁高效”的设计理念,采用单芯片全盒式白盒交换机,搭配第三方光模块与通用化布线体系,有效降低初始设备投资(CapEx)。在运维层面,结合统一数据中心网络控制器,实现跨厂商设备的集中控制与自动化运维,提升管理效率,降低运营成本(OpEx)。此外,网络架构实现计算、存储、管理三网合一,简化整体部署方案,进一步优化资源使用效率。4.3技术挑战性、创新性和先进性技术挑战性、创新性和先进性在中国移动提出的 SHALL 架构体系指导下,数据中心网络不仅面向十万级服务器的超大规模集群场景,同时需应对运维自动化、设备异构、协议标准化等方面的系统性挑战,并在架构与协议层面持续推动创新,构建面向未来的数据中心网络竞争优势。技术挑战性技术挑战性超大规模网络自动化难题:超大规模网络自动化难题:超大规模网络环境下,人工运维成本高,难度大,需要引入自动化手段实现网络的自治。跨厂商设备的自动化管理:跨厂商设备的自动化管理:由于不同厂商采用各自商业 NOS,导致不同厂商的网络设备需要配置独立的网管系统,在多厂商的网络环境下,网络运维工作量大。技术创新性技术创新性网络架构创新:网络架构创新:采用 O/U 全解藕、全盒式设备、全三层组网架构,实现可扩展、高可靠、低延迟和低成本目标(SHALL)。技术生态创新技术生态创新:采用灰盒 白盒技术路线,实现多厂商设备统一管理,建立良好产业生态。网络协议创新:网络协议创新:主导 IETF 个人草案-面向 OCS 的数据中心网络自动化(draft-xu-idr-neighbor-autodiscovery,draft-acee-idr-lldp-peer-discovery),助力网络自动化。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书32技术先进性技术先进性集群规模集群规模:支持十万服务器集群规模,与业界最佳水平看齐,为百万卡 GPU集群建设坚定基础。网络自动化网络自动化:采用移动云自主创新的 BGP 邻居自动发现机制,实现 BGP 配置的自动化,并降低交换机之间的 BGP 会话数量,极大提升网络收敛性能。采用统一 NOS 适配不同厂商的硬件设备,实现统一 DCN 控制器跨不同厂商设备的自动化管控。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书33第第 5 章章云智算云智算物理网络架构:广域网络物理网络架构:广域网络随着企业出海步伐加快和 AI 原生场景加速落地,云智算网络的边界正由数据中心内部不断向全球延展。跨区域、跨境的业务需求对网络的性能确定性、全球可达性和资源调度能力提出了全新挑战。广域网络作为云智算向全球化发展的关键承载底座,正面临从传统“尽力而为”模式向“可预期、可编排、可保障”新型架构转型的迫切需求。中国移动云智算基于广域 IP 可预期网络与广域光网络,构建全球一体化的可预期广域网络服务。在 IP 网络层面,通过 DCI-TE、EPE-TE 和 SGA 等关键技术,面向出海企业和 AI 服务场景,提供 SLA 驱动的路径调度、边界路径智能选控以及跨境接入加速能力;在光网络层面,依托 800G/1.6T 等高阶传输技术和OpenConfig 解耦架构,打造开放、高弹性、易演进的光承载平台,满足大规模智算跨 DC 部署和全球业务高效互联需求。本章将围绕上述两大核心能力展开,重点介绍广域网络架构的需求分析、架构构成、能力优势与创新亮点,全面展现云智算广域网络基础设施架构。5.1广域广域 IP 网络网络可预期网络是面向云智算多场景互联接入的网络架构,旨在解决当前网络在多业务、多租户环境下面临的可预期性不足、服务保障能力有限的问题。该架构通过引入可预测、可度量、可保障的技术体系,为多类型业务提供差异化、确定性和端到端的网络服务能力。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书345.1.1可预期网络需求可预期网络需求随着全球化、AI 化和多云架构的普及,云智算场景对网络提出了更高要求。传统的“尽力而为”网络已无法满足多样化、复杂化的业务需求,必须引入可预期网络架构,为不同场景提供性能优先、成本优先的差异化服务。主要需求包括以下四个方面。性能优先性能优先在企业出海、全球扩张背景下,低延迟、高可靠的网络连接成为核心需求。出海企业的延迟敏感型业务,如跨境视频会议、云游戏、实时交互直播等,需要通过优化的跨境网络服务提供低延迟、低抖动、低丢包的连接体验。例如,视频会议要求毫秒级延迟、稳定带宽和快速恢复能力,而出海游戏则需基于覆盖广泛的边缘节点,保障玩家的流畅体验。这类场景的网络需求突出强调性能优先,需要具备高质量、可预测的传输能力。成本优先成本优先对于延迟不敏感的业务,如海量数据备份、系统日志归档、非实时文件同步等,网络成本是首要考虑因素。这类业务对带宽消耗大,但对时延和抖动要求相对宽松。可预期网络需提供低成本链路、空闲链路绕行等能力,将高质量出口资源保留给高价值、时延敏感业务,从而实现“好钢用在刀刃上”的资源优化策略。此外,互联网带宽资源的优化调度也是降本增效的重要组成部分。全局负载均衡全局负载均衡随着全球范围的计算资源分布愈加广泛,企业亟需实现跨地域的全局负载均衡调度。通过就近接入云服务商的全球广域网,结合跨域流量工程能力,企业可以动态感知不同区域的计算和网络资源状态,智能分配请求到最优的节点或数据中心。这不仅能提高服务响应速度,还能在突发流量场景下有效分摊负载,保障用户体验的稳定性和一致性。全球覆盖全球覆盖在企业全球化运营中,跨境、跨区域网络连接的广覆盖能力不可或缺。可预期网络需为企业出海、全球拓展提供全球一体化的网络接入与传输服务,确保业务在全球范围内的顺畅运行。尤其是对于出海游戏、跨境直播等对体验要中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书35求极高的业务场景,必须通过部署覆盖广泛的边缘节点,结合智能路由和加速策略,显著优化跨境访问质量和用户体验。5.1.2DCI-TE:跨境数据中心互联场景下的可预期:跨境数据中心互联场景下的可预期网络网络能力能力在企业出海、数据全球部署与跨国业务协同日益深化的背景下,跨境数据中心互联(DCI)成为云智算网络架构中的核心能力之一。尤其在游戏出海、跨境电商、视频会议、跨境直播等场景中,用户对跨境数据传输的时延、稳定性和可预测性提出了远高于传统网络的要求。然而,受制于多运营商接入、不统一的传输协议、复杂的互联链路结构等问题,传统国际传输网络普遍存在路径不稳定、链路易拥塞、跨域路由不可控等问题。为破解上述难题,中国移动依托算网一体化技术体系,构建了面向出海业务的跨境 DCI-TE 技术能力,实现端到端、面向业务意图的高性能路径调度与智能流量工程。图 7跨境 DCI-TE 架构示意图跨境 DCI-TE 主要服务于企业级出海客户,尤其是对传输性能敏感的业务,如实时音视频、云游戏、AI 推理分发等。此类业务往往具有以下特征:流量波动大、交互频次高、容错空间小。传统公网或 VPN 方式在应对突发网络劣化时往往难以保证业务连续性。因此,DCI-TE 设计的目标,是通过算网协同、路径调度与切片编排,实现“业务驱动的网络能力保障”,在广域骨干网络中构建具备高性能、高可用、可预期特性的跨境承载路径。DCI-TE 架构图如图 7 所示,包含以下关键技术:中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书36独立域内独立域内 SR-TE 架构:简化部署,架构:简化部署,独立独立演进演进为适应跨境网络环境下多运营商、多技术体系并存的现实条件,跨境 DCI-TE架构采用“自治域内独立演进”的设计理念,在国内与境外分别构建相对独立、自治可控的 SR-TE 能力体系,形成“双段骨干、分层调度”的跨境互联技术结构。如图 7 所示,在骨干网构成方面,国内部分由中国移动境内骨干网络承载,负责从用户侧数据中心或云 VPC 出发,经省际核心网至国际出入口节点的高速承载任务。该网络采用 SRv6 协议体系,具备原生 IPv6 编址能力、路径指令可编排能力与服务链扩展能力,为路径调度和服务质量保障提供灵活基础。境外部分则由中移国际统一承载,涵盖从境外 PoP 节点至海外公有云、边缘节点、本地运营商等目标区域的网络段。该网络根据不同地区实际部署情况,采用SR-MPLS、传统 MPLS 或混合技术协议,重点保障跨境业务的广域到达率、节点可控性和服务连续性。在控制架构方面,两个网络自治域分别部署域内 SR 控制器,独立完成拓扑发现、路径计算、QoS 策略应用与服务链配置。控制面与转发面解耦设计提升了架构灵活性,既支持 SR 域内路径的可视、可调、可编排,又能适配各自的运维体系与演进节奏,降低跨域部署耦合度。这一架构具备高度的工程可落地性与阶段性演进能力,既满足现阶段中国移动“境内-境外”分段部署策略,也为未来统一调度、全球扩展提供平滑升级路径。通过独立域内 SR-TE 架构,跨境 DCI-TE 能够在不打通全局控制平面的前提下,实现各域内的稳定可控演进和业务调度能力保障。性能感知性能感知 BGP 路由路由(PAR):实现跨域低延迟选路网络增值服务能力:实现跨域低延迟选路网络增值服务能力在跨境网络环境中,路径状态受物理距离、运营商接入差异、国际互联链路质量等因素影响,业务性能易受波动干扰,传统路由机制难以提供稳定、可预期的连接保障。为解决这一问题,DCI-TE 引入了具备性能感知能力的 BGP 路由机制,在国内与境外两个自治域之间实现可调度、可控制的路径拼接与流量引导。系统可对自治域之间的多条可用路径进行持续状态监测,包括链路可用带宽、时延、丢包率、抖动变化等指标,并以此为基础构建跨域路径性能评估体中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书37系。与传统静态选路机制不同,DCI-TE 将业务侧 SLA 约束作为路径调度的主导依据,明确业务对网络的性能诉求,建立起“业务需求路径能力”之间的动态映射关系。在路径拼接方面,系统根据目标 SLA 选取满足要求的多个路径段进行组合,构建端到端的高性能连接通道。例如,延迟敏感型业务可优先拼接低延迟路径段,确保整体传输满足毫秒级时延目标。路径拼接过程完全由控制器驱动完成,具备高自动化、无人工干预的部署特性。在流量引导方面,DCI-TE 结合业务入网时携带的服务等级信息,自动识别其 SLA 目标,动态匹配对应路径并实施引流策略。该机制支持分级引流控制:对于关键业务可引导至高保障路径,并启用路径容灾保护机制;对于可容忍业务则可引流至成本较优但性能适配的路径,实现整体资源效率最大化。这一机制不依赖集中式 TE 控制器,而是基于 BGP 协议扩展的分布式选路能力,有效提升了系统部署灵活性和系统的健壮性。通过基于 SLA 驱动的路径拼接和引流策略,DCI-TE 实现了从“可达性导向”向“性能保障导向”的路径调度演进,是出海业务获得稳定、高质量连接体验的关键保障能力。5.1.3EPE-TE:BGP 出口智能选路能力出口智能选路能力在企业出海部署过程中,出口路由策略直接影响用户访问的连通性与体验质量。尤其在游戏、音视频等实时性业务场景中,公网跨境路径存在显著性能差异,稳定性难以保障。中国移动面向出海企业构建的 EPE-TE(Egress PeerEngineering Traffic Engineering)能力体系,基于既有的多线 BGP 资源优势,结合标准化架构与智能策略调度机制,为企业提供差异化、可编排的 BGP 出口控制能力,满足高性能业务的出境保障与全局资源的效率调度需求。EPE-TE 架构示意图如图 8 所示。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书38图 8EPE-TE 架构示意图多线多线 BGP 组网:出口调度能力的基础前提组网:出口调度能力的基础前提在海外区域,特别是东南亚、中东、拉美等出海重点区域,当地 ISP 众多,网络质量参差不齐,不同链路的稳定性、时延、带宽能力差异显著。为适应这种复杂环境,中国移动已在多个海外节点建设了具备多线 BGP 能力的接入体系,接入多个主流本地运营商线路,形成丰富的跨境链路资源池。这一多线 BGP 组网能力,为出海企业提供了跨运营商、多路径、多质量等级的可选出口,是构建智能调度能力的前提条件。多线 BGP 能力本身并不直接构成调度机制,但为 EPE-TE 的差异化出口策略提供了必要的基础资源保障。在此基础上,才能实现基于业务属性的路径匹配与资源优化配置。BGP-EPE 架构:标准化、可扩展的流量工程方案架构:标准化、可扩展的流量工程方案EPE-TE 基于 BGP-EPE 架构,构建了相对 PBR(策略路由)更为稳定、简洁和可控的 BGP 出口流量工程能力。该架构利用边界路由器对等会话的独立标识能力,在控制平面实现对每条出境路径的可视化和策略控制,从而实现业务流量的灵活调度。与 PBR 方式相比,BGP-EPE 避免了复杂 ACL 规则和手动策略维护,提升了系统的稳定性与运维效率。同时,EPE-TE 具备良好的可扩展性,可覆盖多租户、跨区域、不同业务类型的应用需求,适配企业出海在不同阶段对网络策略控制的差异化诉求。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书39性能与容量感知的智能选路:实现服务保障与资源优化协同性能与容量感知的智能选路:实现服务保障与资源优化协同在调度策略层面,EPE-TE 引入性能感知与容量感知并行驱动的智能 BGP 出口选路机制。系统通过实时监测各 BGP 出口链路时延、丢包率、可用带宽等核心指标,结合各类业务的 SLA 需求,为不同租户、不同业务动态匹配最优路径。例如,对于时延敏感、体验要求高的游戏、直播类业务,系统可优先引导至性能优的 BGP 出口;而对于成本敏感、带宽占用大但对实时性要求较低的业务,如数据归档、内容同步等,则可匹配至价格更优、容量富余的链路。这种策略使网络服务能够在保障体验的同时,实现链路资源的动态平衡与 BGP 带宽的精细化运营,有效提升网络总体利用效率,降低出口带宽使用成本。5.1.4SGA:云网一体的跨境超级全球加速:云网一体的跨境超级全球加速为提升出海用户访问境内算力资源的体验质量,中国移动依托中移国际在海外广泛部署的骨干网络,有效屏蔽了境外 ISP 路径不稳定所带来的影响。在此基础上,构建了超级全球加速(SGA,Super Global Acceleration)技术体系,旨在实现全球范围内端到端的跨境算力接入优化。SGA 通过路径选择与源站调度的协同机制,全面提升跨境算力访问的服务质量,助力用户获得更低延迟、更高可靠性的一体化全球接入能力。图 9SGA 架构示意图超级全球加速(SGA)的核心理念是,借助中移国际在海外部署的骨干网络,实现与境内算力资源的高效互联,并通过路径优化与源站选择的协同调度,为中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书40跨境算力访问提供端到端的低时延、高可靠性保障,SGA 架构示意图如图 9 所示。SGA 创新性地将路径优化与源站调度相结合,通过联合感知网络性能与算力资源状态,实现面向业务目标的源站 路径协同决策。相较于传统加速方案路径与算力分离决策的模式,SGA 避免了优质源站搭配低性能路径的情况,构建具备端到端可预期能力的全球加速服务网络。SGA 技术体系的构建依赖于多项核心能力的协同配合:全球化任播全球化任播服务服务SGA 在全球范围内部署了 Anycast 接入节点,用户流量可快速接入距离最近的 GA 加速节点,从而提升初始接入效率。在此基础上,GA 节点通过与中移国际及中国移动国内广域网的骨干网络协同,构建了覆盖全球的 POP 节点体系。跨境跨境低延迟选路低延迟选路能力能力基于 BGP 性能感知路由(PAR)能力,为全球加速流量提供跨境的低延迟网络连接能力,进一步实现跨境骨干网范围内的网络加速。源站负载实时跟踪与全局负载均衡源站负载实时跟踪与全局负载均衡SGA 在 GA 节点部署了集中式计算资源负载跟踪器,可对接入的全部源站进行实时监测。系统能够获取各源站的 CPU、GPU 利用率、内存占用及任务响应能力等运行指标,并与算力资源池深度整合,构建全局可视的资源状态图谱。当系统检测到某一源站出现负载过高或资源瓶颈时,将触发动态负载均衡机制,结合用户任务的紧急程度与切换代价,引导部分请求切换至其他低负载源站,从而规避热点资源瓶颈、提升整体算力利用效率和用户访问体验。协同源站选择与路径规划协同源站选择与路径规划SGA 通过协同优化路径选择与源站调度,实现跨境接入服务质量的整体提升。系统在 GA 节点侧同时感知各条跨境路径的状态信息和源站资源的负载情况,在此基础上对“路径 源站”的组合进行综合评估与最优决策。GA 节点对所有候选路径和源站组合,基于路径时延 源站负载综合权重排序,最终选择权重值最大的组合进行调度。这一协同机制兼顾了网络质量与算力负载两方面的约束,确保每一次接入都基于全局最优视角作出判断,提升系统整体效率的同时增强了鲁棒性与动态适应能力。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书415.1.5技术挑战性、创新性和先进性技术挑战性、创新性和先进性技术挑战性技术挑战性广域网流量工程:广域网流量工程:通常要求不同域采用相同的 TE 隧道技术(比如 MPLS-SR或 SRv6),且不同域的 TE 控制器需要协同并实现跨域隧道路径的集中计算和隧道转发层面的拼接,技术方案复杂,可扩展性差。BGP 出口流量工程:出口流量工程:不仅需要考虑不同租户流量的需求,同时需要考虑多BGP 出口的带宽容量、成本和性能因素,还要考虑出口故障的快速检测和回退机制,技术架构相当复杂。技术创新性技术创新性广域网流量工程广域网流量工程:通过 BGP 性能路由实现多段域内独立的 TE 隧道的自动化拼接,不同域内 TE 隧道技术方案独立演进,极大降低跨域 TE 方案部署的技术门槛以及后续运营的复杂性。标 准 协 议 创 新:标 准 协 议 创 新:主 导 的 IETF 工 作 组 草 案-BGP 性 能 感 知 路 由(draft-ietf-idr-performance-routing)、服务功能自动发现(draft-xu-dnssd-sf-discovery)以及参与的 IETF 国际标准-BGP-EPE 网络故障快速检测机制(RFC9703)。技术先进性技术先进性广域网流量工程广域网流量工程:相对谷歌的 B4(基于 Openflow 下发 PBR GRE 隧道拼接),DCI-TE 采用无状态的 SR,技术方案的可扩展性和稳定性更好,相对谷歌的 B2 方案,引入基于标准的 BGP-EPE 技术方案,技术方案极简开放,系统稳定性和可运维性极大提升。超级全球加速超级全球加速:相对 AWS GA 方案,除了实现跨不同地域的资源池的计算资源的全局负载均衡,同时结合跨域低延迟选路能力,为跨境的 GA 提供云网一体感知的超级全球加速体验。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书425.2广域光网络广域光网络随着人工智能训练集群从单数据中心向多数据中心演进,跨区域分布式训练成为新常态,广域光网络作为智算互联的核心承载平台,亟需实现大带宽、低时延、开放解耦和成本优化等关键能力。中国移动聚焦云智算广域网络能力建设,提出基于开放架构的下一代光传输网络体系,依托单波 800G/1.6T 传输技术、光电解耦能力与 OpenConfig 控制接口,打造具备超高容量、可编程、智能化的广域光承载网络。5.2.1光网络发展趋势光网络发展趋势支撑跨区域分布式训练集群互联支撑跨区域分布式训练集群互联随着 AI 大模型训练从单一数据中心向多数据中心分布式架构迁移,集群间大容量数据同步对光网络提出更高要求。例如谷歌已基于跨 DC 架构完成 GeminiUltra 大模型训练,产业界对大容量 WDM(波分复用)技术的需求迅速提升。超高速超高速 WDM 加速商用部署加速商用部署800G 及以上传输技术正在逐步完成从试验向商用的过渡。中国移动等运营商已在长距离传输与 AI 智算场景中开展 80800G WDM 网络验证,有望在未来形成普遍部署能力,支撑区域间高密互联。开放控制标准日益成熟开放控制标准日益成熟以 OpenConfig 为代表的开放标准接口从传统 IP 网络逐步渗透至光网络领域,实现控制面和管理面的统一编排。国际云服务商(如谷歌、阿里、腾讯)已在大规模网络中完成部署,运营商也逐步试点推进。光电解耦与自研光模块加速落地光电解耦与自研光模块加速落地光层与电层设备之间的解耦正在成为主流趋势,厂商锁定风险显著降低。互联网企业推动自研光模块能力发展成熟,光模块成本占比逐步下降。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书435.2.2广域光网络技术架构广域光网络技术架构广域光网络核心技术路线为“高带宽、低成本、全开放”,构建以 800G/1.6T为基础的开放光传输架构,提升网络弹性与长期演进能力,技术架构下图所示。图 10广域光网络架构示意图(参考TIP/OOPT工作组”MUST Optical SDN Controller NBI Technical Requirements Document”)高带宽传输能力高带宽传输能力网络引入单波 800G 乃至 1.6T 光传输能力,实现“80800G”长距离稳定传输,满足跨区域训练集群大规模数据交互对带宽容量的极致需求。开放解耦体系结构开放解耦体系结构基于 OpenConfig 控制器实现光网络软硬件解耦,进一步实现光层与电层解耦。多厂商系统可统一管理,有效解决专有协议、私有配置带来的运维难题,全面提升网络可控性与演进灵活性。成本优化设计成本优化设计通过引入自研或定制化光模块,显著降低单位比特传输成本。以标准化光接口为基础,结合产业链成熟的器件供应体系,构建低成本、高兼容性的网络系统,提升光网络大规模部署的经济性。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书445.2.3技术挑战性、创新性与先进性技术挑战性、创新性与先进性技术挑战性技术挑战性多厂商兼容挑战多厂商兼容挑战:多厂商设备存在大量私有 YANG 模型,对集中控制器管纳多厂商设备存在一定挑战,此外,光层电层跨厂商的互通性验证也需要进过广泛验证。800G 长距传输长距传输:中短距 800G 已经基本成熟,长距超 800G 的技术仍处在前瞻研究阶段,在噪声高容忍调制技术、低损耗光纤选择、频谱波段扩展等方面仍有技术挑战。技术创新性技术创新性Ai 光网络:光网络:AI 赋能光网络,实现智能化运维、光功率进行动态调优。光电联动:光电联动:基于 OXC 的光电联动新型全光网。光电联动重在光层和电层业务之间的互通,利用电交叉矩阵完成小颗粒业务汇聚和调度,利用光交叉完成波长级业务调度,拉通光电 OAM 机制,实现光电组网联动以支持大规模组网和灵活调度。技术先进性技术先进性超大容量:超大容量:中国移动基于空芯光纤首次完成了 160 波 800G 传输系统技术试验,单芯光纤实现 128Tb/s 超大容量传输。开放解构:开放解构:基于控制器与设备解耦,光电设备解耦,实现完全开放的光网络。极大降低光网络的建设和运维成本。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书45第第 6 章章云智算云智算虚拟网络架构虚拟网络架构云智算网络的演进不仅需在物理层面构建高性能的数据中心与广域承载网络,更需在虚拟层面提供灵活、可编排的网络能力。虚拟网络作为连接租户资源、承载多云互联、支撑安全防护的关键基础,是云智算网络架构不可或缺的组成部分。中国移动云围绕云内网络(SDN)、云间网络(云联网)与安全服务链三大方向系统构建和持续优化虚拟网络产品能力体系,全面提升资源池内部的网络效率、云间连通能力与云上业务的安全保障水平。通过自研 SDN 控制器与智能化调度平台,支持万级服务器规模集群的高性能网络管理;基于 NaaS 架构和标准化协议,构建跨 Region、跨云的多租户互联能力;引入安全服务链机制,突破传统网络防护在可扩展性和可编程性方面的限制。本章将分别从 SDN 网络、云联网和安全服务链三个维度展开,介绍云智算虚拟网络架构中的核心技术与创新突破,助力云智算打造更加敏捷、安全、可持续演进的虚拟网络底座。6.1云内网络:云内网络:SDN云内网络作为承载虚拟计算、存储和多租户服务的关键基础,正面临规模高速增长、资源调度复杂、服务敏捷性不足等新挑战。传统网络架构已难以满足超大规模、多租户、高弹性云服务的需求,亟需构建具备集中控制、精细编排、智能感知与灵活服务能力的全新网络体系。中国移动提出 SDN 架构,致力中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书46于打造统一、开放、智能的云内网络基础设施。6.1.1SDN 网络需求网络需求随着云服务规模不断扩大、租户网络复杂度不断提升,云内网络正面临集群资源规模剧增、转发性能瓶颈、成本控制压力以及网络可用性保障等多方面挑战。传统网络方案难以支撑高弹性、强隔离、敏捷部署方面的关键需求,迫切需要引入新一代 SDN 架构,以实现网络资源的集中控制、自动编排与智能调度。云智算 SDN 网络的演进需求主要体现在以下四个方面:可扩展性可扩展性集群规模扩展能力:集群规模扩展能力:为支撑超大规模云智算资源池,网络需具备单 Region万级服务器集群接入能力。网络架构需支持水平扩展与多可用区集群纳管,满足未来异构算力资源池统一接入的需求。租户规模扩展能力租户规模扩展能力:网络需支持百万级虚拟私有云(VPC)实例,满足大型政企客户在一云多租、一租多 VPC、多 VPC 灵活互通等多样化部署场景中的资源隔离与弹性管理需求。高性能高性能软硬一体能力融合软硬一体能力融合:传统 NFV 方案依赖 x86 通用服务器运行虚拟网络功能,具备灵活性,但转发性能受限。面对大带宽、高并发业务场景,现有纯软件转发面临瓶颈,需引入软硬一体技术,实现高性能虚拟网络。低成本低成本虚拟网络资源利用效率:虚拟网络资源利用效率:在传统架构下,NFV 方案需要消耗大量 CPU 资源用于实现基础网络功能,带来较高运营成本。为降低资源损耗与能耗水平,需构建具备精细调度能力、动态按需供给机制的网络基础架构,实现网络能力与计算能力的解耦和优化分配,提升整体 TCO(总拥有成本)效率。高可靠高可靠网络状态可视化能力:网络状态可视化能力:在多租户并发运行场景下,需实现租户虚拟网络资源的实时可视与运行状态可观测,便于网络异常预警、故障快速定位与网络运中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书47维决策支持。网络异常自动化闭环处理网络异常自动化闭环处理:网络需具备对租户故障的快速感知、精确定位、自动隔离与动态恢复能力,实现“分钟级”或“秒级”故障处理,确保关键业务链路不中断、服务连续性可保障。6.1.2SDN 技术架构技术架构面向超大规模云服务集群的资源管理与网络调度需求,中国移动构建了具备“开放解耦、软硬一体”特征的新一代 SDN 技术架构,架构如图 11 所示。图 11SDN 技术架构示意图超大规模超大规模SDN 网络采用“管控分离、分域控制”的架构设计,控制平面支持基于租户粒度、VPC 粒度、计算节点粒度灵活划分,实现资源视图分级解耦与独立调度。系统可支持单资源池纳管超 2 万节点,满足百万级 VPC 租户资源部署与弹性管理需求,具备面向超大规模算力集群部署能力。超高性能超高性能中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书48通过引入 SONiC 与 P4 为代表的开放可编程网络体系,实现关键节点交换功能向下卸载。支持亚微秒级转发时延、十亿级 PPS 包转发能力,可满足运营商级公网、专线、云互联等高密度、高速接入场景下的服务需求。同时,支持精细化 QoS 控制与差异化服务编排,保障多租户高性能业务运行。极致弹性极致弹性基于统一资源建模体系与中国移动自研云控制平台,构建标准化、弹性扩展的网络服务能力。NFV 平台支持 NAT、负载均衡、VPN 等网络功能的秒级开通与五分钟内部署,具备“灵活调度、极简交付、统一接入”的编排能力,为公有云、私有云及三方云资源融合提供统一支撑。稳定可靠稳定可靠SDN 系统具备统一视图观测与多层网络闭环保护能力。通过与底层网络及Overlay 虚拟网络双向联动,结合海量网络数据采集与告警策略,实现端到端链路状态监控、Overlay 隧道路径探测与租户级异常预警。系统支持秒级感知、分钟级联动、租户级服务保障,构建面向多租户的高可用网络体系。6.1.3技术挑战性、创新性与先进性技术挑战性、创新性与先进性技术挑战性技术挑战性高性高性能能 SDN 网关技术复杂网关技术复杂:当前主流高性能 SDN 网关多基于可编程芯片(如Tofino)或 FPGA 构建,具备高转发能力和灵活功能编排能力,但产品实现门槛高、定制化程度强,存在一定的技术壁垒。自动化运维难度大自动化运维难度大:在超大规模租户网络部署环境中,面向租户的虚拟网络状态动态变化频繁,链路状态与健康度可感知能力薄弱,传统依赖人工运维方式难以实现快速故障定位和高效恢复。网络异常排障效率低,租户体验受损,成为影响云服务稳定性的重要因素。技术创新性技术创新性开放解耦高性能网关架构开放解耦高性能网关架构:通过构建开放解耦的高性能网关架构,分别采用不同技术路线满足灵活性与性能需求:有状态网关引入 DPU 进行数据平面加中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书49速,适用于需深度包处理的 NAT、负载均衡等应用场景;无状态网关基于可编程网络芯片,实现转发逻辑灵活编排与性能极致优化。网络可视化与智能化运维能力网络可视化与智能化运维能力:结合虚拟化网络与底层物理网络的联动信息,构建覆盖租户网络、网络功能实例、Overlay 隧道、物理链路等多维的可视化监控体系。通过引入智能诊断引擎,实现故障原因自动识别、定位与隔离,提升网络稳定性与租户保障能力,为网络“自感知、自决策、自修复”演进提供基础支撑。6.2云间网络:云间网络:云云联网联网在云智算和算网一体发展的新阶段,企业客户对于多云、混合云环境的网络互联需求愈发迫切。传统网络方案存在配置复杂、扩展困难、缺乏灵活性等问题,无法满足智能时代对敏捷、可靠、弹性的云网一体化需求。中国移动云智算依托自研的新一代云联网架构,以“一点接入、全域可达”为核心目标,面向多云、混合云场景提供高可用、高扩展、低复杂度的云网互联服务,为企业数字化升级和智算需求提供坚实的网络底座。6.2.1云云联网需求联网需求混合云互联混合云互联针对企业本地数据中心(IDC)、总部与分支机构与云端 VPC 之间的互联需求,云联网能够打通云上云下的网络链路,实现本地与云端业务、数据的统一调度、弹性扩展与协同计算,构建灵活可扩展的混合云架构。跨云互联跨云互联企业越来越多采用多云策略以规避单一云厂商风险,云联网提供移动云与其他云之间的高速、稳定、安全的互通。安全隔离与共享安全隔离与共享针对大型企业多部门、多业务线并行运作的复杂需求,云联网支持单租户下多 VPC 组网,实现 VPC 间的安全隔离。与此同时,通过共享 VPC 配置,可实中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书50现部分公共资源(如网关、安全组)的跨 VPC 复用,在保证隔离的同时提升资源使用效率。易用性与服务化易用性与服务化传统云联网架构基于 Full-mesh 组网,需手动搭建隧道、配置路由,运维复杂。NaaS(Network as a Service)服务化模式,用户仅需选择互联区域和 VPC 实例,即可自动完成连接,降低网络使用门槛,减少部署和运维成本。可视化与自动化运维可视化与自动化运维随着组网规模扩大,运维复杂度随之提升。云联网提供端到端的网络拓扑可视化、流量监控、链路健康检测、告警与自动切换等能力,确保网络稳定性,降低故障响应时间。6.2.2云联网云联网架构架构通过集中管控与分布式调度结合的架构,云联网为企业提供“一点接入、全域可达”的高性能网络连接能力,简化网络配置,提升跨 VPC、跨区域组网灵活性,实现从网络基础设施到服务层的整体升级。云联网架构如图 12 所示。图 12云联网架构示意图单租户多单租户多 VPC 组网:满足隔离与扩展需求组网:满足隔离与扩展需求中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书51支持单租户下划分多个 VPC 实例,适用于多部门、多业务线的企业架构。各 VPC 既可实现相互隔离,也可通过灵活配置实现按需互通,便于不同业务单元实现独立部署或资源协作。通过这一能力,企业能够更好地实现精细化资源管理、灵活的业务隔离策略,并减少整体运维复杂度。NaaS 服务化模式:降低运维门槛、提升配置效率服务化模式:降低运维门槛、提升配置效率采用 NaaS(Network as a Service)模式,将传统网络组网、隧道搭建、路由配置等工作全面云化、自动化。用户只需通过控制台或 API 选择互联区域与 VPC,系统即可自动完成隧道部署与路由优化,无需关注底层网络细节。这一模式大幅降低网络运维门槛,尤其适合快速扩张、敏捷部署的中大型企业。标准协议支撑:实现开放互联与兼容扩展标准协议支撑:实现开放互联与兼容扩展基于 BGP 等标准协议,实现 Underlay 与 Overlay 协同,有效支持有效支持多云及混合云互联。通过标准协议设计,不仅降低了多云部署复杂性,还增强了网络系统的扩展性、开放性与异构兼容性。此外,业界主导的 IPsec 隧道负载均衡、BGP 多实例等创新方案,为云联网大规模应用提供了强有力的技术支撑。6.2.3架构对比:云联网架构架构对比:云联网架构 VS TR 架构架构在多云、混合云场景日益普及的背景下,不同架构设计的优劣差距逐渐拉大。传统 TR(Transit Router)方案因依赖 Full-mesh 手动隧道搭建与静态路由配置,在面对节点数量增长时,复杂度、成本和风险迅速放大,已无法满足当前多租户、大规模、多区域的企业需求。相比之下,NaaS(Network as a Service)架构通过自动路由、动态调度、集中控制的设计,显著降低了运维门槛,具备出色的扩展性、灵活性与智能化能力,成为当前及未来云网互联发展的主流趋势。表 4TR 架构与云联网架构对比表对比维度TR 架构云联网架构组网复杂度高,需要手动配置隧道与路由低,自动完成拓扑和路由配置中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书52扩展能力节点数增加导致隧道数量指数增长节点扩展线性增长,系统自动完成路由更新运维成本高,需专人维护、排查低,提供自动化运维工具、告警与自愈能力兼容性异构环境支持弱,对接复杂开放架构,兼容自研与第三方NFV、PE 设备安全防护基础安全,防护粒度粗动态防护、细粒度微隔离、零信任机制云联网聚焦国内多云、混合云场景,充分结合算网一体化需求,通过标准创新、架构优化和国产化能力建设,打造了具备国际竞争力的自主可控云网一体化解决方案。6.2.4技术挑战性、创新性与先进性技术挑战性、创新性与先进性技术挑战性技术挑战性多云互联的挑战:多云互联的挑战:大多数云商缺少全球覆盖的网络,导致多云互联需要云商、全球化网络运营商多方对接,网络故障定位定界难度大。此外基于 TR 的DIY 模式多云互联方案,使用门槛较高。Overlay 与与 Underlay 协同难题协同难题:现有 Overlay 控制器大多采用集中式 SDN 方案,Underlay 也多采用完全集中式流量工程控制器,二者之间缺乏标准化协同机制,网络故障定位与流量调度存在瓶颈,阻碍差异化网络服务的按需构建与故障联动响应。技术创新性技术创新性网络服务化模式(网络服务化模式(NaaS):基于 NaaS(Network as a Service)模式的云联网产品,避免租户的 TR 间 Full-mesh 的复杂隧道配置与路由维护工作负担。标准协议标准协议接口接口:基于标准 BGP 协议的扩展能力,构建 Overlay 与 Underlay自动协同控制通道,实现端到端路径资源的动态调度、跨云服务编排与多维可中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书53视,支持更丰富的服务编排接口与跨平台服务一致性保障,提升网络智能调度能力与对多云环境的适配性。技术先进性技术先进性NaaS 架构:架构:中国移动构建的云联网 NaaS 方案在易用性与横向扩展能力上超越传统TR架构,具备统一纳管、跨云直连与分区隔离等能力,可对标AWS CloudWAN 等全球化连接方案,满足多云、跨区域高弹性资源调度的需求。差异化网络服务:差异化网络服务:在 AWS 的 Cloud WAN 的基础之上,进一步实现 Overlay和 Underlay 的智能选路能力的协同,为云互联的用户提供差异化的网络连接服务,比如低延迟广域网服务或低成本广域网服务。6.3内生安全内生安全:网络安全服务链:网络安全服务链随着多云、混合云和算网一体化架构的发展,企业和机构的业务系统面临前所未有的安全挑战,包括跨租户攻击、DDoS 攻击、数据泄漏和勒索软件扩散等。这些复杂的威胁不仅威胁单一系统,还可能在网络中横向扩散,影响整个平台的稳定性和信任度。在此背景下,安全服务链成为云联网架构重要组成部分。通过模块化、分布式、灵活编排的安全能力,安全服务链为多租户、多场景、多层次的网络环境提供端到端、动态化的纵深安全防护,提升云网一体化环境安全水平与韧性。6.3.1网络安全服务链需求网络安全服务链需求在多云、混合云和算网一体化架构日益普及的背景下,企业和机构的业务系统正面临前所未有的安全挑战。传统以边界为中心的安全防护体系,难以适应如今业务高度分布化、动态化的环境,这催生了对安全服务链的迫切需求。具体需求与挑战包括以下几个方面:多租户安全隔离多租户安全隔离随着企业 IT 架构的演进,云环境中往往承载多个业务部门、子公司或项目组的服务,这些业务单元之间在资源使用和数据流转上需要严格隔离。安全服中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书54务链必须具备基于租户的隔离能力,不仅要从网络层实现租户间的隔离,还要在应用层和数据层确保无越权访问。同时,需要灵活支持企业根据组织架构调整业务的合并、拆分、重组时的隔离策略,确保安全和灵活性兼顾。动态防护与弹性扩展动态防护与弹性扩展云计算环境的动态特性使得业务流量具有极强的波动性,例如电商促销、热点事件、线上教育等场景都可能出现流量激增。传统静态部署的安全设备往往无法应对流量骤增,容易成为瓶颈。安全服务链需要具备按需启用和扩展的能力,实现安全资源与业务流量的实时匹配,确保在业务高峰期也能提供持续稳定的防护能力。多样化场景适配多样化场景适配现代业务场景下,企业不仅需要应对 DDoS 攻击、SQL 注入、跨站脚本攻击(XSS)、恶意代码传播等通用型威胁,还要针对金融、电信、能源等行业的特定威胁提供精准防护。安全服务链需要具备丰富的模块能力,能够支持 Web 安全、应用安全、网络安全、内容安全、主机安全等多样化场景,并根据业务需求灵活组合,实现多场景下的安全全覆盖。可视化、可观测与可追溯性可视化、可观测与可追溯性在复杂云网环境下,安全运维面临海量数据、快速变化和多元威胁的挑战。单一的日志和告警无法满足运维需求,需要实现从链路、流量、威胁到用户行为的全链路可视化。安全服务链不仅要提供流量监控、告警通知、攻击识别等基本功能,还要支持攻击路径回溯、威胁溯源、日志审计等深度分析能力,帮助运维团队及时定位问题、精准处置、优化防护策略。低延迟与高可靠性保障低延迟与高可靠性保障在安全防护与业务体验之间,如何取得平衡是重要挑战。企业希望安全防护的介入对业务延迟最小、对带宽影响可控,同时在系统故障、链路异常时,安全服务链能够实现快速切换和高可用保障,避免防护系统本身成为业务稳定性的薄弱环节。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书556.3.2网络安全服务链架构网络安全服务链架构基于云联网架构,安全服务链通过多项核心能力实现对多租户、多场景、多业务环境的全面防护,安全服务链架构示意图如图 13 所示。这一架构具备灵活扩展、精细控制和高可靠性,以下从四个核心维度对安全服务链的技术架构与能力体系进行详细分析。图 13网络安全服务链架构示意图开放架构:基于开放标准协议无缝接入开放架构:基于开放标准协议无缝接入安全服务链采用开放架构设计,基于 BGP、VXLAN 等开放标准协议,能够无缝对接自有云网络安全产品,并与第三方安全产品协同工作。这一开放性架构提高了系统的兼容性和互操作性,使企业能够在多云、混合云环境中灵活引入防火墙、入侵防御、DDoS 清洗、威胁情报等能力模块,显著降低集成成本,为构建开放、协同、可持续演进的安全生态奠定了坚实基础。水平扩展:基于水平扩展:基于 GWLB 与与 SR-SFC 的弹性能力的弹性能力安全服务链通过引入网关负载均衡(GWLB,Gateway Load Balancer)技术,打通各类安全网元的水平扩展能力。借助 GWLB,系统能够针对业务流量和安全需求实现按需扩缩容,有效应对高并发业务场景或突发攻击流量,提高整体系统的弹性和资源利用效率。进一步地,安全服务链结合 SR-SFC(Segment Routing Service Function Chaining,无状态服务链)技术,通过在网络报文中携带服务中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书56路径信息,实现网络与安全服务链的无状态化调度。SR-SFC 突破了传统服务链对硬件状态维护的依赖,使多安全网元间的编排更灵活、链路更高效,并降低了扩展复杂度。结合 GWLB 与 SR-SFC,安全服务链具备出色的水平扩展能力,能够满足大规模、多租户、多场景的动态防护需求。最小权限访问控制:实现跨最小权限访问控制:实现跨 VPC 安全隔离与受控访问安全隔离与受控访问基于云联网的多 VPC 安全隔离机制,安全服务链引入跨 VPC 的受控访问控制能力,实现了面向租户、应用的最小权限访问控制。系统可灵活配置访问策略,确保不同 VPC、不同业务单元之间仅开放必要的最小权限访问,有效降低潜在攻击面。这一机制对提升租户隔离强度、强化安全边界、落地零信任理念起到了关键作用,为多租户环境提供了更高水平的安全保障。高可靠性:动态路由驱动的安全资源池容灾切换高可靠性:动态路由驱动的安全资源池容灾切换安全服务链采用动态路由机制构建安全资源池,当检测到节点故障或链路异常时,系统可实现快速流量切换,完成安全服务的容灾恢复与业务连续性保障。相比静态绑定方式,动态路由方案具备更强的自愈能力和更高的系统可靠性,能够显著降低因节点故障、攻击冲击带来的业务中断风险,满足金融、政务、电商等对业务可用性要求极高的行业需求。6.3.3技术挑战性、创新性与先进性技术挑战性、创新性与先进性技术挑战性技术挑战性安全服务链对租户安全服务链对租户 VPC 侵入性侵入性:当前主流安全服务链方案多依赖 PBR 策略路由或基于 NAT 的转发机制,需在用户 VPC 路径上强制引入安全检测路径,导致业务链路变更、路由复杂、运维成本高,且难以实现无感知接入,削弱云原生架构对弹性与自治的支持。安全网元状态同步限制扩展性安全网元状态同步限制扩展性:当前 vFW、IPS 等安全服务大多为有状态网元,通常需要进行双机同步状态,导致系统复杂度高、部署效率低、资源利用率受限。在大规模租户并发接入和横向扩展场景下,状态一致性维护成为制约服务链弹性扩展能力的重要瓶颈。技术创新性技术创新性中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书57云原生网络安全能力构建云原生网络安全能力构建:依托云联网底座,中国移动实现东西向、南北向流量的无侵入式引流,安全检测路径不依赖租户 VPC 原生配置,实现安全能力对租户的“透明插入”和弹性挂载,全面支撑云原生环境下的网络安全能力弹性接入。标 准 协 议 创 新:标 准 协 议 创 新:主 导 IETF 工 作 组 草 案-基 于 SR 的 无 状 态 服 务 链(draft-ietf-spring-sr-service-programming)以及个人草案-面向 SDWAN 的高效 IPsec隧道封装(draft-xu-ipsecme-esp-in-udp-lb)。技术先进性技术先进性云原生安全架构对接简洁高效云原生安全架构对接简洁高效:相较于 AWS 的 Security VPC 方案,无侵入式云原生安全架构具备更高的接入简洁性与多租户兼容性,更易对接第三方网络安全网元,实现云端安全能力灵活引入与统一管理。无状态安全服务链无状态安全服务链:采用集中式 GWLB 路径编排方案的传统 Hub-Spoke 服务链形态存在系统耦合度高、调度灵活性差的问题。无状态安全服务链具备良好的横向扩展性与链路动态重构能力,安全网络的增删调整更加灵活。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书58第第 7 章章结语结语面向 AI 时代的发展需求,中国移动针对智算与云计算深度融合趋势,系统性构建了云智算新型网络基础设施体系,持续推进关键技术创新。在智算网络侧,依托开放以太架构实现 Scale-Out 与 Scale-Up 网络高性能互联与架构统一融合,打造超低时延、超大带宽、超高可靠的智算网络;在物理广域网络侧,基于可预期 IP 网络以及开放光传输网络底座,构建全球一体化的可预期广域网络服务;在虚拟网络侧,强化云内网络编排与多云互联能力,构建灵活可编排、按需可调度的网络服务体系,并融合安全服务链防护机制,保障网络与业务安全。面向未来,中国移动将通过持续的技术创新与规模化实践,不断迭代云智算网络基础设施的能力与架构,为 AI 模型演进、数字经济发展和全球业务拓展提供坚实的网络底座。中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书59附录:术语与缩略语附录:术语与缩略语中文名称英文缩写英文全拼大语言模型LLMLarge Language Model远程直接内存访问RDMARemote Direct Memory Access图形处理器GPUGraphics Processing Unit可扩展性、高可用性、低时延、低成本SHALLScalability,High Availability,Lowlatency,Low cost数据中心互联DCIData Center Interconnect软件定义网络SDNSoftware Defined Networking网络即服务NaaSNetwork as a Service网关负载均衡GWLBGateway Load Balancer段路由服务链SR-SFCSegment Routing-Service FunctionChaining虚拟私有云VPCVirtual Private Cloud网络功能虚拟化NFVNetwork Functions Virtualization中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书60虚拟防火墙vFWVirtual Firewall超级全球加速SGASuper Global Acceleration边界路由出口工程EPEEgress Peer Engineering流量工程TETraffic Engineering基于优先级的流控PFCPriority Flow Control等价多路径ECMPEqual-Cost Multi-Path全自适应路由以太网FAREFully Adaptive Routing Ethernet人工智能AIArtificial Intelligence容器编排系统K8sKubernetes基础设施即代码IaCInfrastructure as Code软件定义广域网SDWANSoftware Defined Wide Area Network应用编程接口APIApplication Programming Interface中 国 移 动 云 智 算 新 一 代 网 络 基 础 设 施 白 皮 书61

    发布时间2025-08-22 64页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 未来网络发展大会:2025面向Web3.0的数字实体互联白皮书(38页).pdf

    未来网络技术发展系列白皮书(2025)面向Web3.0的数字实体互联白皮书第九届未来网络发展大会组委会2025年8月版权声明版权声明本白皮书版权属于中国联合网络通信有限公司研究院及其合作单位所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源来源:中国联合网络通信有限公司研究院等中国联合网络通信有限公司研究院等”。否则将可能违反中国有关知识产权的相关法律和法规,对此中国联合网络通信有限公司研究院有权追究侵权者的相关法律责任。编写说明编写说明主要编写单位:主要编写单位:中国联合网络通信有限公司研究院青岛大学数字社会研究所中钞数字信息科技(北京)有限公司紫金山实验室主要编写人员:主要编写人员:贾雪琴、詹立东、平庆瑞、曹畅、唐雄燕、张岩、史可、王立文、曹云飞、王施霁、霍如、刘辉、王志浩I前言2024 年 1 月 31 日,习近平在中共中央政治局第十一次集体学习时强调“高质量发展需要新的生产力理论来指导”。传统的ISO/OSI 等经典网络理论,虽然涵盖了联网设备之间,从物理连接、数据传输、会话管理到应用服务的完整通信功能,但并未纳入网络用户交互所需的身份识别、行为交互、数据解析等能力。针对当前互联网在数据互联互通中面临的架构性与基础性瓶颈,本白皮书在参考借鉴 OSI 网络七层模型的基础上,通过在网络传输层之上构建新型互联协议,提出一种面向 Web3.0 的数字实体网络创新技术路径。本白皮书1首先分析了网络中的数据对象,探讨了网络发展与数据传输的本质、现有架构的局限性以及下一代网络的关键突破方向;其次梳理了现有 Web3.0 技术演进路径;在此基础上,提出了“数字实体互联网络”的概念与内涵,并阐述了其核心价值、关键技术要素及相关标准化情况;最后对未来发展进行了展望。1本白皮书得到国家重点研发计划资助(编号:2022YFF06103002022YFF0610300)。II目录前言.I一、网络发展与数据传输.4(一)网络发展历史回顾.4(二)网络传输设计思想.5(三)当前网络的局限性.8(四)下一代网络的关键突破点.10二、现有 Web3.0 演进路径.12(一)语义网构建意义互联的网络空间.12(二)Web3 与公链:构建信任原生的网络结构.13三、数字实体互联网络.15(一)概念与内涵.15(二)核心设想.17(三)关键价值.18(四)核心技术.22III(五)与现有技术的对比.23四、相关标准化组织及其相关活动.26(一)相关标准化组织.26(二)相关标准.27五、未来发展展望迈向智能协同的数字实体网络.32附:缩略语.33面向 Web3.0 的数字实体互联白皮书4一、一、网络发展与数据传输网络发展与数据传输(一)(一)网络发展历史回顾网络发展历史回顾网络技术的发展经历了半个多世纪的演进,从最初的 ARPANET(1969 年)开始,网络技术已经完成了多次质的飞跃。ARPANET 最初的设计目标是为了实现计算机之间的资源共享,其核心思想是分组交换(Packet Switching),这一思想彻底改变了信息传输的方式,奠定了现代网络的基础。20 世纪 70 年代,TCP/IP 协议族的提出(1974 年由 Vint Cerf 和 Bob Kahn提出)标志着网络技术进入了一个新阶段。TCP/IP 采用分层架构:IP 等网络层协议负责将数据分组从源主机以尽力而为(best-effort)的方式送达目的主机;TCP 等传输层协议则专门负责进程(端)到进程(端)的可靠数据段传输服务,即,将数据交付从两台主机扩展到了两台主机上的进程。这种分层设计使得网络各组件能够独立演进,极大地促进了数据传输的扩展性和适应性。20 世纪 90 年代,Tim Berners-Lee 发明的万维网(World Wide Web)将互联网从学术和研究工具转变为全球信息基础设施,其主要贡献是在网络应用层采用超文本标记语言 HTML 将主机中的信息进行结构化表达和采用超文本传输协议 HTTP 进行浏览器与服务器之间的通信,以传输 HTML 文件、图像、视频等信息。HTML 协议、HTTP 协议以及浏览器等技术使得主机中的信息能够被普遍访问和相互链接,这创造了全新的信息交互范式。这一时期,网络互联的对象从主机互联延伸到了超文本互联。万维网出现之后(1995 年左右开始),互联网的商业化进程开始提速,网面向 Web3.0 的数字实体互联白皮书5络技术的普及和应用创新蓬勃发展。电子商务、搜索引擎、社交媒体等新型应用不断涌现,网络处理的对象和交互模式变得更加多样化。21 世纪前二十年,移动互联网与云计算技术成为全球信息技术发展的主导趋势:智能手机等移动终端的普及把网络应用扩展到移动视频、移动多方会议、实时定位、传感器智能协同等;云计算则重新定义了计算资源的获取和使用方式,降低了用户数据处理和存储的成本,大大缩短了应用建设周期。这一时期,互联网应用层协议栈经历了重要演进,如 HTTP/2(2015 年)、QUIC(2012 年提出,后成为 HTTP/3 基础)等新协议的出现,旨在解决传统 TCP/IP 在高延迟、移动环境下的性能问题。随着全球数字化转型、国际贸易、数字金融等业务的发展,相关技术正处于快速迭代演进阶段。本白皮书主要针对全球文本互联 Web2.0 之后的下一代数据互联技术架构展开思考与探究。图 1 网络技术的演进(二)(二)网络传输设计思想网络传输设计思想1)网络分层的核心思想OSI 七层模型和 TCP/IP 四层模型都体现了网络设计的核心思想:分层抽象。每一层为其上层提供服务,同时屏蔽下层的实现细节。这种设计使得网络各组件可以独立发展和优化,而不影响整体架构。面向 Web3.0 的数字实体互联白皮书6在网络分层架构中,各层的处理对象有所差异:“数据链路层”(如以太网、Wi-Fi)负责物理设备间的数据帧传输;“网络层”(如 IP)负责主机到主机的数据包路由;“传输层”(如 TCP、UDP)提供端到端的通信服务;“应用层”(如 HTTP、FTP)则实现具体的应用功能。2)网络传输的实质:状态与信息的传递从本质上看,网络传输的本质可以归结为“状态变更和信息流动”,网络通信的核心机制始终围绕着信息的端到端传递以及传输过程中状态同步的实现。无论是早期的文件传输,还是现代的视频流媒体,在传输过程中均需保持信息的完整性。信息完整性(Data Integrity)是一个严格的技术概念,特指数据在采集、处理、存储和传递过程中保持完整且未被篡改、遗漏或损坏的特性,这一特性主要通过校验和(Checksum)、数字签名(Digital Signature)等密码学机制予以保障。近年来,除了信息的完整性,ICT 技术在追求的另一个重要特性是信息的时效性。时效性指信息在特定时间段内具备使用价值的特性,其核心在于信息能否在需要时及时传递并发挥作用。时效性直接影响信息的决策价值过时的信息如同“失效的药品”,即使内容完整准确,也可能导致判断失误或机会丧失。互联网基于尽力而为(best-effort)的数据传输机制,能够满足大多数常规信息传输需求,例如电子文档传输、门户网站新闻资讯等典型的 Web1.0 和Web2.0 应用场景。然而,特定类型的信息对传输时效性具有严格要求,超出时限将导致信息价值丧失。以工业控制系统为例,执行器的传感器状态信息若未能及时传输,将造成控制时序错乱;金融交易场景中,买卖报价瞬息万变,信息传输延迟会直接影响成交价格。这类场景下,信息的时效性成为其使用价值的决定面向 Web3.0 的数字实体互联白皮书7性因素。3)网络处理对象网络分层思想的核心之一是在每一层网络把信息对象进行合理的抽象,并针对该抽象专注于处理该层的任务功能。如图 2 所示,具体说明如下:物理层(也被称为一层网络)的处理对象是物理介质上的比特流,主要功能包括:定义物理接口标准(如网线接口规格、信号编码方式)、确定传输速率(如10Mbps、100Mbps)、处理信号的传输方式(全双工/半双工)、屏蔽物理设备的差异,以为数据链路层提供统一传输服务。为确保比特流传输的可靠性,数据链路层(也被称为二层网络)将需要处理的对象抽象为数据帧,主要功能包括:将比特流封装成帧(包含源/目的地址)、差错检测与纠正(循环冗余校验等)、流量控制(避免网络拥塞)、介质访问控制(解决多设备共享同一传输介质的冲突)等。为了实现数据能跨二层网络传输,网络层(也被称为三层网络)将数据抽象为数据包(Packet),主要功能包括:基于 IP 协议进行逻辑寻址(如 IP 地址)、路由选择(确定最佳路径)等,实现跨网络通信。三层网络与具体的网络介质无关,极大扩展了网络互通的范围。三层网络解决多个二层网络互联互通的问题,作为通信终端的主机之间的传输质量保障需要传输层(也被称为四层网络)解决。传输层将三层网络的 Packet封装为段(Segment),针对段进行连接管理、流量控制及错误校验(如 TCP的可靠性保障或 UDP 的实时性传输),并使用端口号区分主机上的应用进程,实现主机之间的信息通信。传输层之上,OSI 模型中的会话层(负责建立、管理和终止会话)、表示层面向 Web3.0 的数字实体互联白皮书8(处理数据编码、加密等)和应用层(处理应用程序数据)在实际 TCP/IP 实现中往往被统称为应用层。图 2 网络分层、主要功能与处理对象(三)(三)当前网络的局限性当前网络的局限性1)处理对象存在局限OSI 七层模型主要解决异构网络互通问题,并非针对语义数据互联:OSI标准化工作的主要动机是解决 IBM SNA 体系等私有网络结构互不兼容的问题,为此,ISO 于 1977 年设立专门委员会,启动网络通信体系的标准化工作。1984年,ISO 正式批准并发布 OSI 参考模型标准(ISO/IEC 7498)。作为现代网络协议的基础架构,OSI 七层模型虽然涵盖了物理连接、数据传输、会话管理到应用服务的完整通信流程,但是受限于领域特定数据与网络公用性的矛盾问题,传统的 ISO、TCP/IP 等经典网络理论主要定位在异构网络通信层面,数据互联所需的身份识别、行为交互、数据语义解析等需求被当做应用层问题由“客户端-平台(服务器)”交互模型解决。2)缺乏对数据的合理抽象OSI 七层模型主要针对异构网络互联,这使得当前网络基础设施主要面向面向 Web3.0 的数字实体互联白皮书9数据管道角色,但缺乏对数据进行合理抽象以剥离个性化语义/知识与通用概念,同时缺乏网络原生能力支持数据之间的共性交互模型。这造成了当前互联网之上的数据交互高度依赖于平台,形成了以中心化平台主导的围墙花园模式。这种模式助长了互联网平台寡头的形成,引发了数据垄断、交互受限、缺乏竞争等问题,并影响信任和治理的稳定性,加剧了世界各地的隐私侵犯、权力集中和数字鸿沟问题。3)数据表示的碎片化数据表示的碎片化已成为现代网络架构的核心挑战。由于各类应用采用不同的自定义数据格式(JSON、XML、Protobuf 等),系统间互操作必须依赖专门的应用层转换,不仅增加了 15-30%的计算开销,还形成了紧密耦合的集成架构。更关键的是,这种碎片化导致两个根本性问题:一是缺乏对数据语义的标准表达方式,造成约 30%的系统集成错误源于数据理解偏差;二是中间网络设备(如 CDN、防火墙)因无法理解应用层数据内容,只能进行基于 IP 和端口的浅层优化,导致缓存命中率等性能指标下降 40%以上。这种现状与 OSI 模型标准化的初衷形成鲜明对比,亟需在网络架构中引入统一的数据抽象层,在保持格式灵活性的同时实现语义互操作,从而突破当前数据管道式传输的局限性。4)跨平台数据可信保障技术缺乏数据的流通和利用面临着可信、隐私保护和数据安全等多重挑战。为了确保数据的可信,当前互联网通过平台为数据提供方和使用方建立信任关系。平台除了为数据提供方和使用方提供数据存储、处理和交换服务,还提供接入验证、数据操作确权和授权等机制,为数据互通双方提供基本的数据可信背书。互联网架构缺乏原生的数据信任机制,导致跨平台数据互通必须依赖平台间面向 Web3.0 的数字实体互联白皮书10的主动协作,形成以平台为中心的数据流通模式。这种模式下,用户数据的流通边界由平台间的技术接口和商业协议决定,而非数据主体的自主意愿。要实现以用户为中心的跨平台数据可信流通,必须突破现有架构限制,在网络层建立原生的数据信任与授权机制。这一挑战的核心在于:如何在不影响平台独立性的前提下,使数据主体能够自主控制其数据的跨平台流动。(四)(四)下一代网络的关键突破点下一代网络的关键突破点为了应对全球数字化转型和数字经济的快速发展,在 OSI 参考模型和TCP/IP 架构的基础上,针对数据互联需求,抽象出数字实体(Digital Entity)概念,通过在传输层之上构建网络原生能力,实现数字实体可发现性、属性可获取性、连接自主性、交互真实性与可解析性,这可能是下一代网络发展的关键突破点。本白皮书基于 OSI 网络七层模型(参考模型)、TCP/IP 模型(实际应用模型),遵循组网完备性原则提出未来网络模型,以支持数字实体互联。参考图 3,该四层模型包括:一、保留并合并物理/链路层、保留并合并网络/传输层;二、建构新的“数字实体层”;三、改造应用/表示层,扩充数字实体的应用及操作接口;四、将原应用层与数字实体接口组合,重新定义 Web3.0,支持用户去中心化发现与连接、数字交互、可信验证等。面向 Web3.0 的数字实体互联白皮书11图 3 数字实体互联的突破点该模型以网络传输层和应用层为突破点,推动网络突破哑管道模式,成为能够识别通信实体、理解传输内容、管理交互状态的智能网络,减少中介性平台对互联网数据交互的束缚。基于未来网络模型,数字实体互联所需的协议框架应支持:1.实体中心化:以数字实体为基本通信单元,而非传统的主机或应用;2.语义可解析:标准化数据范式携带语义信息,网络设备可进行深度处理;3.状态同步原生支持:内置实体状态同步机制,实现不仅仅是数据传递;4.安全内建:安全性作为基础属性而非附加功能。以上模型和协议将能在网络互联、主机互联、文本互联的基础上,支持数字实体在互联网上相互连接组成数字实体网络,这将是 Web2.0 之后的一大进步,见图 4。图 4 数字实体网络所处的阶段面向 Web3.0 的数字实体互联白皮书12二、二、现有现有 Web3.0Web3.0 演进路径演进路径在下一代网络(Next Generation Network,NGN)的演进过程中,语义网(Semantic Web)和 Web3 代表着两条具有深远影响的技术路线。前者致力于解决机器理解网络信息的根本性问题,后者则着眼于重构互联网的信任基础。尽管两者的技术路径存在差异,但在构建智能化、自主化和可信化的数字生态系统方面展现出显著的协同潜力。(一)(一)语义网构建意义互联的网络空间语义网构建意义互联的网络空间1 1概念与目标概念与目标语义网(Semantic Web)是由万维网联盟(W3C)主导、Tim Berners-Lee于 1998 年首次提出的网络演进方向。其核心愿景是“让数据不仅可被人类阅读,还能被机器理解和处理”,从而实现更智能、自动化的信息交互。与传统 Web基于文档链接(HTML 超文本)不同,语义网强调“数据的语义关联”,旨在构建一个全球化的知识网络,使计算机能够自主推理、整合和利用分布式信息。2 2实现思路实现思路语义网的实现遵循知识工程方法论,其核心在于构建多层次的知识表示体系。在实践层面,首先需要将非结构化数据转化为标准化的 RDF 图,这个过程通常涉及实体识别、关系抽取等自然语言处理技术。领域本体(如医疗领域的SNOMED CT)的构建则需要领域专家与知识工程师的深度协作。推理引擎基于描述逻辑(Description Logic)实现自动化的知识发现。该架构使机器能够理解北京是中国的首都这类陈述中的实体关系,而非仅面向 Web3.0 的数字实体互联白皮书13将其视为字符串组合,并能从所有省会都是城市和成都是四川的省会推导出成都是城市。3 3主要贡献主要贡献语义技术有效应对了信息时代的三大核心挑战:在数据层面,通过 RDF 的统一数据模型解决了传统 ETL 过程中的语义损失问题;在系统层面,本体映射技术(如 OWL:sameAs)实现了跨系统的语义互操作;在应用层面,基于规则的推理支持了智能问答、个性化推荐等高级功能。Linked Data 项目证明,语义网方法可使跨机构数据查询效率提升 40%以上。4 4问题与挑战问题与挑战语义网的规模化应用面临三重障碍:技术层面,RDF/OWL 等标准学习曲线陡峭,且逻辑推理存在性能瓶颈,难以满足实时需求。生态建设方面,数据标注与应用开发陷入先有鸡还是先有蛋的困境,加之现有 Web 内容缺乏平滑迁移路径,导致采用率低迷。架构设计上,过度集中的标准体系难以适应领域需求,且网络基础设施无法利用语义信息,形成应用层与传输层的割裂。这些系统性缺陷严重制约了语义网的规模化落地。(二)(二)Web3Web3 与公链:构建信任原生的网络结构与公链:构建信任原生的网络结构1.1.概念与目标概念与目标Web3 是近年来兴起的互联网演进范式,其核心理念是“通过区块链技术重构互联网基础架构,实现去中心化的数字生态”。与 Web1.0(只读)、Web2.0(读写 中心化平台)相比,Web3 强调:面向 Web3.0 的数字实体互联白皮书14-用户主权:个人拥有数据、身份和资产的完全控制权-去中心化协议:以区块链替代传统中心化平台作为信任基础-通证经济:通过加密货币和智能合约实现价值网络化以太坊联合创始人 Gavin Wood 在 2014 年首次提出 Web3 概念,其愿景是打造无需信任(trustless)且抗审查”的网络基础设施。Web3 的技术特征如表 1 所示。表 1 Web3 的主要技术特征技术方面Web3 技术特征核心技术区块链技术、加密货币等数据存储去中心化交互方式用户通过加密钱包自主控制典型应用去中心化金融 DeFi、不可替代货币NFT、去中心化自治组织 DAO侧重点去中心化、安全性2.2.实现思路实现思路Web3 的技术实现路径采用分层架构设计,各层协同构建去中心化网络生态。在基础层,区块链网络(如以太坊、Solana)通过分布式账本技术建立不可篡改的数据层,IPFS/Arweave 等去中心化存储系统采用内容寻址(CID)替代传统 URL,结合 Libp2p 等 P2P 网络协议实现节点间直接通信。中间件层包含三大核心组件:智能合约平台(如 EVM)提供图灵完备的链上代码执行环境,去中心化身份协议(DID)实现用户自主权身份管理,跨链桥接技术解决异构链互操作问题。应用层则涌现出 DeFi 协议、DAO 治理模型和各类 dApp,形成完整的去中心化应用生态。面向 Web3.0 的数字实体互联白皮书15关键技术突破包括:1)智能合约实现可编程交易逻辑;2)零知识证明(如zk-Rollups)平衡隐私与验证;3)PoS/PoH 等新型共识机制提升性能;4)内容寻址(CID)确保数据持久性。这些创新共同推动互联网向用户主权化转型,建立不依赖中心化中介的数字信任体系。3.3.主要贡献主要贡献Web3 的主要贡献在于重构了数字世界的信任与价值传递机制。在身份管理方面,基于区块链的 DID 系统(如 ENS)实现了用户自主控制的跨平台身份,打破了传统平台账户体系的垄断。价值传递方面,智能合约将金融逻辑编码为可验证的网络协议,使资产流动实现可编程性。数据存储方面,IPFS 等协议通过内容寻址和分布式存储确保了数据的抗审查性和持久性。这些创新有效缓解了平台垄断、数据确权和跨境结算等传统互联网的痛点。4.4.问题与挑战问题与挑战Web3 仍面临显著局限。技术层面存在不可能三角约束,主流公链的 TPS难以支撑大规模商用,且私钥管理和 Gas 费用等设计抬高了用户门槛。经济治理方面,通证经济易受投机影响,DAO 治理普遍存在参与度不足问题。架构设计上,链上链下数据协同效率低下,跨链互操作性不足又形成了新的生态割裂。这些系统性挑战制约着 Web3 从金融创新向更广泛场景的拓展。三、三、数字实体互联网络数字实体互联网络(一)(一)概念与内涵概念与内涵在传统互联网中,网络通信的端点是“设备”或“应用”,而不是“实体本面向 Web3.0 的数字实体互联白皮书16身”。下一代网络(NGN)将这一焦点前移,关注网络中“数字实体”(DigitalEntities)的直接表达与交互能力,包括人/组织/物数字化形成的数字实体以及算法模型、甚至 AI 智能体等数字实体。数字实体(Digital Entity)是指网络环境中具有独立身份标识、可独立交互的逻辑单元,它不仅具有唯一身份,还具备自主行为能力和数据主权。其特征包括:-自主性:拥有独立的身份标识与自主决策能力-交互性:可通过标准化协议与其他数字实体进行可信数据交换与价值转移-持久性:其存在与状态不依赖于特定平台或服务-可组合性:支持按需功能聚合与解耦数字实体网络(Digital Entity Network,DEN)是一种新型网络架构,其根本任务从单纯的数据传输转向支持数字实体间的语义互操作与可信协作。这种转变将带来网络技术的范式革命:任何数字实体(包括数字孪生、一项数字化服务、一个虚拟代理还是一个复杂数字系统)都能以标准化方式接入网络,自主发现并关联其他实体,并基于共享协议完成交互,见图 5。DEN 不再仅是数据传递通道,而是成为数字生态的基础协作平台。面向 Web3.0 的数字实体互联白皮书17图 5 数字实体网络概念图(二)(二)核心设想核心设想采用数字实体对网络交互数据进行建模,见图 6:(1)将数据解构为数据容器和领域知识:数据容器对数据主体及其相关事件的通用方面进行高度抽象,形成可重用的通用软件功能、接口和交互协议;领域知识包含具体主体与事件的元数据信息,其内容与特定应用场景及上下文相关。二者结合构成完整的交互数据表征体系。(2)采用数字实体头封装数字实体:核心属性包括数字实体 ID、类型、有效时间等。数字实体 ID 确保该数字实体可被识别;类型用于表达数字实体的类型;有效时间表明数字实体的有效生存周期。图 6 数字实体的结构“数字实体网络”的影响可能不亚于从电路交换到分组交换的范式转变。实现这一愿景需要重构网络各层的设计原则,特别是在数据语义化表示、实体自主识别和可信数字交互等基础架构上的创新。在网络互联TCP/IP层之上构建支持数字实体直接交互的数字实体层是数字实体网络的核心思想,如图 7 所示。面向 Web3.0 的数字实体互联白皮书18图 7 兼容 OSI 模型的数字实体互联概念图数字实体层在以下几个核心方面实现突破:-以身份寻址替代 IP 寻址:基于数字实体的唯一身份 ID,而非网络 IP 地址进行路由-自描述结构化传输数据:所有传输数据基于统一的元数据标准,形成自描述的结构化数据单元-基于语义的自动化协同:依托数字实体所处的语义环境,数字实体之间无需依赖中心化平台,通过网络基础设施实现点对点交互。(三)(三)关键价值关键价值当前数字化进程中,互联网在数据隐私保护、身份管理机制及信任体系构建等方面正面临系统性困境。这些深层次问题不仅制约着社会协同效率,也阻碍了产业协作深化与智能系统发展。在此背景下,构建以数字实体为中心的网络体系成为破局关键 这一新型架构不仅为跨组织协同、智能体交互及用户自主权提供了技术支撑,更对数字经济的可持续发展具有深远影响。面向 Web3.0 的数字实体互联白皮书191.1.破解数据共享难题破解数据共享难题在数据要素市场化进程中,数据共享与数据主权的冲突日益凸显。当前主要面临三重挑战:一是数据孤岛现象突出,各平台数据标准不一、互操作性缺失,导致数据流通效率低下;二是数据权益界定模糊,用户对自身数据的控制权与可审计性严重不足,权益保障机制不完善;三是合规风险居高不下,GDPR 等隐私法规的约束使数据共享的成本与难度显著增加。针对上述问题,数字实体网络通过制定标准化的数字实体交互协议与数据规范,提供数字实体行为发生的真实性记录与核验服务,确保在交易环境下的参与方以安全、可信且符合隐私保护要求的方式获取所需数据,协同完成业务所需的相关流程。数据共享与数据主权保护的应用场景包括:医疗健康领域通过隐私计算实现跨院病历协同分析、金融行业借助可验证凭证实现 KYC 信息复用、教育领域则利用分布式存储完成学历资质的跨国核验等。2.2.建立跨组织身份互信建立跨组织身份互信跨组织协作长期受限于三大瓶颈:组织间缺乏天然信任基础,数据互信机制不全;缺乏行为一致性的协议语言,流程对接成本高昂;过度依赖第三方身份验证中心,既导致流程延迟,又存在单点故障风险。针对以上问题,数字实体网络将自主标识符作为组织与个体的身份锚点,可实现跨平台身份自主管理与互通;以数字实体交互协议支撑行为协同,支持动态定义多方参与流程;基于密码学构建分布式信任验证体系,可摆脱对中心化平台的依赖。面向 Web3.0 的数字实体互联白皮书20跨组织协作应用场景包括:在政务协同中实现跨部门数据的安全核验,在供应链对账中降低多方结算的沟通成本,在企业合约执行中提升条款履行的透明度,在 NGO 协同资助中保障资金使用的可追溯性等。3.3.去平台化自组织协作去平台化自组织协作当前平台经济模式下,用户权益保障面临双重挑战:账户体系的封闭性导致用户数据、身份与社交关系被 锁死 在单一平台,难以跨域迁移;平台中心化平台主导的协作模式中,用户缺乏对自身数字资产的控制权与议价权。数字实体网络支持身份体系从平台账户向自主权数字身份(Self-SovereignIdentity,SSI)转变,实现身份与行为的数据解耦;培育可携带身份、声誉与价值的 自主数字代理,使个体成为协作网络的核心节点;依托 DAO(去中心化自治组织)与 AI Agent 构建去平台化协作生态,重塑价值分配机制。去平台化协作与用户主权控制的典型应用场景包括:去中心化招聘系统中,求职者可自主管理可验证数字凭证(VerifiableCredentials)并选择性披露给雇主;知识技能市场通过智能合约实现点对点价值交换;去中心化自治组织(DAO)中,成员通过链上治理参与社区规则制定等。4.4.基于基于 AIAI 的自动化协同的自动化协同随着 AI 技术的发展,智能体协同面临新的挑战:现有 AI 系统多以工具形态存在,缺乏独立数字身份标识、明确责任边界与标准化协作协议;智能体间的互动缺乏统一标准化接口与行为溯源机制,制约了大规模协同应用。面向 Web3.0 的数字实体互联白皮书21数字实体网络为 AI 智能体协同提供了系统性支撑路径:为每个 AI Agent配置独立数字身份与属性数据集,记录其连接关系与行为日志;基于语义化协议实现智能体间的自动交互与任务协同;利用不可篡改的分布式账本对 Agent 行为进行全程登记与审计。AI 智能体的自治协同场景包括:智慧城市中,交通、能源等领域的智能体可实现跨系统协同调度;AI 法律助理通过标准化协议完成证据核验与条款比对;科研领域的智能体集群能基于标准化数据接口协同开展数据处理与模型训练,显著提升研究效率等。数字实体网络在数据主权管理、跨组织协作、分布式协同、AI 代理自主协作等方面展现出的优势,可用表 2 进行归纳说明。表 2 数字实体网络解决方案与传统方案的对比问题领域问题领域传统方案缺陷传统方案缺陷数字实体网络解决方数字实体网络解决方案案提升效果提升效果(预测)(预测)数据共享所有权让渡或效率低下使用权精准分离共享效率提升 3-5倍业务协同中心化平台依赖去中心化原子协作对 接 成 本 降 低60% 反垄断平台数据私有化个人数据容器 价值透明用 户 收 益 提 升8-12 倍AI 治理黑箱操作难追溯强制注册 交互协议可审计性提升 4 倍智能决策数据延迟与碎片化实时状态网络 动态实体决 策 时 效 性 提 升50% 面向 Web3.0 的数字实体互联白皮书22(四)(四)核心技术核心技术1.1.分布式账本技术(分布式账本技术(DistributedDistributed LedgerLedger Technology,Technology,DLTDLT)分布式账本技术为下一代网络提供价值流转与信任记录的基础设施,其核心在于通过密码学与共识算法构建多方参与的不可篡改账本。技术实现上,DLT采用区块式或定向无环图(DAG)结构组织数据,通过拜占庭容错(BFT)或权益证明(PoS)等共识机制确保节点间状态同步。智能合约作为可编程逻辑层,支持自动执行预定义规则(如以太坊 EVM、CosmWasm),实现资产转移、条件支付等复杂业务流程。DLT 不仅是加密货币的底层支撑,更为数字实体间的价值交换、权益证明和协作审计提供可信环境。2.2.去中心化身份(去中心化身份(DecentralizedDecentralized Identifiers,Identifiers,DIDDID)去中心化身份体系通过 W3C 标准化的 DID 规范实现身份自主控制。技术实现包含三个层级:标识层(DID URI)、验证层(公钥基础设施)和解析层(分布式账本)。用户生成 DID 后,其对应的 DID 文档(含公钥和服务端点)被写入区块链,形成可验证的身份锚点。身份验证时,依赖方通过解析 DID 文档获取公钥,验证数字签名即可确认身份真实性,无需中心化身份提供商参与。该技术为物联网设备、AI 代理等新型数字实体提供了标准化身份解决方案。3.3.可验证凭证与信任框架(可验证凭证与信任框架(VerifiableVerifiable CredentialsCredentials TrustTrust GraphGraph)可验证凭证技术基于 JSON-LD 或 JWT 格式构建机器可读的权威声明。其技术栈包含凭证签发(Issuer)、持有(Holder)和验证(Verifier)三个角色,通过数字签名链实现端到端验证。进阶方案如 zk-SNARKs 支持凭证属性的选择面向 Web3.0 的数字实体互联白皮书23性披露,而 BBS 签名算法实现多凭证的聚合验证,它既支持隐私保护又提供审计能力,形成可扩展的分布式信任体系。4.4.隐私增强技术(隐私增强技术(Privacy-EnhancingPrivacy-Enhancing Technologies,Technologies,PETsPETs)隐私保护技术栈采用密码学前沿方案实现数据最小化使用:零知识证明系统(如zk-STARKs)通过非交互式证明实现无信息泄露的验证;全同态加密(FHE)允许在加密数据上直接计算(如 IBM HELib);安全多方计算(MPC)通过秘密分割技术实现多方联合分析(如 SPDZ 协议)。隐私增强技术支持根据不同的需要进行可组合应用。5.5.AIAI 驱动的数字代理(驱动的数字代理(AI-poweredAI-powered DigitalDigital AgentsAgents)智能代理技术栈融合多模态感知、知识推理与行动决策能力:自然语言理解模块(如 BERT、GPT)处理用户意图;规划系统(如 PDDL 求解器)生成任务分解策略;记忆网络(如向量数据库)实现上下文保持。知识图谱(如 Wikidata)与领域本体(OWL)提供语义理解基础,而强化学习(如 PPO 算法)优化长期行为策略。这些代理既服务人类用户,也能代表数字实体参与机器间的语义协作。(五)(五)与现有技术的对比与现有技术的对比数字实体网络通过重构网络基础协议,在保留互联网开放性的同时,为数字时代的核心矛盾提供了系统性解决方案。其创新价值不仅体现于技术指标的量化提升 如数据共享效率、决策时效性的显著改善,更在于重塑了数字经济的权力结构:通过技术机制使数据价值回归创造者,让协作信任建立在数学协议而非商业权威之上,最终推动网络空间完成从 平台主导 到 实体共生 的范式面向 Web3.0 的数字实体互联白皮书24迁移。从技术上,数字实体网络与传统网络各维度的对比,见表 3。表 3 数字实体网络与传统网络对比维度传统互联网语义网Web3数字实体网络基本单元主机语义三元组区块链账户数字实体寻址方式IP 地址URI公钥地址数字实体 ID数据模型字节流RDF 图交易日志状态对象信任机制CA 中心化集中式标准分布式共识混合验证相对于 Web2.0 的突破性优势数字实体网络重构了 Web2.0 的中心化交互模式。在传统 Web2.0 架构中,用户数据和服务逻辑被封闭在少数平台的围墙花园内,平台同时充当着数据中介和规则制定者的角色。而数字实体网络通过将数字实体作为网络交互的基本单元,实现了三个核心突破:首先,数据以标准化数字实体形式存储与流转,支持跨平台迁移;其次,服务功能被解构为可组合的实体能力,突破单一平台限制;最后,交互规则通过开放协议而非平台政策来定义,削弱了平台垄断的技术依赖性。这种转变推动网络价值从平台方向实体所有者转移,同时兼容 Web2.0 的交互体验。相对于语义网的实用化改进语义网虽然提出了机器可理解数据的愿景,但其依赖复杂的 RDF/OWL 标准和集中式本体管理,导致实际应用长期局限于特定专业领域。相比之下,数字面向 Web3.0 的数字实体互联白皮书25实体网络在继承语义网核心理念的同时,实现了三项关键创新:采用轻量化的结构化数据容器替代繁琐的三元组表示,使语义标注成本降低 90%以上;通过动态本体协商机制,允许实体在交互过程中按需交换语义理解规则,而非依赖全局统一标准;特别是将语义处理能力下沉至网络协议层,使得普通开发者无需深入语义技术栈即可享受智能化红利。这些改进使得语义互联从实验室走向大规模商业应用成为可能。相对于 Web3 的架构革新Web3 通过区块链实现了价值传输的去中心化,但其全量数据上链的设计思想带来了严重的性能局限和生态割裂。数字实体网络采用更务实的架构设计:在身份认证和关键状态存证等核心环节保留区块链的信任价值,而在高频交互场景采用高效的链下验证机制;将全局共识的范围缩小到必要的最小集合,允许大多数实体交互在局部可信域内完成;通过统一的价值-数据融合模型,使数字货币、数字资产与普通数据实体可以在同一协议框架下交互。这种分层设计既保留了 Web3 的数字主权特性,又使其能够支持物联网、元宇宙等实时性要求高的新兴场景,有效缓解了 Web3 面临的可扩展性困境。综上,数字实体网络代表网络架构的范式级创新,它通过:1.“实体化抽象”提升交互直接性2.“协议层重构”实现效率突破3.“混合架构设计”平衡去中心化与实用性这种架构既吸收了语义网的机器可理解思想,又继承了 Web3 的数字主权理念,同时通过基础协议创新部分解决了二者的固有缺陷。随着数字实体成为网络交互的首要主体,下一代网络将逐步实现从连接计算机到连接智能体演进。面向 Web3.0 的数字实体互联白皮书26四、四、相关标准化组织及其相关活动相关标准化组织及其相关活动(一)(一)相关标准化组织相关标准化组织许多标准化组织的活动有助于数字实体网络形成与发展,包括但不限于:W3C:在数字实体的身份与认证、凭证交互等关键技术上发挥核心作用。制定了 Decentralized Identifiers(DIDs)v1.0,为数字实体提供去中心化的唯一身份标识,是数字实体身份体系的重要基础;定义了 DID DocumentResolution 机制,实现通过 DID 解析元数据;推出 Verifiable Credentials(VC)系列标准,包括数据模型、JSON Schema、安全保障等,构建了数字凭证的规范体系;同时,JSON-LD 作为基础数据格式,支撑了这些标准的数据表达与传输,为数字实体网络中身份确立和可信数据交互提供了关键技术标准。网络连接:https:/www.w3.org/Decentralized Identity Foundation(DIF):致力于推动 DID 生态协议的兼容与代码共享,聚焦于与数字实体身份相关的技术协同。其工作促进了各类去中心化存储系统(如 IPFS/Filecoin/Arweave)与 DID 等标准的结合,可让数字实体数据存储更安全高效;同时,支持 Hyperledger Aries/Indy/Ursa 等开源框架的发展,这些框架基于 DID 标准实现了数字实体间的通信和凭证验证,推动了数字实体网络技术的实际应用。网络连接:https:/identity.foundation/ToIP Foundation:以构建数字实体网络中的信任体系为核心,提出并推广“信任四层架构”的 Trust Over IP Stack(ToIP)。该架构融合了 DID、VC、ZKP 等关键技术标准,将身份标识、可信凭证、隐私保护等技术整合,形成分面向 Web3.0 的数字实体互联白皮书27层的信任模型,为数字实体之间建立可信交互提供了全面的技术框架,强化了数字实体网络的信任基础。网络连接:https:/toip.global/国际电信联盟电信标准化部门(ITU-T)旗下的 SG20、SG21、SG13、SG17 分别涉及分布式/去中心化物联网、区块链、可信数据基础设施、数字身份与安全,为数字实体网络相关的通用关键技术和垂直行业应用的国际标准化提供 了 平 台。其 官 方 链 接 为:https:/www.itu.int/en/ITU-T/studygroups/Pages/default.aspx,在此可获取更多关于 ITU-T 工作的详细动态与研究成果。ISO/TC 307:专注于区块链与 DID 标准的国际推广和采纳,将区块链技术与数字实体身份技术相结合。通过推动相关标准的国际化,使 DID 等身份标准借助区块链的不可篡改特性得到更好应用,例如促进 Ledger Anchoring 技术在公链上可为数字实体数据打“时间戳”,确保数据可靠性。网络连接:https:/www.iso.org/committee/6186257.html(二)(二)相关标准相关标准1 1身份与认证标准身份与认证标准此类标准是数字实体在网络中确立身份、实现可信交互的基础。Decentralized Identifiers(DIDs)v1.0:由 W3C 制定,为数字实体提供全球唯一且去中心化的身份标识符,无需中央发行机构,数字实体可自行掌控。通过 DID 能解析出对应的 DID Document,包含用于控制该 DID 的加密材料及其他元数据。具有去中心化、可控性、隐私保护等特性。网络连接:https:/www.w3.org/TR/did-core/#did-syntax面向 Web3.0 的数字实体互联白皮书28DID Document Resolution:由 W3C 定义,用于通过 DID 解析元数据,为数字实体的身份确立和信息获取奠定基础。当获取到数字实体的 DID 后,通过该机制能解析出对应的 DID Document 中的详细信息。网络连接:https:/www.w3.org/TR/did-core/#did-resolution-processDecentralized PKI(DPKI):作为替代传统 CA 的密钥管理模型,通过在DID 文档中嵌入公钥、撤销列表等机制,强化数字实体身份的安全性和可信度。与 Ledger Anchoring 技术结合,在公链上为数据打不可篡改“时间戳”。目前无特定单一官方链接,可通过学术数据库或区块链相关技术论坛搜索更多资料。Ledger Anchoring:在公链上为数据打“时间戳”,将数据与区块链不可篡改特性结合,使数字实体的身份信息和相关数据得到更好保护和验证。相关技术细节可在以太坊官网搜索获取:https:/ethereum.org/这些标准相互配合,从身份标识的创建、解析到安全管理,可构建数字实体身份体系的核心框架。2 2凭证与数据交互标准凭证与数据交互标准围绕数字凭证的表达、传输和验证展开,是数字实体间可信数据交换的关键。Verifiable Credentials(VC):遵循 W3C 开放标准的数字凭证,可代表物理凭证信息或无物理对应物的信息,通过加密签名确保防篡改和即时可验证性,生态系统中有发行者、持有者和验证者三方。网络连接:https:/www.w3.org/TR/2024/NOTE-vc-overview-20240613/Verifiable Credentials Data Model v2.0:定义了 VerifiableCredentials 的核心概念,是其他 VC 相关规范依赖的基础,以抽象方式定义模型,应用通过序列化表达具体凭证,当前多使用 JSON 序列化。网络连接:面向 Web3.0 的数字实体互联白皮书29https:/www.w3.org/TR/vc-data-model-2.0/Verifiable Credentials JSON Schema:当 Verifiable Credentials 以JSON 序列化时,定义如何使用 JSON-Schema 确保凭证结构被 VC 生态系统所有参与者一致解释,为 VC 在 JSON 格式下的结构规范提供依据。网络连接:https:/www.w3.org/TR/vc-json-schema/Securing Verifiable Credentials using JOSE and COSE:定义一系列使用 IETF 技术实现的 enveloping proofs,用于保障 Verifiable Credentials的安全性,通过加密技术封装保护 VC。网络连接:https:/www.w3.org/TR/vc-jose-cose/Verifiable Credential Data Integrity 1.0:定义 embedded proofs 的通用结构,用于保障 Verifiable Credentials 的数据完整性,在凭证序列化时包含相关证明信息。网络连接:https:/www.w3.org/TR/vc-data-integrity-1.0/JSON-LD:基于 JSON 的语义结构化语言,定义上下文概念指定类型和属性词汇表,作为 Verifiable Credentials 等标准的数据表达与传输协议基础格式。网络连接:https:/ 3隐私与信任架构标准隐私与信任架构标准聚焦于保护数字实体隐私并建立网络信任。Zero-Knowledge Proof(ZKP):能让数字实体在不暴露原始数据的前面向 Web3.0 的数字实体互联白皮书30提下完成验证,如年龄、学历等场景,与 VC 结合增强数据传输安全性和隐私性。虽 W3C 等有涉及相关研究,但无专门标准单一官方链接,可通过 W3C 官网搜索:https:/www.w3.org/Trust Over IP Stack(ToIP):由 ToIP Foundation 倡导的分层信任架构,融合 DID、VC、ZKP 等标准,构建数字实体网络中的信任模型,为数字实体间信任建立提供全面框架。网络连接:https:/toip.global/它们与其他隐私保护技术协同,营造出安全可信的数字交互环境。4 4支撑平台与开源框架支撑平台与开源框架基于上述各类标准开发,为实际应用提供技术工具。Hyperledger Aries/Indy/Ursa:开源 DID 通信与凭证验证框架,基于DID 等标准开发,实现数字实体间通信和凭证验证功能。网络连接:HyperledgerAries https:/hyperledger-aries.readthedocs.io/en/latest/;HyperledgerIndy https:/hyperledger-indy.readthedocs.io/en/latest/;HyperledgerUrsa https:/ DID 解析与 VC 交互,并集成 OAuth,依托 DID 和 VC 等标准实现功能,为数字实体身份识别和可信凭证交互提供便捷解决方案。网络连接:https:/ Kit:开发者工具集,帮助快速集成与部署数字身份,基于 DID 等身份与认证标准,加速数字实体网络应用开发。网络连接:Veramohttps:/veramo.io/;Trinsic https:/trinsic.id/;SSI Kit 可在 GitHub 搜索:https:/ Agents:基于 DID 的 AI Agent 通信协议框架,依赖 DIDComm v2面向 Web3.0 的数字实体互联白皮书31等实体通信协议,使数字实体中的 AI 代理能遵循标准通信协议交互。目前无单一官方链接,可通过相关技术论坛搜索获取信息。这些框架降低了标准应用门槛,加速了数字实体相关技术的落地。5 5存储与数据结构标准存储与数据结构标准为数字实体数据存储和管理提供保障。IPFS/Filecoin/Arweave:去中心化存储系统,IPFS 通过内容寻址存储,Filecoin 基于区块链提供激励机制,Arweave 实现数据永久存储,为数字实体数据提供安全存储解决方案。网络连接:IPFS https:/ipfs.io/;Filecoinhttps:/filecoin.io/;Arweave https:/www.arweave.org/Merkle Tree/Merkle DAG:用于构建数据哈希结构,Merkle Tree 形成树状结构,Merkle DAG 在有向无环图基础上应用其原理,为数据快速检索和完整性验证提供高效手段。相关技术细节可在以太坊开发者文档查看:https:/ethereum.org/en/developers/docs/data-structures-and-encoding/merkle-trees/Content-addressable storage(CAS):基于内容哈希寻址,确保数据不可篡改与版本控制,根据数据内容计算哈希值进行存储和检索,保证数据完整性和可追溯性。相关技术原理可参考:https:/www.distributed-systems-for-fun-and- 6通信协议标准通信协议标准保障数字实体之间的有效沟通。面向 Web3.0 的数字实体互联白皮书32DIDComm v2:作为实体通信协议,是 Smart Agents 等基于 DID 的AI Agent 通信协议框架依赖的基础协议,定义了数字实体之间通信的规范和格式,确保安全准确交互。可在 DIF 官方网站搜索详细资料:https:/identity.foundation/它是数字实体网络互联互通的重要支撑。五、五、未来发展展望未来发展展望迈向智能协同的数字实体网络迈向智能协同的数字实体网络以语义互操作性为核心基石,以分布式身份与加密体系作为信任底座,以数字实体为协作载体,构建一个支持价值流转、人机协同与跨域合作的数字生态,是面向 Web3.0 数字实体互联网络的总体理念。其目标不仅在于实现数据的可信流动与身份的自主管理,更在于打造一个能够有效处理真实世界复杂性、促进人机智能协同进化的开放系统。这不仅是下一代互联网的发展方向,也是数字文明可持续演进的重要路径。愿本文为探索语义网络与数字实体交互机制的创新技术路线,提供具有实践价值的参考框架与实施方向。面向 Web3.0 的数字实体互联白皮书33附:缩略语附:缩略语AIAI:Artificial Intelligence,人工智能ARPANETARPANET:Advanced Research Projects Agency Network,阿帕网BERTBERT:Bidirectional Encoder Representations from Transformers,基于Transformer 的双向编码器表示BFTBFT:Byzantine Fault Tolerance,拜占庭容错CASCAS:Content-Addressable Storage,内容寻址存储CIDCID:Content Identifier,内容标识符COSECOSE:CBOR Object Signing and Encryption,CBOR 对象签名与加密DAODAO:Decentralized Autonomous Organization,去中心化自治组织DAGDAG:Directed Acyclic Graph,有向无环图DeFiDeFi:Decentralized Finance,去中心化金融DIDDID:Decentralized Identifiers,去中心化标识符DIFDIF:Decentralized Identity Foundation,去中心化身份基金会DLTDLT:Distributed Ledger Technology,分布式账本技术DPKIDPKI:Decentralized Public Key Infrastructure,去中心化公钥基础设施ETLETL:Extract,Transform,Load,提取、转换、加载EVMEVM:Ethereum Virtual Machine,以太坊虚拟机FHEFHE:Fully Homomorphic Encryption,全同态加密GPTGPT:Generative Pre-trained Transformer,生成式预训练 TransformerHTMLHTML:HyperText Markup Language,超文本标记语言面向 Web3.0 的数字实体互联白皮书34HTTPHTTP:HyperText Transfer Protocol,超文本传输协议ICTICT:Information and Communications Technology,信息与通信技术IPFSIPFS:InterPlanetary File System,星际文件系统ISO/OSIISO/OSI:International Organization for Standardization/Open SystemsInterconnection,国际标准化组织/开放系统互连ISO/TCISO/TC 307307:International Organization for Standardization/TechnicalCommittee 307,国际标准化组织/第 307 技术委员会(区块链与分布式账本技术)ITU-TITU-T:International Telecommunication Union-TelecommunicationStandardization Sector,国际电信联盟电信标准化部门JOSEJOSE:JavaScript Object Signing and Encryption,JavaScript 对象签名与加密JSON-LDJSON-LD:JavaScript Object Notation for Linked Data,用于关联数据的JavaScript 对象表示法MPCMPC:Secure Multi-Party Computation,安全多方计算NGNNGN:Next Generation Network,下一代网络NFTNFT:Non-Fungible Token,非同质化代币OWLOWL:Web Ontology Language,网络本体语言PDDLPDDL:Planning Domain Definition Language,规划领域定义语言PPOPPO:Proximal Policy Optimization,近端策略优化PoHPoH:Proof of History,历史证明PoSPoS:Proof of Stake,权益证明QUICQUIC:Quick UDP Internet Connections,快速 UDP 互联网连接面向 Web3.0 的数字实体互联白皮书35RDFRDF:Resource Description Framework,资源描述框架SPDZSPDZ:Secure Multiparty Computation with Oblivious Transfer,基于不经意传输的安全多方计算TCP/IPTCP/IP:Transmission Control Protocol/Internet Protocol,传输控制协议/网际协议ToIPToIP:Trust Over IP,基于 IP 的信任VCVC:Verifiable Credentials,可验证凭证W3CW3C:World Wide Web Consortium,万维网联盟zk-Rollupszk-Rollups:Zero-Knowledge Rollups,零知识汇总zk-SNARKszk-SNARKs:Zero-Knowledge Succinct Non-Interactive Arguments ofKnowledge,零知识简洁非交互式知识论证zk-STARKszk-STARKs:Zero-Knowledge Scalable Transparent Arguments ofKnowledge,零知识可扩展透明知识论证ZKPZKP:Zero-Knowledge Proof,零知识证明

    发布时间2025-08-22 38页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 未来网络发展大会:2025量子互联网与算网协同体系架构白皮书(94页).pdf

    未来网络技术发展系列白皮书(2025)量子互联网与算网协同体系架构白皮书第九届未来网络发展大会组委会2025年8月版权声明版权声明本白皮书版权属于紫金山实验室及其合作单位所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:紫金山实验室等来源:紫金山实验室等”。否则将可能违反中国有关知识产权的相关法律和法规,对此紫金山实验室有权追究侵权者的相关法律责任。编写说明编写说明主要编写单位:主要编写单位:紫金山实验室江苏省未来网络创新研究院北京邮电大学主要编写人员:主要编写人员:张浩、李媛、张晨、黄韬、刘韵洁I前言从量子这个概念的提出,到以半导体技术为基础的第一次量子革命,孕育出了现代计算机文明,给人们的社会生活带来了巨大的变化。其中极具代表性的应用场景之一就是计算机通信和互联网,其使得人与人之间的交流变得非常方便。近几十年来,以操控量子态为基础的第二次量子革命又带来了新的量子信息技术,比如量子通信、量子计算和量子精密测量。这类新技术都是以量子力学原理来进一步突破原有的技术路线。其中量子通信是利用量子不可克隆原理从物理上实现绝对安全通信;量子计算是利用量子态叠加原理实现并行运算,极大提高计算速度;而量子精密测量则是突破标准量子极限进一步提升测量精度。在实用化的过程中,随着用户和节点数目的增加,很自然地就形成了量子网络。当网络的覆盖面变得很大,类似于当今全球互联网时,就形成了量子互联网。所以在将量子信息实用化的过程中,对量子互联网进行深入的研究和发展是必然趋势。目前量子互联网的发展还处在初期阶段。由于其和经典互联网的基本原理不同,很多经典互联网的发展模式和技术都无法直接借鉴过来。现阶段不论是底层的硬件技术,如量子门操作速度和保真度、量子纠错和量子存储时间等,还是上层的量子互联网体系架构,如运行模式和协议栈,都不成熟。这也导致在量子互联网的研究中还面临很多新的问题和挑战。本白皮书首先简洁地介绍和梳理量子互联网相关的基本原理和II技术,包括部分量子信息基础知识和代表性协议等。随后介绍量子互联网的发展现状和代表性的体系架构方案。最后围绕量子互联网的基本技术路线提出构建未来量子互联网的运行模式,讨论和展望量子算网协同的研究内容和可能的发展方向。本白皮书旨在通过对量子互联网的介绍、梳理和展望,为量子互联网从基础理论研究朝工程和产业化发展提供一个架构和技术层面的参考。III目录前言.I目录.III一、量子信息技术概述.51.1 量子信息基本概念.51.2 典型量子应用.131.5 实验系统.26二、量子互联网架构.302.1 量子互联网概述.302.2 量子中继及其分类.332.3 量子互联网协议栈.37三、量子互联网分组交换技术.423.1 基于量子封装网络的分组交换方案.423.2 经典帧辅助的混合分组交换方案.46四、量子互联网运行模式设计.524.1 基本假设.534.2 量子网络设计整体要求.534.3 量子请求运行方案.55五、量子应用协议运行示例.575.1 量子密钥分发.58IV5.2 分布式量子计算.62六、量子算网协同.636.1 量子计算协同化发展趋势.636.2 量子算网协同发展背景.666.3 量子算网协同基础理论和研究方向.68七、总结与展望.73附录 A:术语与缩略语.76参考文献.785一、量子一、量子信息技术概述信息技术概述1.1 量子量子信息信息基本基本概念概念1.1.1 从经典从经典力学力学到量子到量子力学力学图 1.从宏观尺度的篮球到微观尺度的原子。相应的物理理论从经典力学过渡到量子力学。在日常生活中,我们肉眼所能见到的物体的运动行为都属于经典物理所研究的范畴。比如一块被水平扔出去的石头做抛物线运行,踩油门让车加速等。这些运动规律都可以被牛顿力学所描述。通过给定物体的质量和受力情况就可以通过maF 这个公式去计算物体的加速度,再结合运动学公式和初始状态计算该物体往后任意时刻的运动状态。然而牛顿力学可以计算的运动规律是有范围的,即低速宏观弱引力场情况。如图 1 所示,当我们研究的物体尺寸从日常生活中见到的宏观世界,如飞机、汽车和篮球,逐渐变小到了原子尺寸的微观世界时,情况大不相同。而描述这个微观世界粒子运动规律的理论就是量子力学。在量子力学中,微观粒子的运动状态由波函数表达。6只要完全搞清楚物体的波函数随着时间如何变化就可以完全掌握物体的运动状态。此时经典力学中的maF 这个公式已经无法使用,需要用薛定谔方程Hti来计算物体的波函数。其实基于量子力学的技术和产品早已被我们使用,比如电脑和手机中的半导体,其中的原理就用到了量子力学能带理论。1.1.2 量子态及其演化量子态及其演化上面说到了微观世界粒子的运动规律需要用量子力学所描述。而在量子力学中,一个粒子的状态,也就是量子态,用波函数描述。在符号上,我们习惯用来表示,或者用狄拉克符号表示。比如一个光子有水平和竖直两个偏振状态,此时我们就可以分别将其表示为H(水平 Horizontal 首字母)和V(竖直 Vertical 首字母)。一个原子有自旋向上和向下两种状态,可以表示为和。甚至一只猫的死和活的状态,都可以表达为死和活。量子力学中的概念有很多,为简单起见,我们只在这里介绍几个后续内容涉及到的重要概念。下面我们重点介绍两个非常重要的基本概念:叠加态和纠缠态。图 2.经典物理的态和量子力学中的态。抛硬币为例,白色向上为 0,黑色向上为 1。量子力学区域最右侧为 0 和 1 的叠加态。叠加态是指一个系统同时处于两种或多种量子态的状态。在数学7上表示为一个系统的几个量子态线性叠加。比如一个光子同时处于水平偏振和竖直偏振,表示为VH21。表达式中的21是归一化因子。一个原子同时处于自旋向上和向下21。如果一个物体同时处于 n 种状态,就是n21.1n。这种情况也许会让没接触过量子力学的人感到很奇怪。因为在我们先前经验中见到的世界里,一个物体的状态只会出现某一种。以抛硬币为例来对比一下经典世界和量子世界,如图 2 所示。硬币白色朝上为 0,黑色朝上为 1。左侧虚线框内的经典世界要么出现 0 要么出现 1。右侧的虚线框内的量子世界就很奇特,既可以独立出现 0 和 1,也可以出现0 和 1 的叠加态,也就是 0 和 1 同时存在。这种叠加态其实对于我们生活在宏观世界的人来说很难想象。因为我们从出生到现在见到的世界里的状态都是某一个确定的状态,比如光子要么处于水平偏振,要么就是竖直偏振。一只猫,要么是死的,要么就是活的。同时处于死和活的状态是一种什么样子,我们根本想象不出来。所以在量子力学建立的早期,许多量子物理学家都很难接受其他人甚至自己提出的一些理论带来的“奇怪”结论。其中对于叠加态的质疑就是著名的薛定谔的猫。物理学家们通过猫能否同时处于死和活的状态来质疑量子力学的正确性。因为按照量子理论,微观世界的粒子是有叠加态的。但是宏观世界,我们的生活经验告诉我们,这是不可能的。因为我们从未看到过一只猫既是死的又是活的。物理学家们通过将猫的死活状态和微观粒子的状态绑定在一起,想从猫不可能同时处于死和活这个宏观8世界的事实反过来质疑量子力学叠加态是不成立的。至于为什么宏观世界看不到薛定谔猫这种现象,开放系统理论认为宏观世界中的物体并不是一个孤立系统,周围有很多物体和其相互作用,这就导致了量子态的退相干,很难处于量子世界中的叠加态,也就解释了为什么我们无法在经典世界中看到这类现象。图 3.纠缠态及其测量后的状态。p 为该测量结果出现的概率。另一个重要的概念是纠缠态。纠缠态是两个或多个系统的状态不能表示为各个系统量子态直积形式的态。以两个物体为例,通常在没有任何关联的情况下,物体 1 的状态为1,物体 2 的状态为2。将他们看成一个复合体系来表达,其状态为21,其中为直积符号。有时为了简便,省略中间的直积符号,直接写为21。如果是纠缠态,其复合系统的状态就无法写成直积形式,也就是21。以光子为例,如果两个光子组成的复合系统的偏振状态表达式为2121VVHH21,其无法写成两个光子各自状态的直积形式。此时两个光子之间是纠缠的,对其中一个光子进行 H/V9测量,如果测量结果为 H,则另外一个光子的状态也是 H。同样测量到 V,则另外一个光子的状态就变为 V。目前的量子理论认为这种关联是非局域的。当两个相距很远的光子处于纠缠态,这种关联依然成立。总体来看,两光子组成的复合系统其实就是一个叠加态,即同时处于量子态21HH和21VV。图 3 为两个纠缠态的例子,分别考虑两个纠缠态|00 |11 和|01 |10,系数满足归一化条件 2 2=1。当纠缠态被测量时,其结果会出现关联。而这两种结果出现的概率由量子态中的系数决定的。例如对于纠缠态|00 |11,测量后的结果总是两个白色朝上(00),或者两个黑色朝上(11)。而得到这两个结果的概率分别为 2和 2。对于纠缠态|01 |10,结果总是一黑一白,也就是 01 或者 10。对于两比特的最大纠缠态,我们叫做 Bell 态(Bell state),其有四种情况,分别表示为:| =12(|00 |11),| =12(|00|11),| =12(|01 |10),|=12(|01|10).这四个 Bell 态是量子信息中经常用到的纠缠态,后续内容也会经常涉及。对于三比特的纠缠态,常见的有 GHZ(Greenberger-Horne-Zeilinger)态,也就是|GHZ=13(|000|111)。n 比特 GHZ 态的表达式为101n(|00.0|11.1),上述狄拉克符号中有 n 个 0 和 n 个 1。当一个物体的量子态随着时间进行演化的,其数学上的表达为)0()()(tUt,其中)(tU为演化算符。在上式中给定时间 t 后,就可以计算出该时刻的量子态。而演化算符)(tU由系统的哈密顿量 H 决定。以上的计算表达式本质都是计算薛定谔方程Hti来求解系统的波函数 t。更详细的介绍可参考书籍1-4。1.1.3 量子操作量子操作对一个系统进行的各类量子操作都可以叫做量子逻辑门。当然这类量子操作最终都是作用在系统的量子态上,可以通过量子操作来改变系统的状态。比如最简单的比特翻转门 X,可以将 0 和 1 进行翻转,其表达为:10X和01X。当基矢为|0=10,|1=01时,X 门的矩阵形式为0110X。再如 Hadamard 门,当基矢为|0=10,|1=01时,其矩阵形式是111121H。所以 Hadamard 门有10210H和10211H。如果是两比特系统,除了有每个量子位的单量子比特操作,还有两量子比特门。最常见的就是受控非门(CNOT),其作用就是当控制位比特为 0 时,靶位不做任何操作,当控制位为 1时,靶位进行比特翻转。有时候也可以将控制位的态反过来控制,比如控制位为 1 时靶位翻转,控制位为 0 时不做操作。考虑控制位为 1进行 靶位的 比特 翻转情 况,其 CNOT 门的态 矢表达 形式 为111110101101010000CNOT。当 基 矢 为|00=1 0 0 0T,|01=0 1 0 0T,|10=0 0 1 0T和|11=0 0 0 1T时(这里的 T 表示矩阵转置),其矩阵形式为0100100000100001CNOT.两比特的量子门还有控制 Z 门、控制相位门和交换门。在量子计算中,通常会用量子线路的形式来表达门操作序列。图 4 所示为几个单量子比特门和两量子比特 CNOT 门的量子线路表示。图 4.量子门操作线路图。(a)泡利 X 门,也称为比特翻转操作。(b)泡利 Y 门。(c)泡利 Z 门,也称为相位翻转操作。(d)Hadamard 门。(e)两比特 CNOT 门,上侧带黑色点的量子比特为控制位,下侧带圆圈的量子比特为靶位。更详细的介绍可参考书籍5。1.1.4 量子测量量子测量测量是量子力学中一个非常重要的概念和过程。因为量子力学中,系统的状态都是由波函数来描述。但是波函数并不是一个可观测量,无法直接被观测到。所以要想实验上确切知道一个系统的状态,必须通过测量一个可观测量去获取状态信息。对于量子测量的基本假设是12其由一组满足完备性条件kMkMk=I?的测量算子 Mk作用在被测量系统的状态空间上,测量后系统的状态以 p(k)=MkMk 的可能性由|变为Mk|MkMk。这里要求算符满足完备性条件是因为测量得到的所有可能状态的概率之和为 1,即kp(k)?=k MkMk=1?。以单量子比特的二能级系统为例子,假设初始量子态为|=|0 |1,系数已归一化。如果测量算子为M0=|0 0|和M1=|1 1|,则测量得到结果为 0 的概率为 p(0)=2,测量后状态为M0|=|0;测量得到的结果为 1 的概率为 p(1)=2,测量后状态为M1|=|1。以上的和可以忽略,所以有效的状态分别为|0 和|1。这里的假设为一般测量假设。在量子信息中有两个非常重要的特殊 的 测 量 分 别 是 投 影 测 量 和 半 正 定 算 子 值 测 量(positiveoperator-valued measure,简称 POVM)测量。对于投影测量,其测量算子除了满足以上假设的完备性条件外,还要满足正交投影算子的厄米性条件。这里的测量算子是被观测系统状态空间上的一个可观测量厄米算子 M=kkPk?。其中kP是到本征值 k 的本征态空间 M 上的投影。测量的可能结果为测量算子的本征值 k,其中对应的概率为p(k)=Pk,测量后的状态为Pk|p(k)。对于 POVM 测量,主要用于那些不关注测量后系统的状态,而是关注测量后系统得到不同结果的概率的测量场景。这里不再对其做详细介绍,更多内容可参考书籍5。131.2 典型典型量子量子应用应用1.2.1 量子量子通信通信量子通信包括量子密钥分发、量子隐形传态、量子安全直接通信、量子秘密共享和量子密集编码等,这里我们主要介绍前三种通信方案。更多关于量子通信内容可以参考书籍4和文献6。(1)量子密钥分发保密通信的思想是发送方先将信息加密成密文,然后将密文通过信道发送给接收方,接收方再用密钥解密。由于密文是被加密过的信息,即使窃听者将密文截获,也需要正确的密钥才可以得到准确的信息内容,否则就难以获取信息。所以只要通信双方事先可以共享绝对安全的密钥,那么就可以确保信息的传送是绝对安全的。经典通信中的加密是基于数学计算复杂度来实现的。一些好的加密算法通常是经典计算机无法在多项式时间内有效求解的,那么这类算法被认为是暂时安全的。由于经典通信的信息安全是基于数学计算复杂度的,其算法无法保证绝对的安全,所以有时候就会出现算法被破解造成信息不安全而需要更换新的加密算法的情况。如果拥有新的高效破解算法或者绝对计算优势的计算机,那么经典的信息安全就会受到严重威胁。相比于经典保密通信,量子通信是利用物理原理的绝对安全性来实现通信的绝对安全。其从物理原理上保证信息安全。第一个量子通信模型是 Bennett 和 Brassard 在 1984 年提出的 BB84 协议7。该协议本质上是量子密钥分发(QKD),就是实现通信双方共享绝对安全的量子14密钥,然后结合一次一密来实现绝对安全的通信。除了上述基于单光子的 BB84 协议,还有基于纠缠态的 QKD 协议,比如著名的 E91 协议8和 BBM92 协议9。这些早期的协议都是基于理想的物理实现,比如完美的单光子源和测量设备等。然而在现实应用中,这些理想的实验条件很难达到,使得实际运行的量子通信存在安全漏洞。随着研究的深入,人们不断发展出可以应用于实际非完美物理系统下的QKD 协议来弥补安全漏洞和提高密钥率。比较典型的方案有诱骗态-QKD(Decoy state QKD)10,11、测量设备无关-QKD(MDI-QKD)12和双场-QKD(TF-QKD)13。其中诱骗态-QKD 是通过发送不同强度的诱骗信号来检测窃听者,从而抵御了因非完美单光子源导致的光子数分离攻击。MDI-QKD 通过在通信双方中间位置引入不可信的第三方进行测量来移除探测器漏洞。TF-QKD 将原有的基于双轨编码的 MDI-QKD 采用单轨编码,使得第三方测量由双光子干涉变为单光子干涉,理论上将原有的密钥分发距离提升了一倍。下面我们将简单介绍 BB84-QKD 协议的基本原理。图 5.BB84 协议示意图。BB84 协议具体的内容如下7:如图 5 所示发送方 Alice 随机地选择基矢(Z 基)或(X 基)来制备单光子的偏振态。然后将光15子发送给 Bob。Bob 也随机地选择基矢或来测量其接收到的光子偏振态,保留测量结果,并公布其所用的测量基。此时 Alice 也公布其所选择的基矢。Alice 和 Bob 通过经典通信共同比对双方公布的基矢,保留相同基矢所对应的结果。表格 1 给出了一个密钥协商的例子。可以看出,当 Alice 和 Bob 的基矢选择一致时,比特序列被保留。然后通过窃听检测、纠错和隐私放大生成最终的安全密钥。表 1.BB84 协议密钥协商过程。E91 协议为第一个基于纠缠的 QKD 协议,由 A.K.Ekert 在 1991年提出8。和 BB84 不同的是,通信双方需要事先共享纠缠对,也就是 EPR 对。然后双方随机地从三个测量基矢中选择一个对各自持有的量子比特进行独立测量。随后双方将多次测量的测量基矢通过经典Alice 比特序列0110100011Alice 基矢选择光子偏振HV 45H 45-45-45HV 45Bob 测量基矢Bob 测量结果45VVH 45V-45H-45 45Bob 比特序列1110110001匹配与否否是否是是否是是否是密钥10100116信道进行比对,相同的基矢所对应的结果各自持有,不同的测量基对应的结果进行窃听检测。检测安全后,各自保留的结果将作为安全密钥。而 BBM929协议是 BB84 协议的纠缠版本。其先分发纠缠然后用 BB84 一样的测量基去测量纠缠光子对,然后通过经典通道比对结果。(2)量子隐形传态量子隐形传态是通过纠缠信道直接传输未知量子态的一种途径14。如图 6 所示,通信双方 Alice 和 Bob 共享一对纠缠量子比特,也就是 Alice 的粒子 2 和 Bob 的粒子 3 纠缠。Alice 想把粒子 1 中的未知量子态传送给 Bob。其只要对粒子 1 和 2 做一个 Bell 态测量,然后将测量结果通过经典通信告知 Bob。然后 Bob 根据测量结果来对粒子 3 做相应的量子操作即可得到原本粒子 1 的量子态。注意此时粒子1 的量子态已经发生改变。具体的数学表达如下:假设粒子 1 为一个量子比特,其未知量子态可以表达为101,其中系数满足122。粒子 2 和 3 为纠缠态11002123。所以这三个粒子一起组成的复合系统的量子态就可以写为231123。将粒子 1 和 2 的量子态重新写成四个 Bell 态的形式,于是上述量子态改写为01011010213312331233123312123。分析上述表达式可以看出,对粒子 1 和 2 做 Bell 态测量,会使这两个17粒子随机塌缩到四个 Bell 态中的一个。此时粒子 3 也会变成对应的量子态。Alice 将测量结果告知 Bob,然后 Bob 根据结果来修正粒子 3的量子态。如果 Alice 测量结果为,则 Bob 不需要对粒子 3 做任何操作。如果结果是,Bob 需要对粒子 3 做z操作。而测量结果是和,则对应操作分别是x和y。图 6.量子隐形传态。为需要从载体 1 传送到载体 3 的量子态。量子隐形传态在量子通信和计算中有很多重要的应用。除了可以直接传递未知量子态,还有一个重要应用是纠缠交换。如果粒子 1 和另外一个粒子 4 处于纠缠态,那么通过隐形传态,也就是对粒子 1 和2 做 Bell 态测量,可以实现粒子 3 和 4 之间的纠缠。该操作通常被应用于量子中继中扩展量子信道。(3)量子安全直接通信除了上述介绍的量子通信范式,还有一类通信模式叫量子安全直接通信(QSDC)15。这类方案无需信息加密、密钥协商和解密这些过程,而是利用量子信道来直接安全传输信息。QSDC 思想是由龙18桂鲁等人提出16。这里简单介绍一下基于纠缠的两步 QSDC 方案的思想17,大概的步骤如图 7 所示。图 7.基于纠缠的两步 QSDC 方案。(a)Alice 制备 Bell 态。(b)Alice和 Bob 共享 Bell 态且双方进行窃听检测。白色圆圈为窃听检测的纠缠对。(c)Alice 编码信息。不同颜色圆圈代表不同的 Bell 态。(d)Alice 将持有的量子比特发送给 Bob,Bob 做 Bell 态分析获取信息。通信双方 Alice 和 Bob 事先约定四个 Bell 态对应 2 比特信息,即,和分别对应 00,01,10 和 11。以上四个 Bell态在图中分别标记为蓝色,红色,橙色和紫色。图 7(a)所示,Alice先制备一系列某个 Bell 态,比如。Alice 将这一系列纠缠对的另一半量子比特发送给 Bob,如图 7(b)。然后 Alice 和 Bob 对他们共享的纠缠对序列进行窃听检测,即抽取一部分纠缠对进行测量比对。如果窃听检测结果为不安全,则立即终止通信。如果结果为安全,Alice 将会对其持有的光子序列进行编码操作,如图 7(c)所示。即使用如下四个幺正操作:IU00,zU01,xU10和yiU11分别会将共享的纠缠对转变为,和,对应编码信息00,01,10 和 11。图 7(c)中黑色圆圈代表编码第二轮要执行误码19率检测的比特。随后 Alice 将编码后的光子再次传送给 Bob,如图 7(d)所示。Bob 对所持有纠缠对序列进行 Bell 态测量获取 Alice 编码的信息。此时双方再进行一次误码率检测,如果达标 Bob 就保留测量结果。如果检测不达标,就重传。通过以上过程 Alice 就可以将信息安全地传送给 Bob。1.2.2 量子量子计算计算量子计算主要是利用量子态的可叠加性来构造量子计算机。从发展历史的角度来看,量子计算机大概可以分为四个阶段。第一阶段(大概时间段为 1980 年-1985 年)是从 1980 年 Benioff 和 Manin 首次提出量子计算机的概念,到1981年Feynman提出量子模拟机,再到1985年 Deutsch 提出通用量子计算机,即量子图灵机。第二阶段(大概时间段为 1985 年-1994 年)为量子计算机的自由探索时期。第三阶段(大概时间段为 1994 年-2016 年)主要以 1994 年 Shor 提出大数因子分解法和 1996 年 Grover 提出量子搜索算法为代表的量子算法显示出了量子计算机的巨大社会实用价值,由此掀起了人们对量子计算机研究的第一波热潮。这一期间还有许多重要的进展,例如 1995 年 Cirac 和Zoller 提出离子阱量子计算机;2000 年 Kitaev 提出拓扑量子计算;与此同时研究人员也在实验上探索了不同的量子计算平台,如超导量子比特等。第四阶段(大概为 2016 年至今)以 IBM 公司研制出 5 量子比特云平台开始,各种科研机构和公司纷纷研制实用化量子计算机。在这期间,2017 年 IBM 实现 50 量子比特的量子计算机;2019 年谷歌推出 Sycamore,实现量子优越性;2020 年中国科学技术大学推出20了“九章”玻色采样机;2021 年中国科学技术大学研制出“祖冲之”号超导量子计算机;2024 年谷歌发布了 105 个物理量子比特的 Willow 量子芯片。目前为止,“九章”已经发布了其四号版本,“祖冲之”已经发布了其三号版本。量子计算机之所以有重要的研究价值,是因为其有望在某些计算任务中展现出远远超越经典计算机的强大算力。这一点主要是因为其利用量子力学中的态叠加原理。一个 n 比特的量子计算机,对其做一次操作,就可以实现对n2个计算基矢同时进行操作。如果是两台量子计算机做并行运算,其计算能力的增加不是加法而是乘法。也正是这样,Feynman 觉得研究量子系统可以用量子计算机,而经典计算机对于体系稍大的量子系统就无法有效模拟18。这是基本原理上可以预见的能力,但是真正让量子计算机展现出其巨大的实用价值的当属Shor 大数因子分解算法和 Grover 量子搜索算法的提出。Shor 算法给出的结果是对于经典计算机无法有效求解的大数因子分解问题,量子计算机可以有效求解19。这个算法的提出,严重威胁了现有的 RSA公钥密码体系。而 Grover 算法展示了相比经典计算机,量子计算机在无序数据库中搜索样本任务中具有 N的加速20。这一算法的提出降低了 AES 对称密码体系的安全性。这两个算法都展现出了量子计算机在信息安全方面的重要影响。因此人们开始逐渐意识到量子计算机的重要性,进而投入更多的人力物力去研制量子计算机。量子计算机计算任务需要按照特定的量子算法在量子比特上实现一系列的量子门操作来实现,如图 8 所示。其中一个可以实现通用21量子计算机的线路模型是组合任意的单量子比特门和两量子比特受控非门。这些量子门操作是按照人为设计的程序在量子比特上进行演化执行的。在具体的物理系统中,一般通过外部的光场脉冲或者磁场等来控制量子比特。图 8.通用量子计算机线路模型。量子计算的并行性优势可以通过 Deutsch 算法来粗略体验一下。更一般的算法可以参考 Deutsch-Jozsa 算法5。如图 9 所示为 Deutsch算法的量子线路图。两量子比特的输入态为01in。经过上下两个Hadamard 门,一个fU(这里的fU是映射)(,xfyxyx)和上线路量子比特 Hadamard 门后,量子态变为210)1()0(outff。然后通过测量第一个量子比特就可以确定)1()0(ff的值,进而知道函数)(xf的全局性质。在经典设备中,计算)1()0(ff至少需要两次,22而在量子设备中只需要一次就可以。从上面这个简单的例子就可以领略到量子计算在某些特殊任务中的优势。图 9.Deutsch 算法量子线路图。量子计算在量子网络中的应用也是一个很重要的分支。考虑在初期的量子计算机,由于实验条件的限制,量子计算机无法像今天的电脑一样普及。可能只有少数几个实验室或者服务商才拥有量子计算机,而一般的用户作为顾客去远程使用服务商手中的计算资源。为了保证用户安全地将自己的计算任务委托给服务商手中的量子计算机来计算,盲量子计算模型应运而生21,22。借助单向量子计算机模型,用户通过和服务商手中的量子比特进行交互让计算量子比特执行一系列的操作来完成计算,而用户数据的安全性则由随机加密来保证。除了以上的盲量子计算涉及到非局域地使用计算资源外,分布式量子计算机也是一个通过量子网络平台来进一步扩展计算能力的模型23,24。分布式量子计算机的思想是利用非局域的控制非门来协同多个小型量子处理器来进一步扩展成为一个更大的量子计算机。如果在量子网络中执行分布式量子计算,那么多个计算节点之间的非局域控制非门的执行质量非常关键,其会直接关系到整个分布式量子计算的计算效率。23目前由于受到比特数和门操作保真度等技术的限制,很难实现基于量子纠错码的大规模量子计算机。所以现阶段处于含噪音中等尺度的量子计算模型的研究,该阶段的目标主要是利用大约 100 量子比特规模的无量子纠错码的量子处理器来探究某些计算任务,例如量子化学、机器学习和组合优化问题等25-27。1.2.3 量子精密测量和传感量子精密测量和传感在物理学中精密测量一个物理量是一项非常基础且重要的工作。通常情况下会采取将该物理量映射到相位上,然后通过精确测量相位来测量该物理量28,29。而相位的测量会经历态准备、相位编码、读出和估算这几个步骤。这个方案对像引力波探测、原子钟和陀螺仪等这类干涉传感器是通用的。所以这类测量方案的目标就是实现尽可能小的来尽可能精确地测量相位。如果用有限个无关联的原子去测量相位,其相位的不确定度会受限于标准量子极限(standard quantumlimit,简称 SQL),也就是N1SQL。所以量子精密测量就是研究如何通过量子资源去突破这个标准量子极限的界限,从而将物理量测量的更精确。研究发现通过引入压缩和纠缠可以突破标准量子极限。由于测量原子之间量子关联的引入,会使得相位的不确定满足N1。在没有噪音的理想情况,这类测量的极限就是海森堡极限(Heisenberg limit,简称 HL)N1HL。由于本书主要聚焦于量子互联网,所以简单介绍与量子网络相关的分布式精密测量方案。分布式量子传感主要是利用非局域量子关联来实现对空间分布参数的精密测量,具有超越经典测量极限的灵敏度。24较为典型的应用场景为多节点的量子相位估计30-32、全球的量子时钟网络33和长基线望远镜34等。更多关于量子精密测量和传感的内容可参考文献28,29。这里简单介绍两个应用场景。图 10.全球量子时钟网络。(1)量子时钟网络量子时钟网络由哈佛大学 Lukin 组提出33。该研究组通过结合量子网络和精密测量提出一种用于地理上相距很遥远的光学原子钟网络的量子协同方案,进而实现安全的全球时钟。图 10 所示为基于多个卫星原子钟参与的网络。图 10(a)中是多个卫星原子钟围绕地球。图 10(b)为一个中间节点和几个其他节点连接在一起形成一个时钟网络。每个不同节点上的原子钟包含了大量的原子作为参考频率。每个时钟也拥有自己独立操控的本地振子。通过周期性地询问量子比特来维持时间,并且利用测量数据来稳定自己的本地振子频率在原子跃迁的参考频率上。每个节点分配一部分的量子比特去形成一个贯穿所有节点的纠缠态。通过该纠缠网络来获得一个每个节点都可以访问的超精确的钟信号。每个钟循环分为三个阶段:(1)初始化:制备钟原子态;(2)测量:本地振子的询问;(3)反馈:根据测量结果修正25激光频率。这种分布式的时钟结构可以让每个参与者在不丧失自主权和安全性的情况下都能通过集体数量的优势来提高自己本地时钟的稳定性。这种整体合作带来的性能增加会激励更多的节点加入,随着参与者的增多,同时又进一步增强了对信道中断的鲁棒性。整个网络的安全性则由量子通信来保证。图 11.长距离基线干涉望远镜。(a)传统远距离干涉望远镜。(b)基于量子中继器纠缠分发的远距离干涉望远镜。L和R分别代表左和右。(2)长基线望远镜基于纠缠网络的长基线望远镜由 Gottesman 等人提出34。该方案是一个利用远距离纠缠分发来提高望远镜的探测能力。和前面利用量子关联来突破标准量子极限的方式不同,该方案是通过远距离的纠缠分发来提升干涉望远镜的基线距离从而提高望远镜的观测能力。对于直接探测干涉望远镜的原理如图 11 所示。被测物体发出的光照射到两个望远镜上。左侧望远镜接收到的光比右侧望远镜接收到的光要多传输了sinb的路程。如果光的波长为,则这段额外的路程会导26致左侧比右侧望远镜的光多出一个/)sin(b的相位。数学上表达为RLiRLe0110,这里的 0 和 1 分别代表 0 和 1 个光子态。通过精确测量这里的相位就可以准确知道源的位置。由于和基线的距离成正比,所以延长两个望远镜的基线长度就可以获得更高的探测精度。相比于一对固定基线的望远镜,望远镜阵列能获取更多的探测信息。根据 van Cittert-Zernike 定理可知,基线函数的能见度是源分布的傅里叶变换。所以如果我们可以测量到所有基线的能见度,就可以完全想象出源。通过一些离散数量的基线,可以很好地近似源亮度分布。然而要实现如图 11(a)所示的长距离的基线望远镜有两个主要的困难。首先如果望远镜是建在地面的,则由于大气密度的震荡会影响望远镜之间的相对相位。另外要想克服光子丢失和相位错误来远距离传输单光子是非常困难的。针对以上两个困难,Gottesman 等人的方案提出利用量子中继实现远距离的纠缠分发来解决。原理如图 11(b)所示,在两个望远镜之间执行纠缠分发,将纠缠态的两个光子分别和望远镜接收到的探测光子汇聚到分束器进行干涉。随后通过测量后选择想要的结果。由于使用了量子中继,可以有效地延长基线的距离,从而提高望远镜的探测精度。除此之外还可以使用大规模的量子网络关联更多的望远镜阵列来获取更多的探测信息。1.5 实验实验系统系统各类量子信息任务的执行都需要一个具体的物理系统来实现。对27于量子通信,进行远距离的比特传输会选择光子作为量子比特载体。这是由于光子飞行速度快且相互作用弱,非常适合作为飞行比特进行量子比特传输。由于实际通信的需要,光量子比特可能会有不同波长的要求,比如可见光波段和通信波段等。在远程量子通信中,还需要一些相干时间长的存储量子比特用于量子中继。对于量子计算,目前研究较为广泛的物理系统有线性光子系统、超导量子比特、原子系统和自旋系统等。每个系统都有各自不同的结构和原理,因此也形成了自己的特点。对于量子计算的物理实现,DiVincenzo 提出了 5 个要求35:(1)具有良好表征量子比特的可扩展物理系统(具有二能级系统);(2)具有初始化量子比特到一个简单基准态的能力(可以初始化);(3)具有很长相干时间,比门操作时间更长(相干时间长);(4)可以做普适的量子门操作(普适的 N 量子比特门);(5)具有对特定量子比特的测量能力(可以读出)。满足以上五个要求,才可以作为实现通用量子计算机的物理系统。这里简单介绍几个物理系统。图 12 给出了几个物理系统的示意图。更详细内容可以参考文献36。(1)线性光学系统:利用光子作为量子比特,借助单光子源、线性光学器件和光子探测器来操控和测量光量子比特,从而实现量子计算。典型的线性光学量子计算方案有 KLM 方案、单向量子计算和随机行走量子计算。28图 12.各类物理系统。(a)一维光晶格原子系统。(b)氮-空穴金刚石色心。N 代表氮原子,V 代表空穴。(c)超导量子电路。(d)法布里-伯罗腔和回音壁模式微盘腔。(2)原子系统:原子系统主要包括中性原子、极性分子和离子。对于中性原子,在超低温环境中,通过光晶格将原子捕获在光学势中形成阵列结构。图 12(a)给出了一维结构的光晶格原子。其二维结构有点类似于我们平时在商场里见到的鸡蛋放在蛋托中的场景,鸡蛋好比是被捕获的原子,蛋托是光学势。由于单纯的原子之间相互作用比较弱,很难扩展。所以目前都是将原子的一个电子激发到一个很高主量子数轨道,这样就可以形成一个很大的电偶极矩,从而具有很强的偶极相互作用。这种状态的原子就是里德堡原子。离子系统通常是用电场或者磁场将离子囚禁起来,利用激光对其进行精确操控。由于离子本身带电,所以离子之间通过库伦力相互作用。原子系统具有很好的相干时间,但是相比于其他系统,它们的初始化、操控和读出时29间也很长。(3)固态自旋系统:自旋系统分为电子自旋和核自旋两类系统。目前样品主要是通过固态材料的参杂来实现大量的自旋阵列形成自旋比特。通常固态自旋系统主要分为参杂原子和量子点。比较典型的参杂原子系统有氮空穴金刚石色心。如图 12(b)所示,通过将金刚石结构中的一个碳原子用氮原子替代形成一个氮原子和邻位空穴的结构。其内部具有电子自旋和核自旋。在量子信息处理中可以操控这两种自旋。量子点是将电子囚禁在势阱中形成离散能级结构而被用来作为量子比特。自旋系统也具有很长的相干时间,但是其和外场相互作用比较弱,这也导致了其操控起来相对困难一些。(4)超导量子比特:超导量子比特是基于超导 Josephson 结的电路系统,结构如图 12(c)。其工作的温度大约为 10mK。从尺度上看,超导量子比特属于宏观的,但是却表现出微观的量子特性。由于非线性约瑟夫森结的引入,使得超导量子比特的能级间隔变得不相等。这就可以让人们很好地利用其最低的两个能级去编码信息。根据电路拓扑和物理参数的不同,超导量子比特可以分为电荷量子比特、磁通量子比特和相位量子比特这三大类。超导量子比特之间或者与腔的耦合比较强,可以实现快速的门操作,但是这也导致了其对噪音比较敏感,从而使得相干时间比较短。(5)腔系统:腔系统本身是将光子囚禁在一个束缚结构中的装置。最简单的腔模型是法布里-伯罗腔,其结构是两个平行的镜子,可以将光束缚在里面很长时间。除了这种腔,还有环形的回音壁腔、30蜂窝状的光子晶体腔和超导谐振腔等。图 12(d)给出了法布里-伯罗腔和回音壁模式微盘腔示意图。相比自由空间,腔中光场具有不一样的性质。腔中的光场和原子相互作用的研究形成了腔量子电动力学。在量子信息中,腔可以作为一种工具来更好地耦合光和原子等量子比特,从而实现对量子比特更好的操控,同时也可以作为多个量子比特之间耦合的数据总线。二、二、量子互联网量子互联网架构架构2.1 量子互联网量子互联网概述概述量子互联网是由很多量子节点组成的一个巨大的网络系统,其构建的目的是运行经典互联网所不能实现的量子应用,比如量子通信和量子计算等。其中一个大家熟知的应用就是前面内容介绍的 QKD,可以利用量子互联网在相聚很远的用户之间实现安全量子密钥共享。目前量子互联网的发展面临很多自己独特的困难和挑战。这是因为一方面由于底层依赖的物理原理是量子理论,所以发展量子互联网并不能将已经很成熟的经典互联网的所有模式和技术照搬过来,需要大量新的探索。比如量子互联网中需要进行端到端的纠缠分发,这是经典互联网中所没有的。另一方面,由于底层量子技术的发展还处于初期,很多硬件的指标还无法满足实际应用的需求,这为量子互联网的实际部署带来很多困难。比如量子比特的相干时间不够长,量子门的操作31精度不够高等,会导致许多量子任务无法有效完成。当然量子互联网和经典互联网也有很多相似之处。比如都是网络系统,许多问题的处理都涉及图问题。还有在实际的运行上,都会面临路径选择和资源调度等。图 13.量子互联网发展的几个阶段。根据上层的量子应用功能和对底层技术的需求,Wehner 等人指出量子互联网的发展会经历如图 13 所示的几个关键阶段37。第一阶段为可信中继网络,其可以实现非端到端安全的量子密钥分发。第二阶段为准备和测量网络,其可以实现端到端的 QKD 和安全识别。该阶段可以实现端到端的量子应用功能。第三个阶段为纠缠分发网络,其可以实现端到端的纠缠分发。该阶段可以实现设备无关的量子应用协议。第四个阶段为量子存储网络,其允许端点处有局域的量子存储功能。由于量子存储的使用,使得量子互联网可以运行更多复杂的量子任务,比如纠缠纯化和一些分布式协议等。在这个阶段,可以执行量子隐形传态。该阶段典型的量子应用为盲量子计算和简单的领导选举等。第五阶段为容错少量子比特网络,其允许拥有局域的少量子比32特的容错操作能力。可实现的应用功能为更高精度的时钟同步和分布式量子计算等。第六阶段为可以任意交换量子通信的量子计算网络。典型的应用为领导人选举和快速拜占庭协议等。在量子互联网中,底层技术的发展水平决定整个实际网络的应用部署。提高底层的硬件水平对量子网络的发展至关重要。除此之外,软件的发展也起着关键的协调作用。就像一台计算机,除了硬件水平过硬之外,还需要很流畅的操作系统协调所有的硬件来完成最终的任务。单纯只有好的硬件设备,例如性能很好的 CPU,没有流畅的操作系统,整个电脑也无法有效展现出其最好的算力。而对于互联网来说,协议栈就像是一个操作系统,协调着整个网络的运行。因此量子互联网协议栈的研究也必不可少。而协议栈的具体架构会受到各层协议和技术的影响,比如网络运行模式和量子中继的类型就是很重要的因素。本书主要关注量子互联网体系架构等方面的研究,所以会主要聚焦于网络运行模式和协议栈等方面的内容。接下来会介绍量子中继、协议栈和量子数据交换等内容。更多关于量子互联网内容可参考文献37-39。最近二十年,世界上部分国家和地区推动和布署了外场量子网络,例如美国 DARPA40、欧洲 SECOQC41、瑞士 SwissQuantum42、日本 Tokyo43、中国的量子城域网44-47和基于量子科学实验卫星的天地网48,49等。由于目前量子中继技术在实验上实现的难度较大,以上这些布署的量子网络都是基于可信中继的量子通信网络。而最近中国科学技术大学团队在外场实现了基于量子中继的多节点纠缠分33发网络,最远节点距离达到 12.5 公里50。2.2 量子中继及其分类量子中继及其分类量子中继类型原理和操作步骤第一代预报式纠缠分发 纠缠纯化 纠缠交换第二代预报式纠缠分发 量子纠错码 纠缠交换第三代量子纠错码全光簇态产生 纠缠交换表 2.四类量子中继的原理。量子中继是实现远距离量子通信的关键部分。由于信号衰减和噪音的影响,光子丢失和量子态退相干严重阻碍着远程量子通信的实现。而量子中继器则是分而治之,通过将远距离的量子通信分割为多个短距离通信,从而实现远距离量子通信的目标。目前量子中继大致可以分为四类,分别为第一、二、三代和全光中继。各类量子中继的原理如表 2 所示。第一代中继的原理是首先在相邻节点之间实行预报式纠缠产生,然后纠缠纯化提高保真度,最后纠缠交换来延长纠缠信道的距离,最终建立起长距离的纠缠信道。预报式纠缠分发可以克服光子丢失错误,纠缠纯化可以弥补操作错误。第二代量子中继是采用纠错码的方式替代了纠缠纯化来弥补操作错误,对于光子丢失错误依然采用预报式纠缠分发。第三代量子中继都采用纠错码的方式来弥补光子丢失和操作错误。全光中继则是先在相邻节点之间产生图态,而后做纠缠交换和 Bell 态测量来延长纠缠信道。由于使用图态,可以降低对34量子存储的要求。对量子中继的梳理可以参考文献51-53。图 14.量子中继的相关量子操作过程。(a)预报式纠缠产生(基于中间点测量的方式)。(b)非局域纠缠纯化。(c)纠缠交换。虚线代表纠缠关联。(d)量子纠错码。首先介绍预报式纠缠分发、纠缠纯化、纠缠交换和量子纠错码。(1)预报式纠缠产生是用测量后选择的方式预报式地在相邻节点之间产生纠缠态。和直接将制备好的纠缠态光子传输到两个节点相比,这种预报式的方式可以有效解决光子丢失错误带来的影响。在量子中继中,典型的预报式纠缠产生方案之一是如图 14(a)所示的中间点测量方案。两侧的节点各自将与存储量子比特纠缠的光子发送到中间点处进行 Bell 态测量,根据测量结果来预报式选择成功建立两侧节点纠缠的事件。(2)纠缠纯化是通过局域操作和经典通信来提升纠缠态保真度的过程54-58。其可以用于解决量子中继中操作错误带来的纠缠态保35真度降低的问题(量子态保真度是衡量一个实际量子态和目标量子态相似程度的物理量)。纠缠纯化需要牺牲额外的纠缠资源。典型的非局域纠缠纯化方案是 Bennett 等人提出的对两对纠缠态做局域的双边CNOT 门操作,然后测量靶位纠缠粒子来比对结果,保留源位保真度更高的情况54。Bennett 等人纠缠纯化方案如图 14(b)所示。(3)纠缠交换是通过对两对纠缠粒子中的每对的其中一个进行联合的 Bell 态测量实现剩余未测量两个粒子之间的纠缠,如图 14(c)所示。在量子中继中,可以用纠缠交换来延长纠缠信道的距离。实际上纠缠交换是对纠缠态中的一个粒子进行量子隐形传态操作。(4)量子纠错码是通过在大量的物理比特上编码逻辑比特来纠错的一种手段。由于系统上的冗余编码,可以通过测量辅助比特提取数据中的症状信息来恢复量子态59-61。量子纠错码的大概步骤如图14(d)所示。典型的量子纠错码有 Shor 的 9 量子比特码、CSS 码、稳定子码和表面码等。量子纠错码通常被用于容错量子计算和长距离量子通信。四类量子中继器操作原理大概如下:(1)第一代量子中继62-65如图 15(a)所示,先将长距离的通信节点分为若干个短距离的节点。然后在两两相邻节点之间做预报式纠缠产生,待相邻节点之间的纠缠信道形成以后,根据需要来进行纠缠纯化以保证纠缠态的保真度。随后在中间节点之间做纠缠交换延长纠缠信道的距离,直到形成端到端的纠缠分发。(2)第二代量子中继66-68如图 15(b)所示,首先在相邻节36点之间产生编码的逻辑 Bell 态。然后在中间节点里成对的物理量子比特之间做 CNOT 门和测量来实现编码的 Bell 态测量。通过以上步骤就可以实现端到端的编码 Bell 态。图 15.四类量子中继模型。(a)第一代量子中继。(b)第二代量子中继。(c)第三代量子中继。(d)全光量子中继。虚线为纠缠关联。图中只画出大概的框架,涉及的预报式纠缠分发,纠缠纯化,编码和纠错等具体过程并未画出。(3)第三代量子中继69-71如图 15(c)所示,其直接编码量子态,将编码后的量子态直接传送到下一个中继节点,在每个中继节点处进行纠错,然后继续传输到下一个中继节点,如此重复,直到量37子比特达到接收方。(4)全光量子中继72,73如图 15(d)所示,首先在两个用户和其相邻节点之间产生纠缠信道,同时在除两个用户节点以外的相邻两个节点之间产生簇态。然后在所有中间节点的对应的量子比特之间做Bell 态测量。如果 Bell 态测量成功,则继续在一级叶量子比特上进行X 测量,同时在剩下的一级叶量子比特上进行 Z 测量。最后将所有的测量结果发送给用户双方,最终实现端到端的纠缠分发。除了以上四类量子中继外,还有一类适用于近期量子互联网的安全经典中继74。利用 QSDC 和经典抗量子密码结合的方式来实现端到端的安全通信。其原理主要是在相邻节点之间用 QSDC 传输信息,这样就可以保证信息在信道的传输过程中是安全的。在节点处信息的安全性则依靠经典的后量子密码来维持。相比于纯量子中继,该中继模型的实现难度更低,可以在近期资源和技术受限的量子网络部署中起到一个过渡的作用。2.3 量子互联网协议栈量子互联网协议栈量子互联网协议栈的提出在很大程度上借鉴了经典互联网协议栈架构的思想。所以在介绍量子互联网协议栈之前,我们先大概介绍一下经典互联网协议栈。2.3.1 经典互联网协议栈模型经典互联网协议栈模型经典互联网协议栈目前广泛应用的模型有 OSI 七层模型和TCP/IP 四层模型。如图 19 所示。实际应用中,通常将这两个模型合38成一个新的五层模型。将 OSI 模型中的会话层、表示层和应用层合并成一个应用层。而将 TCP/IP 模型中的网络接口层用 OSI 模型的物理层和数据链路层替代。新的五层模型从下到上分别为物理层、数据链路层、网络层、传输层和应用层。物理层负责将比特编码到物理载体上并通过物理介质进行传输。数据链路层负责在两个相连节点之间传输数据。网络层负责将数据从一个节点路由到另外一个节点,最终将数据传输到目的节点。传输层负责端到端的数据传输,应用层负责在用户层面执行各种应用协议。图 19.经典互联网协议栈模型。2.3.2 量子互联网协议栈量子互联网协议栈方案方案和经典互联网类似,要想顺利运行量子互联网中的任务,设计一个合理高效的网络协议栈具有很重要的现实意义。由于量子互联网底39层依赖的物理原理是量子力学,比如单光子和纠缠态的性质和操控等,和经典互联网完全不一样。所以量子互联网的许多架构的设计方案可能已经无法完全复制经典互联网模式。最近代尔夫特理工大学研究组开发并实验实现了平台无关的量子网络节点的操作系统,在这之前实验上可以演示的操作软件几乎都是根据具体的实验设备和量子网络应用协议和功能而专门设置的75。近期 Cisco 在理论上设计了可扩展量子网络数据中心的架构,该结构可以互联多个量子处理器,推动大规模量子计算的发展,并联合加州大学圣塔芭芭拉分校推出量子网络纠缠芯片76。如图 20 所示,这里简单介绍一下现存的几类协议栈方案。更多关于量子互联网协议栈的内容可以参考文献77,78。图 20.量子互联网协议栈方案。(a)Van Meter 等人方案79-82;(b)Wehner 等人83-86、Li 等人88和 Bacciottini 等人89方案;(c)Dr等人方案87。(1)Van Meter 等人(日本庆应义塾大学)方案Van Meter 等人针对第一代量子中继器的量子互联网提出了五层40协议栈79-82,如图 20(a)所示。其从下到上分别为物理层、链路纠缠层、远程态构建层、错误管理层和应用层。物理层主要包含关于量子比特的基本操作,例如发射和吸收光子、编码、相邻节点的纠缠产生和测量等。而链路纠缠层则包括控制物理层运行的所有经典控制信息。这一层主要负责对物理层量子比特操作的指令的管理,例如决定某时某量子比特之间的纠缠产生。远程态构建层负责实现端到端的纠缠分发,值得注意的是错误管理作为与远程态构建层的一个互嵌层。应用层则是各类量子应用的执行,例如量子通信和量子计算等。(2)Wehner 等人(荷兰代尔夫特理工大学)方案Wehner 等人提出的量子互联网协议栈和经典的五层协议栈在分层和名称上是一致的,但是每层所对应的功能却不同83-86,如图20(b)所示。物理层主要负责实现相邻节点的纠缠产生。链路层则是实现更鲁棒的纠缠信道。网络层实现端到端的纠缠分发。传输层负责传输量子比特数据。应用层依然是各类量子应用。和 Van Meter 等人的方案不同的是,这里的方案并没有考虑将纠错单独作为协议栈的一个层。(3)Dr 等人(奥地利因斯布鲁克大学)方案Dr 等人主要考虑的是预先构建模式的量子互联网协议栈87,如图 20(c)所示。预先构建模式是指在请求之前提前构建纠缠信道。在纠缠资源方面考虑了两方和多方纠缠情况。该协议栈包括四层,从下到上分别为物理层、连接层、链路层和网络层。这里的物理层功能等同于上一个模型中的物理层和链路层,其主要负责产生短距离鲁棒41的纠缠态,物理上连接量子网络的器件,还负责量子存储和信号转换等。连接层主要负责构建点对点和点对多点的量子连接。链路层负责根据网络的需求来产生任意的图态。网络层则实现网络之间的图态的产生。该模型将端到端的纠缠互联作为最终目标来考虑整个协议栈的构建,没有提及更上层的量子应用。所以这里并没有应用层。(4)Li 等人(中国科学技术大学)方案Li等人也针对两方纠缠的量子互联网提出了一个五层协议栈88。该方案和 Wehner 等人的模型类似,如图 20(b)所示。但是不同的是 Wehner 等人考虑的纠缠产生是按需构建,而 Li 等人考虑的是预先构建的。这种差异就导致了协议栈在链路层上的功能有差异。所以Li 等人的协议栈链路层负责控制链路纠缠和处理网络层反馈的信号。(5)Bacciottini 等人(美国马萨诸塞大学默斯特分校)方案Bacciottini 等人借鉴经典互联网的模式提出基于分组交换的尽力而为的量子网络架构,并给出了量子网络协议栈89。该量子网络协议栈名称上和传统互联网的五层协议栈是一致的,与 Wehner 等人和Li 等人的协议栈架构上也是相同的,如图 20(b)所示。其物理层包括量子硬件和节点中实现量子操作所需的经典控制硬件,如纠缠交换、内存量子比特操作和纠缠产生用到的中间步骤;链路层提供一个用于请求和获得链路预报式纠缠产生的接口;网络层通过纠缠交换消耗链路纠缠来产生端到端纠缠;传输层从端到端层面管理纠缠流;应用层在传输层之上消耗端到端纠缠来实现自定义逻辑。Bacciottini 等人明确指出该方案是基于分组交换网络模式构造的无连接量子网络。42三、量子互联网分组交换技术三、量子互联网分组交换技术3.1 基于基于量子封装网络量子封装网络的的分组交换方案分组交换方案为了让量子互联网可以像经典互联网那样运行分组交换模式90,美国加州大学戴维斯分校 Yoo 和美国西北大学 Kumar 在 2021 年首次提出利用经典-量子混合数据报实现量子封装网络的思想91。随后Cisco 的 DiAdamo 等人在 2022 年提出了用经典-量子混合帧结构实现量子互联网分组交换的方案92。在 2024 年,美国加州大学戴维斯分校和美国西北大学研究组进一步解释了量子封装网络的概念93,并在实验上首次演示了对单光子数据报的交换功能94,随后进一步实现端到端的纠缠分发95。下面我们以 Cisco 的方案为例,详细阐述量子分组交换的基本原理。在他们的方案中,实现分组交换量子网络的关键是经典-量子混合帧结构。其结构如图 16(a)所示。图(a)上侧的结构是经典互联网帧结构,其包括包头、负载和包尾。简单来说包头包含了路由和纠错等一些关键信息。包尾则是预示着整个帧的结束。负载是需要传输的被编码的信号。由于包头中携带的用于路由的信息,比如地址信息等,所以当帧到达某个节点以后,处理器会读出包头中的地址信息,然后分配下一个通道。由此将整个帧从发送方顺利传输到接收方。整个帧在互联网中的传输路径都是包头引导的。图(a)下侧是 Cisco方案的经典-量子混合帧结构。结构和经典帧是一样的,只是将经典43帧中的经典负载换成了量子负载。所以在传输过程中,这里的负载将会是量子信号。图(b)是混合帧的产生机制。利用控制单元控制经典发射器发射经典包头信号和量子源发射量子负载信号,然后利用多路复用器将包头和负载结合,形成混合帧。多路复用可以是时分复用和波分复用。图(c)是混合帧的信号处理过程。当混合帧到达一个节点以后,通过解复用器将经典的包头和量子负载信号分开。随后用光开关将经典包头传送给经典处理器,量子信号则传输给量子存储。当经典包头处理结束,多路复用器又将其和量子负载组合后传输。图 16.量子互联网分组交换混合帧结构(a)经典互联网帧结构和量子互联网混合帧结构。(b)经典-量子混合帧的产生。(c)混合帧的信号处理过程。图 17 给出了一个利用混合帧结构在量子网络中实现分组交换模式的量子信号传输的例子。发送方 A 将需要传输的量子信号作为混合帧的负载部分。混合帧的包头编码接收方 B 的地址。当混合帧传输到节点 1 时,包头部分将会被经典处理器处理,比如读取包头的有效44信息。该节点会根据包头中携带的地址信息来决定出帧需要被发送的下一个节点。而量子负载则存储于节点 1 的量子存储中等待经典包头再次被发送。经过一段时间后,经典包头处理完成。其产生的包头再次和量子负载结合成帧被发送到选择好的下一个节点 2。混合帧到达节点 2 后,同节点 1 一样处理帧,随后将帧传输到节点 4。最后混合帧通过节点 4 的转发到达接收方 B。以上是考虑有量子存储情况,如果不考虑量子载荷的存储,那么可以采用即时交换方案,即发送方一开始估算好其与接收方之间的距离和大约需要经过的节点数。通过计算经典包头在所有中间节点的总处理时间,然后在发送混合帧的时候,在经典包头和量子负载之间预留出足够的间隔时间。这样就可以保证在每个节点量子负荷总是在经典包头处理结束以后才到达该节点。随着经过的节点数的增多,负载和包头之间的时间间隔也逐渐减小。当包头到达接收方,量子负载也几乎紧随其后到达。图 17.量子互联网分组交换模式传输量子信号的一个例子。根据应用层协议和物理层原理的不同,量子互联网一般分为单光子网络和纠缠网络。对于单光子网络,最直接的应用就是基于单光子的 QKD 协议。如果考虑对单光子网络应用以上分组交换模式,发送方可以直接将需要传输的单光子作为混合帧的量子负载传输到接收45方。对于纠缠网络,应用很广泛,除了基于纠缠的 QKD 协议,还有分布式量子计算等。如果考虑对纠缠网络运行该分组交换模式,我们一般考虑的都是端到端纠缠分发阶段。如图 18 所示,可以将纠缠分发分为两种情况。第一种叫中间点分发,另外一种叫发送方分发,分别如图 18(a)和(b)所示。(这里举例子为发送方发送帧,也可以采用接收方发送。因为很多时候纠缠分发的目的只是实现端到端的纠缠分发,无所谓是哪一方发送。但是因为通常情况下是发送方主动发送通信请求来联系接收方,所以采用发送方发送帧的方式更方便和直观。)这里拿一个纠缠对举例,对于中间点分发情况,可以将两个纠缠光子分别装载于两个混合帧当中作为量子负载。然后分别传输到发送方 A 和接收方 B。而对于发送方分发的情况,需要将其中一个光子存储在发送方 A 的量子存储中,而将另外一个纠缠光子装载于混合帧中发送到接收方 B。图 18.纠缠分发网络的分组交换。(a)中间点分发方案。(b)发送方分发方案。S 为纠缠源,QM 为量子存储。浅蓝色方块为节点。黑色和条纹长方形分别为经典包头和量子负载。虚线代表纠缠关联。463.2 经典帧辅助的混合经典帧辅助的混合分组交换方案分组交换方案上面的分组交换方案理论上可以很好地应用于单光子网络和部分场景下的纠缠网络。对于纠缠网络的某些情况,比如第一代和第二代基于中间点的预报式纠缠产生量子中继网络,其无法有效实施。为了解决上述问题,扩展量子网络分组交换的适用范围,我们提出一个直接针对纠缠网络的经典帧辅助的混合分组交换方案96。方案整体思路为借助经典帧来决定路径,通过给帧的每一跳分配合适的纠缠信道,结合纠缠交换来扩展信道范围,最终实现端到端纠缠分发。在该过程中,只需要借助经典帧、纠缠信道分配和纠缠交换。由于使用到了经典帧辅助量子信道分发,所以我们称该方案为混合分组交换。同时由于该方案并不依赖于纠缠产生的方式而适用于所有的纠缠产生方案,也称作纠缠产生无关方案。具体方案如下。图 21.相邻节点之间经典帧辅助的纠缠信道资源分配。(a)场景 1:无导向纠缠产生。(b)场景 2:经典帧导向的纠缠产生。473.2.1 纠缠信道分配纠缠信道分配首先考虑给经典帧分配相邻节点之间的纠缠信道资源。如图 21所示,相邻节点之间的纠缠产生过程分为两种情况讨论:图(a)中的无导向纠缠产生和图(b)中的帧导向纠缠产生。对无导向纠缠产生,首先需要量子网络中所有相邻节点间一直重复进行纠缠产生。如果相邻节点间的量子比特之间纠缠产生成功,则暂时终止该两个比特之间的纠缠产生,直到这两个量子比特空闲时(无纠缠时),才继续执行纠缠产生。如果纠缠态存储时间太长,导致纠缠态保真度低,可以执行纠缠纯化或者纠错等来提高保真度。当然也可以设定一个阈值,当纠缠信道存储时间超过阈值,保真度太低,直接舍去该信道,重新产生一个高保真度的纠缠信道。在无导向情况中,网络中的相邻节点之间会保持一定数量的纠缠信道资源可供使用。当经典帧从上游节点到达下游节点时,控制单元会根据一定的调度算法分配一条纠缠信道给该帧(只考虑一条纠缠信道情况)。在该量子比特没有释放前,不允许将该信道及其量子比特用于其他用途。当多个经典帧从同一个上游节点到达同一个下游节点时,会有相应的排队机制给帧分配纠缠信道。比如按照时间先后顺序来排队,可以简单分为四种情况。第一种为图 21(a)中的(I),一个帧对应一个纠缠信道。这时候控制单元可以直接将该信道分配给该帧。第二种是图 21(a)中的(II),到达帧数量小于现存的纠缠信道资源,控制单元按照到达的先后顺序从上到下分配纠缠资源。比如 f1 和 f2 分别分配了从上至下第一个和第二个纠缠信道。第三种为图 21(a)中的(III),到达的经典帧数量超48过已有的纠缠信道。控制单元按照帧到达的顺序分配对应空间上的纠缠信道。未分到的帧则需要等待新的纠缠信道的产生。第四种是图21(a)中的(IV),所有量子比特都有纠缠信道,到达的经典帧数量多于比特数量。没有被分配到的帧需要等待被占据的量子比特被释放,然后新的空闲纠缠信道产生以后才可以被分配。第二种场景为图 21(b)中经典帧导向的纠缠产生,即帧被分配到量子比特后,控制单元启动纠缠产生程序来建立纠缠信道。相比无导向方案,这里纠缠信道的建立会比较慢,经典帧到达并被分配量子比特后方可为其产生纠缠,但是在网络业务量少的时候,更节省网络资源。对于帧导向的纠缠产生,我们也需要根据帧到达的数量来合理为其分配量子比特。简单分为四种情况讨论:第一种为图 21(b)中的(I),所有的量子比特都是空闲状态,所到的经典帧数量少于量子比特数。节点按照帧到达的时间顺序分配空间的量子比特资源。图中虚线框表示框内的量子比特对已被划分给右侧相应的帧。第二种为图21(b)中的(II),部分量子比特因为被之前经过的帧占用,还未释放,到达的经典帧数量少于等于空闲量子比特数,此时控制单元将空闲的量子比特按照先后顺序合理分配给对应的帧。第三种为图 21(b)中的(III),所有量子比特均为空闲状态,到达的帧数量多于比特数。此时按照时间顺序分配完量子比特,未被分配到的帧则需要等待再次释放的量子比特对。第四种为图 21(b)中的(IV),有部分量子比特被占用,到达的帧数量多于空闲比特数。此时帧只能从空闲量子比特中分配,未被分配到帧需要等待新的被释放的量子比特。493.2.2 纠缠纠缠交换交换和信道延长和信道延长当经典帧被分配纠缠信道以后,就需要进一步延长纠缠信道到更远的节点。这里有两个问题需要解决:(1)如何选择下一个节点;(2)如何延长纠缠信道到下一个节点。图 22.经典帧辅助的量子纠缠信道延长方案。BSM 为 Bell 态测量。图 22 给出了一个包含 5 个节点的十字型结构。假设我们需要建立西部节点和北、东、南节点的三个纠缠信道。由于帧 f1,f2 和 f3的地址分别是北方、东部和南方节点。当这三个帧从西部节点传输到中间节点时,经典处理器会读取帧包头中的地址信息来决定下一个节点,随后将帧发送到下一个对应的节点。当节点在处理经典帧的同时,控制单元会按照上一节内容介绍的相邻节点纠缠信道分配方法给这三个帧分配纠缠信道。以无导向纠缠产生情况为例,当 f1,f2 和 f3分别到达下一个目的节点后(对应图 22 中的北、东、南节点),控制单元会分配一个中间节点和目的节点之间的纠缠信道。然后中间节点会在每个帧所属的量子比特之间执行 Bell 态测量来完成纠缠交换。于是西部节点和各个帧的目的节点之间的纠缠信道建立完成。这里的50Bell 态测量,既可以是帧到达下一个节点后,当纠缠信道分配完成,由下一个节点发送消息到上一个节点让其执行,也可以是根据实际部署的节点长度等信息来提前商定一个时间来执行。例如根据帧选择的路径,提前计算帧到达下一个节点的时间以及纠缠信道分配的时间来设定一个时间 T 去执行,当帧离开该节点 T 时间后,自动执行 Bell态测量。在这个结构中,通过上述方案,既完成了路径的选择,也完成了纠缠信道的延长。图 23.经典帧辅助的混合分组交换端到端纠缠分发。标注 f 的黑色方框代表经典帧。虚线部分代表纠缠信道,黑色实线部分代表物理连接的通道。(a)网络拓扑和最终的线路。绿色线条代表路最终径。(b)51A-B 之间端到端纠缠分发的 7 个阶段。只给出 A-1-3-B 四个节点。3.2.3 端到端的纠缠分发端到端的纠缠分发以图 23(a)中的量子网络为例阐述端到端纠缠分发。发送方为A,接收方为 B。目标是实现 A 到 B 的纠缠分发。过程如图 23(b)所示。(I)发送方 A 产生一个包含接收方 B 地址等信息的帧并将其发送到节点 1。考虑无导向的纠缠产生。(II):帧到达节点 1,其包头被经典处理器分析。通过查找本地路由表和比对包头中的地址信息,选择节点 3 作为下一个目标节点。随后帧会被发送到节点 3。当帧被处理时,控制单元会给该帧分配一个节点 A 和 1 之间的纠缠信道。图中虚线部分代表纠缠信道。(III)帧到达节点 3 后被处理,包头信息被读取。节点 B 被选为下一个目标节点。同时该帧被分配一条纠缠信道。随后帧被发送到下一个通道。(IV)节点 1 中的经典处理器控制量子设备执行纠缠交换。测量结果通过经典网络发送给接收方 B。此时经典帧所对应的纠缠信道扩展为 A 和节点 3 之间。此时的帧还在 3 和 B 之间的通道传输(这里假设了 Bell 态测量时间小于帧在 3和 B 通道传输时间)。(V)经典帧到达接收方 B,包头被处理。控制单元分配给帧一条节点 3 和 B 之间的纠缠信道。(VI)节点 3 执行纠缠交换,测量结果发送给 B。此时端到端的纠缠信道形成。(VII)节点 B 接收到所有的 Bell 态测量结果。根据结果节点 B 对纠缠信道做对应的量子操作来修正纠缠态。同时给 A 发送任务完成的确认信息。任务结束。3.2.4 讨论讨论52在上述方案中,我们需要通过运行经典互联网分组交换技术来辅助完成量子信道的纠缠分发。而整个过程中,被划分的量子信道逐跳延长和经典互联网的分组交换有类似之处。在以上这个例子中,我们只假设了一条纠缠信道,其实根据需要可以分发多条用于其他用途,比如单次分发多条端到端的纠缠信道用于量子任务执行,还有多条信道用于节点之间的纠缠纯化和纠错。除了以上一个帧的例子,还可以同时执行相同用户之间的多个帧请求,或者不同用户之间的多个帧请求。从例子中可以看出这里的混合分组交换和经典分组交换有所不同,当帧离开上一个节点以后,对应的量子资源不能立即释放给其他用途,需要等到 Bell 态测量结束后才可以释放。如果需要再次建立相邻节点之间的纠缠信道,需要等到两个节点的量子比特都被释放。和DiAdamo 等人的方案不同的是,这里的混合分组交换方案直接使用经典帧,不需要合成经典-量子混合帧。在这一点上可以直接使用经典互联网的基础设备,省略了一些额外的操作。除此之外,由于帧的传输和纠缠信道的建立是两个独立过程,所以并不需要经典帧和量子信号在传输上有时间关联。整个网络的中间节点间可以采用不同的纠缠产生方式,在这一点上具有更高的灵活度,使得该方案对纠缠分发的过程具有很好的兼容性和鲁棒性。四四、量子互联网运行模式设计量子互联网运行模式设计在量子互联网发展的初期,由于物理层各类量子技术的限制,许53多器件和功能相对来说都不成熟。对于该阶段量子互联网的研究,需要考虑其实际的硬件限制。对此我们提出了一套初期少资源量子互联网运行模式来执行任意用户之间的任务请求97。在量子设备资源少的情况下,如何使量子网络满足运行有一定需求的量子应用,比如最小保真度、最小吞吐量和低时延等,是一个很重要的问题。这里考虑量子互联网中可以兼容第一、二和三代量子中继器技术。4.1 基本假设基本假设首先假设研究的量子网络有以下几个特点:(1)网络设备数量少,量子内存小;(2)各类量子应用要求多,如低时延、最小保真度和最小吞吐量等;(3)量子比特相干时间短,转移量子态会降低态的质量;(4)传输量子数据可以有很多技术,比如利用量子纠错码逐跳转发和利用远程纠缠态进行量子隐形传态;(5)量子纠错码和纠错方式需要根据业务的需求、路径的资源和质量等条件确定,远程纠缠态的构建需要路径上的量子路由器和中继器等进行协同操作。4.2 量子网络设计整体要求量子网络设计整体要求(1)量子网络布局:整个网络分为用户网络和主体网络两部分。54如图 24 所示,主体网络为中央虚线所包含的区域,也就是不包含用户节点的网络节点部分。用户网络则为用户和其最近邻的路由节点组成的网络区域,例如右下角虚线框内 C1,C2 和 3 这三个节点组成的局域用户网络。图 24.初期少资源量子网络设计示意图。(2)量子网络节点类型:用户、用户端相连的量子路由器、主体网络量子路由器和主体网络量子中继器。(3)量子路由器部署:用户端相连的量子路由器使用第三代量子中继器技术且量子路由器具有一定的请求判别功能,主体网络可以兼容第一、二和三代量子中继器技术。(4)量子网络调控模式:取消自治域模式,主体网络采用全网统一调控的集中式模式。由中央控制器向量子路由器和量子中继器下发规则集和转发表等。主体网络只负责目标用户端量子路由器之间的数据分发或纠缠分发。(5)量子网络连接和资源分配模式:网络采用面向连接、固定路径和预留资源的方式运行,由中央控制器根据业务需求和网络资源55使用情况来计算定制化的连接和资源分配方案。(6)帧结构设计:正式传输量子数据时,包头仅携带请求标识(ID)和路径 ID,不需要携带源地址、目的地址和端口号等。同一个请求的量子数据帧的大小相同。(7)内存和网卡:用户端量子计算机内部不区分本地量子内存和量子网卡。图 25.本地请求建立连接的流程图。4.3 量子请求运行方案量子请求运行方案首先设定所有用户的请求都需要先通过与其连接最近的量子路由器来预先判别和处理,随后根据需要来决定是否将请求发送至中央处理器。如果是同一个量子路由器上的相邻用户节点之间的通信需求,则不需要请求中央处理器,直接由该量子路由器来完成。如果请求是不同量子路由器相连的用户之间的请求,则发送方量子路由器将请求发送至中央处理器来处理。本地请求建立连接的流程如图 25 所示。56(1)用户 A1 发送请求到量子路由器 A。(2)量子路由器 A 判断该请求为本地请求。(3)量子路由器 A 为该请求计算方案、检查资源、设定标签。(4)量子路由器 A 向用户 A1 和 A2 询问资源是否满足该请求。(5)用户 A1 和 A2 检查资源并回复量子路由器 A。(6)为该请求建立连接。图 26.远程请求建立连接的流程图。远程请求建立连接的流程如图 26 所示。(1)用户 A1 发送请求到量子路由器 A。(2)量子路由器 A 判断该请求为远程请求,将其转发至中央控制器处理。(3)中央控制器为该请求计算方案。(4)中央控制器向量子路由器 A 和 B 询问资源是否满足完成该请求,A、B 向用户 A1、B1 询问资源是否满足完成该请求。(5)用户 A1、B1 检查资源并回复量子路由器 A、B,量子路由器 A 和 B 检查资源并回复给中央控制器。(6)中央控制器为该请求分配 ID,向选定路径上的量子路由器57下发规则,建立连接。五五、量子应用量子应用协议运行协议运行示例示例基于纠缠的量子互联网执行量子信息任务时,首先需要建立端到端的纠缠信道。随后在该信道的基础上结合经典通信来完成一系列应用层任务,比如 QKD 和分布式量子计算等。所以端到端的纠缠分发是非常关键的一步。而实现端到端的纠缠分发可以有很多途径。如果类比经典互联网模式来执行量子互联网端到端纠缠分发,在网络层模式上可以选择面向连接和无连接,交换技术上可以选择电路交换和分组交换。电路交换只能适用于面向连接,而分组交换配合其他辅助控制系统,比如软件定义网络,可以适用于面向连接和无连接两种模式。和经典互联网相似,面向连接的电路交换方式,需要在网络中选择一条路径来预留资源。这种方式可以很好地保证通信的质量。但是由于需要预留资源,就会在包含大量用户业务的大规模网络中造成网络资源无法被充分利用。而无连接的分组交换就可以很好地解决这个问题,其不需要提前预留资源。如此一来,网络中的信道资源就不会被某一个或几个业务占用,资源得到充分利用。但是由于完全的无连接分组交换运行,也会面临一些自身的难题,比如可能会出现很多帧都被转发到某一条路径上,造成该路段的严重拥挤而导致很长的时延。此外帧在转发的过程中由于没有预留资源而造成丢失,也就是传统互联网中的丢包等,这些都会影响网络运行质量。为了改善以上的问题,可58以通过中央控制器的参与来宏观调控实际的分组交换运行。本章就是针对这个问题在量子互联网中设计一个中央控制器参与调控的分组交换实模式实现端到端纠缠分发,进而运行应用层的量子应用协议。主要思想是中央控制器为帧提前选定一条路径,但是不预留资源。在选定的路径上运行量子互联网分组交换。如此一来,遇到大量用户业务时,可以根据业务量来宏观调控帧的走向,一定程度上避免网络中某一条路径的严重交通拥堵。以下内容以 QKD 和分布式量子计算为例,展示完整的运行过程。图 27 用户 A1 和 D2 之间执行 BBM92-QKD 应用协议。5.1 量子密钥分发量子密钥分发本部分内容以量子互联网中执行 QKD 为例,结合混合分组交换技术以及上一章中的部分请求调度过程详细阐述整个流程。由于上一章中涉及的均为面向连接的预留资源的模式,我们这里仅采用其前期中央控制系统调度选取路径的部分,其他部分均在本章重新设计。量子任务请求:如图 27 所示,用户 A1 需要和用户 D2 进行 QKD。59采用基于纠缠的 BBM92 协议。关于量子任务其他要求如下表格所示。量子任务请求列表发送请求用户A1目标用户D2具体任务QKD协议类型BBM92网络类型纠缠网络中继类型第二代量子中继连接模式面向连接但不预留资源交换模式混合分组交换纠缠分发保真度xxx吞吐量xxx密钥率xxx.表 3.量子任务请求列表。量子互联网对 QKD 任务执行过程如图 28(a)和(b)所示。左侧为过程图示,右侧为对应的文字讲解。60图 28(a).量子互联网用户 A1 和 D2 之间执行 BBM92-QKD 过程。61图 28(b).量子互联网用户 A1 和 D2 之间执行 BBM92-QKD 过程。62在整个过程中,图中(1)-(2)为请求发送,(3)-(7)为资源调度(主要是路径选择)。(8)-(11)为正式开始端到端纠缠分发。以上整个过程在中央控制系统调控下运行分组交换技术。这种模式可以在充分利用量子互联网资源的同时,也可以改善交通拥堵的情况。端到端的纠缠分发建立完成后,就可以执行 QKD 协议,即(12)和(13)。该过程需要多次使用经典互联网来传递信息,比对测量结果。图 29.量子互联网中用户 A1 和 D2 之间的分布式量子计算执行过程。5.2 分布式量子计算分布式量子计算分布式量子计算是量子互联网的又一个重要量子应用任务。其利63用量子互联网将分布在不同端点的量子处理器连接起来共同计算一个大型计算任务。在分布式量子计算中,需要量子互联网来实现非局域的 CNOT 门,过程如图 29 所示。这里形成端到端的纠缠分发过程省略,直接参考上一节图 28 中(1)-(11)。六、六、量子算网协同量子算网协同6.1 量子计算量子计算协同化协同化发展趋势发展趋势6.1.1 量子云计算量子云计算目前量子计算机的运行需要极其特殊的环境(如极低温、复杂的控制系统等)和高昂的运维成本,使得个人和企业用户难以在本地部署。量子云计算是一种新兴的计算架构,它允许用户通过云平台访问和使用量子计算资源而无需自己拥有和维护物理量子计算机98。目前,绝大部分量子云计算平台仍依赖于经典架构进行管理和调度,这种架构通常被称为量子-经典混合云计算。在这种模式下,用户提交的量子线路任务首先由经典网络云服务接收,随后转发至量子处理器执行。计算完成后,结果会返回经典云,并最终传送给用户。未来,量子云计算的一项关键创新是将其与量子网络进行深度整合,从而实现分布式量子云计算。6.1.2 量量子子-超超算算融合计算融合计算在高性能计算(HPC)系统的发展历程中,始终通过引入新的专64用加速器支持新的计算范式,例如,从早期处理器架构中的算术逻辑单元(ALU)和浮点运算单元(FPU),到后来的向量处理器和图形处理单元(GPU),专用加速器的演进不断推动高性能计算能力的提升。随着量子计算技术的发展,量子处理单元(QPU)被视为一种新型加速器,适用于那些在传统计算中资源需求随问题规模呈指数增长的任务,如整数分解、化学和物理中的电子结构计算,以及高能物理中的散射振幅计算等。然而对于其他一些问题,目前还没有相关算法显示量子计算机具有计算优越性。例如对于预处理、后处理、输入输出(I/O)和可视化等辅助任务,目前经典计算资源仍然是更优选择。因此融合经典超级计算机和量子计算的“量子-超算融合计算”架构,有望带来大量能实现“量子优越性”的混合算法。其中最具代表性的例子之一是变分量子算法。这种算法类似深度学习,通过参数化的量子线路求解目标函数,再通过经典优化器迭代更新量子参数,逐步逼近最优结果。要实现真正高效的量子-超算融合计算,还需要解决数据传输、资源管理和工作流管理等多方面的问题。将 QPU 集成到 HPC 系统中主要有三种部署方式99:远程访问:QPU 作为独立的运算单元,通过网络接口与 HPC 系统进行交互。这种方式部署灵活,但通信延迟可能会抵消部分量子计算的效率优势,而且需要确保传输数据的安全性和完整性。本地集成:量子硬件位于经典计算基础设施的物理邻近位置,能有效降低延迟,提供了更高的性能和安全性,但部署和维护成本都相65对更高。节点集成:将 QPU 集成到 HPC 节点内部,理论上可以实现最佳性能。但目前量子计算机的运行环境要求较为苛刻,如低温冷却系统、高频信号发生器和精确的环境控制等,节点集成面临显著的工程挑战。6.1.3 分布式量子计算分布式量子计算当前,量子芯片所支持的量子比特数量仍较为有限,尚不足以支持规模较大的复杂量子算法。而对其规模的进一步扩展则受限于退相干、串扰、芯片拓扑以及控制电子学的复杂性。因此,突破单芯片能力限制,成为当前量子计算架构设计的重要方向。分布式量子计算被认为是克服这一瓶颈的可行路径之一。未来,分布式量子计算系统可以通过量子网络连接分布于不同空间的不同量子硬件,构建起异构、可扩展的量子计算系统。根据在网络中的通信方式,分布式计算可以大致分为两类。(1)量子节点之间仅进行经典通信,量子信息不在节点间直接传输。这一类又包括以下两个类型100,101。线路分割(Circuit Cutting):该方法将大规模的量子线路拆分成多个小规模的量子线路,分散在多个量子节点上执行,再通过经典后处理整合各个子线路的输出,得到最终的结果。但需要注意的是,该方法的复杂度会随着被切割的量子比特数量或门的数量呈指数增长,因此它仅适用于稀疏交互或可分解结构的量子线路。尴尬并行(Embarrassingly Parallel):这类任务指的是一些天然适合并行化的任务。它们可以在多个量子芯片上独立运行,仅需要最后66汇总结果。但前提是单个量子节点具备承载任务基本单元的能力。如果量子节点上的量子比特数量过少,则需要辅以线路切割或线路分布进行进一步的任务分解。(2)量子节点之间不仅有经典通信,还有量子通信。这种模式也叫做线路分布,允许不同节点间直接传输量子信息,可实现多种量子机制。它将单个量子线路分成多个子线路,分别运行于不同的量子节点中,各节点通过远程量子门或量子隐形传态保持量子相关性。以量子隐形传态为例,传输一个量子比特需要同时传输 2 个经典比特的测量结果。原则上,该方法可以执行任意的量子算法,但也对量子网络提出了更高要求。可以看到,量子计算的发展对计算和网络的共同协作提出了更高要求。6.2 量子算网协同发展背景量子算网协同发展背景在经典计算体系中,“算网协同”已被广泛认为是未来基础设施发展的重要趋势,用户无需关心计算资源的物理位置和网络位置,通过算力和网络的共同协作为业务提供端到端的服务质量保障。在量子体系中,由于其独特性和复杂性,算力和网络的协作更为重要。具体来说,主要有以下原因:6.2.1 量子应用对保真度的特殊要求量子应用对保真度的特殊要求不同于经典应用,量子应用不仅要求资源充足,还必须满足量子态的保真度的要求。保真度用于衡量制备的量子态与理想量子态的接67近程度,反应了量子态的质量。保真度的取值范围是 0-1,1 表示理想状态,小于 0.5 则不再可用。部分量子应用还可能有更高要求。这意味着在量子网络中即使网络具备高吞吐量,如果不能保证量子态传输的保真度,也无法实现量子应用的正常运行。6.2.2 量子算力特性对通信延迟的敏感性量子算力特性对通信延迟的敏感性量子计算中的计算量子比特需要在整个计算过程中保持量子状态,即整个计算时间需要小于量子比特的相干时间。这要求网络需要在严格的时间范围内内完成所需的量子通信和经典通信。不同技术路线的相干时间差异较大:超导体系:约百微秒;中性原子体系:约秒级;固态自旋体系:电子自旋约毫秒至秒级,核自旋秒至分钟级;离子阱体系:超过 1 小时。对于早期尚未完全成熟的量子网络,对网络的要求尤为严苛,算网协同需对此作出高效响应。但量子计算机进一步发展后,相干时间得以延长,这一要求会逐渐得到放宽。6.2.3 计算量子比特与通信量子比特的资源分配权衡计算量子比特与通信量子比特的资源分配权衡量子算力资源中的量子比特可以分计算量子比特和通信量子比特。目前实验中两类量子比特通常采用不同的物理实现,如固态自旋体系的氮-空穴金刚石色心的量子计算方案采用电子自旋与核自旋分别承担通信与计算功能。未来可能实现可以自由划分用途的通用量子比特,这面临算力资68源和网络通信资源的权衡问题。若将量子比特投入网络通信,可以并行执行的远程操作就越多,降低通信开销。但相对的计算量子比特会减少,降低算力。6.2.4 早期量子网络资源受限早期量子网络资源受限预计初期的量子网络中量子路由器上的量子比特数量、纠缠成功概率等都很低,能够提供的带宽小于 1000 qubits/s。该数值远小于目前经典网络的带宽。这意味着涉及到量子网络的业务更需要精细地调度网络资源,提高网络资源的利用效率。6.2.5 涉及资源更复杂,协同需求更强涉及资源更复杂,协同需求更强一个量子业务的完成可能需要多个量子计算节点、经典算力资源、量子网络以及经典网络。涉及到的资源将比经典体系的更复杂,因此更需要进行协同来完成。尤其对于第二类分布式量子计算(线路分布),多个量子节点间不仅在最后收集结果时需要交互,计算过程中同样会频繁进行阻塞式通信。6.3 量子算网协同基础理论和研究方向量子算网协同基础理论和研究方向目前几乎没有量子算网协同的相关讨论,在这里,我们提出了一些未来的研究方向。类似经典体系中的算网操作系统102,量子算网系统的基础理论建立在对资源、业务以及调度的逻辑抽象模型上,量子算网协同也需要建立其自身的逻辑抽象模型。6.3.1 资源抽象与建模资源抽象与建模在量子算网协同中,既包括经典的算力资源和网络资源,也包括69量子算力资源和量子网络资源。其中经典资源部分与经典体系的算网协同中的抽象模型相同。下面我们重点讨论经典体系里没有包含的部分,即量子算力资源和量子网络资源。(1)量子算力资源建模对于量子算力资源,采用与经典算力资源统一的“资源量 供需关系 时空属性”三个维度的节点描述方法。其中“供需关系”和“时空属性”与经典算力资源的描述类似。而“资源量”则比经典的算力资源更为复杂。这主要源于目前多种体系的量子计算机并存,不同体系在多个维度上性能差异明显,且缺乏统一、权威的综合度量标准,使得资源量评估和对比变得极为复杂。目前针对“资源量”的评估可以主要可以从三个视角展开103:基础测控指标:包括量子比特数量、量子比特相干时间、量子比特连通性、量子门操作时间和保真度等,直接反应了量子计算机的底层能力。例如,在量子比特连通性较差的非全连接结构中,若需实现非相邻量子比特之间的量子门操作,必须插入大量 SWAP 门。这会增加量子线路深度,进而导致噪声和错误概率提高。综合性能指标:包括量子体积、算法量子比特数、随机线路采样测试、镜像基准测试和每秒可靠的量子操作数等。这些指标衡量了量子计算机在运行量子线路时的整体性能。应用性能指标:量子计算机在运行一些具体的量子算法(如量子傅里叶变换、Grover 搜索算法、相位和幅度估计算法、变分量子算法和量子近似优化算法等)时的实际表现。70如何准确建模量子算力资源,以便在量子业务到来时实现最适合的匹配,是未来的重要研究方向。(2)量子网络资源建模量子网络资源,同样可以采用“资源量 供需关系 时空属性”三个维度的对链路进行描述。其中“供需关系”和“时空属性”与经典网络资源的描述类似。对于“资源量”的描述,则相对复杂。经典网络可以从网络资源提提供的“带宽、时延、抖动”服务能力来对网络资源进行度量。对于基于第三代量子中继器技术的量子网络,可以比较自然地沿用“带宽、时延、抖动”的概念。而对于基于第一和二代量子中继器技术的量子网络,量子比特并非由发送端逐跳传输到接收端,而是网络链路自身通过纠缠产生和交换等操作,建立端到端的纠缠态,来完成量子比特的传输。因此有关概念的定义需要重新调整。类比带宽,目前一般使用“吞吐量”来衡量量子网络的性能,它定义为单位时间内形成的端到端纠缠态的数量。由于纠缠态的建立具有概率性,且与经典网络中的数据包不同,量子网络中的端到端纠缠态是相同的量子态,因此难以直接复用时延和抖动的概念。通过记录每对端到端纠缠态的建立时间来进行性能评估,如首对纠缠态的建立时间和建立间隔时间等。此外,不管采用哪种技术的量子网络,都应注意“保真度”这一重要指标。保真度和吞吐量可能存在权衡关系。纠缠纯化、量子纠错等技术可以提升保真度,但通常代价是吞吐量下降。71在量子网络发展早期,资源相对稀缺,如何准确地进行建模以及如何为量子业务分配量子网络中的量子资源是值得研究的课题。6.3.2 量子业务建模量子业务建模由于目前量子业务仍处于早期探索阶段,远未像经典体系那样形成成熟多样的服务形态,因此建模难度较高。它主要包括量子业务的自身特征、量子业务的运行条件和量子业务各个功能模块之间的交互拓扑关系。它们的核心都是业务对资源的要求。具体来说,对于需要利用经典算力资源进行预处理和后处理的量子业务,需要对 CPU/GPU 和内存进行评估。对于量子云计算和量超融合计算中需要经典通信的部分,确定量子业务在经典网络中所需的带宽、时延和抖动等指标。对于量子计算部分,需要计算出对量子比特数量、量子比特连通性、量子比特相干时间和错误率等的要求。对于第二类分布式量子计算中需要量子通信的部分,确定量子业务在量子网络中所需的端到端纠缠态的数量、建立完成最小时间和保真度等指标。准确抽象出量子业务对算力和网络的需求并建模,依赖于对量子算法的实现细节、量子计算机的硬件特性和量子网络机制有深入理解,是一项需要未来深入研究、持续推进的系统工程。6.3.3 调度框架建模调度框架建模调度建模的目的是将量子业务模型和量子资源模型相匹配,以最大化系统性能和效率。对于不需要量子通信的量子业务来说,即上述介绍的量子云计算、72量超融合计算和第一类分布式量子计算,节点之间仅通过经典网络连接,调度涉及经典算力资源、量子算力资源和经典网络,与经典体系中最大的不同就是如何根据量子业务的要求来选择适合的量子算力资源,目前有多个不同架构体系的量子硬件平台,由于他们的性能和特性不同,会导致不同平台执行相同的应用需要不同的资源分配。对于需要量子通信的第二类分布式量子计算就复杂的多。该调度框架需要包含经典算力资源、量子算力资源、经典网络资源和量子网络资源。除了需要根据量子业务的特点选择合适的量子算力资源外,还需要考虑一些额外的问题。一是需要寻找量子业务拆分到各个量子算力资源中的最优划分方案,使得对量子网络和量子算力资源的要求越小,且服务质量越高。二是选择的量子算力资源会影响对网络的要求。量子通信的时间需要小于量子算力资源的量子比特的相干时间,否则计算量子比特退相干将会导致计算失败。不同量子计算平台的相干时间各不相同,选择相干时间短的量子计算平台意味着对量子网络提出了更高的要求,这种情况更适配于短距离的量子通信。三是需要对量子算力资源中的计算量子比特和通信量子比特的分配进行调度决策,对算网的性能进行权衡。四是对于量子隐形传态、纠缠交换和纠缠纯化等操作,需要量子通信的同时,还伴有经典通信来传递测量结果,因此在选择网络资源时,需要协调经典网络和量子网络的时空属性,保证一致。不过虽然量子通信和经典通信的起点和终点需要一致,但他们可以各自选择各自不同的最优路径去实现通信。73七七、总结与展望、总结与展望在这个科技高速变革的信息时代,传统计算机互联网扮演着极其重要的角色。现代社会人与人之间的信息交换大多依赖于传统互联网平台。然而随着科技的发展,传统的信息安全和计算能力正在面临着以量子计算机为代表的新一代量子科技带来的巨大挑战,同时也是巨大的机遇。挑战来自于强大的量子计算机理论上可以攻破目前的公有密钥加密体系,严重威胁现代社会的信息安全。机遇是因为量子计算机的诞生可以大幅度提升算力,解决一些传统计算机无法有效计算的问题。幸运的是我们还可以发展量子通信来实现安全通信。而这一系列量子科技的交叉融合和大规模实用化就需要量子互联网。与传统互联网类似的是,量子互联网也是运行大量通信节点的网络平台。不同的是量子互联网平台运行的是量子通信、量子计算和量子传感等任务。目前量子互联网的发展还处于初期阶段。一方面这是由于量子互联网是许多量子信息应用的平台,通常是当上层的应用发展到一定的阶段才去研究它,导致这方面的研究起步相对较晚。另一方面是因为量子互联网基本物理原理和传统互联网差别很大,很多传统互联网的模式和技术无法直接复制到量子互联网,需要大量的新的探究。除此之外,底层量子技术还不成熟,限制了量子互联网的实验研究。所以目前量子互联网从底层的量子比特性能到上层的网络技术再到整体的运行架构都需要更多更深入的研究和发展。技术上,对于量子互联网的发展,下一个需要解决的关键问题是74构建实用化的量子中继。目前基于预报式的量子中继模型最需要的是长相干时间的量子存储。量子存储不仅对长距离量子通信很关键,还能用于长时间存储量子数据。而基于量子纠错码的量子中继需要在纠错码技术上有所突破,这也是目前量子计算所面临的重要挑战。只有实验上真正实现量子纠错码技术,才能构建大规模的量子计算机。量子网络数据交换技术也很关键。成熟的量子中继结合数据交换技术才能进一步实现网络层的路由功能,形成真正的网络通信。在实际部署过程中,通过共用传统互联网的一部分基础设施,比如光纤和光开关等,来发展量子互联网是一条非常有潜力的途径,可以直接使用经典通信的同时节约很多资源。业态方面,和传统互联网类似,当量子互联网技术成熟以后,结合上层量子应用协议,就会诞生出一些新的混合业态,比如量子算网协同。与单纯的某个量子应用协议不同的是,这些新型业态需要依赖量子互联网来实现。因此这些新型混合业态对量子互联网提出了更多的要求,需要对网络资源进行抽象和建模,开发更多的网络功能。本白皮书首先全面梳理了与量子互联网相关的内容,包括量子信息基础知识、量子互联网的应用层协议(量子通信、量子计算和量子精密测量)、量子中继、量子互联网协议栈和量子分组交换。通过对基本架构和相关基本知识的介绍和梳理,让读者对量子互联网有一个清晰的认识。在此基础上,本白皮书主要介绍量子互联网的混合分组交换技术和初期少资源情况下的网络模式设计方案。进一步以应用层协议 BBM92-QKD 和分布式量子计算为例,详细阐述中央控制器调75度下面向连接但不预留资源的分组交换量子互联网运行过程,给出了建立端到端量子纠缠信道和执行应用层协议的详细步骤。然后重点介绍了一种新型混合业态,即量子算网协同。最后从发展背景、网络技术和业态上对量子互联网进行总结和展望。76附录 A:术语与缩略语中文名称中文名称英文缩写英文缩写英文全拼英文全拼贝尔态/Bell state贝尔态测量BSMBell state measurementGHZ 态GHZ stateGreenberger-Horne-Zeilinger state受控非门CNOT gateControlled-NOT gate半正定算子值测量POVMPositive operator-valued measure量子密钥分发QKDQuantum key distribution诱骗态量子密钥分发Decoystate-QKDDecoy state quantum keydistribution测量设备无关量子密钥分发MDI-QKDMeasurement-device-independentquantum key distribution双场量子密钥分发TF-QKDTwin-field quantum keydistribution/EPREinstein-Podolsky-Rosen量子安全直接通信QSDCQuantum secure directcommunication/CSSCalderbank-Shor-Steane/RSARivest-Shamir-Adleman高级加密标准AESAdvanced encryption standard/KLMKnill-Laflamme-Milburn77中央处理器CPUCentral processing unit开放式系统互连OSIOpen system interconnect传输控制协议TCPTransmission control protocol网际互连协议IPInternet protocol标识IDIdentification高性能计算HPCHigh-performance computing图形处理器GPUGraphics processing unit量子处理单元QPUQuantum processing unit78参考文献1 曾谨言,量子力学,科学出版社。2 喀兴林,高等量子力学,高等教育出版社。3 郭光灿和周详发,量子光学,科学出版社。4 尹浩,韩阳等,量子通信原理与技术,电子工业出版社。5 M.A.Nielsen and I.L.Chuang,Quantum Computation and QuantumInformation,Cambridge University Press.6 F.Xu,X.Ma,Q.Zhang,H.K.Lo,J.W.Pan,Secure quantum keydistribution with realistic devices,Rev.Mod.Phys.92,025002(2020).7 C.H.Bennett and G.Brassard,Quantum cryptography:public keydistribution and coin tossing,in:Proceedings of IEEE InternationalConference on Computers,Systems,and Signal Processing(IEEE,New York,1984),p.175-179.8 A.K.Ekert,Quantum cryptography based on Bells theorem,Phys.Rev.Lett.67,661(1991).9 C.H.Bennett,G.Brassard,and N.D.Mermin,Quantumcryptography without Bells theorem,Phys.Rev.Lett.68,557(1992).10 H.-K.Lo,X.Ma,K.Chen,Decoy state quantum key distribution,Phys.Rev.Lett.94,230504(2005).11 X.-B.Wang,Beating the photon-number-splitting attack in practical79quantum cryptography,Phys.Rev.Lett.94,230503(2005).12 H.-K.Lo,M.Curty,and B.Qi,Measurement-device-independentquantum key distribution,Phys.Rev.Lett.108.130503(2012).13 M.Lucamarini,Z.L.Yuan,J.F.Dynes,and A.J.Shields,Overcoming the rate-distance limit of quantum key distributionwithout quantum repeaters,Nature(London)557,400-403(2018).14 C.H.Bennett,G.Brassard,C.Crpeau,R.Jozsa,A.Peres,and W.K.Wootters,Teleporting an unknown quantum state via dual classicaland Einstein-Podolsky-Rosen channels.Phys.Rev.Lett.70,1895(1993).15 D.Pan,G.L.Long,L.Yin,Y.B.Sheng,D.Ruan,S.X.Ng,J.Lu,and L.Hanzo,The evolution of quantum secure direct communication:on the road to the Qinternet,IEEE Commun.Surv.Tutor.26,1819(2024).16 G.L.Long and X.S.Liu,Theoretically efficient high capacityquantum key distribution scheme,Phys.Rev.A65,032302(2002).17 F.G.Deng,G.L.Long,and X.S.Liu,Two-step quantum directcommunication protocol using the Einstein-Podolsky-Rosen pairblock,Phys.Rev.A68,042317(2003).18 R.Feynman,Simulating physics with computers,InternationalJournal of Theoretical Physics 21,467(1982).19 P.W.Shor,Algorithms for quantum computation:discrete logarithms80and factoring,in Proceedings of the 35th Annual Symposium onFoundations of Computer Science,Santa Fe,p124,(1994).20 L.K.Grover,in Proceedings of the 28th Annual ACM Symposiumon Theory if Computing,STOC96(ACM,New York,NY,USA,1996),p212(1996).21 J.F.Fitzsimons,Private quantum computation:an introduction toblind quantum computing and related protocols,npj Quantum Inf.3,23(2017).22 Y.-C.Wei,P.-J.Stas,A.Suleymanzade,et al.,Universal distributedblind quantum computing with solid-state qubits,Science 388,509-513(2025).23 X.Liu,X.M.Hu,T.X.Zhu,C.Zhang,Y.X.Xiao,J.L.Miao,Z.W.Ou,P.Y.Li,B.H.Liu,Z.Q.Zhou,C.F.Li,and G.C.Guo,Nonlocalphotonic quantum gates over 7.0 km,Nat.Commun.15,8529(2024).24 D.Main,P.Drmota,D.P.Nadlinger,E.M.Ainley,A.Agrawal,B.C.Nichol,R.Srinivas,G.Araneda,and D.M.Lucas,Distributedquantum computing across an optical network link,Nature(London)638,383(2025).25 J.Preskill,Quantum Computing in the NISQ era and beyond,Quantum 2,79(2018).26K.Bharti,A.Cervera-Lierta,T.H.Kyaw,etal.,Noisyintermediate-scale quantum algorithms,Rev.Mod.Phys.94,01500481(2022).27 H.-L.Huang,X.-Y.Xu,C.Guo,G.Tian,S.-J.Wei,X.Sun,W.-S.Bao,and G.-L.Long,Near-term quantum computing techniques:Variational quantum algorithms,error mitigation,circuit compilation,benchmarking and classical simulation,Sci.China-Phys.Mech.Astron.66,250302(2013).28 C.L.Degen,F.Reinhard,and P.Cappellaro,Quantum sensing,Rev.Mod.Phys.89,035002(2017).29 L.Pezz,A.Smerzi,M.K.Oberthaler,R.Schmied and P.Treutlein,Quantum metrology with nonclassical states of atomic ensembles,Rev.Mod.Phys.90,035005(2018).30 T.J.Proctor,P.A.Knott,and J.A.Dunningham,Multi-parameterestimation in networked quantum sensors,Phys.Rev.Lett.120,080501(2018).31 D.H.Kim,S.Hong,Y.S.Kim,Y.Kim,S.W.Lee,R.C.Pooser,K.Oh,S.Y.Lee,C.Lee,and H.T.Lim,Distributed quantum sensing ofmultiple phases with fewer photons,Nat.Commun.15,266(2024).32 L.Z.Liu,Y.Z.Zhang,Z.D.Li,R.Zhang,X.F.Yin,Y.Y.Fei,L.Li,N.L.Liu,F.Xu,Y.A.Chen,and J.W.Pan,Distributed quantumphase estimation with entangled photons,Nat.Photonics 15,137(2021).33 P.Kmr,E.M.Kessler,M.Bishof,L.Jiang,A.S.Srensen,J.Ye,82and M.D.Lukin,A quantum network of clocks,Nat.Phys.10,582(2014).34 D.Gottesman,T.Jennewein,and S.Croke,Longer-baselinetelescopes using quantum repeaters,Phys.Rev.Lett.109,070503(2012).35 D.P.DiVincenzo,The physical implementation of quantumcomputation,Fortschritte de Physik 48,771(2000).36 Z.-L.Xiang,S.Ashhab,J.Q.You,and F.Nori,Hybrid quantumcircuits:Superconducting circuits interacting with other quantumsystems,Rev.Mod.Phys.85,623(2013).37 S.Wehner,D.Elkouss,and R.Hanson,Quantum internet:a visionfor the road ahead,Science 362,eaam9288(2018).38 K.Fang,J.Zhao,X.Li,Y.Li,and R.Duan,Quantum NETwork:from theory to practice,Sci.China Inf.Sci.66,180509(2023).39 Z.Li,K.Xue,J.Li,L.Chen,R.Li,Z.Wang,N.Yu,D.S.Wei,Q.Sun,and J.Lu,Entanglement-assisted quantum networks:Mechanics,enabling technologies,challenges,and research directions,IEEECommun.Surv.Tutor.25,2133(2023).40 C.Elliott,A.Colvin,D.Pearson,et al.,Current status of the DARPAquantum network,In Quantum Information and Computation III Vol.5815,138150(International Society for Optics and Photonics,2005).8341 M.Peev,C.Pacher,R.Allaume,et al.,The SECOQC quantum keydistribution network in Vienna.New J.Phys.11,075001(2009).42 D.Stucki,M.Legr,F.Buntschu,et al.,Long-term performance ofthe SwissQuantum quantum key distribution network in a fieldenvironment,New J.Phys.13,123001(2011).43 M.Sasaki,M.Fujiwara,H.Ishizuka,et al.,Field test of quantum keydistribution in the Tokyo QKD Network,Opt.Express 19,10387(2011).44 T.-Y.Chen,H.Liang,Y.Liu,et al.,Field test of a practical securecommunication network with decoy-state quantum cryptography,Opt.Express 17,6540(2009).45 S.Wang,W.Chen,Z.-Q.Yin,et al.,Field test of wavelength-savingquantum key distribution network,Opt.Lett.35,2454(2010).46 T.-Y.Chen,J.Wang,H.Liang,et al.,Metropolitan all-pass andinter-city quantum communication network,Opt.Express 18,27217(2010).47 T.-Y.Chen,X.Jiang,S.-B.Tang,et al.,Implementation of a 46-nodequantum metropolitan area network,npj Quantum Inf.7,134(2021).48 S.-K.Liao,W.-Q.Cai,J.Handsteiner,et al.,Satellite-relayedintercontinental quantum network,Phys.Rev.Lett.120,030501(2018).49Y.-A.Chen,Q.Zhang,T.-Y.Chen,etal.Anintegrated84space-to-groundquantumcommunicationnetworkover4,600kilometres,Nature 589,214-219(2021).50 J.-L.Liu,X.-Y.Luo,Y.Yu,et al.,Creation of memory-memoryentanglement in a metropolitan quantum network,Nature 629,579-585(2024).51 K.Azuma,S.E.Economou,D.Elkouss,P.Hilaire,L.Jiang,H.K.Lo,I.Tzitrin,Quantum repeaters:From quantum networks to thequantum internet,Rev.Mod.Phys.95,045006(2023).52 N.Sangouard,C.Simon,H.de Riedmatten,and N.Gisin,Quantumrepeaters based on atomic ensembles and linear optics,Rev.Mod.Phys.83,33(2011).53 S.Muralidharan,L.Li,J.Kim,N.Ltkenhaus,M.D.Lukin,and L.Jiang,Optimalarchitecturesforlongdistancequantumcommunication,Sci.Rep.6,20463(2016).54 C.H.Bennett,G.Brassard,S.Popescu,B.Schumacher,J.A.Smolin,and W.K.Wootters,Purification of noisy entanglement and faithfulteleportation via noisy channels,Phys.Rev.Lett.76,722(1996).55 J.W.Pan,C.Simon,C.Brukner,and A.Zeilinger,Entanglementpurification for quantum communication,Nature(London)410,1067(2001).56 X.M.Hu,C.X.Huang,Y.B.Sheng,et al.,Long-distanceentanglement purification for quantum communication,Phys.Rev.85Lett.126,010503(2021).57 Y.B.Sheng and F.G.Deng,Deterministic entanglement purificationand complete nonlocal Bell-state analysis with hyperentanglement,Phys.Rev.A81,032307(2010).58 H.Zhang,X.Xu,C.Zhang,M.-H.Yung,T.Huang,and Y.Liu,Variational quantum circuit learning of entanglement purification inmultiple degrees of freedom,Phys.Rev.A108,042611(2023).59 P.W.Shor,Scheme for reducing decoherence in quantum computermemory,Phys.Rev.A52,R2493-R2496(1995).60 D.Gottesman,Stabilizer codes and quantum error correction,arXiv:quant-ph/9705052(1997).61 B.M.Terhal,Quantum error correction for quantum memories,Rev.Mod.Phys.87,307(2015).62 H.J.Briegel,W.Dr,J.I.Cirac,and P.Zoller,Quantum repeaters:the role of imperfect local operations in quantum communication,Phys.Rev.Lett.81,5932(1998).63 L.M.Duan,M.D.Lukin,J.I.Cirac,and P.Zoller,Long distancequantum communication with atomic ensembles and linear optics,Nature(London)414,413(2001).64 B.Zhao,Z.B.Chen,Y.A.Chen,J.Schmiedmayer,and J.W Pan,Robust creation of entanglement between remote memory qubits,Phys.Rev.Lett.98,240502(2007).8665 T.J.Wang,S.Y.Song,and G.L.Long,Quantum repeater based onspatial entanglement of photons and quantum-dot spins in opticalmicrocavities,Phys.Rev.A85,062311(2012).66 S.Perseguers,L.Jiang,N.Schuch,F.Verstraete,M.D.Lukin,J.I.Cirac,and K.G.H.Vollbrecht,One-shot entanglement generationover long distances in noisy quantum networks,Phys.Rev.A,78,062324(2008).67 L.Jiang,J.M.Taylor,K.Nemoto,W.J.Munro,R.Van Meter,andM.D.Lukin,Quantum repeater with encoding,Phys.Rev.A 79,032325(2009).68 W.J.Munro,K.A.Harrison,A.M.Stephens,S.J.Devitt and K.Nemoto,From quantum multiplexing to high-performance quantumnetworking,Nat.Photonics 4,792(2010).69 A.G.Fowler,D.S.Wang,C.D.Hill,T.D.Ladd,R.Van Meter,andL.C.L.Hollenberg,Surface code quantum communication,Phys.Rev.Lett.104,180503(2010).70 W.J.Munro,A.M.Stephens,S.J.Devitt,K.A.Harrison,and K.Nemoto,Quantum communication without the necessity of quantummemories,Nat.Photonics 6,777(2012).71 S.Muralidharan,J.Kim,N.Ltkenhaus,M.D.Lukin,and L.Jiang,Ultrafast and fault-tolerant quantum communication across longdistances,Phys.Rev.Lett.112,250501(2014).8772 K.Azuma,K.Tamaki and H.K.Lo,All-photonic quantum repeaters,Nat.Commun.6,6787(2015).73 Z.-D.Li,R.Zhang,X.-F.Yin,et al.,Experimental quantum repeaterwithout quantum memory,Nat.Photonics 13,644-648(2019).74 G.L.Long,D.Pan,Y.Sheng,Q.Xue,J.Lu,and L.Hanzo,Anevolutionary pathway for the quantum internet relying on secureclassical repeaters,IEEE Netw.36,82-88(2022).75 C.Delle Donne,M.Iuliano,B.van der Vecht,et al.,An operatingsystem for executing applications on quantum network nodes,Nature639,321328(2025).76 H.Shapourian,E.Kaur,T.Sewell,J.Zhao,M.Kilzer,R.Kompella,and R.Nejabati,Quantum Data Center Infrastructures:A ScalableArchitectural Design Perspective,arXiv:2501.05598(2025).77 Y.Li,H.Zhang,C.Zhang,T.Huang,and F.R.Yu,A survey ofquantum internet protocols from alayered perspective,IEEECommun.Surv.Tutor.26,1606-1634(2024).78 J.Illiano,M.Calefff,A.Manzalini,and A.S.Cacciapuoti,Quantuminternet protocol stack:A comprehensive survey,Comput.Netw.213,109092(2022).79 R.Van Meter,T.D.Ladd,W.J.Munro,and K.Nemoto,Systemdesign for a long-line quantum repeater,IEEE/ACM Transactions onNetworking 17,1002(2009).8880 R.Van Meter and J.Touch,Designing quantum repeater networks,IEEE Commun.Mag.51,64(2013).81 R.Van Meter,Quantum networking and Internetworking,IEEE Netw.26,59(2012).82 R.Van Meter,J.Touch,and C.Horsman,Recursive quantumrepeater networks,Progress Informatics 8,65(2011).83 W.Kozlowski and S.Wehner,Towards large-scale quantumnetworks,in Proceedings of the Sixth Annual ACM InternationalConferenceonNanoscaleComputingandCommunication(NANOCOM19)(Association for Computing Machinery,New York,NY,2019).84 A.Dahlberg,M.Skrzypczyk,T.Coopmans,et al.,A link layerprotocol for quantum networks.In Proc.ACM Special Interest Groupon Data Communication,SIGCOMM19,159-173(ACM,New York,NY,USA,2019).85 W.Kozlowski,A.Dahlberg,and S.Wehner,Designing a quantumnetwork protocol,In proceedings of the 16th International ConferenceonEmergingNetworkingEXperimentsandTechnologies(CoNEXT20),16(ACM,2020).86 M.Pompili,C.Delle Donne,I.te Raa,et al.,Experimentaldemonstration of entanglement delivery using a quantum networkstack,npj Quantum Inf.8,121(2022).8987 A.Pirker and W.Dr,A quantum network stack and protocols forreliable entanglement-based networks,New J.Phys.21,033003(2019).88 Z.Li,K.Xue,J.Li,N.Yu,J.Liu,D.S.Wei,Q.Sun,and J.Lu,Building a large-scale and wide-area quantum internet based on anOSI-alike model,China Communications 18,10(2021).89 L.Bacciottini,M.G.De Andrade,S.Pouryousef,E.A.Van Milligen,A.Chandra,N.K.Panigrahy,N.S.V.Rao,G.Vardoyan,and D.Towsley,Leveraging Internet principle to build a quantum network,arXiv:2410.08980(2025).90 L.G.Roberts,The evolution of packet switching,Proc.IEEE 66,1307(1978).91 S.J.B.Yoo and P.Kumar,Quantum wrapper networking,IEEEPhotonics Conference,IPC 2021-Proceedings,(2021).92 S.DiAdamo,B.Qi,G.Miller,R.Kompella,and A.Shabani,Packetswitching in quantum networks:A path to the quantum Internet,Phys.Rev.Research 4,043064(2022).93 S.J.B.Yoo,S.K.Singh,M.B.On,G.Dul,G.S.Kanter,R.Proiettiand P.Kumar,Quantum wrapper networking,IEEE Commun.Mag.62,76-81(2024).94 M.B.On,R.Proietti,G.Gul,G.S.Kanter,S.K.Singh,P.Kumar,and S.J.B.Yoo,Experimental demonstration of datagram switching90with monitoring in quantum wrapper networks,J.Light.Technol.42,3504(2024).95 M.B.On,R.Proietti,G.Gul,G.S.Kanter,S.K.Singh,P.Kumar,and S.J.B.Yoo,Entanglement distribution in packet-switchedquantumwrappernetwork,2024ConferenceonLasersandElectro-Optics(CLEO),Charlotte,NC,USA,(2024).96 H.Zhang,Y.Li,C.Zhang,and T.Huang,Hybrid packet switchingassisted by classical frame for entanglement-based quantum networks,arXiv:2310.02770(2023).97 Y.Li,C.Zhang,H.Zhang,T.Huang,and Y.Liu,A designframework for early quantum networks,arXiv:2508.04967(2025).98 H.T.Nguyen,P.Krishnan,D.Krishnaswamy,et al.,Quantum cloudcomputing:Areview,openproblems,andfuturedirection,arXiv:2404.11420(2024).99 M.Ruefenacht,B.G.Taketani,P.Lhteenmki,et al.,Bringingquantum acceleration to supercomputers,IQM/LRZ Technical Report(2022).100 D.Barral,F.J.Cardama,G.Diaz-Camacho,et al.,Review ofdistributedquantumcomputing:fromsingleQPUtohighperformance quantum computing,Comp.Sci.Rev.57,100747(2025).101 王升斌,窦猛汉,吴玉椿,郭国平和郭光灿,分布式量子计算91研究进展,量子电子学报 41,1-25(2024)。102 张晨,黄韬,周俊等,算网操作系统白皮书,第七届未来网络发展大会,2023 年 8 月。103 量子科技产学研创新联盟,量子计算性能评估基准报告,2024年 12 月。

    发布时间2025-08-22 94页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 未来网络发展大会:2025分布式算力感知与调度技术白皮书(73页).pdf

    未来网络技术发展系列白皮书(2025)分布式算力感知与调度技术白皮书第九届未来网络发展大会组委会2025年8月版权声明版权声明本白皮书版权属于中国铁塔股份有限公司和江苏省未来网络创新研究院所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来来源源:中国铁塔股份有限公司中国铁塔股份有限公司、北京邮电大学和北京邮电大学和江苏省未来网络创新研江苏省未来网络创新研究院究院”。否则将违反中国有关知识产权的相关法律和法规,对此中国铁塔股份有限公司、北京邮电大学和江苏省未来网络创新研究院有权追究侵权者的相关法律责任。编委会编委会专家指导组成员专家指导组成员刘韵洁 中国工程院院士、江苏省未来网络创新研究院荣誉院长、首席科学家郭宇辉 中国铁塔通信技术研究院院长、中国通信企业协会低空经济专委会秘书长黄韬 北京邮电大学教授麻文军 中国铁塔行业拓展部总经理、铁塔智联技术有限公司执行董事兼总经理窦笠 中国铁塔科技创新部总经理吴晓梅 中国铁塔通信技术研究院副院长何杰 中国铁塔行业拓展部副总经理、铁塔智联技术有限公司副总经理编制组成员编制组成员中国铁塔股份有限公司中国铁塔股份有限公司闫亚旗、董玉池、潘三明、聂昌、贾平胜、徐佳祥、安颖、王东、汪涛北京邮电大学北京邮电大学谢人超、唐琴琴、杨煜天、马霄鹏、汪硕江苏省未来网络创新研究院江苏省未来网络创新研究院魏亮、方辉、孙玉刚、尹鹏、林枭、韩风、占昊天、王磊I前前言言随着算力网络的飞速发展,算力资源呈现出泛在化、异构化、分布化的显著趋势。如何高效感知、协同调度这些广泛分布且动态变化的算力资源,以支撑日益复杂的智能应用需求,已成为推动产业数字化转型和智能化升级的关键挑战与核心技术方向。本白皮书首先详细阐述了分布式算力感知与调度的背景、需求、体系架构以及关键技术,同时介绍了该技术在远程医疗、智慧城市、大模型分布式训推以及云游戏等领域的典型应用场景,并探讨了当前技术落地、基础设施建设与改造以及标准化建设面临的挑战和发展建议。目前,工业界和学术界对分布式算力感知与调度技术的研究尚处于起步阶段,并仍处于快速发展之中,新的架构、算法和应用模式不断涌现,本白皮书作为阶段性研究成果,还存在需要不断完善的地方,真诚地企盼读者批评指正。II目目录录前言.I目录.II一、分布式算力感知与调度背景.11.1 分布式算力感知与调度概念和特征.11.2 分布式算力感知与调度研究意义.51.3 需求分析.71.3.1 国家战略需求分析.81.3.2 产业发展需求分析.91.3.3 技术演进需求分析.111.3.4 用户需求分析.141.3.5 功能需求分析.161.4 分布式算力感知与调度发展目标.19二、分布式算力感知与调度架构.23三、分布式算力感知与调度关键技术.273.1 分布式算力资源度量模型.273.2 分级分域算力资源感知技术.303.3 分级分域算力调度技术.313.4 分布式算力路由技术.343.5 分布式算力自智技术.373.6 分布式算力安全保障技术.39III四、分布式算力感知与调度应用场景.424.1 远程医疗.434.2 智慧城市.454.3 大模型分布式训推.474.4 云游戏.494.5 低空经济网络.514.6 战术网络.524.7 智能制造.544.8 自动驾驶.56五、分布式算力感知与调度行业发展建议.595.1 发展面临的挑战.595.2 发展阶段划分.605.2.1 起步阶段.615.2.2 整合阶段.615.2.3 智能化阶段.625.2.4 生态化阶段.625.3 发展对策建议.63六、总结与展望.65附录 A:术语与缩略语.66参考文献.671一、分布式算力感知与调度背景一、分布式算力感知与调度背景本白皮书创新提出分布式算力感知与调度模型与架构。分布式算力是一种新型的计算模式,在实时感知多类型、多数量计算设备资源状况的基础上,借助统一的度量范式对资源量进行对比与评估,再结合任务的计算强度、时延要求和数据依赖等特征,以及网络带宽和能量预算等约束,运用自适应的智能调度算法将大规模的计算任务分散到不同的计算节点上,从而实现高效的数据处理和分析。本白皮书阐述了分布式算力感知与调度的背景、体系结构、关键技术、应用场景、发展建议,旨在为有兴趣了解分布式算力感知与调度相关概念和技术的研究人员提供介绍与指导。具体而言,本章从分布式算力感知与调度概念和特征入手,进一步分析分布式算力感知与调度的研究意义和各种需求,并提出分布式算力感知与调度的发展目标。1.1.1 1 分布式算力感知与调度概念和特征分布式算力感知与调度概念和特征随着全球数字化浪潮的到来,5G、AI、大数据等新技术不断涌现,算力已成为驱动社会进步的核心生产力。随着人工智能、物联网、元宇宙等技术的爆炸式发展,传统的集中式算力计算模式面对如此庞大且多样化需求,已经难以有效应对。分布式算力感知与调度技术应运而生,成为应对海量、泛在、实时计算需求的关键基础设施。这一理念旨在构建一个能够动态感知全网算力资源,并根据任务需求进行智2能化、自动化、最优化调度的新型信息基础设施,降低计算延迟与成本,支撑新型智能化应用的落地。分布式算力是相对于传统集中式算力(如单一超级数据中心)而言的算力部署与利用模式,其核心是将一个大的计算任务分解成若干个小任务,然后把这些小任务分配给地理、网络层级或逻辑上相互独立的多个节点。这些计算节点可涵盖数据中心、边缘设备(如基站、物联网网关)、终端设备甚至个人闲置设备等,通过网络连接形成协同体系,实现算力资源的分布式协同与高效利用。分布式算力并非单一形态,边缘算力是前者重要组成部分,是分布式思想的一种具体体现。边缘算力强调“地理近端性”,即计算能力的部署靠近数据源,以满足低延迟和高实时性的需求;而分布式算力更关注“全局最优性”,侧重任务的分解与协同,以处理大规模和复杂的计算任务可能调度至边缘、核心云或两者协同,例如“云-边-端”分层推理。分布式算力感知与调度的核心在于“感知”与“调度”两个相互依存、紧密结合的环节。“感知”是基础和前提,它指的是系统具备全面、实时、精准地获取分布式网络中各个计算节点资源状态的能力。具体而言,感知过程涵盖多维度:首先,系统需自动发现并注册新计算节点,识别其 CPU、GPU、FPGA 等类型,以及内存、存储容量等基础属性。其次,通过轻量探针或节点遥测数据,实时监控 CPU/GPU 利用率、存储占用率、网络带宽与延迟、负载水平、功耗及环境温度等核心指标。更关键的是,感知需深入能力评估,如量化计算单元的理论峰值性能(如 FLOPS)及对特定负载的实际加速效能。网络感知需3精确测量任务提交点、计算节点间的拓扑关系、带宽、延迟、丢包率及抖动,以保障低延迟应用。此外,还需感知资源使用的经济成本、能源成本及数据主权、SLA 等策略性约束。这些信息经清洗、融合与抽象后,将形成支撑智能决策的多维度量化算力资源模型。“调度”则是基于“感知”结果所采取的行动,是整个系统的“大脑”和中枢。它根据感知到的全网算力资源分布图景和实时状态,在复杂约束条件下,通过智能高效的算法,将计算任务合理地分配到最合适的节点上执行,从而实现全局最优的资源利用率、最低的运营成本和最佳的用户体验。调度决策是一个高度复杂的优化问题,其目标函数通常是多维度的,需要在性能目标、经济目标和系统目标之间寻求最佳平衡点。分布式调度策略多种多样,从传统的基于静态规则的调度,如轮询、随机分配等,到更为复杂的动态调度策略,如基于负载均衡的调度、基于服务质量(QoS,Quality of Service)的调度、基于经济效益的调度等。现代的算力调度系统越来越倾向于采用人工智能和机器学习技术,通过对历史数据的学习和对未来负载的预测,实现预测性、主动性的智能调度,甚至能够做到“算力路由”,即像网络路由一样,为计算任务规划出一条从数据源到最优计算节点、再到结果返回的最佳路径。分布式算力感知与调度具有如下几个显著的特征:异构性:算力节点的硬件类型、操作系统、网络协议存在显著差异,系统必须能够充分识别并利用这种异构性,将不同类型的计算任务精准匹配到最适合的硬件上执行,从而实现4整体计算效能的最大化。感知系统需通过统一的“算力单位”实现异构资源的归一化描述;调度系统则需针对不同类型任务设计适应性的分配策略。动态性:分布式环境本质上充满不确定性。资源可能随时加入、离开、发生故障或性能波动;网络状况瞬息万变;任务需求和依赖关系也可能动态调整。因此,算力感知必须是实时的,调度决策也必须是动态调整的。系统需要具备快速响应变化的能力,在某个节点出现故障时,能够迅速将其上的任务迁移至其他健康节点,保证业务的连续性;在检测到网络拥塞时,能够智能地选择其他通信路径,避免性能瓶颈。这种动态适应能力是保障系统稳定性和可靠性的关键。跨域协同与互操作性:理想的分布式算力池往往跨越不同管理域(多个公有云、私有云、边缘站点、终端设备)。实现高效的感知与调度,必须解决跨域资源发现、认证授权、状态信息交换、任务协同执行等挑战。这依赖于开放的 API 标准、通用的资源描述语言、安全的跨域通信机制以及可能的跨域调度协调器或联邦学习机制。能耗与可持续性感知:随着“双碳”目标的推进,算力调度的绿色属性愈发重要。感知需纳入能耗与碳足迹的实时监测;调度决策则需将能耗和碳排放作为重要优化目标或约束条件,例如优先将任务调度到使用可再生能源的数据中心或能效比更高的节点,或利用电价谷值进行计算,实现“绿色调度”。5分布式算力感知与调度是现代计算范式的核心支柱。它通过构建全域资源认知神经网和智能调度决策中枢,实现了对泛在、异构、动态算力资源的有效整合与按需供给。其核心在于全局化资源视图、多目标动态优化、高度环境适应、跨域无缝协同、智能学习进化以及对可持续性的深度关切。随着算力网络(CPN,Computing Power Network)概念的兴起和“东数西算”等国家级工程的推进,分布式算力感知与调度技术将持续演进,其智能化、自动化、绿色化水平将不断提升,为构建高效、敏捷、普惠、可持续的下一代数字基础设施提供核心动能,赋能千行百业的数字化转型与智能化升级。1.1.2 2 分布式算力感知与调度研究意义分布式算力感知与调度研究意义在数字化浪潮席卷全球的今天,算力已不再是单纯的技术指标,而是驱动社会经济形态深刻变革、与热力、电力并驾齐驱的关键生产力,是支撑数字经济高质量发展的战略基石。中国信通院指出,随着新一代通信规模建设和边缘计算应用的持续部署,越来越多的应用运行和数据生产处理在边端侧开展,这对于传统算力基础设施的部署、调度提出了新要求,分布式算力通过不同范围部署不同规模算力,为政企数智化转型各场景随需获取算力提供新思路。在此背景下,分布式算力感知与调度技术作为构建下一代算力基础设施的核心神经系统,其研究意义已远超单纯的技术优化范畴,上升至关乎国家数字竞争力、产业革命性变革以及社会可持续发展的战略高度。开展分布式算力感知与调度的研究,是服务于国家发展战略、保6障数字主权的迫切需要。当前,算力已成为大国博弈的新焦点,构建自主可控、高效协同的算力体系是提升国家核心竞争力的关键。国家发改委等部门推动的“东数西算”工程,核心目标并非简单的“数据西迁”,而是构建全国一体化的算力网络体系。推动该技术发展,能将地理上广域分布、架构上高度异构、权责上分属多域的海量算力资源,通过智能化感知与调度,整合成逻辑统一、弹性敏捷、安全可控的国家级“算力资源池”。这不仅从根本上解决我国东西部算力供需不平衡的结构性矛盾,更能通过统一调度形成规模效应,为国家重大科研项目、经济社会发展提供澎湃且经济的算力支撑,从而在全球数字竞争中掌握战略主动权。同时,这也是激活数据要素价值、推动产业智能化转型、催生新质生产力的核心技术引擎。算力作为数字经济的“发动机”,其渗透力决定产业升级的深度和广度。在前沿科学探索领域,如基因测序、新药研发、宇宙模拟等,分布式调度能汇聚全球顶级计算资源,为复杂科学问题求解提供前所未有的算力规模与效率。对于人工智能产业,尤其是大模型的训练与推理,异构算力调度可将计算任务精细化拆解,精准匹配到最高效的处理单元,最大化计算效率,加速 AI 在各行业的研发与应用。在工业互联网、智慧城市、自动驾驶等实体经济领域,实时感知能力与低延迟调度决策是支撑高级应用落地的关键。而开放共享的算力服务平台,能降低中小企业获取先进算力的门槛,激发全社会创新活力,为新产业、新业态、新模式提供沃土。深入研究分布式算力感知与调度,核心价值在于推动构建集智能7高效、安全可信、绿色低碳于一体的下一代算力基础设施新范式,三者互为表里,不可分割。以智能为核心,利用人工智能算法赋能调度决策,通过全面、精准、实时感知全网状态,做出全局最优资源匹配决策,最大化资源利用率。以安全为基石,系统能实时感知网络攻击、节点故障等异常,智能进行任务迁移等操作保障业务连续性,同时确保敏感数据在可信域内流转,构筑数据安全屏障。以绿色为目标,将“绿色低碳”作为核心优化目标,与智能、安全深度融合。智能调度系统把能耗与碳足迹作为核心调度因子,感知各数据中心实时情况,智能分配计算任务,实现“算力调度”与“能源调度”协同,降低运营成本和碳排放,落实“东数西算”绿色发展理念。综上所述,分布式算力感知与调度的研究具有深远的战略意义和广泛的应用价值,它上承国家发展战略,下接各行业数字化需求,内含技术创新驱动,外显绿色发展理念。随着“东数西算”工程的深入推进、算力网络概念的兴起以及人工智能应用的持续爆发,该领域的研究将不断深化,向着更高程度的智能化、更精细的感知、更强大的跨域协同能力、更强的安全可信保障以及更优的绿色效能演进。它不仅是解决当前算力供需矛盾的有效途径,更是塑造未来数字社会形态、驱动经济高质量发展、提升国家综合实力的关键所在。1.31.3 需求分析需求分析当下通信与算力的多样化以及算力资源分布式特性与多类型应用场景的深度耦合极大地推动了分布式算力感知与调度的产生,本节8将从国家战略需求、产业发展需求、技术演进需求、用户需求和功能需求五个方面进行分析。1.3.11.3.1 国家战略需求分析国家战略需求分析分布式算力感知与调度系统的发展深度融入国家战略布局,是支撑新型基础设施建设、数字经济转型及算力资源优化配置的关键技术支撑。从国家战略层面看,其建设需求源于多个维度的政策导向与实际发展需求。国家“十四五”规划将算力基础设施纳入新型基础设施重点领域,明确提出构建“全国一体化算力网络”,要求推动“中心-边缘”协同计算体系落地,关于进一步深化电信基础设施共建共享的实施意见中要求“促进基础设施智能化升级”,而分布式算力感知与调度系统通过整合边缘节点算力资源,能够弥补集中式数据中心在地理覆盖和低时延响应上的短板,形成“云边协同”的算力供给体系。例如,中国铁塔拥有的 210 万站址资源,通过统一的感知与调度机制,可转化为支撑“双千兆”网络、工业互联网、车联网等新型基础设施的底层算力支撑。在数字经济与产业转型领域,国家工业互联网创新发展行动计划中强调“推动边缘计算与工业场景融合”,要求边缘节点具备实时数据处理、算力动态调度能力。分布式算力感知与调度系统恰好满足这一需求,其能够支撑工业互联网中设备互联的低时延算力需求,如智能制造中的实时控制;满足车联网中的路侧算力协同,如自动驾驶数据的本地处理;还能支撑智慧城市中的泛在感知计算,如视频监9控的实时分析,为产业数字化转型提供坚实的算力调度保障。“东数西算”工程提出“优化算力资源空间布局”,要求边缘算力节点与枢纽节点协同联动,分布式算力感知与调度系统通过对全国边缘算力的统一度量和动态调度,可实现算力资源的跨区域优化配置:在东部经济发达地区,通过边缘节点分担中心算力压力,降低网络拥塞;在中西部地区,通过算力调度激活存量资源,支撑区域数字经济发展,直接响应全国一体化大数据中心协同创新体系算力枢纽实施方案中“提升算力资源利用效率”的目标。此外,国家高度重视关键技术自主可控。分布式算力感知与调度系统的研发部署,可推动边缘计算领域的技术标准化,如算力度量、调度策略的统一规范;促进国产化软硬件适配,如基于鲲鹏、昇腾芯片的边缘服务器应用;并整合运营商、设备商、行业用户等多方资源,培育自主可控的边缘算力产业生态,打破国外技术垄断。在应急与公共服务领域,国家要求算力资源具备“全域覆盖、快速响应”能力,该系统依托广泛分布的边缘节点,可在自然灾害、重大活动保障等场景下,快速调度就近算力资源,支撑应急通信、视频会商、数据汇聚等服务,响应国家应急通信保障预案中“构建分布式应急算力支撑体系”的战略需求。1.3.1.3.2 2 产业发展需求分析产业发展需求分析随着数字经济的深度渗透,各行业对算力的需求呈现出“泛在化、低时延、差异化”的特征,分布式算力感知与调度系统成为支撑产业10升级的核心技术纽带。从产业实践来看,其需求主要体现在边缘算力资源的高效利用、跨行业应用的适配支撑以及产业生态的协同构建三个层面。在算力资源利用层面,当前边缘算力基础设施呈现“规模庞大但分散异构”的特点。以中国铁塔为例,其 210 万站址资源和超 100 万机房资源广泛分布于全国,但由于资源零散、管理分散、网络接入方式多样(如 4G/5G、企业宽带、园区 NAT 网络等),导致算力资源利用率不足、调度效率低下。产业界迫切需要通过统一的感知与调度系统,实现异构资源的抽象建模与池化管理,例如通过标准化算力度量体系(涵盖 CPU、GPU、内存、网络等指标),将分散的边缘节点转化为可统一调度的“虚拟算力池”,提升资源利用效率。同时,边缘算力节点的“弱网、单通”等网络特性,也要求系统具备离线自治、断点续传等能力,以适应产业现场的复杂网络环境。在跨行业应用支撑层面,不同行业对边缘算力的需求差异显著,推动调度系统向“场景化、定制化”方向发展。例如,工业互联网场景中,智能制造需要边缘节点提供毫秒级实时算力支撑,用于设备状态监测与实时控制;车联网场景中,路侧边缘节点需协同车辆终端,实现低时延的数据处理与协同决策,保障自动驾驶安全;智慧城市场景中,边缘算力需支撑视频监控、环境监测等泛在感知应用,要求系统具备高并发处理能力。此外,AI 训练推理、泛在数据采集等新兴场景,进一步要求调度系统能够根据业务需求动态匹配算力资源,例如为 AI 推理任务优先调度 GPU 资源,为数据采集任务优化网络带宽11分配。这些需求推动产业界从“通用算力调度”向“场景化算力服务”转型,而分布式感知与调度系统正是实现这一转型的核心载体。在产业生态构建层面,边缘算力的商业化运营需要打通“供给-需求-交易“全链条,这依赖于开放、协同的调度体系。当前,边缘算力的供给方包括电信运营商、铁塔公司、第三方数据中心等,需求方涵盖政府、企业、社会公众等,各方亟需通过标准化的调度接口实现资源互通与业务协同。例如,铁塔边缘算力资源可通过调度系统接入公共算力交易平台,向企业提供按需付费的算力服务;同时,系统需支持第三方调度算法的灵活接入,满足不同行业的定制化需求。这种开放生态的构建,不仅能降低算力交易成本,还能促进边缘算力在电子政务、企业数字化、新兴业态等领域的规模化应用,推动产业从“硬件堆砌”向“服务增值”升级。综上,分布式算力感知与调度系统的发展,既是解决当前边缘算力资源分散、利用低效等问题的技术手段,也是支撑各行业数字化转型、构建边缘算力产业生态的必然需求,其产业价值已成为推动数字经济高质量发展的重要引擎。1.3.31.3.3 技术演进技术演进需求分析需求分析在数字经济蓬勃发展以及各行业数字化转型持续深化的当下,分布式算力感知与调度系统的技术演进已是大势所趋,旨在契合日益繁杂的业务需求,从容应对激烈的市场竞争。从硬件基础层面来看,算力基础设施朝着异构化与分布式方向加12速迈进。不同类型的计算芯片,诸如 CPU、GPU、FPGA 以及新兴的 ASIC芯片等,在性能、功耗以及适用场景等方面呈现出显著差异,共同构建起复杂的异构计算环境。与此同时,计算节点的分布范围不断拓展,从传统的数据中心延伸至各类边缘计算节点,如基站、工厂、园区等。这一发展态势要求分布式算力感知与调度系统必须能够精准识别各类硬件资源的详细信息,包括处理器的型号、核心数、频率、缓存大小,内存的容量、类型、速度,存储设备的容量、读写速度、接口类型,以及 GPU 的型号、显存大小等。只有做到这些,系统才能够依据业务的具体需求,将任务合理且高效地分配至最适宜的硬件资源上,从而充分挖掘和发挥各类硬件的性能优势。举例来说,在处理大规模数据的并行计算任务时,GPU 能够凭借其强大的并行处理能力大幅提升运算速度;而在执行复杂逻辑运算与顺序指令时,CPU 则更具优势。因此,系统需要准确把握不同硬件的特性,实现任务的最优分配。在软件与算法领域,相关技术同样处于快速迭代升级的进程中。随着深度学习模型规模与复杂度的与日俱增,模型训练与推理对于算力的需求呈现出爆发式增长。为有效缓解硬件算力的紧张压力,一系列模型优化技术应运而生,如模型压缩、量化、剪枝等。这些技术通过减少模型参数数量、降低数据精度等手段,在不明显影响模型性能的前提下,显著降低了计算量与存储需求。例如,借助模型压缩技术,部分深度学习模型的计算量能够大幅降低。与此同时,调度算法也在持续优化创新。传统基于规则的调度算法在面对复杂多变的网络环境、动态波动的业务负载以及多样化的硬件资源状态时,显得力不从心。13基于强化学习、机器学习等人工智能技术的智能调度算法顺势崛起,这些先进算法能够实时采集和分析网络延迟、节点负载、业务优先级等多维度数据,通过不断尝试不同的调度策略,并根据实际执行效果进行动态优化,最终探寻出最优的任务调度方案,进而大幅提升资源利用率与任务执行效率。从应用场景的视角出发,不同行业对分布式算力感知与调度系统提出了丰富多样且标准日益严苛的要求。在工业互联网领域,为切实达成生产过程的实时控制与精细化优化,对算力的实时性、可靠性以及精准性提出了极高要求。生产线上的设备运行数据需要在毫秒级的极短时间内完成处理与深入分析,以便及时、精准地调整生产参数,确保产品质量的稳定以及生产效率的提升。在智能安防领域,随着视频监控分辨率的持续提高以及多模态感知技术的广泛应用,智能安防系统需要同时高效处理来自高清摄像头、红外传感器、声纹识别设备等多种设备的海量数据流,并实现实时的行为分析、异常事件的快速检测与精准目标追踪。这无疑要求系统具备强大的并行计算能力以及极低延迟的数据传输能力,以此保障安防应用的高效、稳定运行。在医疗影像领域,为实现医学影像的快速处理与精准诊断,需要分布式算力感知与调度系统能够有力支持大规模数据的快速传输与高效运算,同时严格满足医疗数据的隐私安全要求。例如,通过巧妙运用边缘计算与云计算的协同技术,将部分数据处理任务前置至边缘节点,既有效减少了数据传输延迟,又切实保障了数据安全。分布式算力感知与调度系统的技术演进,需构建智能、安全、资14源高效协同的体系,以适配数字经济多元需求。智能调度作为核心引擎,依托机器学习,深挖计算节点的性能参数、负载趋势、业务适配性等多维数据,动态构建节点画像。同时,安全防护贯穿调度全流程,从节点接入时的身份认证,到数据传输加密、调度策略防篡改,构建多层次防护网。同时,结合智能调度与安全机制,让算力资源在安全流转中,高效支撑业务运行,实现智能调度精准匹配、安全防护全程护航、资源利用极致优化的协同发展,为数字经济筑牢坚实算力底座,也在技术迭代中响应绿色发展需求。综上所述,分布式算力感知与调度系统正处于技术快速演进的关键转折点,面临着从硬件基础、软件算法到应用场景适配,乃至绿色低碳发展等多方面的严峻挑战与难得机遇。只有紧密追踪技术发展前沿趋势,持续不断地开展技术创新与优化升级工作,才能全方位满足国家战略、产业发展以及社会民生等多层面对于分布式算力的急切需求,为数字经济的高质量、可持续发展筑牢坚实的技术根基。1.3.41.3.4 用户需求分析用户需求分析分布式算力感知与调度系统的用户群体涵盖各级政府机构、全国性/区域性企业、社会公众及行业合作伙伴,其需求聚焦于算力资源的“可感知、可调度、可信赖”,并随业务场景的多样化呈现显著差异。从政府与公共服务领域来看,用户核心需求集中在算力资源的统筹管理与安全可控。例如,电子政务场景中,各级政府需要通过系统15实现跨区域边缘算力的统一调度,支撑政务数据本地化处理(如身份证核验、社保信息查询),要求满足低时延、高可靠及数据隐私保护需求。此外,应急指挥、智慧城市等场景需系统具备快速响应能力,在突发事件中可动态扩容边缘算力,保障视频会商、实时监控等服务的连续运行。企业用户的需求则围绕业务效率与成本优化展开。工业企业通过系统调度厂区边缘节点算力,支撑设备实时监控与工艺优化,要求算力调度响应时间极低,以满足智能制造的实时性要求;互联网企业(如短视频、直播平台)需利用边缘算力降低内容分发时延,要求系统支持动态调整算力节点分布,匹配用户访问热点的迁移。同时,企业普遍关注算力资源的可视化管理,需系统提供资源使用率、成本消耗等数据报表,辅助决策。社会公众作为终端用户,其需求体现在算力服务的“无感可用”。例如,车联网场景中,驾驶员通过车载终端获取实时路况分析,依赖边缘算力的低时延响应,而系统需自动调度路侧节点算力,保障服务连续性;智能家居场景则要求系统按需分配算力,支撑语音识别、安防监控等轻量级业务,同时控制终端能耗。合作伙伴(如第三方算力提供商、应用开发商)的需求聚焦于系统的开放性与兼容性。第三方算力提供商需通过标准化接口接入系统,实现资源互通与收益分成;应用开发商则要求系统支持多类型应用部署(如容器化、虚拟机化),并提供灵活的调度策略接口,适配不同算法对算力的差异化需求(如 AI 推理需 GPU 资源优先调度)。16此外,所有用户群体均对系统提出共性需求:一是弱网环境适配,在 4G/5G 信号不稳定区域(如偏远地区、地下停车场)仍能保障算力服务可用;二是安全防护,需具备数据传输加密、节点身份认证等能力,防止算力资源被非法占用或数据泄露;三是低成本运维,通过自动化部署、远程监控功能降低人工干预,尤其适合边缘节点分散的场景。综上,用户需求呈现“分层化、场景化、个性化”特征,分布式算力感知与调度系统需通过模块化设计、灵活的策略配置及开放接口,满足不同用户在功能、性能、安全等维度的多样化要求。1.3.51.3.5 功能需求分析功能需求分析分布式算力感知与调度系统的功能需求围绕算力资源的全面感知、精准调度、高效协同及可靠运维展开,旨在解决当前算力资源分布不均、利用率低、协同困难等问题,满足不同行业对算力的多样化需求,实现“一点接入、即取即用”的算力服务目标。算力感知功能:系统需具备对各类异构算力资源(CPU、GPU、FPGA、ASIC 等)的实时感知能力,包括硬件配置(核心数、主频、显存大小等)、负载状态(利用率、任务队列长度)、能耗指标等。通过标准化接口(如 Telemetry 协议)及轻量化采集代理,实现资源信息的秒级采集与上报,为调度决策提供数据基础。同时,系统应支持对网络资源(带宽、时延、丢包率)的动态监测,通过带内网络遥测(INT)、主动探测(IPP/IFIT)与被动分析(sFlow/IPFIX)等技术,构建“资17源-网络”协同视图,保障任务执行的网络质量。算力路由功能:在大规模分布式算力资源的寻址过程中,为避免传统网络路由机制对计算节点实时负载、任务处理能力等关键算力状态参数考量的忽视,而形成与算力资源状态割裂的寻址模式,需构建算力与网络深度融合的新型路由体系,构建分布式算力路由这一创新的网络-计算协同调度范式,通过在传统 IP 路由架构中融入“服务标识”、“算力资源状态”和“算网多因子选路算法”三大核心要素,实现网络路径与算力资源的联合优化调度框架,以及网络寻址方式的根本性变革,在保障网络稳定性的同时实现了算网资源的协同优化。算力调度功能:基于感知数据,系统需实现智能、灵活的算力调度。一方面,支持多维度调度策略,如计算优先、网络优先、成本优先等,以满足不同业务对算力、网络的差异化需求。例如,AI 推理任务可优先调度 GPU 资源,实时性业务(如自动驾驶、云游戏)则侧重网络时延优化。另一方面,调度算法应具备自适应能力,根据资源动态变化及业务负载波动,动态调整调度策略,提升资源利用率与任务执行效率。此外,系统需支持任务的跨节点、跨区域调度,实现“东数西算”“东数西渲“等跨域协同,通过算力路由协议将任务精准匹配至最优算力节点。资源管理功能:对分布式算力资源进行统一管理,涵盖资源注册、注销、状态监控、故障诊断等全生命周期管理。通过资源虚拟化与池化技术,将分散的物理资源整合为逻辑资源池,实现资源的灵活分配与弹性扩展。例如,利用 GPU 虚拟化技术(MIG、vGPU)将单块 GPU18切分为多个虚拟实例,供不同任务共享使用;通过智能算力池化,对CPU、GPU 等资源进行统一调度,降低资源碎片化,提升资源整体利用率。业务适配功能:系统需具备良好的业务适配能力,支持多样化应用的快速部署与运行。通过容器化(Docker、Kubernetes)、虚拟机(VM)等技术,实现应用的隔离与高效运行。同时,提供丰富的 API接口与开发工具,方便第三方应用接入与定制化开发,满足不同行业(工业、医疗、金融等)对算力服务的个性化需求。例如,工业互联网应用可通过 API 获取实时算力资源状态,动态调整生产任务;医疗影像处理应用可利用开发工具优化算法,适配系统算力特性。安全可信功能:鉴于算力资源的重要性与敏感性,系统需构建全方位安全防护体系。在数据安全方面,支持数据传输加密(SSL/TLS)、存储加密(AES),防止数据泄露;在身份认证与访问控制方面,采用多因子认证、RBAC 权限模型,确保只有授权用户可访问与调度算力资源;在安全审计方面,对所有操作进行日志记录与审计,实现操作可追溯;此外,通过区块链技术保障算力交易的可信任性与透明度,防止算力资源被非法占用或滥用。综上所述,分布式算力感知与调度系统的功能需求紧密围绕算力资源的全生命周期管理,通过技术创新与功能优化,为数字经济发展提供坚实的算力支撑,推动算力资源的高效利用与广泛普及。191.1.4 4 分布式算力感知与调度发展目标分布式算力感知与调度发展目标在数字经济蓬勃发展、数据量呈指数级增长的当下,分布式算力感知与调度技术的重要性愈发凸显,其发展目标涵盖了体系构建、技术突破、场景适配以及生态营造等多个关键维度,致力于打造一个高效、智能、安全且开放的分布式算力服务网络,如图 1-1 所示,从算力度量、调度引擎、跨域协同、安全机制、效能优化五方面推进,最终集成算力服务网络。图 1-1 分布式算力感知与调度发展目标图构建统一、标准的算力度量与管理体系是首要目标。当下,算力资源呈现出显著的异构性,CPU、GPU、NPU 等多元算力单元在性能、应用场景等方面各有千秋。这就迫切需要建立一套全面且精准的资源建模、性能建模以及服务能力建模体系。在资源建模中,不仅要对各类硬件的基础参数,如 CPU 的核心数、主频,GPU 的显存容量、带宽等进行细致梳理,还要考虑硬件的架构特性与兼容性,实现算力“可20测、可比、可调度”。性能建模则需综合考量算力在不同负载、不同应用场景下的实际表现,例如在复杂图形渲染时 GPU 的帧率稳定性,在大规模数据运算中 CPU 的计算精度与速度。而服务能力建模要涵盖从算力的交付效率到运维保障能力等多方面因素,确保对算力资源实现全方位、多层次的量化描述与精准评估,让不同类型、处于不同场景下的算力资源,都能基于这套体系具备“可测、可比、可调度”的基础条件,为后续的高效管理与合理调配奠定坚实根基。与此同时,为了契合大规模分布式节点的复杂特性,必须构建起跨层级的协同管理架构。从集团级的统筹规划,到省、市级的协调执行,再到区县级的具体落实,形成“集团-省-市-区县”这样一套严密且灵活的分级分域感知与调度体系,推进跨域协同调度,打通异构算力协同。该体系既要确保各层级对本地边缘站址资源实现实时监控,掌握诸如资源的实时负载、运行状态等关键信息,又要能够依据全局资源的动态变化进行动态调配。当某一区域因突发业务需求导致算力紧张时,上级层级可迅速协调周边区域的闲置算力资源进行支援,实现资源的高效利用与协同优化,既保证各域在一定程度上的自主性,以应对本地的特殊情况,又能从整体上保障资源调配的科学性与合理性。在技术攻坚层面,分布式算力感知与调度的发展目标聚焦于突破异构网络与复杂环境下的重重瓶颈。边缘节点的网络接入状况极为复杂,涵盖了互联网专线、企业宽带、4G/5G 移动通信网络以及园区 NAT网络等多种类型。不同网络在带宽、时延、稳定性等方面差异巨大,21这给算力信息的及时准确传递与调度指令的有效下达带来了极大挑战。因此,研发自适应的感知与通信机制迫在眉睫。通过对各类网络协议进行深入研究与优化,构建能够在不同网络间无缝切换、智能适配的通信体系,解决弱网环境下双向访问难题,保障算力信息的实时通告与调度指令的高效传达,确保即便在网络状况不佳、波动频繁的情况下,分布式算力系统依然能够稳定运行,维持服务的连续性与可靠性并且,要构建起智能调度引擎,这一引擎需融合网络延迟、算力位置、资源负载等多因子算法。在网络延迟方面,精确测算数据在不同链路、不同节点间传输所需的时间,结合实时网络拥塞状况,动态调整数据传输路径;考虑算力位置时,充分权衡物理距离与网络拓扑结构,优先选择距离近且网络连接质量优的算力节点,降低传输损耗;而资源负载的监控与分析,则能让调度引擎知晓各算力节点当前的工作饱和度,避免将任务过度集中于高负载节点,实现“路径 节点”的联合优化。如此一来,业务请求便能精准匹配到最合适的算力节点,极大提升资源利用率,显著缩短业务响应时间,为用户提供更为流畅、高效的服务体验。在场景适配与服务能力提升方面,分布式算力感知与调度旨在实现对多元业务的深度、精准支撑。以政企领域为例,电子政务涉及大量数据的安全处理与高效流转,企业业务则因行业特性、业务规模的不同,在算力需求上呈现出多样化特点。车联网场景中,自动驾驶对实时性要求极高,车辆行驶过程中的决策需在极短时间内完成,这就要求分布式算力系统能够提供低时延的算力支持,端到端时延需严格22控制在极短范围内,保障行车安全;工业互联网领域,生产过程的连续性与稳定性至关重要,设备控制、实时数据分析等业务不容有丝毫差错,对算力的可靠性提出了严苛要求,任何算力故障都可能导致生产线停滞,造成巨大损失。而在 AI 训练推理场景中,面对海量数据与复杂算法,需要适配异构算力资源,充分发挥 CPU、GPU、NPU 等不同芯片的优势,加速模型训练与推理过程。通过制定灵活多变的调度策略,结合资源的动态扩缩容机制,无论业务需求如何波动,都能确保各类业务获得稳定、充足的算力支撑。与此同时,积极推动算力资源向公共服务属性拓展,搭建算力交易平台,完善交易规则与流程,让算力如同水电一般,用户可根据自身实际需求,便捷地获取相应算力资源,真正实现算力的按需使用与灵活交易。分布式算力感知与调度的长远发展目标还包括构建一个开放、安全的生态体系。在开放性方面,通过标准化接口设计,打造一个兼容第三方调度算法与插件的平台,吸引云计算厂商、行业解决方案提供商、科研机构等产业链各方积极参与。不同主体可基于自身优势,开发各具特色的调度算法与应用插件,丰富分布式算力系统的功能与应用场景,形成一个充满活力、互利共赢的算力资源共建共享格局。在安全保障上,建立起全流程的安全防护机制。从节点接入阶段的严格身份认证,确保只有合法、可信的节点能够进入分布式算力网络;到数据传输过程中的加密处理,运用先进的加密算法,保障数据在传输过程中的保密性、完整性与可用性,防止数据被窃取或篡改;再到调度日志的全程追溯,借助区块链等技术,详细记录每一次调度操作的23相关信息,一旦出现问题,可快速溯源,查明原因。通过这样全方位、多层次的安全保障措施,确保算力调度的安全性与合规性,满足诸如金融、医疗等对数据安全极为敏感行业的严苛要求,为分布式算力网络的大规模、高可靠性应用筑牢安全防线。通过在这些方面持续发力,分布式算力感知与调度技术将逐步实现从基础能力构建到深度场景应用,从单一技术突破到生态体系完善的全面跨越,最终构建起一个强大、高效、智能且安全的分布式算力服务网络,成为推动数字经济发展、支撑社会数字化转型的核心基础设施。二、分布式算力感知与调度架构二、分布式算力感知与调度架构为应对算力资源日益呈现分布化、异构化的发展趋势,亟需构建面向多源异构算力的高效协同与智能调度能力。为此,提出基于“分层分域”设计理念的分布式算力感知与调度系统架构。该架构由基础设施层、网关管理层、算力管控层、级联控制层、安全保障层和应用服务层六大功能层构成,分别承担资源接入、状态感知、统一管控、跨域协同、安全隔离与业务支撑等关键任务。各层协同联动,支撑算力资源的泛在接入、智能编排与可信运行,构建统一、智能、可扩展的分布式算力底座,全面赋能多行业、多场景的数字化和智能化转型。如图 2-1 所示,本章将对该分布式算力感知与调度系统架构进行详细设计与分析。24图 2-1 分布式算力感知与调度架构图(1 1)基础设施层)基础设施层基础设施层作为分布式算力感知与调度体系的资源支撑底座,面向多源异构算力与多样化网络环境,提供统一接入、抽象管理与弹性供给能力。该层涵盖从边缘到核心的数据中心资源,包括适配弱网环境的边缘节点、具备单向通信能力的安全隔离网络、广覆盖的运营商通信网络、集团、省、市各级数据中心与算力网关,支撑资源的分级部署、异构接入与高弹性调度,构建覆盖广泛、能力多样的算力资源基础。(2 2)网关管理层)网关管理层25网关管理层负责实现对多类型接入网络的统一接入控制、通信协议解析与运行状态采集,该层支持多协议栈与南向接口的灵活适配,涵盖 IPv4、IPv6、UniNOS 等网络协议,具备算力路由、算力通告、算网及应用状态感知等关键功能。通过对接入链路与设备运行状态的精准感知,实现异构算网资源的高可靠接入,为上层算力管控与服务编排提供实时、可信的网络态势支撑。(3 3)算力管控层)算力管控层算力管控层是分布式算力系统的核心控制中枢,聚焦异构算力资源进行统一池化、智能调度与全局编排,实现资源“从分散部署到统一编排”的能力跃迁。该层涵盖资源池化、感知监控、信息封装、应用服务管理、调度引擎、调度策略优化、资源可视化、数字孪生建模、算网大模型支持、自适应资源调整、智能监控运维、统计分析等功能。通过构建跨平台、跨设备的协同机制,打通资源边界,提升资源的弹性供给与高效利用能力,实现算力按需调度与动态匹配,从而为上层多样化应用提供稳定、高性能、可持续的算力支撑。(4 4)级联控制层)级联控制层级联控制层作为跨域协同与系统全局优化的关键枢纽,负责实现多集群、多算域间、多层级的资源协同与联动调度。包括级联管理、资源协同、聚合处理、任务编排、分布式部署、跨域迁移功能,可将上层调度指令下发至各域控制单元,进行各域算力池状态实时协商与协调分配与聚合处理,完成在不同地域、不同算力域内灵活编排与布署,实现运行中任务和数据的动态迁移与无缝切换。该层通过全局视26角与局部自治的有机结合,有效提升系统的调度效率、负载均衡能力与故障自愈性能。(5 5)安全保障层)安全保障层安全保障层构建全链路、纵深式的安全防护体系,覆盖从终端接入、数据传输到任务执行的各关键环节。包括份认证、访问控制、数据加密、网络安全保护、健康度评估、应急响应恢复等功能,支持多策略联动的风险识别与处置能力。有效提升在复杂动态环境下的系统稳定性、业务连续性与数据可信性。(6 6)应用服务层)应用服务层应用服务层聚焦典型算力应用场景,面向不同行业、不同形态的任务调度需求,提供灵活、高效的分布式计算服务能力。支持包括远程医疗、智慧城市、大模型分布式训练、云游戏、低空经济网络、战术网络、智能制造、自动驾驶等典型场景的分布式算力感知与调度,实现任务在多源异构环境中最优部署,全面提升任务执行效率、资源利用率与用户体验,助力多行业智能化转型。27三、三、分布式算力感知与调度关键技术分布式算力感知与调度关键技术分布式算力感知与调度作为智能互联网基础能力体系中的核心支撑技术,面向大规模、异构化、多域协同的算力资源环境,致力于实现算力资源的全面感知、智能决策与高效调度。该技术面向算力泛在部署、需求多元涌现的发展趋势,突破传统集中式资源调度的局限,构建了具有层次性、自治性与协同性的资源感知与调度架构,可对分布在云、边、端不同层级、不同地域的算力节点进行精细化建模、动态化评估与灵活化编排,有效提升资源使用效率与业务响应能力。本章以典型业务场景为切入点,展示分布式算力感知与调度技术在赋能数字社会和智能产业中的关键价值。随着技术体系的持续演进和应用需求的不断深化,分布式算力感知与调度还将面临更多挑战与机遇,亟需产业、学界与研究机构协同推进,不断丰富关键技术体系,拓展应用广度与深度,持续释放算力价值。3.3.1 1 分布式算力资源度量模型分布式算力资源度量模型为支撑分布式算力感知与调度系统的智能化与高效化运行,亟需构建统一的算力资源度量模型,面向分布式、异构、多域的复杂环境,对多类型算力资源实现标准化建模、特征提取与精准量化。该模型由分布式算力资源标识体系与多维资源度量指标体系两大核心模块组成,旨在实现算力资源的统一识别、动态管理,为多场景算力调度提28供基础支撑。图 3-1 分布式算力资源度量架构图针对边云协同、异构部署和多域融合等典型应用场景,算力资源需具备唯一性、可溯源性与可组合性标识能力。为此,设计统一的资源标识编码体系,构建由“前缀标识资源名称标识资源数值标识”组成的三级结构化模型,采用嵌套编码方式实现资源的多维抽象与唯一命名,支持跨域协同与资源调度。具体包括。前缀标识:用于描述资源的唯一基本信息,涵盖位置信息、资源类型、供应商和目标对象标号等要素,明确了资源的来源、属性和用途;资源名称标识:用于描述网络及芯片信息,包括网络类型、网络地址、传输速率、芯片类型、芯片型号和芯片数量;资源数值标识:用于描述具体的度量指标信息,包括指标类别、指标类型、指标属性、详细指标、具体指标值,以及指标采集的时间29戳。该标识体系与任务调度引擎深度集成,实现对资源的实时感知、快速匹配与统一管理,增强调度系统的智能响应能力。在此基础上,为支撑面向任务的精确资源调度,需构建覆盖计算、存储、网络及能耗等多维度的统一资源度量指标体系。该体系通过结构化与标准化建模,系统定义各类异构资源的量化维度与评估方法,确保资源能力具备可比性、可预测性与可优化性,为分布式环境下的智能调度提供基础支撑。在具体指标构建上,体系涵盖通用算力(基于 CPU 的处理能力)、智能算力(基于 GPU 的处理能力)、存力(服务器整体存储容量)、运力(站点公网带宽总和)等基础维度,并进一步提出综合能力指标,包括。综合算力能力:融合通用算力(GFLOPS)、内存容量(GB)、智能算力(TFLOPS)及显存容量(GB),采用向量模方式标准化处理,反映节点整体计算能力;综合存力能力:整合存储总容量、磁盘读/写 IOPS 等关键指标,表征数据存储性能与承载能力;综合运力能力:结合带宽(Mbps)与时延(ms)构建通信性能度量,反映网络传输能力;综合服务能力:以算力、存力与运力综合指标为基础,形成反映平台整体服务保障能力的统一度量体系。通过统一的分布式资源度量模型构建,可有效提升异构、多域、30多类型资源的可观测性与可控性,为实现资源高效利用、任务智能调度和多场景适配提供核心能力支撑,助力泛在算力网络的持续演进与产业化应用拓展。3.3.2 2 分级分域算力资源感知技术分级分域算力资源感知技术分级分域算力资源感知技术是支撑算力网络高效运行的基础能力,是实现大规模异构、分布式、动态算力资源精准掌控与智能调度的前提条件。面对当前算网架构日益复杂、资源形态日益多元的演进趋势,传统的集中式、静态化感知机制在数据更新效率、系统扩展能力、感知精度等方面逐渐暴露瓶颈,难以满足多源异构资源的协同管理与实时调度需求。构建具有分层架构、域间协同、自适应更新能力的感知机制,已成为分布式算力调度体系亟需解决的核心问题。图 3-2 分级分域算力资源感知模型31该技术采用“域内自治、域间协同、全局融合”的三级感知架构,通过在边缘节点、区域集群与全局控制域之间建立分级感知通道,提升感知系统的可扩展性与实时性。一方面,在边缘域内部署轻量级资源探针,针对本地 CPU、GPU、内存、存储、I/O 等关键算力指标进行快速采集与预处理,并融合容器运行态、操作系统状态等多源信息,实现本地资源的快速建模与上报。另一方面,在区域级集群层引入聚合感知模块,支持多源数据的清洗、归一化与特征提取,对来自不同边缘节点的数据进行汇总分析,结合地理分布、负载状态、应用特征等,形成区域级资源态势视图,为局部调度与负载均衡提供策略依据。在全局控制域,依托统一算力资源建模与标准化数据封装协议,实现不同区域感知数据的融合处理与时序对齐。通过引入动态权重机制与感知质量评估模型,实现对异常数据的剔除、对感知盲区的补偿;并结合自适应感知周期调整策略,根据资源负载波动、任务密度变化及调度优先级动态调节感知频率与深度,实现算力感知效率与系统负载之间的动态平衡,兼顾系统轻量性与感知精度。整体上,分级分域算力感知技术具备高扩展性、高实时性与高鲁棒性,为异构算力资源的统一建模、精准度量与智能编排提供可靠的底层支撑,显著增强了跨域调度、弹性部署等算网能力,有效支撑算力网络在多场景、多区域、多维度下的广泛应用与持续演进。3.33.3 分级分域算力调度技术分级分域算力调度技术在分布式异构算力网络日益复杂的背景下,算力资源呈现出跨地32域、跨运营主体、异构架构与多样部署等多维度差异,资源状态动态变化频繁、服务需求类型日益多元,传统集中式调度方式已难以满足其对实时感知、高效响应与灵活协同的综合性要求,面临感知粒度粗、调度路径长、中心瓶颈明显等突出挑战。为应对算力网络规模持续扩展和服务形态加速演进的趋势,亟需构建具备高可扩展性、低延迟响应能力与全局局部协同能力的分级分域算力调度技术体系。图 3-3 分级分域算力调度示意图分级分域调度技术立足多层次算力系统架构,通过划分“全局区域边缘”三级调度域,形成一体化、自适应的调度控制体系,满足不同层级算力节点对资源管理与任务响应的差异化需求。其中,全33局调度中心聚焦于策略制定、任务初步筛选与跨域任务解析,承担整体资源视角下的调度决策与任务分派;区域调度中心面向本域内资源聚合、策略细化与调度优化,实现区域内的资源高效利用与跨域间负载均衡;边缘调度单元部署于算力节点侧,具备就近响应、细粒度感知与快速调度执行能力,能够在毫秒级内对本地突发请求作出决策,有效提升系统的服务敏捷性与抗扰鲁棒性。该技术体系的核心在于调度粒度与路径的双重优化:一方面,构建多层级资源状态感知机制与任务上下文理解能力,支持感知粒度随业务 QoS 要求与网络状态灵活调整,实现自适应调度策略动态收敛;另一方面,通过分级调度路径分散中心调度压力,实现由上至下逐级下发与自治优化的协同路径,有效避免高频交互对中心节点的性能冲击,提升整体调度系统的可用性、实时性与稳定性。此外,为进一步提升调度智能性与泛化能力,分级分域调度体系需融合资源异构性建模、任务优先级动态评估、多策略协同编排与调度意图表达等关键技术,构建统一建模、规则驱动与策略自适应相结合的调度框架。在策略层面,引入面向多业务类型与多网络状态的多维度决策模型,实现资源利用率、任务响应效率与服务质量保障之间的有机统一。综上所述,分级分域算力调度技术面向分布式异构算力网络的演进趋势,既提升了算力资源调度的精准性、响应的敏捷性与体系的可扩展性,也为构建算力网络智能调度体系、支撑算网深度融合奠定了关键基础,是推动算力服务泛在可得、高效可控的核心技术路径之一。343.3.4 4 分布式算力路由技术分布式算力路由技术在大规模分布式算力资源的寻址过程中,若采用传统网络路由机制,其决策依据通常局限于路由算法、可达性、路径跳数、传输时延、带宽利用率等网络层指标,而忽视了对计算节点实时负载、任务处理能力等关键算力状态参数的考量。这种与算力资源状态割裂的寻址模式,可能导致用户请求被导向网络指标优良但算力资源过载、服务响应迟缓的算力节点,进而引发分布式系统的性能塌陷效应,造成底层算力资源无法通过智能调度实现全局能效优化。针对传统网络路由机制存在的算网割裂问题,亟需构建算力与网络深度融合的新型路由体系。在此背景下,分布式算力路由(Distributed Computing Force Routing,DCFR)作为一种创新的网络-计算协同调度范式应运而生。该技术通过在传统 IP 路由架构中融入服务标识、算力资源状态和算网多因子选路算法三大核心要素,实现了网络路径与算力资源的联合优化调度框架。分布式算力路由技术通过构建基于服务标识的分布式多实例服务寻址体系,实现了网络寻址方式的根本性变革。针对同类算力服务会广泛分布于不同物理位置的云化资源池的服务部署特性,算力路由面向用户服务层提出了“服务标识“的抽象概念,实现了对同质化服务的抽象表征,并在技术实现层面动态构建维护了服务标识到一系列同质化候选算力服务实例的映射关系。在实际寻址时,用户基于服务标识发起寻址,算力路由会基于本地维护的候选算力服务实例集,根35据一定算法,选择出最符合用户需求的算力服务实例节点,实现众多候选实例到最优服务实例节点的选择。该机制的提出使得用户对算力服务的请求是位置无关的、主机无关的,用户对算力服务的请求仅表达意图,不关心服务的部署位置信息。这是算力路由跟传统基于主机位置的 IP 路由最本质的区别,也标志着网络寻址从位置寻址向服务寻址的代际演进。分布式算力路由技术相较于传统路由的另一个核心变化在于实现了算力资源状态的动态感知机制,通过持续感知获得算力节点的实时负载情况、服务响应速度、资源可用量等关键参数,为每个算力服务实例构建算力资源状态动态画像,并与网络层的时延、抖动、带宽等网络性能指标相结合,形成包含网络-计算资源状态的多维状态矩阵。这种将算力度量指标深度融入进路由体系的做法,突破了传统IP 路由仅关注网络层指标的局限,实现了网络层对网算资源联合状态的全面感知,为智能调度决策提供了多维数据基础。分布式算力路由技术在算力资源状态感知实现层面,当前形成两条演进思路:其一是依托集中式算力感知平台,构建全局算力资源状态视图,通过标准化接口将算力资源状态同步至网络转发节点;其二是基于 BGP 协议扩展的分布式感知机制,通过在 BGP 更新报文中嵌入算力资源状态信息,实现算力资源状态基于网络协议的分布式扩散与学习;这两种技术路径分别对应集中式感知与分布式感知的不同设计,在可扩展性、状态一致性和维护成本等方面有较大差异。通过算力感知平台,有利于实现数据压缩与通告优化,应用分级分域管理体系,有助于支撑跨地域36大规模算力资源状态同步;基于协议扩展的分布式通告机制主要适配小规模算力场景,通过拓扑感知的差异化同步策略,有效防止海量算力状态信息扩散对网络稳定性的冲击。图 3-4 算力路由对算力资源状态感知的两种不同技术路线分布式算力路由技术在寻址算法上采用了算网多因子选路算法,将传统的基于网络状态的单因子选路算法,升级为基于算力-网络状态多因子选路算法,实现网络平面的算网联合决策模型。算力路由需要构建维护到达该算力服务实例的网络状态和算力资源状态的多维状态矩阵。网络状态维度一般涉及网络丢包率、时延、时延抖动、带宽等信息,算力资源状态维度一般涉及服务器/虚机/容器等的CPU/GPU 资源类型/负载、内存/硬盘可用容量等信息。算网多因子选路算法因为涉及到对众多信息的筛选选择,可采用分级筛选策略,首先对于用户请求的服务标识对应的所有候选服务实例集合,基于网络状态矩阵筛选满足时延、带宽等 SLA 约束的候选实例子集一,然后再基于候选实例子集一,通过算力状态矩阵过滤出具备充足计算资源和良好资源状态的实例子集二,最后基于实例子集二运用多因子加权评37分机制对各候选实例进行综合评估,选取最优算力服务实例作为路由决策。这种分层递进的决策架构有效降低了多维空间搜索复杂度,在保障网络稳定性的同时实现了算网资源的协同优化。在坚持平滑兼容现有网络协议架构的原则下,算力路由必须与传统 IP 路由体系保持高度兼容。但算力路由与 IP 主机路由在运行机制方面存在显著差异,对实际部署工作构成了诸多挑战。从设备实现的角度来看,若要构建更为灵活高效的算力路由转发流程,则需要深入探索可编程芯片技术的应用潜力。目前,该技术已在标准制定、设备研发及试点应用等关键环节取得阶段性成果,未来,仍需集中力量攻克高动态环境适配、标准化统一等核心技术难题,以此夯实“算力无处不在”智能化基础设施建设的基础。3.3.5 5 分布式算力自智技术分布式算力自智技术分布式算力自智技术,作为下一代计算基础设施的关键演进方向,其核心在于通过深度整合自动化与智能化机制,实现基于单域自治与跨域协同的算力资源管理与服务供给模式。在理论层面,单域自治强调系统在局部范围内的自主决策与闭环控制能力,涉及资源动态分配、故障预测与自愈、性能闭环优化等关键技术环节,旨在提升基础设施层面的智能化水平与运营效率。而跨域协同则侧重于构建分布式系统间的智能交互与协同机制,通过信息共享、策略联合优化等方式,打破传统计算资源孤岛,实现全局资源的最优调度与业务流程的端到端一体化整合。38分布式算力自智技术不仅是提升现有算力资源利用效率的手段,更是推动计算范式从被动响应向主动智能、从孤立运行向协同共生的根本性变革。首先,基础设施智能化不仅意味着运维成本的降低和系统可靠性的增强,更代表着计算平台本身具备了适应复杂环境和负载变化的能力。其次,业务流程一体化通过打通数据与算力在异构环境下的流转壁垒,显著提升跨系统、跨地域的业务协同效率与响应速度。再者,服务场景定制化能力使得算力服务能够根据特定应用场景(如大规模科学计算、实时工业控制、个性化推荐系统等)的差异化需求,提供高度适配的资源组合与服务模式,从而最大化性能与用户体验。从服务供给的角度看,分布式算力自智技术致力于构建一种新型的服务化算力供给范式,其目标是为日益多样化的应用负载提供泛在可达、按需高效、实时响应、弹性灵活且安全可控的算力服务。这种范式不仅极大地丰富了算力资源的利用形态,也为新兴应用的发展提供了坚实的底层支撑。尤为关键的是,该技术内在地蕴含了使能网络基础设施实现高级别自治运行与持续演进的潜力。通过内嵌的自感知、自决策、自执行与自优化能力,网络系统能够模拟生物体的适应性,实现对自身状态的实时监控、异常行为的智能诊断与高效修复,并依据应用需求与运行经验进行自适应的架构调整与功能演进,从而形成一种可持续发展的、高度智能化的算网融合新生态。39图 3-5 自智算力网络参考架构示意图分布式系统本身固有的异构性、动态性、规模可变性以及跨域交互带来的不确定性,构成了分布式算力自智技术需要应对的基础挑战。因此,首要任务在于如何设计具备高度鲁棒性与适应性的单域自治机制,使其能在局部信息不完备或环境突变的情况下,依然保持稳定的资源管理与服务提供能力。在跨域协同中,需要建立高效、可信且低开销的通信与决策框架,以实现全局最优或次优的资源调度与任务协同,同时有效处理域间冲突与利益博弈。此外,自智系统如何实现从被动响应到主动预测的转变,即具备基于历史数据与实时监测进行故障预测、性能衰退预警乃至潜在安全威胁识别的能力。这些问题的解决将为后续的理论建模、算法设计与系统实现奠定基础。3.63.6 分布式算力安全保障技术分布式算力安全保障技术随着分布式计算架构逐步成为国家、行业与企业级算力基础设施40的主流形态,其开放性、异构性和跨域性也带来了全新的安全挑战。分布式算力体系的建设带来了资源利用效率的显著提升,但也暴露出跨域主体身份难以统一、算力资源接入过程不可信、算力服务过程中风险不可控等一系列安全问题,传统静态、安全边界明确的防护模型已难以适应现代算力体系的安全需求。因此,亟需构建内生安全、动态可控、泛在协同、可验证可监管的分布式算力安全保障体系,为未来可信算力网络提供坚实的安全支撑。图 3-6 分布式算力保障技术架构示意图面对分布式算力主体身份多元、权限粒度细化、行为隐蔽性增强等复杂态势,亟需建立面向分布式算力资源全生命周期的统一身份与41信任评估体系。由于算力提供方与使用方往往位于不同物理域和管理域,传统的局域信任模型难以延伸至广域协作场景。针对这一问题,以分布式身份标识(DID)机制为基础,为每个算力节点、资源主体、任务请求分配唯一标识,确保身份的唯一性、不可伪造性、不可抵赖性与上链可追溯性。通过多维数据特征(如身份、权限、历史行为、任务贡献度等)训练构建神经网络-图模型融合的信任评估引擎,动态输出主体现阶段的可信等级,并与算力调度平台联动调整访问权限和行为策略,实现基于信任的差异化资源调配。同时,构建信任关系知识图谱,形成跨域、跨平台、跨时间的动态安全关系映射,支撑算力安全决策中的风险推理、异常追踪与行为溯源,成为分布式可信基础设施的重要元数据支柱。在多源异构算力节点不断接入算力网络的环境下,节点可信性成为系统安全保障的关键门槛。需建立基于泛在边界的动态可信接入控制机制,实现对全域算力资源的准入管理与状态感知。该机制可采用统一接入认证架构,融合标识绑定、链上认证、加密校验、行为态势感知等能力,支持对边缘节点、云节点、专用终端等算力载体进行分层分域的接入校验和实时状态同步。同时,结合零信任架构(ZTA)理念,对每次资源访问请求施加临时授权、行为分析与动态策略下发,实现无边界化条件下的“最小权限”使用原则,提升整个算力生态系统的抗破坏能力。此外,设计基于可信交易与行为审计平台的算力终端安全管理机制,通过分布式账本记录调度行为与服务调用路径,结合智能合约触发异常分析与告警通知,保障算力服务全过程中的行为42合规性与责任可溯源性。分布式算力体系的安全风险不再是局部突发事件,而是以动态扩散性、高度联动性和隐蔽变异性为特征,需建立面向全域、可预测、可响应的风险管控机制。针对该问题,可构建智能安全控制平面(Security Control Plane),以统一策略引擎 分布式感知节点 联邦智能模型协同运行的方式,实现算力资源访问、使用、调度过程中的全域风险识别与动态应对。引入 SRv6 信任域标记机制,对算力流路径进行可信标签绑定与状态监测,基于状态感知判断调度链路是否存在异常行为(如资源漂移、频率异常、权限超越等);同时,结合隐私计算与差分隐私机制,实现数据与行为的脱敏建模,保障风控策略训练过程中的数据合法合规。风险事件一旦被识别,系统可根据预定义响应模型进行自动阻断、隔离调度、权限收缩或联邦通报。所有行为响应与风险处置结果将在审计平台中登记,实现可持续监管能力与决策闭环。四、四、分布式算力感知与调度应用场景分布式算力感知与调度应用场景分布式算力感知与调度通过实时采集和评估多源异构计算节点的性能状态,结合网络带宽与业务需求动态优化任务分布,不仅极大地丰富和拓展了算力资源的供给方式,也提升了算力与网络协同的灵活性与利用效率。在保障高吞吐、低时延和高可用性的同时,调度策略还能根据峰谷负载自动弹性扩缩,降低资源闲置和运营成本,从而43为各种新兴业务场景提供可按需伸缩的计算服务能力。该技术聚焦于产业数字化升级与智能化转型,面向大模型训练、云游戏、智慧医疗、低空经济网等多领域,提供新型高效的解决方案,赋能各行各业。本章将以若干典型应用场景为例,阐述分布式算力感知与调度的核心价值与实践成效;同时也指出,该领域尚处于不断演进阶段,未来还将涌现更多创新应用,有待产学研各界持续探索与协同推进。4.14.1 远程医疗远程医疗在远程医疗场景中,分布式算力感知与调度技术可以打破地理与机构壁垒。它整合从一线城市三甲医院高性能影像服务器,到县级医疗中心边缘计算节点,乃至偏远乡镇卫生院轻量级终端及云端算力集群,构建“广域医疗算力网”,让优质诊断能力和 AI 辅助分析能力高效、安全、普惠地服务患者,为医疗资源公平可及提供技术支撑。实现这一目标,需先精准感知网络内异构、分散的算力资源,形成全局视图。系统周期性汇聚各级节点实时状态,这不仅包括院内PACS 服务器、GPU 工作站的 CPU/GPU 利用率、显存内存余量、I/O 带宽等传统指标,也涵盖了部署在社区卫生服务中心的轻量级 ARM 架构边缘盒子乃至 5G 救护车上移动终端的网络往返时延等关键信息。更进一步,感知系统还会对节点计算架构、支持的 AI 算子集与驱动版本深度画像,建立“有效医学影像算力单元”等统一度量范式,为智能调度提供决策基准。基于此,智能调度器可根据远程医疗任务需求规划最优计算路径。44基层医院的远程诊断请求被抽象为包含数据预处理、分布式 AI 推理等步骤的工作流,调度器评估子任务计算强度、时延阈值等,结合资源视图与网络负载模型映射执行路径。如急诊影像分析这类超低时延任务,会下沉到就近边缘节点并通过网络切片保障传输;常规体检图像筛查等则优先上传至云端大规模集群处理,以获规模效益。分布式算力感知与调度还天然支持隐私保护的协同推理与训练。在联合推理模式下,患者原始影像块仅在本地进行 DICOM 去标识和压缩编码,随后通过加密隧道传输特征张量至云推理服务器;对联邦学习而言,GPU 工作站根据本地标签数据训练梯度,调度器按“通信带宽梯度稀疏度”优化同步顺序,确保大规模医院联盟在不共享原始影像的前提下快速收敛。区块链-可信执行环境用于记录任务调度日志、模型版本与推理结果,保障诊断过程的全链路可追溯与不可篡改。在实际应用中,这一体系让放射科医生在高峰时段也能在 23秒内获得 AI 辅助肺结节检出结果;同一时间,偏远乡镇卫生院通过5G 专网将疑难病例的 MRI 切片拆分上传,云端完成分区推理与拼接后把定量分析报告回传,仅耗时数十秒。大规模资源池的协同让设备利用率提升 30-50%,而调度算法对时延违约率的持续压缩,使危急重症的影像诊断平均响应时间缩短至传统单点部署的 1/5。最终,分布式算力感知与调度为智慧医疗影像诊断提供了可扩展、高并发且时延可控的数字底座,显著提升诊断效率、准确率与区域医疗公平性,并为未来多模态融合诊疗与实时远程手术导航等创新应用奠定了坚实的算力基础。454.4.2 2 智慧城市智慧城市在智慧城市的宏大构想中,城市被视作一个庞大复杂的生命体,其高效、安全、可持续运行依赖强大的“中枢神经系统”。分布式算力感知与调度技术便是构建这一系统的核心,它将遍布城市的感知设备、边缘节点与云端数据中心相连,形成协同整体,实现对城市脉搏的实时感知、资源的智能调度和事件的精准响应,推动城市管理从被动割裂迈向主动一体。实现城市智慧化治理,首要的是对其运行状态进行全面深入的感知。这是个多层次、异构化的算力与数据感知体系。城市末梢的百万级物联网设备,如高清摄像头、激光雷达、空气质量监测器等,是感知基础。分布式算力感知系统不仅采集海量数据,还实时掌握智能灯杆、路边单元等边缘计算节点的“健康状况”与“能力图谱”,包括CPU/GPU 负载、网络连接质量、硬件架构等。为实现跨平台资源公允调度,系统建立面向城市场景的统一度量范式,如“有效城市计算单元”,量化不同节点执行特定任务的真实效能,形成全局统一、动态更新的“城市算力地图”。基于这张“算力地图”,作为“城市大脑”核心决策引擎的智能调度器,能依据不同应用场景需求,进行毫秒级任务分发与路径规划。城市治理因场景多样,调度策略需有极强的情境自适应能力。比如交通摄像头捕捉到主干道车辆碰撞事故,事件被定为最高优先级,调度器会立即将实时视频流分析任务下沉到最近的路边边缘计算单元,实46现低延迟的事故识别与定性,将分析结果而非原始视频推送至交管和急救中心,同时协同调整周边交通信号灯配时,为救援车辆开辟“绿色生命通道”,整个过程数秒内自动完成,实现感知、决策与控制的无缝联动。对于非紧急但计算密集型任务,调度器策略不同。像城市规划部门分析全年交通流量数据以模拟新地铁线路影响,这是对时延不敏感但计算量大的批处理任务。调度器会安排在夜间或周末等城市计算资源负载低的时段,将海量历史数据传输至云数据中心,利用云端算力进行大规模并行计算和仿真。这种分时分域的调度策略,大幅提升算力资源利用率,降低城市运营计算成本,实现资源效益最大化。在智慧城市运行中,数据安全与市民隐私是红线。分布式算力感知与调度遵循“计算贴近数据”原则,为可信城市治理体系提供天然优势。大量敏感原始数据如人脸影像、车辆轨迹等,在边缘侧本地化处理,AI 模型部署在摄像头或边缘服务器上,仅将脱敏后的结构化分析结果上传至中心平台,原始视频数据分析后即刻销毁或本地按规存储,最大限度保护市民隐私。此外,结合区块链等技术,能为城市关键基础设施的控制指令提供不可篡改的执行记录,确保操作可追溯、可问责,提升城市治理的透明度与公信力。最终,分布式算力感知与调度技术将城市从功能孤岛融合成能自我感知、调节、优化的智能有机体。它缩短交通拥堵时长,加快公共安全事件响应速度,通过精细化管理降低城市能源消耗,是提升城市治理现代化水平的关键技术,更是打造安全、高效、绿色、宜居未来47城市不可或缺的数字底座。4.34.3 大模型分布式训推大模型分布式训推由于机器学习与人工智能的迅猛发展,超大规模语言模型已跃升为科技竞逐的新高地。然而,要训练和上线诸如 GPT-4 之类的模型,必须依托巨大算力与高速网络协同配合,这对计算与通信基础设施都提出了极为严苛的要求。训练过程中需吞吐 TB-级乃至 PB-级的文本语料,并执行庞大的矩阵运算,对 GPU/TPU 的浮点性能、显存容量以及存储带宽形成高压。大规模生成式模型的训练与推理对算力提出了“高并行度、长持续、高带宽”三重要求:训练阶段需要数百到上千颗 GPU 进行同步梯度聚合,推理阶段则要在全球多地为 API 调用提供快速响应,同时保证模型权重版本一致。因此,分布式算力感知与调度能够在大模型分布式训推场景中得到广泛应用。分布式算力感知与调度首先利用资源探针实时采集各数据中心与超算机房的 GPU 型号、显存余量、NVLinkInfiniBand 带宽和节点健康状态,并用统一的有效算力单元来衡量不同加速卡在主流Transformer 模型上的 token-per-second 吞吐。调度器根据这些度量,将并行化策略(数据并行、张量并行、流水并行或 MoE 路由)与硬件特征匹配,把通信密集的训练算子尽可能聚集在同一低时延互联域内,把带宽压力较小的校验、存储、蒸馏等任务分散到网络次优但算力富余的节点。到了推理阶段,会实时计算各区域请求量、权重缓存命中率与 GPU 温度,自动把模型副本热迁移到用户最近的边缘集群,48并在负载回落时回收冗余实例。应用该机制后,单步训练时间可缩短两成以上,推理 QPS 提升三至四成,同时跨集群 GPU 利用率从 50%提高到 80%左右,显著压缩模型迭代周期与空闲算力成本。为了提升系统鲁棒性与资源利用率,分布式算力感知与调度技术还能够集成“预测驱动的弹性扩缩容”功能,通过对历史训练作业和推理流量的时序分析,提前预估未来算力波峰,并在多云环境中按需预启动抢占式实例或竞价实例,结合 SLA 优先级对不同任务进行分层调度。此外,控制平面与节点代理配合,实现了秒级故障转移,当探针监测到某个交换机队列异常或 GPU 性能掉点,能够迅速将任务切换至健康机房或边缘节点,最大限度减少训练中断和推理超时。通过这一整套实时资源探针、统一算力量化和智能调度策略的协同工作,大模型训练能够在异构硬件和多云环境中实现高效协同,通信瓶颈得到显著缓解,训练作业的吞吐率和并行效率大幅提升;在推理环节,模型副本可根据请求分布和节点健康状况灵活下沉与回收,为全球用户提供低时延一致性响应。预测驱动的弹性扩缩容与秒级故障切换机制进一步增强了系统的鲁棒性和资源利用率,使得超大规模语言模型的迭代周期缩短、运行成本降低,并在面对突发负载或硬件故障时依然能够保持平滑、稳定的服务表现。因此,分布式算力感知与调度能够成为支撑下一代生成式 AI 平台快速演进和大规模部署的关键支柱。494.44.4 云游戏云游戏在云游戏场景中,玩家对操作反馈的及时性和画面的流畅度提出了极高的期许,任何一帧渲染或一次编码的延迟都可能让操控体验大打折扣。玩家分布在不同城市甚至国家,网络质量随时可能出现抖动、丢包或带宽骤降,而日常时段与峰值时段的并发量波动又往往在数分钟内剧增,这就要求算力和网络资源能够像流动的液体一样随需而动。为此,分布式算力感知与调度在各级渲染服务器、硬件编码器和网络接入节点中部署轻量化探针,持续采集 GPU 利用率、编码队列深度、网络往返时延和丢包率等指标。不同类型和代际的硬件性能通过统一的“渲染单元”进行量化,使得边缘节点、城域机房与云端计算资源能够在同一基准下横向比较。这样,当一位玩家发起连接时,调度逻辑便会根据其地理位置、所玩游戏类型和当前网络状况,将整条渲染编码链路精确地分配给最近且负载最轻的节点,以保证每一次画面生成都在毫秒级内完成。在流量突发激增时,系统会迅速唤醒预留的边缘实例或启动云端竞价实例,在后台无缝迁移活跃会话,玩家几乎感受不到资源切换带来的抖动;流量回落之后,又能自动释放多余算力,避免资源闲置和成本浪费。为了进一步提升网络抖动时的体验平滑性,平台引入了预测驱动的内容预加载与帧缓存技术。通过对玩家历史会话数据、网络波动模式和时段流量特征的深度分析,系统能够在玩家即将进入高带宽消耗场景(如大型团战、场景切换)前,提前在边缘节点或客户端缓存关50键渲染帧与差分数据。即便随后网络出现短时中断或延迟飙升,播放器也能凭借本地缓存继续输出流畅画面,待链路恢复后再快速补齐缺失帧和增量信息,从而有效削减了因网络突变带来的卡顿感。在多租户并发运行的环境中,不同业务的资源隔离与优先级管理同样关键。分布式调度会根据各服务的协议等级划分渲染单元配额,当某项服务承压过大时,系统会重新调整资源分布,优先保证关键会话的流畅性,防止因突发流量引起的相互干扰。同时,运维团队可通过可视化仪表盘实时监控全球各区域的负载热力图与 QoE 指标,一旦监测到潜在瓶颈或性能波动,系统会自动触发策略建议,如在邻近区域预配更多渲染资源、调整网络路由优先级或优化压缩参数,确保平台长期稳定运行。此外,为了兼顾成本与可持续发展,系统将能耗模型纳入调度决策:在非高峰时段或对画质要求不高的场景下,优先利用能效更高的硬件编码器和共享算力资源;在高价值关键会话中,则自动启用性能最强但相对耗电更高的 GPU 实例,并在会话结束后迅速回收。通过对功耗、性能与用户付费等级之间的动态平衡,运营方既能最大程度降低能源开支,也能确保用户在关键时刻获得最佳体验。展望未来,随着虚拟现实、增强现实和下一代无线技术(5G/6G、Wi-Fi 7)的普及,云游戏的网络和算力需求将更加苛刻。分布式算力感知与调度将进一步扩展至玩家终端侧,在多接入网环境中实现链路聚合与动态切换,实时选择最优路径或并行传输,以进一步压缩端到端时延。同时,AI 驱动的网络风险检测模块将能在极短时间内发51现并规避恶意抖动或突发攻击,保障平台的安全与稳定。通过这一系列精准感知与弹性调度策略,云游戏平台将在更为复杂多变的网络环境中持续为玩家提供无缝、沉浸的互动娱乐体验,同时实现高效节能与稳健运营。4.54.5 低空经济网络低空经济网络在低空经济网络场景中,各类载体如大型无人机、旋翼机、气球和轻型飞艇等在低空空域与地面基站共同编织出一个灵活的三维通道,用于承载物流配送、环境监测、应急通信、临时零售与数据采集等多元化业务。随着这些平台在城郊乃至乡村上空的持续巡航,任务对计算和通信的需求随时在变化:物流环节需要在飞行器上实时完成包裹条码识别与路径优化;环境监测需对多源传感器数据进行边缘聚合、清洗和初步分析;在群众聚集或演出活动现场,需要快速部署移动支付和库存查询服务以支撑临时商铺;而在应急救援或大型活动中,低空平台又要承担视频转发和通信中继的重任。这种动态生态对算力的并发性、链路的可靠性和能源的可持续性都提出了高要求,同时不同业务之间的负载高峰常常出现错峰重叠,给资源调度带来极大挑战。分布式算力感知与调度通过在每一个飞行平台和地面节点中安装轻量化探针,持续采集包括 CPU/GPU 利用率、硬件编码器队列长度、网络往返时延、丢包率及平台剩余电量在内的多维指标,并将异构设备的性能映射为统一的“空中算力单元”。在此基础上,调度器根据当前业务类型的时延敏感度、数据量大小与处理复杂度,将紧急52的条码识别和支付验证任务优先分配给网络最稳定、计算负载最轻的临近无人机或地面服务车;对容许短暂延迟的环境数据清洗与批量分析,则集中调度到飞行器群中计算资源富余的节点或后端边缘机房。每当检测到流量骤增或某个平台电量临界,系统会自动唤醒预置的备用载体、启动竞价式算力实例,并在后台平滑迁移正在运行的子任务,从而保证业务不中断。任务完成后,调度器还会迅速回收已用算力,避免能源与资源的浪费。通过这种面向多业务、多载体的精细化感知与弹性调度,低空经济网络在实践中取得了显著效果。包裹分拣与跟踪的响应延迟大幅缩减,复杂环境监测的初步分析结果能够更快送达指挥中心,临时零售点的支付和查询服务也始终保持高可用,而在突发演练或救援场景中,通信中继能力得以随需扩展,且在保障任务执行的同时,平台总体能耗与运营成本均得到有效控制。未来,随着更多轻量化 AI 算子和高效能算力模块的加入,这一底层架构还将进一步提升对超低时延和高并发业务的支撑能力,为低空经济的发展奠定坚实的技术基础。4.4.6 6 战术网络战术网络战术网络是现代军事通信系统的核心组成部分,其主要功能是为战场上的作战单元提供实时、可靠的通信支持和信息共享。随着军事技术不断发展,战术网络的复杂性和对算力的需求也在不断增加,分布式算力感知与调度技术为战术网络的优化与发展开辟了新路径。战术网络需要处理大量的实时数据,以此为根据做出战术决策。53例如,在战场态势感知中,需要实时处理来自多个传感器的数据,以生成准确的战场态势图;在目标识别中,需要快速处理图像和视频数据,以识别潜在威胁;在通信加密中,需要实时加密和解密大量数据,以确保通信的安全性。这些任务的高效执行依赖于强大的算力支持。分布式算力感知与调度系统将网络从一个单纯的数据传输管道,转变为一个分布式的、可协同工作的计算平台,使战术网络能实时感知网络各节点的算力状态,将任务快速分配至最合适的节点,满足战术应用对实时性的严苛要求。在分布式算力架构可以提升战术网络的可靠性与抗毁性。战场环境复杂多变,网络节点随时可能因敌方攻击或自然因素受损。分布式算力系统中,即使部分节点失效,其他节点仍可继续承担计算任务,保障系统的整体运行。算力感知与调度系统持续监控承载服务节点的状况,一旦某个指挥节点因敌方火力打击或强电磁干扰而离线,调度系统则会依据预设策略,迅速将服务和计算“迁移”到网络中其他节点上,并重新建立服务连接。这将改变传统指挥体系“中心即是弱点”的困境,在部分网络被摧毁的情况下,指挥能力可以延续、作战体系也能保持核心功能的运作。分布式算力调度是加速战术决策、赋能自主协同作战的核心。装备了分布式计算能力的战术网络,可以实现“边缘决策”,不必等待后方指挥链层层下达指令,前沿的传感器节点发现目标后,可立即触发局域的“决策任务”。算力调度系统将计算结果直接分发给网络内最合适的攻击单元,实现“发现即摧毁”的快速闭环。更进一步,通54过在战术边缘部署强化学习等 AI 模型,整个作战编组可以进行自主协同进化。例如,一个无人机蜂群在执行任务时,可以利用分布式算力,根据实时战场环境和战损情况,集体重新计算和优化队形、分工和攻击策略,而无需依赖任何中心节点的微操控制。这种由数据和算力驱动的自主协同,将极大提升作战单元的智能化水平和任务的成功率。综上所述,分布式算力感知与调度技术并非简单地将计算资源分散化,而是通过赋予战术网络以智能的“感知”和自主的“调度”能力,从根本上重构了信息时代战场的作战模式,推动战术网络从脆弱的通信链路演变为一个坚韧、智能、高效的分布式作战中枢,为赢得未来高科技战争奠定坚实的算力基石。4.4.7 7 智能制造智能制造在第四次工业革命的浪潮推动下,分布式算力感知与调度的应用具有重大意义,正深刻变革着智能制造领域的生产模式与效率。智能制造的本质,是将制造系统从一个由物理设备和人力构成的集合体,转变为一个由数据驱动、模型定义、软件控制的智能物理系统(CPS,Cyber-Physical System)。其中海量数据的产生、传输、处理与分析,对算力提出了空前巨大、异构且时延敏感的要求。传统集中式算力显现出响应迟缓、成本高昂、资源利用率不高等问题,分布式算力感知与调度则可将部分数据处理任务分流至靠近设备的边缘计算节点,实现数据就近快速处理,减少传输延迟。55分布式算力感知与调度在智能制造领域的应用,是对传统生产范式的一次深刻重构,它将算力作为一种可灵活调配的核心生产要素,深度融入到制造的全生命周期中。在智能制造中,产品设计与研发阶段是算力需求最为集中的环节之一。分布式算力调度系统能够实时感知整个算力网络中可用的算力资源池,无论是企业私有云中的计算集群,还是远在“东数西算”节点上的国家超算中心,系统都能根据仿真任务的规模、优先级和预算,自动选择并调度最合适的算力资源,从而将以往需要数周乃至数月的仿真周期缩短至几天甚至几小时。此外,分布式算力调度还可以支持多学科优化设计,例如同时进行结构优化和热力学分析,提高产品的整体性能。在生产制造阶段,分布式算力感知与调度技术可以用于优化生产过程。制造企业生产任务多样,需考虑设备状态、订单优先级、物料供应等多因素。分布式算力感知与调度系统能实时获取各生产环节信息,利用本地与云端算力动态调整生产计划和资源分配。例如,在智能工厂中,机器人和自动化设备需要实时接收任务指令并进行协同工作。此外,通过分布式算力调度,还可以实现生产过程中的故障预测和预防性维护,减少设备停机时间,提高生产效率。产品质量检测与控制需要对产品进行高精度的图像识别和数据分析,分布式算力感知与调度技术可以支持大规模的图像处理和数据分析任务,提升检测精度与效率。例如,在边缘节点利用轻量化图像识别模型实时对图像进行初步筛选,识别明显缺陷,复杂缺陷图像再56上传至云端进行深度分析;实时监测各个计算节点的负载情况,并将图像处理任务动态分配到空闲的节点上,从而加快检测速度。此外,分布式算力调度还可以支持多模态数据融合,例如将图像数据和传感器数据结合起来进行综合分析,提高质量检测的准确性。供应链管理涉及到多个环节的协同工作,分布式算力感知与调度可以推动跨企业、跨区域协同制造。在未来的智能制造生态中,订单、设计、生产、物流等环节将在不同的企业主体之间动态共享与协同。这需要一个强大的“产业大脑”来进行全局的资源优化。平台可以调度闲置的算力资源,实现跨域算力与制造能力的协同调度,打破企业间的信息壁垒和资源孤岛,使得整个产业链能够像一个紧密耦合的虚拟工厂一样运作,极大地提升区域制造产业集群的整体竞争力和市场响应速度。此外,分布式算力调度还可以支持供应链中的风险预测和应急响应,提高供应链的稳定性和可靠性。4.4.8 8 自动驾驶自动驾驶自动驾驶技术正朝着 L4/L5 级别的高度自动化迈进,这使车辆需要实时处理海量的环境感知数据、进行复杂的决策规划与控制计算,对算力的需求是海量、瞬时且不容出错的。一辆高级别自动驾驶汽车每小时产生的数据量可达 TB 级别,其内部的计算平台需要在毫秒级的时间内完成从数据融合、目标识别到轨迹预测、行为决策等一系列复杂运算。单纯依靠车载计算单元的算力,会面临功耗、散热、成本以及算力天花板的巨大挑战;而完全依赖远端中心云的计算模式,其57固有的网络延迟对于实时的驾驶决策是不可接受的。因此,构建一个“车-路-云”一体化的协同计算体系,并引入分布式算力感知与调度的先进理念,对车载、路侧、云端的异构算力进行统一管理和智能分配,已成为突破单车智能瓶颈、实现安全、高效、可扩展自动驾驶的关键路径。分布式算力感知与调度在自动驾驶领域的应用,其精髓在于将车辆从一个算力孤岛,转变为一个能够与外部环境进行计算资源实时交互的智慧体。这里的“感知”具有双重维度:一是车载操作系统对自身计算资源的“内省感知”,需持续监控其高性能计算平台的负载率、内存占用、芯片温度和功耗等状态;二是车辆通过车对外部可用算力资源的“环境感知”,包括感知路侧单元(RSU,Road Side Unit)的算力负载、网络连接质量以至中心云数据中心的宏观资源状况。只有建立在这种内外兼修、实时动态的全局算力资源图谱之上,智能调度才成为可能。“调度”则是基于感知结果所执行的核心动作,即智能化的计算任务卸载(Computational Offloading)。车载的智能调度器,如同一个运筹帷幄的“算力总管”,它根据不同驾驶任务的特性决定该任务是在本地执行,还是卸载到多接入边缘计算(MEC,Multi-accessEdge Computing),抑或是提交给中心云。、分布式算力感知与调度为自动驾驶的算力管理提供了全新的范式,构建了一个可感知、可调度、可协同的“车-路-云”分布式计算架构。通过将安全关键任务锁定在本地、将复杂感知任务协同于边缘、58将海量训练任务汇聚于云端,该技术使得车辆能够在确保绝对安全的前提下,突破自身物理算力上限,获得近乎无限的“云端外脑”支持。59五五、分布式算力感知与调度行业发展建议分布式算力感知与调度行业发展建议5.15.1 发展面临的挑战发展面临的挑战技术挑战:分布式算力感知与调度技术面临的核心技术挑战在于如何高效协同异构、动态的算力资源。边缘节点与算力中心的算力、存储和网络资源呈现高度动态性,传统静态感知机制难以实时捕获资源状态变化,而频繁探测又会带来额外开销,分级分域感知技术需要在精度与效率间取得平衡。异构计算单元的性能差异显著,现有资源度量模型缺乏统一的跨平台量化标准,影响调度决策准确性。同时网络环境的不稳定性导致边缘节点间通信质量波动,跨域协同还面临管理策略差异带来的标准化难题。算力自智技术受限于数据稀疏性,AI模型的训练效果和决策可解释性面临挑战。这些问题的解决需要突破轻量级感知、智能调度算法和隐私计算等关键技术,构建自适应、高可靠的分布式算力调度体系。基础设施挑战:网络传输的协同能力亟待加强,边缘接入网与核心骨干网间的带宽落差导致跨级调度指令的端到端时延保障存在波动,多运营商网络边界策略差异更使得跨域算力的路由稳定性面临挑战,因此需要构建更精细的互联协商机制以平滑传输路径。广域节点时钟同步精度亟待提升以抑制微秒级偏差;同时需深度适配异构协议栈、突破转换层微延迟瓶颈并优化轻量化终端通信开销。物理层与协议层的协同演进是释放跨域服务确定性的关键。60标准挑战:当前,主流云服务商、电信运营商边缘平台及工业设备厂商普遍采用私有化的资源描述框架与异构接口规范,在算力性能表征、拓扑关系建模、实时负载度量等关键维度缺乏统一语义定义。这种标准缺失导致跨管理域的资源发现与调度需通过复杂的定制化中间件实现,显著推高系统集成成本与生态协同门槛,阻碍产业级算力网络的集约化演进。经济挑战:在分布式算力感知与调度技术蓬勃发展的当下,行业在经济层面遭遇诸多挑战。资源成本方面,地域与厂商差异导致算力资源成本结构复杂多样。不同地区算力资源在价格、性能及可用性上参差不齐,低价算力性能欠佳,高价算力性能卓越。这种异构性极大增加了统一调度的难度,要求调度系统在决策时必须精准权衡性能与成本,力求实现资源的最优配置与高效利用;在算力交易市场机制层面,当前尚未形成统一成熟的规则体系。跨主体、跨地域的算力资源流通效率有待提升,相关交易模式仍处于实践探索的初期阶段,市场基础设施与协作机制需进一步健全完善。5.25.2 发展阶段划分发展阶段划分目前分布式算力感知与调度的发展仍处在重要的建设阶段,无论是学术界、产业界还是研究领域都在持续推进理论创新与工程实践。分布式算力感知与调度平台建设涉及三方协同,不同领域之间需要打通技术壁垒,进行标准的升级互通与人才的交流协作,方案设计与技术落地都存在很多挑战。因此分布式算力感知与调度技术发展可分为61以下四个阶段。5.2.15.2.1 起步阶段起步阶段分布式算力感知与调度行业的起步阶段,技术突破是核心驱动力,这一时期主要以技术验证与初步探索为特征。受限于当时网络带宽、数据传输效率以及分布式系统管理技术的不足,行业参与者聚焦于解决基础架构的可行性问题,例如如何实现跨地域、跨组织的算力资源识别、连接与简单协同。早期尝试多基于单机集群的扩展思维,通过定制化协议和中间件技术,验证分布式算力调度的基本逻辑,如任务分解、负载均衡和结果聚合等关键环节。这一阶段的典型场景集中在科研机构和头部科技企业的内部实验环境中,用于处理高性能计算、大数据分析等特定领域的需求。5.2.25.2.2 整整合阶段合阶段整合阶段标志着行业从技术探索向规模应用的关键跃迁。伴随5G、软件定义网络等基础设施技术成熟,算力资源实现跨域全局化聚合,形成覆盖多数据中心与云平台的协同体系。企业通过构建统一资源池,推动离散算力向可度量、可流通的服务形态转化,智能调度系统依托自适应算法实现精准动态供给。行业实践表明,超大规模云服务商已建立体系化调度框架,显著提升资源集约效能;混合云架构通过能力下沉构建全域协同的算力供给网络。开放标准体系持续深化硬件层依托开放计算推进异构环境兼容,软件层基于云原生规范62统一编排范式,为产业集约化发展奠定基础。5.2.35.2.3 智能化阶段智能化阶段智能化阶段是行业从“量变”到“质变”的关键跃迁。人工智能、机器学习技术的深度融合,使算力感知与调度具备自主决策能力。感知层面,系统通过实时监测节点温度、功耗、负载等参数,结合历史数据预测故障风险,实现预防性维护;调度层面,强化学习算法能够根据任务优先级、资源成本、网络延迟等多维度因素,动态优化分配策略,使算力利用率得到很大突破。例如,谷歌通过 Borg 系统将任务调度时间从分钟级缩短至毫秒级,年节省算力成本超 10 亿美元;华为云 AI 调度器在 AI 训练场景中,通过智能拓扑感知将数据搬运时间减少 40%。这一阶段,行业应用场景从互联网向制造、医疗、金融等传统领域渗透,成为数字化转型的核心基础设施。5.2.45.2.4 生态化阶段生态化阶段生态化阶段标志着行业竞争范式从单体创新向全产业链协同的系统性跃迁。随着算力基础设施逐步成为支撑经济社会发展的公共基础资源,产业生态链加速完善上游异构计算架构持续演进,推动算力资源弹性供给能力升级;中游绿色集约化设施构建稳健算力底座;下游开放平台通过标准化接口赋能垂直领域创新应用;终端用户基于服务化模式实现普惠接入。行业实践表明,领先云平台已形成繁荣的应用开发生态,国家级算力枢纽工程有效促进跨区域资源协同。当前,63产业边界持续融合重构,算力与数据、算法深度耦合,共同构筑数字经济发展的核心要素基座。这一阶段,行业边界逐渐模糊,跨界融合成为主流,算力与数据、算法共同构成数字经济的新生产要素。5.35.3 发展对策建议发展对策建议技术创新与研发:需重点突破动态感知与智能调度技术。研发轻量级分级分域感知算法,结合边缘计算与数字孪生技术,实现低开销、高精度的资源状态实时捕获;构建跨平台、多维度的资源统一度量模型,通过标准化算力、存储、网络等关键性能指标,提升调度决策的精准性;发展基于强化学习与联邦学习的智能调度算法,优化多目标(时延、成本、能耗等)动态权衡能力,避免局部最优问题;推动算力自智技术演进,利用边缘侧增量学习与小样本训练提升 AI 模型的适应性,同时增强决策可解释性以满足关键领域合规需求;加强隐私计算与安全协同技术研发,确保跨域数据交互的可信性与安全性。基础设施建设与改造:需强化网络传输与协议协同能力。优化边缘接入网与核心骨干网的代际协同,通过 SDN/NFV 技术实现带宽资源的动态调配,降低跨级调度时延;推动多运营商网络互联协商机制建设,统一跨域路由策略,提升算力流传输稳定性;加强广域节点时钟同步技术研发,满足分布式协同计算的高精度时序需求;促进工业TSN 与云原生 IPv6 等异构协议栈的深度适配,提升跨域数据传输的确定性;研发高效协议转换中间件,降低边缘设备接入算力网络的通信开销,提升全域资源感知敏捷性。64标准制定与完善:为推动分布式算力感知与调度行业 标准发展,需多管齐下促进标准统一与市场机制完善。一方面,由行业协会联合产业各方力量,加快制定涵盖分布式算力资源描述、接口协议及调度规则的全面行业标准,明确算力性能表征、拓扑关系建模等关键维度的语义定义,打破主流云服务商、电信运营商边缘平台及工业设备厂商私有化标准的壁垒,推动其开放私有化 API,降低生态协同成本,实现跨管理域资源的高效发现与调度。经济协同机制:为推动分布式算力感知与调度行业的经济协同发展,需重点突破资源价值评估与市场机制建设的关键环节。建议采取以下措施:建立全域算力动态价值评估体系,通过标准化模型量化性能、时延、成本等多维参数,生成实时资源价值图谱,支撑调度系统的多目标优化决策;构建弹性分层定价机制,基于服务质量承诺与实时负载状态动态调节资源溢价,形成价格性能联动的市场调节能力;健全算力交易基础设施,由产业联盟主导制定资源描述规范、跨域服务等级协议(SLA)及结算规则,降低协同摩擦成本;打造可信交易执行平台,确保多主体协作的可验证性。通过技术标准与经济机制的深度融合,系统性释放分布式算力资源的协同效能。65六六、总结与展望、总结与展望分布式算力感知与调度技术作为支撑国家算力网络战略落地的核心引擎,致力于整合边缘节点、区域级算力中心等异构资源,构建“全域协同、智能弹性”的算力服务体系。本白皮书系统剖析了该技术在推动国家数字化转型、产业智能化升级及应对技术演进趋势中的迫切需求,明确提出“构建全域智能算力网络,实现异构资源统一度量、跨域协同调度与安全开放服务,赋能数字化转型”的核心发展目标。在关键技术层面,创新性地设计了分级分域协同的算力网络技术体系,其核心涵盖分层感知、统一度量、智能调度、算网路由、自治优化与全域安全六大要素,旨在实现对异构算力资源的高效管控与按需服务,驱动算力基础设施向泛在化、智能化方向持续演进。最终,通过架构革新与标准体系建设,本技术聚焦支撑产业数字化升级与智能化转型,面向远程医疗、智慧城市、大模型训练、云游戏等多元化应用领域,提供新型高效解决方案,全面赋能各行各业发展。分布式算力感知与调度技术正迈向智能化与生态化融合的新阶段。AI 驱动的动态优化算法与异构资源适配技术突破效能边界,开放接口协议与可信生态构建降低使用门槛,推动跨行业协同规模化落地。随着量子计算、光子计算等前沿技术融入,行业加速向泛在算力演进,最终实现算力资源无感接入与智能流动,为全社会数字化、智能化转型提供底层支撑。66附录附录 A A:术语与缩略语:术语与缩略语CPNComputing Power Network,算力网络QoSQuality of Service,服务质量CPUCentral Processing Unit,中央处理器AIArtificial Intelligence,人工智能IPV6Internet Protocol Version 6,互联网协议第 6 版SLAService Level Agreement,服务水平协议SDNSoftware Defined Network,软件定义网络NFVNetwork Function Virtualization,网络功能虚拟化67参考文献参考文献1工业和信息化部等十四部门.关于进一步深化电信基础设施共建共 享促 进“双 千 兆”网 络 高 质 量 发 展 的 实 施 意 见 EB/OL.(2023-05-25)2工业和信息化部.(2021).工业互联网创新发展行动计划(20212023 年)EB/OL.3国家发展改革委,中央网络安全和信息化委员会办公室,工业和信息化部,国家能源局.全国一体化大数据中心协同创新体系算力枢纽实施方案:发改高技2021709 号Z.2021-05-24.https:/ 2021 112号Z.2021-12-29.5中国信息通信研究院.绿色算力白皮书R.20236生态环境部环境规划院.中国区域电网二氧化碳排放因子研究R.20237P.MokshithandP.K.Pullela,CloudGaming:Revolutionizing the Video Gaming Industry,2023 IEEEInternational Conference on Cloud Computing in EmergingMarkets(CCEM),Mysuru,India,2023,pp.165-169.8C.Zhu et al.,Intelligent Management and Computing forTrustworthyServicesUnder6G-EmpoweredCyber-Physical-Social System,in IEEE Network,vol.39,no.2,pp.124-133,March 2025.9S.Fu,W.Zhang and Z.Jiang,A network-level connectedautonomous driving evaluation platform implementing C-V2Xtechnology,in China Communications,vol.18,no.6,pp.77-88,June 2021.

    发布时间2025-08-22 73页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 未来网络发展大会:算力城域网白皮书(2025版)(42页).pdf

    未来网络技术发展系列白皮书(2025)算力城域网白皮书(2025版)第九届未来网络发展大会组委会2025年8月版权声明版权声明本白皮书版权属于中国电信股份有限公司研究院及其合作单位所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:中国电信股份有限公司研究院等”。否则将违反中国有关知识产权的相关法律和法规,对此中国电信股份有限公司研究院有权追究侵权者的相关法律责任。编写说明编写说明主要编写单位:主要编写单位:中国电信股份有限公司研究院华为技术有限公司全球固定网络创新联盟中关村超互联新基建产业创新联盟主要编写人员:主要编写人员:中国电信股份有限公司研究院:朱永庆、胡泽华、龚霞、袁世章、阮科、陈迅、杨冰、赖道宁、胡家元、张帆、皮谭昕。华为技术有限公司:任广涛、曾毅、李智、赵浩宾、陈卓、于凤青、张潇潇。中关村超互联新基建产业创新联盟:袁博。算力城域网白皮书(2025 版)I前言2025 年初 DeepSeek 的爆火掀起了生成式人工智能的浪潮,带动大模型训练成本和推理成本的快速下降,驱动算力需求爆炸式增长。城域网络作为用户与算力资源间的关键桥梁,各类新兴算力业务对城域网的网络架构、网络能力及服务模式等方面提出了新的要求。中国电信在 2024 年发布了算力城域网白皮书,首次提出算力城域网概念,获得业界的广泛关注,引领了城域网络发展新方向。伴随着产业生态与技术的发展,以及算力城域网研究与部署的深入,中国电信推出算力城域网白皮书(2025),进一步明确城域网络在面向算力业务新场景、新需求下需具备的网络架构和关键技术能力。本白皮书首先从算力产业发展、宏观政策以及服务模式等角度分析了算力发展态势,引出了算力城域网的概念;然后,针对算力业务需求展开分析,明确了算力城域网应具备的网络能力;其次,分析了算力城域网设计目标,阐述了算力城域网的总体架构、关键技术和设备能力;最后,给出了算力城域网面向具体业务场景的技术方案,以及演进路径建议。本白皮书旨在通过对算力城域网的网络架构、关键技术、应用场景及发展策略的探讨,吸引更多行业内的专家和相关从业者共同参与算力城域网的创新发展与产品实现,推动网络向更加高效、智能、灵活、绿色、安全等方向演进。算力城域网白皮书(2025 版)II目录前言.I目录.II一、引言.1二、算力发展态势.22.1 算力产业发展和政策趋势.22.2 城市算力通过算力城域网就近服务本地用户.4三、算力城域网需求.63.1 需求总述.63.2 网络能力需求.7四、算力城域网总体架构.134.1 算力城域网架构设计目标.134.2 算力城域网总体架构.154.3 算力 POD.164.4 云网 POP.164.5 出口功能区.17五、算力城域网关键技术.18六、算力城域网设备能力要求.22七、算力城域网典型应用.267.1 海量数据高效入算场景.267.2 存算分离拉远训练场景.27算力城域网白皮书(2025 版)III7.3 跨集群协同训练场景.297.4 云边协同训推场景.307.5 推理下发场景.31八、总结与展望.33附录 A:术语与缩略语.34参考文献.36算力城域网白皮书(2025 版)1一、引言一、引言数字经济已经成为全球经济发展的强大引擎,世界各国都在积极推进数字化经济新质生产力的建设。算力作为数字经济时代的核心生产力,正在加速数字经济和实体经济的深度融合。以 AIGC 为代表的人工智能大模型快速崛起,推动了算力需求的快速增长。AI/HPC 等高阶算力对于提升国家、区域经济核心竞争力的重要作用已经成为业界共识。2025 年 3 月,政府工作报告提出将持续推进“人工智能 ”行动,打造具有国际竞争力的数字产业集群。这意味国家将加强顶层设计,加快形成以人工智能为引擎的新质生产力。随着这一行动的深入推进,人工智能将在推动产业升级、促进新质生产力快速发展等方面发挥重要作用。随着人工智能技术的快速发展,大模型训练对算力的需求呈指数级增长,促进了运营商、政府、行业和企业进行算力中心的建设。各类算力资源如何实现高效整合,服务于千行百业,进而实现算力的商业闭环是业界普遍关心的话题。本白皮书针对算力发展新态势和算力业务新需求,在 2024 年算力城域网白皮书基础上,对算力城域网的网络需求、网络架构、应用场景和关键技术等方面进行了更新和完善,旨在应对算力快速发展带来的各种挑战,实现城域范围内异构算力的资源整合和高效供给。算力城域网白皮书(2025 版)2二、二、算力发展态势算力发展态势2.1 算力产业发展和政策趋势算力产业发展和政策趋势随着通算、智算、超算技术的快速发展和广泛应用,算力需求呈现爆炸式增长。2025 年以来,以大语言模型 DeepSeek 系列为代表的人工智能,通过算法创新与工程优化解锁了更高的算力利用率,实现训练成本与推理成本的显著降低,加速人工智能的落地部署与普惠化发展,进一步催生了大量算力需求。根据IDC 中国加速计算服务器半年度市场跟踪报告分析,2025 年中国智能算力规模将达到1037EFLOPS,预计到 2028 年将达到 2782EFLOPS,五年年复合增长率达到 46.2%。依托超大规模市场优势,我国算力水平和供给能力大幅提升,形成了体系完整、规模庞大的产业体系。我国高度重视算力产业与技术的发展,中央及各级地方政府出台了一系列政策文件以引导其健康发展。例如,数字中国建设整体布局规划指出要系统优化算力基础设施布局,促进东西部算力高效互补和协同联动,并通过推动建设普惠算力、推动算力一体化服务等方式,降低中小企业用算成本。数字中国建设 2025 年行动方案提出开展“人工智能 ”行动,深度挖掘应用场景,建设高质量数据集,目标到 2025 年数字经济核心产业增加值占 GDP 比重超 10%。算力互联互通行动计划 指出集中力量开展高性能传输协议等网络传输技算力城域网白皮书(2025 版)3术研究,推动数据通信产业高质量发展,加快高性能路由器、高速无损网络技术研究,支撑数据高效入算、算力无损互联。攻克算力标识关键技术,研制新型算力标识网关,提高多样化算力感知能力。大模型是指具备大规模参数和复杂计算结构的机器学习模型,能够处理海量数据、完成各种复杂的任务,包含语言大模型、视觉大模型等多种类型。大模型的快速迭代极大地增加了智算算力需求。根据应用领域的不同,可分为通用大模型、行业大模型和垂直大模型等。通用大模型不受特定领域的限制,具备跨领域的泛化能力,需要更大的数据量和计算资源,训练成本普遍较高。行业大模型和垂直大模型专注于特定行业或应用场景,表现出更高的专业精度和深度,算力要求和训练成本也相对较低。大模型部署可分为训练和推理两种场景:训练场景是指使用大规模数据集对庞大、复杂的大模型参数进行训练的过程;推理场景是指在特定条件,利用大模型进行逻辑推理、知识推断提供高效准确结论的过程。对于大部分企业和研究机构来说,自行购买和维护高性能计算设备训练大模型需要投入大量的人力和物力。在这个背景下,算力租赁服务应运而生。算力租赁通过即插即用的弹性解决方案,降低了算力获取难度和使用成本。企业的信息化和智能化转型可以通过算力租赁更快捷地获取所需的算力资源,从而加速技术研发和创新。当前,算力租赁服务已成为主流解决方案,不仅降低了算力使用的门槛,推动了算力技术的普惠化发展,更改变了算力资源的配置方式,为算力服务的广泛应用和持续创新提供了强有力的基础设施支撑。算力城域网白皮书(2025 版)42.2 城市算力通过算力城域网就近服务本地用户城市算力通过算力城域网就近服务本地用户面对算力产业快速发展趋势,中国电信推出了面向智算的新一代数据中心(AIDC,Artificial Intelligence Data Center)基础设施技术方案,在高算力规模、高功率密度、高弹性需求背景下,同时兼容通算、超算、智算,甚至未来的量子算力。在 AIDC 基础上,中国电信积极布局算力基础设施建设,面向政府、企业、科研机构等提供就近的高效算力服务。除了围绕热点区域建设“2 3 7”1的公共智算云池,还重点在各省打造(N 个)城市智算基础设施服务当地用户,满足数字政务、城市大脑等城市数字化转型场景;通过(M 个)行业智算集群服务教育、电力、金融、互联网等重点行业;并基于地市边缘节点(X)按需将推理算力向边缘覆盖。中国电信云化 IP 城域网(简称为新型城域网)具备原生算力业务高效承载的能力,基于云网 POP 灵活架构以及城域 Spine-Leaf 的Full-Mesh 组网优势,实现了云边/边边高效协同和算网快速对接。面向算力业务的长期演进,中国电信通过引入算力灵活调度、算力无损传输、精准流级调度、网络智能运维等能力,打造以算力为中心、算网一体的城域网新业态算力城域网2。当前,中国电信在上海、浙江、广东等地围绕海量数据弹性高效入算、存算分离百公里拉远训练、百公里分布式推理等新型智算业务开展算力城域网现网验证,实1“2”是指中国电信在内蒙古、贵州设置的两大公共训练智算中心;“3”是指中国电信在北京、上海、广州设置的三大热点区域智算中心;“7 是”指中国电信在安徽、宁夏、湖北、江苏、辽宁、重庆、浙江设置的七大区域训练智算中心。2算力城域网:Computing service Oriented Metropolitan Area Network(COMAN)。算力城域网白皮书(2025 版)5验结果表明算效、TTFT、TPOT 等指标劣化小于 3%,充分证明算力城域网方案的技术可行性。算力城域网具备算力高效整合、算力无损输送、算力服务即取即用等关键能力,通过构建 AIDC 与用户之间的安全高速通道,支撑城市算力和行业算力就近服务本地算力用户。算力城域网通过高弹性、高吞吐、高可靠的一跳入多算等网络新型服务能力,为政府、企业、科研机构各类客户提供高效便捷的算力服务,加速数字化转型进程,支撑数字经济的高速发展。算力城域网白皮书(2025 版)6三、三、算力城域网需求算力城域网需求3.1 需求总述需求总述典型算力业务流程包含数据入算、模型训练、模型推理几个关键阶段。数据入算阶段要求网络能够满足 TB/PB 级海量数据的高效传送。考虑到数据敏感用户的数据“不落盘”要求,还需要网络具备高稳定和数据无损传输能力,实现用户私域存储与 AIDC 之间的高效拉远训练。模型训练阶段当前面临单 AIDC 算力资源受限、零散算力资源未利用等问题,亟需通过分布式协同训练实现算力资源高效整合,要求网络提供无损、高吞吐的高性能算间互联。模型推理阶段包含推理结果生成和推理结果下发两个关键步骤:推理结果生成需要大量算力资源以保证海量用户并发推理体验,网络需具备无损传输、高可靠能力,满足分布式推理需求;推理结果下发需要保障用户的泛在接入与实时交互,要求网络具备广覆盖及确定性服务能力。算力城域网作为连接用户与算力资源的关键桥梁,为算力租赁服务提供了关键的网络支撑,确保租用算力资源的企业可以获得接近本地部署的算力使用体验,需要高效满足海量数据入算、存算分离拉远训练、跨集群协同训练、云边协同训推、推理下发等算力业务需求。算力城域网白皮书(2025 版)7图 3-1 算力城域网业务需求总览3.2 网络能力需求网络能力需求3.2.1.海量数据高效入算需求海量数据高效入算需求随着AI/HPC 的迅猛发展,数据规模正在以前所未有的速度增长,企业单次向算力中心传送的数据集可达到数百 TB 的量级。根据 IDC发布的Worldwide IDC Global DataSphere Forecast Update,20252029:RegionalAnalysis 报告,IDC 预计,2025 年全球将产生 213.56ZB数据,到 2029 年将增长一倍以上达到 527.47ZB;其中,中国市场 2025年将产生 51.78ZB 数据,到 2029 年增长至 136.12ZB,CAGR 达到26.9%。众多企业当前仍依靠邮寄硬盘的方式进行大规模数据的搬运,诸如科研、交通、影视、医疗等领域,每年都有 PB 级数据通过硬盘算力城域网白皮书(2025 版)8搬运/邮寄方式传送到算力中心进行模型训练。这种“人工拷贝 硬盘快递”的模式不仅效率低,还面临着硬盘损坏与数据丢失的风险。当前基于网络传送的方案仍存在不足,百兆专线耗时长,而万兆专线/OTN 专线成本高,亟需对网络进行升级,提供更为高效且具性价比的数据入算服务。为了实现海量数据的高效流转,网络需要具备网络级负载均衡能力,全面提升整网的有效吞吐量,打造高运力网络,为数据高效传送提供坚实基础。同时,网络需要具备高度的弹性与敏捷性,基于任务式服务为企业按需提供弹性带宽,满足短时间内大批量数据传输的需求。总之,海量样本的快速入算服务对算力城域网的需求是:实现TB/PB 级数据的弹性带宽服务,时间可承诺(分钟达、小时达、天级达);业务分钟级开通,任务式服务。3.2.2.存算分离拉远训练需求存算分离拉远训练需求数据安全要求广泛存在于多个领域的智算场景中。如汽车制造业涉及的碰撞实验和事故数据,政务领域涉及的官方文件、公民身份信息及法人资料,医疗领域涉及的电子病历、流行病监测数据以及基因序列分析等敏感信息,这些数据均具有较高的安全标准。在算力租赁场景中,这些企事业单位对样本数据有严格的安全标准,明确要求核心数据存储在其所在园区或单位内。这些企事业单位在坚持数据本地化存储原则的同时,还需要确保数据在模型训练过程中不被泄露。因算力城域网白皮书(2025 版)9此,算力资源节点与样本数据存储节点需要跨广域部署,并且在模型训练时需要保持频繁的实时交互,以分批拉取所需的样本数据。在此场景下,由于样本数据传输采用对时延、丢包高度敏感的RDMA 协议,网络除了要具备高弹性、高吞吐能力外,还需要具备RDMA 无损传输能力,以确保模型训练的高效性和稳定性。此外,网络还需要部署强健的数据加密机制,保障样本数据传输的安全性。综上,存算分离拉远训练服务对算力城域网的需求是:实现用户私域存储到 AIDC 之间 100km-500km 的高效拉远训练,数据广域无损传输保障算效下降小于 5%;支持拉远训练过程中的数据安全隔离保障;网络链路和资源能够达到 90%以上高吞吐能力,充分提升网络带宽资源利用率。3.2.3.跨集群协同训练需求跨集群协同训练需求大模型 Scaling Law 持续生效,十年间大模型的算力需求增长约100 万倍,后续大模型的算力需求预计仍将保持每年 4 倍以上的增长。考虑到单个数据中心的算力规模受电力供应、机房空间等多重因素的制约,为满足大模型快速增长的算力需求,需要推动多 AIDC 协同训练,整合分布在不同地理位置的分散算力资源。同时,我国智算中心规模普遍偏小(规模为 100-300 PFLOPS 的小型智算中心占比超 70%),并且往往分散在不同的数据中心、科研机构、地方政府和云服务商。因此,整合零散的社会算力有助于打破地域、机房资源、服务商等限制,构建统一、高效的算力服务平台。算力城域网白皮书(2025 版)10跨集群协同训练对网络带宽、时延要求高,网络需具备400G/800G 大带宽链路以及 RDMA 无损传输能力,避免算力传输过程中出现拥塞、丢包。同时,考虑到训练参数同步时流量大并发、高突发特性(以万卡级 AIDC 为例,单网卡 200Gbps 的传输速率将导致参数面突发流量峰值高达 2000Tbps),需按照最优收敛比建网,平衡算效与建网成本。此外,在大模型训练过程中,一旦发生网络故障引发训练任务卡死等问题会严重影响训练效率,网络须具备高精仿真、网络自愈等智能运维能力。综上,跨集群协同训练服务对算力城域网的需求是:采用400G/800G 高速链路,支撑 100km-500km 跨集群协同训练。基于RDMA 无损数据传输保障跨集群训练的算效下降小于 5%。采用 4:1、8:1、16:1、32:1 等高收敛比组网;网络高稳定运行,故障影响不扩散。3.2.4.云边协同训推需求云边协同训推需求大模型训练与推理成本的显著降低,带动企业通过本地部署少量训推一体机实现大模型的快速应用。但是,企业本地算力池面临扩容难、维护成本高等问题,难以满足大模型微调和推理不断增长的算力需求。因此,通过企业本地算力与云端租赁算力之间的高效协同,以满足企业算力资源灵活扩展需求,成为更高效、便捷且兼具性价比的方案。云边协同训推方案基于 Split Learning 部署模式,将模型切分到本地和云端算力资源池中并行处理,并结合输入、输出层的本地化部署,保证样本数据不出园区,满足了金融、医疗等数据敏感客户的算力城域网白皮书(2025 版)11数据安全要求。此外,该方案与 Prefill-Decode 分离式推理架构天然适配,通过将可弹性扩展的 Prefill 和 Decode 分层部署在本地和云端,显著提升推理效率、资源利用率和用户体验。在此场景下,本地和云端算力池之间基于 RDMA 协议传递参数面同步数据、KV Cache 等信息,要求网络在保证高吞吐、低时延的前提下,具备 RDMA 无损传输能力,避免出现拥塞、丢包。同时,网络还需通过租户级切片保障业务间的有效隔离,在保障业务 SLA要求的同时,避免业务之间故障相互影响。综上,云边协同训推场景对算力城域网的需求是:具备网络级负载均衡和RDMA无损传输能力,保证在用户吞吐不下降的同时,TTFT和 TPOT 劣化低于 5%;具备端到端租户级业务隔离能力,有效保障多租户 SLA。3.2.5.推理下发需求推理下发需求推理应用的规模落地是大模型技术实现商业变现的核心环节。华为预计 2025 年 70%的新应用将集成 AI 模型,端侧设备(如智能手机、智能家居设备等)与推理池之间的并发量将达到百万级。端侧设备与推理算力集群间的高频、富媒体即时交互,对网络的响应速度与带宽提出了更高的要求,以确保用户体验推理业务的流畅。为了满足推理下发对低时延、高带宽及确定性的需求,网络需要实现泛在覆盖与便捷接入,确保用户能够享受一致的服务体验。同时,网络还需具备确定性服务能力,能够精准识别并优化数据传输路径,算力城域网白皮书(2025 版)12提高数据传输的确定性和可靠性,从而满足用户的实时交互需求。综上,推理场景对算力城域网的需求是:泛在接入各种算力用户,满足百万级用户的并发带宽需求;具备确定性服务能力,对于时延敏感类业务确保 RTT 小于 10ms;对数据敏感的行业和政企用户,需要基于网络切片实现推理业务数据的安全隔离。算力城域网白皮书(2025 版)13四、四、算力城域网总体架构算力城域网总体架构算力城域网是中国电信从云网协同到云网融合战略的具体实践,通过 算力”、云”和”网在基础设施层的融合,实现算力”、云”和“网”在逻辑架构、资源管理和服务调度方面的逐渐融合,支撑云网融合的算网产品和服务的持续创新。算力城域网依托新型城域网的架构优势,构建以算力为中心、算网一体的新服务、新平台、新形态。4.1 算力城域网架构设计目标算力城域网架构设计目标(1)凝聚算力,共筑生态凝聚算力,共筑生态 联接智算、通算、超算、量子、安全等数字能力,实现算网多要素融合、多能力一体化服务。联接 DC、自有云、三方云、社会算力、IT 生态,构筑丰富的业务和应用生态。联接 ToC/ToB/ToH 场景下的海量用户资源,将算力服务和生态应用引入到千行百业、千家万户。(2)算网一体、灵活部署算网一体、灵活部署 沿用新型城域网模块化组网架构,基于 Spine-Leaf 灵活扩展,泛在接入各类用户。算力网关随 AIDC 灵活部署,构建网络和算力资源的标准化对算力城域网白皮书(2025 版)14接模型,实现网随算动。基于 SRv6/EVPN/网络切片等 IPv6 技术底座,实现对 RDMA等数据传输协议的统一承载。(3)算网赋能,使能商业算网赋能,使能商业 引入弹性带宽、超高通量、广域无损等新技术,支撑存算分离拉远训练、跨集群协同训练等创新业务和服务。基于大象流自动识别与智能调度,实现网络级智能负载均衡,达到全网资源利用率最优,提升投资收益比。通过算力业务应用感知和流级精细化调度,支撑差异化算网产品和服务的商业创新。(4)智能运维、安全可靠智能运维、安全可靠 实现高精仿真,消除因配置差错导致的网络事故。打造精细化业务监测能力,实现全网资源与业务实时可视。基于网络实时监测和故障快速感知,实现故障自动定界定位。按用户或业务类型设置网络切片,实现用户数据管道安全隔离。算力城域网白皮书(2025 版)154.2 算力城域网总体架构算力城域网总体架构图 4-1 算力城域网(COMAN)总体架构算力城域网基于算力 POD、云网 POP、出口功能区模块化组件搭建。算力 POD 实现 ToC/ToB/ToH 场景的算力用户统一接入和广泛覆盖,以及深/浅边缘算力池的快速接入;云网 POP 通过算力网关联接城域网络与算力资源池,实现二者在参数面、样本面、业务面网络间的标准化快速对接;出口功能区作为 AIDC 与算力 POD 之间的枢纽,实现用户数据高效入算,以及多 AIDC 之间的算力协同。算力城域网通过三大模块化组件之间的高效协同,确保算力业务在城域内的高效承载。算力 POD 作为用户接入入口,通过与云网 POP高速互连,构建用户至算力资源池间的高效传输通道;算力 POD 与出口功能区联动,实现跨 POD/跨域的用户至算力资源池的端到端无算力城域网白皮书(2025 版)16损连接。三大模块均采用 SRv6/EVPN 等标准化技术底座,在确保端到端业务逻辑一致性的同时,为算力业务提供高质量的网络承载能力。4.3 算力算力 POD算力 POD 可根据用户位置、行政区域、AIDC 服务范围等因素灵活设置,实现算力用户终端、企业分支站点的融合接入,涵盖光纤、PON、5G 等多种接入介质。算力 POD 基于算力 SPINE 设备(COMAN-CR)、算力Leaf设备(COMAN-AR)设备构建的Spine-Leaf架构,实现固、移、云、算业务的统一接入与融合承载,同时保证了区域内各类业务流量的无阻塞快速转发。算力 POD 可为用户提供无损的算力通道,实现算力服务的广覆盖和高效输送;并结合云网 POP快速接入深/浅边缘推理池,实现边缘算力的池化利用和灵活调度,为用户提供低时延、高体验的算力服务。4.4 云网云网 POP云网 POP 内部署 COMAN-AR 与算力网关对接,通过城域网络与算力资源池的标准化、快速对接,实现“小时级”算网架构互联、“分钟级”算网业务开通以及 ms 级算网业务访问时延,支撑算网一体化服务。云网 POP 作为算力资源池的网络锚点,可接入自有及第三方异构算力资源池,实现算力资源池化与统一管理;同时通过与省级或区域COMAN-CR设备互联,实现跨域算力资源池之间的低时延、高可靠连接,打通跨域算力协同网络。算力城域网白皮书(2025 版)174.5 出口功能区出口功能区出口功能区作为城域网与骨干网、互联网及行业专网的枢纽,简化了城域网与外部网络、异构算力资源池之间的连接,实现组件灵活扩展以及组件间流量高效疏导。其中,Super-Spine 做为流量汇聚节点联接多个算力 POD,通过弹性带宽、网络级智能负载均衡等技术承载样本数据高速入算、存算分离拉远训练等业务;Super-Spine 同时实现多 AIDC 互联,基于 400G/800G 高速链路、广域无损等技术实现城域内异构算力的整合和协同调度,支撑算力分布式训练或推理场景。构建用户到 AIDC 以及 AIDC 之间的高吞吐、无损互联网络是算力城域网解决方案的设计重点。算力城域网通过引入弹性带宽、高吞吐调度、高收敛比组网、广域无损、精准流控、智能运维等网络技术和能力,实现用户到 AIDC 入算业务以及 AIDC 之间联算业务的高效承载。同时,算力城域网提供租户级网络切片等软/硬隔离技术,为用户提供安全隔离、确定性保障、高可靠的入算新服务。算力城域网白皮书(2025 版)18五、五、算力城域网关键技术算力城域网关键技术算力城域网将算力服务由数据中心机房向广域网延伸,必须具备相应的关键技术和能力。(1)弹性带宽能力弹性带宽能力企业普遍面临周期性数据传输带来的带宽配置难题:长期采用高带宽专线会导致闲置期资源浪费,而低带宽专线则因传输时延过长造成算力资源空转。算力城域网需具备弹性敏捷的带宽按需拆建能力,可根据用户算力需求的变化动态分配带宽资源,为用户提供 100Mbps至 100Gbps 的弹性带宽服务。根据企业算力业务需求和运营商网络资源使用情况,算力城域网可动态调度算力业务流的网络路径,在网络数据流量波动时仍能提供持续稳定的数据传输服务。(2)超高吞吐能力超高吞吐能力在智算、超算等场景中常常存在大量的大象流,这类流量具有单流瞬时高速率(10M-100G)的特征。传统基于五元组哈希的负载均衡技术难以有效应对大象流,容易造成负载不均衡和网络拥塞。算力城域网引入大象流自动识别与拆分、网络级负载均衡等关键技术,基于 IB 传输层信息(如 QP 对等)将大象流拆分为多个子流,并结合智能管控实现全域流量均衡,确保网络链路达到 90%以上的超高吞吐率。在确保 AIDC 算效高效发挥的同时,实现算力城域网整网带宽和容量资源的高效利用。算力城域网白皮书(2025 版)19(3)广域无损技术广域无损技术对于存算分离拉远训练、跨集群协同训练以及云边协同训推等场景,AIDC 的样本面和参数面数据跨广域传输距离可达百公里甚至千公里。这两种场景都需要采用 RDMA 作为承载协议,提升数据传输的效率。RDMA 对网络性能非常敏感,0.1%的丢包将导致数据吞吐率下降 50%。算力城域网通过引入 400GE/800GE 端口和端口大缓存,有效降低网络拥塞概率,并结合流级拥塞控制机制,避免算力数据传输过程中发生丢包。确保跨广域训练的算效相较于单 DC 仍能达到95%以上,并且云边协同推理相比集中推理 TTFT 和 TPOT 性能劣化小于 5%。(4)收敛组网技术收敛组网技术在跨集群协同训练场景下,城域网络需要承载多个 AIDC 间的大规模参数面数据并发同步。算力城域网需具备收敛组网能力,有效缓解多 AIDC 协同训练时数据并发和突发对网络的影响:通过分层梯度聚合算法重构集合通信流程,有效减少跨数据中心通信的算卡数量,实现网络带宽的初步收敛;再采用“突发缓存 队列调度”的双重机制,利用高速缓存吸收流量冲击,并通过优先级调度确保 GPU 控制信令的及时传输,避免计算资源闲置等待。按需引入 4:1、8:1、16:1、32:1 等网络收敛比,实现建网成本与算效的最优平衡。(5)模块化组网能力模块化组网能力算力城域网以 AIDC 为中心组网,基于模块化组网架构与 AIDC标准化对接,实现超算、智算等异构算力的并网与池化调度,灵活适算力城域网白皮书(2025 版)20配不同层级的自有及三方 AIDC 的覆盖服务范围。同时,算力城域网可根据算力用户接入位置和业务类型,按需升级或新建模块化网络组件,在敏捷、灵活、泛在接入各类算力用户的同时,保证网络平滑演进。(6)一线接入、融合承载能力一线接入、融合承载能力算力城域网需构建基于统一协议栈同时承载固、移、云、算多元化业务的能力,在有效降低网络复杂度的同时,显著提升业务部署和运维效率;并基于 IP 的灵活连接能力优势,支持企业和行业用户一点接入,避免开通多种业务时部署多种 CPE,实现一个盒子一根线同时入网、入云、入算的便捷服务。(7)超高可靠能力超高可靠能力算力城域网应保证长期稳定,防止因为链路拥塞、光模块故障、光纤质量下降等故障导致训练的中断。算力城域网需具备租户级故障隔离能力,实现租户级精准反压,避免故障扩散影响多租户算效。同时,算力城域网需具备随流检测、高精仿真、网络自愈等智能运维能力,通过业务流级可视、秒级流量趋势展示、秒级故障感知和逐包故障定界等技术,实现业务流故障的快速定位与恢复,驱动网络自治等级从 L3 有条件自治向 L4 高级自治演进。(8)超高安全能力超高安全能力算力城域网需要构建多层次的安全防御体系,应对多租户环境下的数据泄露和横向渗透风险。其核心在于实现租户数据的全流程隔离与端到端加密传输。算力城域网可基于 VPN 与网络切片技术,构建算力城域网白皮书(2025 版)21“接入设备-网络切片-VPN”三级隔离机制,通过物理层、协议层和业务层的全维度解耦,有效阻断安全威胁。同时,算力城域网可通过结合量子加密、区块链等前沿技术,进一步增强网络的安全防护能力,向“主动免疫、动态感知、全链可信”的零信任架构演进。算力城域网白皮书(2025 版)22六六、算力城域网设备能力要求算力城域网设备能力要求算力城域网设备包含算力网关、算力 SPINE 设备(COMAN-CR)、算力 LEAF 设备(COMAN-AR)和算力接入 CPE 设备。算力网关是连接算力城域网与算力资源池的枢纽;COMAN-CR、COMAN-AR 是算力城域网的综合业务承载核心;算力 CPE 设备是算力用户的网络起点。这些设备作为算力城域网的核心组成部分,在硬件与软件能力上需满足以下要求,以实现超高吞吐、广域无损、超高可靠以及智能运维等关键能力。(1)高速接口高速接口当前,网关设备接口以 10GE 为主,辅以少量 100GE 接口;城域SPINE 设备以 100GE、50GE 为主,辅以少量 10GE 接口;城域 Leaf设备接口以 50GE、25GE、10GE 接口为主,辅以少量 100GE 接口;CPE 设备以 10GE、GE 为主,辅以少量 100GE 接口。为了适应算力业务高吞吐需求,设备需升级端口能力:算力网关设备需支持单端口 100GE,且具备 400GE 演进能力;COMAN-CR、COMAN-AR 设备需支持单端口 100GE、400GE,且具备 800GE 和1.6TE 演进能力;算力 CPE 设备需支持单端口 10GE、100GE,且具备 400GE 演进能力。(2)动态大缓存动态大缓存算力城域网白皮书(2025 版)23图 6-1 动态缓存机制示意图针对广域 RDMA 高吞吐、高突发的特点,算力城域网设备需具备 GB 级端口大缓存,有效降低网络拥塞概率:一方面平滑因多流汇聚导致的瞬时速率波动;一方面为 PFC、ECN 等流控机制提供足够的反应时间窗口。此外,设备需具备缓存队列动态调度能力,实时感知业务流量变化以优化缓存分配策略,实现物理资源与业务需求的弹性匹配,支撑基于 SLA 的精细化业务保障。(3)大象流拆分及负载分担大象流拆分及负载分担单条大象流带宽大、历时长,在与普通数据流混合转发时,极易出现部分链路拥塞、部分链路空闲的现象。这不仅导致网络全局负载不均,而且导致因拥塞而出现的 RDMA 报文丢失现象。为此,在基于五元组识别流的基础上,算力城域网设备需支持识别 RDMA 报文的 IB 传输层信息(如 QP 对、Partition Key 等),将单条大象流根据IB 传输层信息划分多条子流。以此为基础,结合 Hash 算法优化实现基于子流的大象流负载分担,最大化网络吞吐与链路利用率。算力城域网白皮书(2025 版)24(4)流量实时统计与上送流量实时统计与上送为实现流量的精细化管控,算力城域网设备需具备流状态表,通过对流/子流的速率、类型、优先级、QP 对等特征的实时统计,识别需重点保障的业务流和控制流。再基于 Telemetry 技术周期上报功能将流信息上送到控制器,由控制器为关键流定制最优路径,从而为业务流提供高吞吐、低时延、低拥塞的传输环境,并保障控制流的可靠、优先传输。此外,设备在上送流信息时可同时上送资源信息(可用带宽、缓存队列深度等),支撑控制器统一规划整网流量,实现全网路径间的无冲突均衡调度。(5)流级拥塞控制流级拥塞控制图 6-2 端到端精准流控表示意图数据中心普遍采用 PFC 机制保障无损传输,但其端口队列级的粗粒度控制容易引发头阻和误伤问题。算力城域网融合承载固、移、云、算多种业务,因此更需要具备端到端的流级精准调控能力,避免因传统拥塞控制机制在广域场景下的滞后与扩散问题带来的吞吐下降。算力城域网设备需为每个 RDMA 业务流分配独立的缓存队列并实时监控缓存水位,当队列深度超过预设阈值时,基于端到端/逐跳算力城域网白皮书(2025 版)25回溯方式向上游设备发送流级反压信号,从而实现细粒度的流量控制,在有效避免拥塞发生的同事,也避免了对其他业务的影响。此外,算力网关需支持流级精准流控技术与 PFC 之间的优先级映射,实现跨广域端到端的精准流控。算力城域网白皮书(2025 版)26七七、算力城域网算力城域网典型应用典型应用算力城域网是云化 IP 城域网面向算力新业态的演进,其组网方案和能力规划需要考虑算网一体化及算力业务创新的长期发展,根据业务需求,引入弹性高吞吐、高收敛组网、广域无损等能力,以应对海量数据高效入算、存算拉远训练、跨集群协同训练等新型算力业务场景。7.1 海量数据高效入算场景海量数据高效入算场景数据高效入算主要解决企业租赁智算资源时,TB/PB 级训练样本周期性上传的问题。算力城域网需要提供高效、敏捷、智能的大数据传输服务,并具备分钟达、小时达、天级达的多级服务能力。该场景组网方案如图 7-1 所示。图 7-1 快速入算场景组网方案智算 CPE 至入算网关(S-Leaf)之间采用 L3EVPN over SRv6算力城域网白皮书(2025 版)27Policy 技术承载样本快速入算业务。结合任务式弹性带宽技术,实现用户入算带宽的弹性伸缩。城域网智能控制器可实时感知全网状态,实现基于任务流的全网调度,提高整网效率。对算力城域网的关键技术要求如下:网络级负载均衡:基于全局视角实现高效、动态且均匀的流量分配,保障端到端流量全局负载均衡,提升网络吞吐能力。弹性带宽服务:实现 100Mbps 至 100Gbps 的弹性带宽分钟级开通与秒级变更,根据业务需求灵活调整带宽容量。一线入多算:全网任意节点间 L3 层联接可达,确保企业侧数据一线接入通算、智算、超算等多数据中心。高可靠性:基于高精仿真、故障自愈等技术,实现网络 0 事故、业务 0 中断,确保数据高速传输的连续性和稳定性。7.2 存算分离拉远存算分离拉远训练训练场景场景存算分离拉远训练主要满足企业数据敏感时,样本数据不在园区外“落盘”的拉远训练需求。存算拉远训练要求实现城市内、省内或区域范围内的数据高效传输和训练,保障训练效率和数据安全。算力城域网需具备高效、安全、智能等能力,保障训练效率和数据安全。该场景组网方案如图 7-2 所示。算力城域网白皮书(2025 版)28图 7-2 存算拉远场景组网方案智算 CPE 至入算网关(S-Leaf)之间采用 L3EVPN over SRv6Policy 租户级切片承载存算分离拉远训练业务。通过 RDMA 广域无损技术保障数据传输的高效性和稳定性。同时,在网络边缘节点通过访问控制策略等安全防护措施实现业务安全隔离,满足数据敏感企业的需求。对算力城域网的关键技术要求如下:网络级负载均衡:基于全局视角实现高效、动态且均匀的流量分配,保障端到端流量全局负载均衡,提升网络吞吐能力。弹性带宽服务:实现 100Mbps 至 100Gbps 的弹性带宽,根据业务需求灵活调整带宽容量。广域无损保障:通过智能流量调度和拥塞控制等技术,保障数据传输的高效率和稳定性,实现 RDMA 报文广域无损传输。多租户故障隔离:租户级切片 租户级精准流控,实现租户间业务隔离,保障租户业务故障影响不扩散。高可靠性:基于高精仿真、故障自愈等技术,保障存算拉远训练的算效。算力城域网白皮书(2025 版)29 业务智能:全网资源/业务可视,基于网络传输能力实现任务流级调度,保障训练效率。7.3 跨集群协同训练场景跨集群协同训练场景跨集群协同训练旨在高效整合多个 AIDC 的算力资源支撑大模型训练。跨集群协同训练要求在保证算效的前提下,通过合理的带宽收敛降低多 AIDC 组网的成本,实现训练效率和建网成本的最优平衡。该场景组网方案如图 7-3 所示。图 7-3 分布式协同训练场景组网方案多个联算网关(S-Leaf)之间采用 L3EVPN over SRv6 Policy 技术承载跨集群协同训练业务。基于大带宽链路与广域 RDMA 无损能力,保障多 AIDC 协同训练算效。通过端口缓存等技术实现高收敛比建网,降低模型训练的带宽需求。对算力城域网的关键技术要求如下:大带宽链路:端到端 400G/800G 高速链路,满足协同训练的高带宽需求。广域无损保障:通过智能流量调度和拥塞控制等技术,实现RDMA 报文广域无损传输。算力城域网白皮书(2025 版)30 高收敛比组网:通过端口缓存等技术实现带宽收敛,降低训练过程中的并发与突发对网络带宽的需求,节省建网成本。高可靠性:基于高精仿真、故障自愈等技术,保障多 AIDC 协同训练的算效。智能运维:通过业务流级可视、逐包故障定界等技术,实现业务流级的故障定界定位。7.4 云边协同训推场景云边协同训推场景企业本地部署训推一体机,通过租赁运营商智算池的方式应对企业快速增长的模型微调、业务推理对算力需求。通过训推一体机与算力资源池之间的云边协同训练/推理,实现企业算力资源的弹性扩展,云边协同训练/推理基于模型分割实现,这种方式既满足了企业推理/训练敏感数据不出园区的要求,又满足企业算力的灵活扩展按需租赁云端算力的诉求。由于城域网需要支撑层间的参数面数据同步因此需要具备 RDMA 无损传输与超高吞吐能力。该场景组网方案如图 7-4所示。图 7-4 云边协同分布式训推组网方案算力城域网白皮书(2025 版)31智算 CPE 至入算网关(S-Leaf)之间采用 L3EVPN over SRv6Policy 租户级切片承载云边协同分布式训推业务。通过 RDMA 广域无损技术保障数据传输的高效性和稳定性。对算力城域网的关键技术要求如下:网络级负载均衡:基于全局视角实现高效、动态且均匀的流量分配,保障端到端流量全局负载均衡,提升网络吞吐能力。RDMA 广域无损:通过流级精准流控,避免在模型训练的过程中发生丢包,保障边侧算力与云侧算力协同过程中算效不下降。租户级切片隔离:支持将云边协同分布式训推流量与普通业务流量隔离开,避免拥塞控制过程中的流量压制而对其他业务产生影响。高可靠性:基于高精仿真、故障自愈等技术,保障云边协同分布式业务可用性。7.5 推理下发场景推理下发场景推理业务主要为企业提供基于业务诉求的差异化推理服务和算力调度。其要求网络提供差异化的业务承载和算力调度能力,满足百万用户并发的确定性时延需求。网络需具备广覆盖接入、切片隔离、数据加密等能力,保障推理业务的连续性和安全性。该场景组网方案如图 7-5 所示。算力城域网白皮书(2025 版)32图 7-5 推理下发场景组网方案智算 CPE 至推理网关(S-Leaf)之间部署 L3EVPN over SRv6Policy 低时延切片承载推理业务,实现业务广覆盖以及用户至任意推理池的三层可达。用户侧设备标识推理业务,网络控制器感知全网状态,在全网为推理业务进行低时延选路,保障推理业务体验。通过端到端切片隔离和数据加密保障业务独立性和数据安全。对算力城域网的关键技术要求如下:确定性时延:推理业务端到端低时延 RTT 小于 10ms,保障用户体验。广覆盖接入:用户接入侧到各级应用推理池 L3 层联接可达,实现 2C/2B/2H 业务的统一接入、融合承载。切片隔离:端到端切片隔离,保障业务间的独立性。数据加密:推理数据加密传输,确保数据安全。算力城域网白皮书(2025 版)33八八、总结与展望、总结与展望本白皮书聚焦算力城域网典型算力业务的需求和特征,对算力城域网应用场景、网络架构、组网方案和技术展开探讨,并积极推动算力城域网的技术研发和现网验证。算力城域网的规划和建设应由用户算力需求与算网技术发展的双向驱动。中国电信联合华为公司在上海、浙江、广东、安徽等地积极开展算力城域网现网验证,并针对友好用户逐步推进服务试商用;并在业界率先提出了基于算力业务感知的自适应路由技术,在 IETF孵化 FANTEL 工作组,开启了算力城域网的新协议、新技术探索。我们希望通过本白皮书的研究与分析,激发更多业界同行的参与和讨论,期盼与众多合作伙伴一起携手并进,汇聚行业力量,共同打造广覆盖、高弹性、广域无损、超高可靠、智能化的算力城域网络。34附录 A:术语与缩略语中文名称中文名称英文缩写英文缩写英文全拼英文全拼AIArtificial Intelligence人工智能AIDCArtificial Intelligence Data Center面向智算的新一代数据中心AIGCArtificial Intelligence GeneratedContent人工智能生成内容CPECustomer Premise Equipment客户终端设备DCData Center数据中心ECNExplicit Congestion Notification显式拥塞控制EVPNEthernet Virtual Private Network以太虚拟专网技术FLOPSFloating-point Operations perSecond每秒浮点运算次数GAGRGrossAnnual Growth Rate年均复合增长率GBGigaByte千兆字节(字节)GbpsGiga bits per second千兆比特每秒HPCHigh Performance Computing高性能计算IDCInternet Data Center互联网数据中心35IDCInternational Data Corporation国际数据公司IPInternet Protocol网际互连协议IPv6Internet Protocol Version 6网际互连协议第 6 版LLMLarge Language Model大语言模型L3EVPNLayer Three Ethernet VirtualPrivate Networks三层以太虚拟专网MBMegaByte兆字节(字节)PFCPriority-based Flow Control基于优先级的流控RTTPriority-based Flow Control往返时间QPQueue Pair队列对TBTeraByte太字节(字节)TTFTTime To First Token首 token 时间TPOTTime Per Output Token每 token 时间36参考文献1 以网补算,构筑智算时代新底座EB/OL(2024-5-50)2024-8-1.https:/2 Gemini Team,Google.Gemini:A Family of Highly Capable Multimodal Models,2024.3 Kun Qian,Yongqing Xi,Jiamin Cao et al.Alibaba HPN:A Data Center Network for Large Language Model Training,2024.4 DeepSeek-AI et al.DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning,2024.5 Patel,Pratyush et al.Splitwise:Efficient Generative LLM Inference Using Phase Splitting,2024.6 Microsoft.Empowering Azure Storage with RDMA,2023.7 云化 IP 城域网中 vBRAS 池化部署研究,电信科学,20238 百度智能云.智算中心网络架构白皮书R/OL(2023-6).9 新质互联网智鉴报告(v1.0)R/OL(2024-9).10算力城域网白皮书R/OL(2024-11).11新质互联网智算数据中心网络建设技术要求R/OL(2024-11).12Metropolitan Area Network for the Al EraR/OL(2025-6).

    发布时间2025-08-22 42页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 未来网络发展大会:2025服务生成算力网络白皮书(66页).pdf

    未来网络技术发展系列白皮书(2025)服务生成算力网络白皮书第九届未来网络发展大会组委会2025年8月 版权声明版权声明 本白皮书版权属于紫金山实验室、中国联合网络通信有限公司研究院所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:来源:紫金山实验室、紫金山实验室、中国联合网络通信有限公司研究院中国联合网络通信有限公司研究院”。否则将违反中国有关知识产权的相关法律和法规,对此紫金山实验室、中国联合网络通信有限公司研究院有权追究侵权者的相关法律责任。编写说明编写说明 主主编单位:编单位:紫金山实验室、中国联合网络通信有限公司研究院 参编单位:参编单位:北京邮电大学、中国铁塔股份有限公司 中移(杭州)信息技术有限公司、中国电力科学研究院有限公司 江苏方天电力技术有限公司、中国工业互联网研究院 江苏省未来网络创新研究院 指导专家:指导专家:刘韵洁 唐雄燕 黄 韬 曹 畅 谢人超 周 飞 智绪龙 柳 旭 魏 亮 参编人员:参编人员:周晓茂 贾庆民 张 岩 刘 辉 王立文 吴春鹏 王 岳 叶青河 丁成成 汤雅婷 俞芳芳 谢高畅 谭 跃 马力俊 闫亚旗 魏 华 刘文睿 刘永生 曹云飞 王子涵 黄 祥 吴 媚 贾 倩 范子瑜 彭开来 邵子豪 王 壮 王志浩 徐 鹍 李振红 陈娟娟 第九届未来网络发展大会白皮书服务生成算力网络白皮书 I 前 言 算力是数字化时代的基础设施和核心动能,是全社会智能化转型的基石。随着云计算、大数据、物联网、边缘计算等技术的兴起,以及各行各业在数字化转型过程对网络、计算、存储等多维资源需求的驱动,算力网络应运而生。作为一种结合算力和网络资源的新型信息基础设施,算力网络通过将动态分布的计算和存储资源互联,将网络、存储和算力等多维度资源的统一协同调度,实现连接和算力在网络的全局优化。算力网络提供了一种弹性、高效、可扩展的服务模式,使得海量的应用能够按需、实时调用分布式计算资源,为数字化转型业务提供更加经济、高效、泛在的算力供给方案。在算力网络推进各行业数字智能化转型过程中,随着行业应用涉及的需求逐渐多样化、模型更加复杂化,行业应用中新业务、新需求、新场景的多样化多对算力网络的灵活性、自动化和智能化提出了更高的要求。为应对上述挑战,服务生成算力网络的概念得以提出。服务生成算力网络通过将 AI 技术与算力网络的基础设施、功能流程、服务应用等深度融合,把 AI 的解决目标和承载方式都设在算力网络内部,利用 AI 技术赋予算力网络基础设施智能化、业务流程一体化、服务能力自优化、算网运维自动化等能力,进而为多元应用提供泛在、高效、灵活、安全的服务化算力供给。算力网络服务生成是利用 AI技术使能算网深度融合与智能服务的新范式,也是智能算力网络构建的终极目标。第九届未来网络发展大会白皮书服务生成算力网络白皮书 II 本白皮书详细阐述了服务生成算力网络的发展背景、基本概念、参考架构、关键使能技术,同时介绍了服务生成算力网络的典型应用场景,并探讨了服务生成算力网络的挑战机遇和发展趋势,旨在为服务生成算力网络研究创新、技术发展和应用落地提供参考。然而,服务生成算力网络的实现是个长远目标,相关理念和技术仍在研究发展中,本白皮书还存在需要不断完善的地方,真诚地期盼读者批评指正。第九届未来网络发展大会白皮书服务生成算力网络白皮书 III 目 录 前 言.I 目 录.III 一、服务生成算力网络发展背景.1 1.1 算力网络面临新的机遇及挑战.2 1.2 人工智能开启算网应用新范式.4 1.3 算网服务生成成为应对挑战的必经之路.6 二、服务生成算力网络的愿景、特征与参考架构.8 2.1 服务生成算力网络目标愿景.8 2.2 服务生成算力网络关键特征.8 2.2.1 意图驱动的算网融合.9 2.2.2 算网全流程闭环自治.10 2.2.3 网-算-智协同自适演进.11 2.3 服务生成算力网络参考架构.12 三、服务生成算力网络使能技术.20 3.1 算力网络.20 3.2 自智网络.22 3.3 人工智能.25 3.4 数字孪生.28 四、服务生成算力网络应用案例.32 4.1 算网数据按需生成.32 4.2 网络拓扑智能生成.35 4.3 算网服务智能生成.37 4.4 业务流程自主管控.42 4.5 服务自优化与持续演进.46 五、技术挑战与未来方向.50 5.1 智能训练与部署问题.50 5.2 业务融合方案设计.52 5.3 智能度量与评估.52 第九届未来网络发展大会白皮书服务生成算力网络白皮书 IV 5.4 自演进可控性.53 5.5 应用落地与生态建设.54 六、总结与展望.57 附录 A:术语与缩略语.58 参考文献.59 第九届未来网络发展大会白皮书服务生成算力网络白皮书 1 一、一、服务生成算力服务生成算力网络发展背景网络发展背景 从战略发展角度来说,数字基础设施的发展是推动数字经济发展的关键驱动力。随着全社会数智化转型的升级加速,对于算力的要求也越来越紧迫。算力已成为全球技术创新竞争的焦点领域,我国正在集中力量攻关面向未来产业发展的新一代服务生成算力网络(SG-CNC,Service-Generated Computing and Network Convergence)技术,开展原创性、先导性的基础理论及关键技术研究,旨在形成具有自主知识产权及产业把控力的算力网络应用体系,为我国经济社会的数字化、网络化和智能化发展夯实底座。从行业应用角度来说,随着各种新技术、新应用、新场景和新模式等不断涌现,多元业务的不同服务需求对算力网络的自动化和智能化提出了更迫切的要求。而且算力网络本身也面临着需求碎片化和多样化、日益增加的系统规模和复杂度大大增加运维难度、算网资源协同调度等诸多挑战。通过引入 AI(Artifical Intelligence)技术加快算网智能化已经成为发展趋势和行业共识。新一代智能算力网络正以实现“L5 等级”的自治为目标进行演进发展。服务生成算力网络旨在以网络为基础、算力为载体、智能为核心,通过多要素融合来实现,是利用 AI 技术来使能算网深度融合与智能服务的新范式,也是算力网络智能化演进的终极目标。服务生成算力网络以构建服务生成网络的思想来使能算力网络的功能实现,在当前第九届未来网络发展大会白皮书服务生成算力网络白皮书 2 算力网络的体系框架下,通过将 AI 技术与算力网络的基础设施、功能流程、服务应用等深度融合,把 AI 的解决目标和承载方式都设在算力网络内部,利用 AI 技术来赋予算力网络基础设施智能化、业务流程一体化、服务能力自优化、算网运维自动化等能力,进而为多元应用提供泛在、高效、灵活、安全的服务化算力供给。在此基础上,服务生成算力网络还强调能力自主优化和智能自适演进,面向动态变化的应用场景和服务需求能够通过自学习、自演进来不断提升自身业务服务质量和智能化能力。本白皮书阐述了服务生成算力网络的发展背景、目标愿景、体系架构、使能技术、应用场景和机遇挑战等,旨在为那些有兴趣了解服务生成算力网络概念和技术的研究人员提供介绍和指导,并期望借此引起国内外研究单位的共鸣与思考,进一步推动服务生成算力网络的落地应用和发展创新。1.1 算力网络算力网络面临新的机遇及挑战面临新的机遇及挑战 随着 5G、云计算、大数据、人工智能等新一代信息技术的结合发展,工业互联网、车联网、AR/VR 等新型业务正逐渐落地推广。为了满足复杂多元业务场景中的不同服务质量需求,新一代信息网络基础设施正向着通信、存储、计算等多要素深度融合的一体化服务方向发展。算力网络作为实现算网基础设施化的一个重要载体,旨在将泛在的算力资源依托网络进行打通互联、协同调度,并将不同的应用业务通过最优路径调度到最优的计算节点,在实现用户体验最优的同时,第九届未来网络发展大会白皮书服务生成算力网络白皮书 3 保证网络资源和计算资源利用率最优化。算力网络的核心思想是基于泛在分布的网络实现无处不在的算力资源,通过构建一张计算资源可感知、可分配、可调度的新型网络来实现计算任务的统筹分配和灵活调度,算力资源云边端跨域分布和算网深度融合是其典型特征,为多元用户按需提供优质高效的算力资源服务是其最终目标。目前,算力网络在 VR 互动、新媒体直播、智慧医疗、车联网、跨域算力共享等场景中发挥着重要作用,各行业数智化转型的加速为其带来大量新的机遇。然而,爆炸式的业务需求增长、日益增加的算网复杂度、以及用户体验设计的逐步加强,给算力网络的发展带来了新的挑战。场景需求多样化场景需求多样化:算力网络既要将异构泛在的算力资源进行融合纳管,也要考虑不同行业、不同领域、不同场景、不同企业对算力的差异化需求。为此,算力网络不仅需要加强自身可用性、敏捷性等能力的建设,还需要改变传统的服务范式,按需按量为客户提供计算、应用、调优、运营、运维等一站式服务。规模复杂度增高规模复杂度增高:算力网络规模和复杂度的日益增加,势必会引入大规模系统的规划、管控、调整、运维、优化等问题,当前“人在回路”的解决方式在规模、复杂性、动态性和成本等方面难以为继,亟需自动化、智能化的管控机制实现对算网的规划设计、建设部署、维护运营、优化调整、运维管理等全生命流程管理。以用户体验为主以用户体验为主:算力网络的目标是为用户提供极致的服务体验,而这需要其具备高度的自动化、智能化水平,能够根据用户意图自动第九届未来网络发展大会白皮书服务生成算力网络白皮书 4 化地提供最优资源服务,然而现有算力网络的系统架构、流程机制、使能技术、服务模式等无法支撑上述目标的实现。近年来,以深度学习、知识图谱为代表的 AI 技术得到了飞速发展,并在诸多领域取得了巨大突破。算力网络作为支撑各行业数智化转型的信息基础设施,具有应用 AI 技术的巨大空间和潜力,通过引入 AI 技术使能算网智能化也已经成为发展趋势和行业共识。另外,算力网络能够进一步赋能 AI 产业加速进化,为 AI 计算提供“随处可得”的优质算力服务,支撑大模型训练和高效的模型推理,有效地推动 AI 应用的广泛落地和创新发展。为了使研究人员更直观、更深入地理解服务生成算力网络,并提供面向新一代算力网络建设的参考方案与灵感启发,本白皮书从 AI 技术与算力网络结合的角度入手,从概念、架构、技术、场景、生态、挑战等多个方面对服务生成算力网络进行系统、全面的阐述。1.2 人工智能开启算网应用新范式人工智能开启算网应用新范式 AI 在跨域特征挖掘、深度数据分析、策略动态生成、能力自动学习等方面具备天然的优势,将 AI 与算力网络的设计、建设、维护、运行和优化等功能结合起来,利用其强大的分析、判断、预测、决策、学习等能力,赋能网元、算网和业务系统,助力构建高效灵活、安全智能的信息基础设施。“AI 算网”的融合发展将给算力网络注入新的技术活力,开启前所未有的可能性,如图 1-1 所示。对于算力网络建设者算力网络建设者来说,生成式第九届未来网络发展大会白皮书服务生成算力网络白皮书 5 AI 技术将打造全新的算网设计范式,彻底取代人类专家在算网设计配置的工作,并能够根据场景自动生成最优算网部署方案。算网建设者仅需要将场景需求、指标期望等输入给 AI 专家系统,然后按照生成的方案在现实世界中执行对应的操作。对于算力网络运营者算力网络运营者来说,AI 技术能够对算网全流程赋能,包括用户意图感知、业务智能承载、服务闭环优化、智能运维等,使能算网自动化、自优化、自修复、自学习,实现算网精细化自主运营,算网运营者将更多关注于算力网络的规则制定和流程管理,而不需要在算力网络运行过程中进行干预。对于算力网络使用者算力网络使用者来说,基于 AI 技术构建的智能化算网服务流程,能够快速识别新业务,使用智能的交互方法来全面洞察用户意图,在实现资源高效利用的同时保障极致的客户体验。算网使用者仅需简单的操作,便可获取最优的服务。同时,对于算力网络本身算力网络本身来说,AI 技术将赋予其高度的智能水平与自治能力,能够以高级智能体的身份完成与用户交互、分析决策、在线优化等活动,并通过自主学习实现自身智能与能力的持续升级演进。图 1-1 AI 技术开启算网应用新范式 第九届未来网络发展大会白皮书服务生成算力网络白皮书 6 1.3 算网服务生成成为应对挑战的必经之路算网服务生成成为应对挑战的必经之路 AI 技术的创新突破及迅猛发展,为应对上述挑战并超越传统算力网络设计理念与性能提供了潜在的可能性,并将充分赋能新一代信息基础设施。近年来,国内外各研究机构、公司厂商、标准组织等相继提出随愿网络、智简网络、自治网络等新型网络概念,最终确定了服务生成网络的发展方向,即通过构建网络全生命周期的自动化、智能化运维能力,提供敏捷运营和全场景服务。当前,服务生成网络概念已获行业共识,能力分级标准已基本统一,如图 1-2 所示。图 1-2 服务生成网络智能等级划分 基于上述思想,服务生成算力网络通过算网服务生成,即算网全流程的自动化运行、高效的资源利用率、自适应的优化调整、持续的智能演进、智简的服务体验、全场景的业务承载等,为各行业提供优质的算网资源服务,赋能数字经济。具体来说,服务生成算力网络围绕着算网融合一体化的建设目标,通过在系统全生命周期引入“智能”,第九届未来网络发展大会白皮书服务生成算力网络白皮书 7 利用前沿技术实现自动化的算力感知、算力评估、服务编排和调度、算力路由、算力交易等,让算网“自治”,提升业务服务质量和用户的服务体验。服务生成算力网络的本质是通过数据驱动进行自学习、自演进,对算力网络不同层面进行注智赋能,最大限度地解除算网功能实现对人力的依赖。从理论概念方面来说,服务生成算力网络是算力网络与服务生成网络的深度融合,基于自动化、智能化地实现系统功能的思想,最终实现算网服务生成,即系统全流程的自动化运行、智简的服务体验、多样化的业务承载、高效的资源利用率、自适应的优化调整等。从技术实现方面来说,算力网络中的基础资源感知和建模、资源的编排策略、算网运行的故障处理、算网服务的在线优化等关键动作,都可以通过智能算法实现自动化。从系统功能方面来说,算力网络的感知、分析、决策、调度、运维、安全等功能需要自主实现,而且需要不断提高智能化水平来满足日益复杂的功能需求,并能够进行“网-算-智”的协同迭代,逐渐实现自动化、自治化、服务生成化。从用户体验方面来说,获取极简的使用体验,能够自身需求/意图获得可靠性最优、资源最优、安全最优、体验最优的算力服务,是服务生成算力网络的核心目标。第九届未来网络发展大会白皮书服务生成算力网络白皮书 8 二二、服务生成算力网络的愿景服务生成算力网络的愿景、特征与参考架构特征与参考架构 2.1 服务生成算力网络目标愿景服务生成算力网络目标愿景 服务生成算力网络旨在通过自动化和智能化的手段,实现基础设施智能化、业务流程一体化、服务场景定制化、算网系统自动化等,能够为多元应用提供泛在、高效、实时、灵活、安全的服务化算力供给,并使能网络自身的自治运行与持续演进,最终实现网络无所不在、算力无所不达、智能无所不及。2.2 服务生成算力网络关键特征服务生成算力网络关键特征 服务生成算力网络的主要特征包括:意图驱动的算网融合、算网闭环自治和网-算-智协同自适演进,如图 2-1 所示。图 2-1 AI 技术开启算网应用新范式 第九届未来网络发展大会白皮书服务生成算力网络白皮书 9 2.2.1 意图驱动的算网融合意图驱动的算网融合 算力网络本质上是一种将多级算力资源与网络资源进行一体化融合的新型信息基础设施,能够按需为用户提供算力资源服务是其基本功能。为实现面向多元用户的算网自动化全场景按需服务,基于意图的算力网络需要根据用户的业务需求生成最优的算力服务提供策略,并通过对基础设施进行自动配置来进行功能实现。因此,需要实现意图驱动的算网融合,如图 2-2 所示。图 2-2 意图驱动的算网融合 为实现上述目标,一方面需要基于算力网络现有的研究,包括资源感知、算力节点协同机制、任务调度机制等,实现算网的深度融合。另一方面,结合意图网络相关技术,将用户的意图进行转译成网络可理解、可执行的指令,并根据当前算网状态进行策略验证、执行和结果反馈,确保用户意图正确实现。其中,如何进行用户意图解析是关第九届未来网络发展大会白皮书服务生成算力网络白皮书 10 键难点。目前,通过关键字原句和表达语句来描述用户需求的方法存在缺少语义信息、抽象级别低等问题,无法对复杂的用户需求进行充分表征。而自然语言处理技术能够对用户意图准确地进行识别、解析和预测等,是构建用户和算网之间沟通桥梁的有效手段。此外,如何自动生成满足意图需求的算网融合策略也是实现算网服务生成的关键。传统的策略生成方法依赖大量的人工经验设计,而且无法适应动态变化的用户意图和网络状态。为此,需要构建基于用户意图和算力网络的双向认知的策略生成机制,通过对用户意图和网络状态信息进行特征挖掘和抽象聚类,提炼出满足各类意图共性和规律的算网融合策略,并将两者的匹配策略以知识的形式进行保存复用,从而为策略生成提供先验知识。2.2.2 算网算网全流程全流程闭环自治闭环自治 服务生成算力网络是一个高度智能的自动化网络,能够自动化、智能化地完成算网的规划设计、建设实施、维护优化、优化调整、运营管理等生命周期中各个阶段的任务,实现流程自动化、服务自优化和能力自主化,最终实现闭环自治,如图 2-3 所示。流程自动化是指算网能够在不依赖人工参与的情况下,利用 AI 技术将单个流程的重复性算网操作转换成由系统自动执行,并将多个环节打通串联,使能整个业务工作流的自动化运行。服务自优化是指算网能够对业务资源的历史数据进行智能分析和预测,实现算网资源和参数配置的自优化,并能够根据用户反馈提升服务质量,形成资源、业务、服务的多重闭环优化。能力自主化是指算网具备独立管理和控制算网的能力,基于第九届未来网络发展大会白皮书服务生成算力网络白皮书 11 信息化、自动化和智能化手段,通过深度感知、智能分析、自主决策和自动执行来对算网基础设施、业务流程、运营运维、服务质量等进行全方位自动化管控,保障系统和业务持续稳定的运行。图 2-3 算网全流程闭环自治 2.2.3 网网-算算-智协同自适演进智协同自适演进 网-算-智的协同自适演进是指算网和智能相互融合和协同工作,以实现系统的自适应演进,如图2-4所示。算网通过收集和传输数据,为算法和智能提供了丰富的信息资源;算法通过对网络数据的分析和处理,提供决策和优化的依据;智能则通过学习和推理来优化算法的性能,并实现更高级的功能和服务。然而,算力网络的复杂性以及现有技术的局限性决定了实现完全算网服务生成是无法一蹴而就的,只能是一个长期目标,需要循序渐进、逐步实现。从简单的重复执行替代到复杂的算网融合策略生成、从局部的单域自治到全局的协同服务生成、从部分需要人工辅助到完全智能服务生成。同时,随着系统规模的扩缩,基础设施的添删、用户意图的变化、第九届未来网络发展大会白皮书服务生成算力网络白皮书 12 业务场景的更替等,智能也应该随着算网的动态变化进行自适应调整,形成可演化式智能。例如,随着新的业务需求的出现,智能需要不断更新和升级,以支持新的业务场景和应用。这可能涉及到新的数据处理和分析技术、新的服务模型或新的安全措施等。同时,旧有的业务可能会逐渐过时,智能需要相应地进行调整和优化,以适应变化的业务环境。目前,基于迁移学习、终身学习等的可演进式智能技术正在被广泛研究,具有自适应、自学习、自演进能力的新型网络范式也逐渐成为新的研究热点。图 2-4 网-算-智协同自适演进 2.3 服务生成算力网络参考架构服务生成算力网络参考架构 服务生成算力网络的系统架构设计采用分层策略,根据各层的功能抽象程度和业务逻辑,自下而上包括基础设施层、算网管理层和业务应用层,同时,内生智能模块跨越所有层级,为各个流程环节进行赋能,如图 2-5 所示。第九届未来网络发展大会白皮书服务生成算力网络白皮书 13 图 2-5 服务生成算力网络参考架构 基础设施层基础设施层是服务生成算力网络的基石,由各类硬件设施、软件系统、数据等构成,对全网的算力资源、网络资源、存储资源及数据资源等进行统一感知管理,并能够根据业务需求对各类计算、存储资源进行高质量传递和流动。而作为基础设施层在数字环境中的虚拟化表示,数字孪生通过利用数字技术和模拟方法,在虚拟环境中对现实世界的实体、系统或过程进行建模、仿真和分析的过程,能够提供更好的算网基础设施设计、优化和管理手段。此外,通过内嵌实时智能,基础设施层一方面能够拓展对自身信息的感知深度与维度,包括资源感知、性能感知与故障感知等,为算网管理层进行分析决策提供可靠全面的输入。另一方面,通过在数据源头进行分析决策,能够实现实时不间断的业务响应、设备能耗的智能调节、毫秒级的算网故障感知和故障修复等功能,提升系统自响应、自修复、自优化能力。算网管理层算网管理层是服务生成算力网络的大脑,负责系统功能的具体实第九届未来网络发展大会白皮书服务生成算力网络白皮书 14 现。从功能内容来说,算网管理层通过南北向接口分别对基础设施层状态信息和业务意图进行输入,在此基础上进行分析决策和算网控制,包括状态感知、资源调度、算力管理、服务编排、故障分析与自修复等,从而实现感知、分析、决策、控制的全流程闭环管理。从实现方式来说,算网管理层采用单域自治与跨域协同的分层渐进策略来实现系统服务生成。单域自治强调针对系统子功能模块的自动化、智能化执行,并能够根据资源状态、用户意图等进行自适演进,从而实现针对单一自治域的局部服务生成。在此基础上,跨域协同以各个自治域为基本单位,将各独立的单域拉通互联,通过多域协同的方式解决使用单一模块无法解决的复杂的问题,进而实现功能流程的自动化和业务高层智能化闭环处理。算网管理层将 AI 技术深入嵌入算网的各个层面,通过构建和使用对算网领域具备深入理解和专业知识的大模型,连通业务流程断点和解决更复杂的任务,全方位提升不同功能模块的智能化学习及场景适应能力,支持个性化智能服务能力的持续演进,保证算网对当前业务和未来新业务的服务质量。业务业务应用应用层层用于实现面向用户的服务能力开放,承载着抽象的业务功能。从用户的角度来说,业务运营层支持用户智能交互,并能够根据用户意图自动地将服务应用调度到合适的节点,实现资源利用率最优并保证极致的用户体验。内生智能模块内生智能模块通过构建数据采集、模型训练、智能分发、知识迭代的完整闭环,能够为基础设施层、算网管理层及业务应用层提供全方位的智能服务,进而为多样化业务需求和算网服务生成提供智能化第九届未来网络发展大会白皮书服务生成算力网络白皮书 15 所需的基础能力。作为智能能力管理与知识统一中心,内生智能模块摒弃传统“外挂式”AI 的方式,在算力网络各个层级都实现感知、分析、决策、执行等功能与 AI 的深度融合,将 AI 的设计训练、推理验证、部署应用、迭代优化等全生命周期都设在算网内部,使得 AI 诞生于算网并服务于算网。基于 AI 强大的学习、分析和决策能力,内生智能模块通过对算网运行过程中产生的数据进行深度挖掘,并协同整合不同网络层之间的数据、资源、功能等方面的差异,能够针对各种业务形成有效解决方案,并综合考虑算网的运行效率、自动化水平、服务质量等。同时,内生智能模块还支持 AI 的持续学习,能够随着需求的改变自适应地进行知识演进,并能够进行知识融合与推理从而产生新的知识,这也是内生智能体所需要具备的重要特征之一。基于上述系统架构,服务生成算力网络需要提升自身自动化和智能化水平,主要体现在感知、分析、决策及执行四个方面。1)全维全维感知:感知:用户用户-算网双向认知算网双向认知 服务生成算力网络利用网络手段将计算、存储等基础资源在云边端之间进行连接与协同,从而提升业务服务质量和用户的服务体验。精准地对泛在异构、动态时变的计算资源的部署位置、实时状态、负载信息等进行感知,以及对网络的传输时延、抖动、带宽资源利用率等信息进行实时动态获取,是实现上述目标的前提。同时,业务意图也是算网资源感知的重要部分。服务生成算力网络需要对业务内容和意图进行全面感知,综合考虑当前的网络和计算资源状态,通过匹配算力和服务,将不同的计算任务调度到合适的节第九届未来网络发展大会白皮书服务生成算力网络白皮书 16 点进行处理,实现通信和算力在网络的全局最优。一般来说,业务意图是以抽象的符号、文字、语音等方式存在,服务生成算力网络需要借助自然语言处理技术来将其转换成算网意图表达模型,从而生成满足业务所需要的资源配置策略。同时,服务生成算力网络还可以通过监测用户在平台上的行为,如点击、搜索、浏览历史等,可以获取用户的兴趣爱好、偏好和需求信息。通过对用户行为的感知,可以更加准确地分析用户的需求并提供个性化的推荐和服务。2)智能分析智能分析:算网领域专家系统算网领域专家系统 算网智能分析需要在感知的基础上对用户业务、算网状态、功能流程等多个方面进行深度理解,并在此基础上形成面向算网服务生成的知识空间。服务生成算力网络通过模拟和实现算网领域专家分析和解决问题的能力,基于对大数据的挖掘和分析,发现数据中的模式、规律和趋势,并结合人类专家的经验和算法模型,帮助解决算网流程和应用服务过程中的问题和瓶颈。首先,针对算力网络中泛在化的异构算力资源以及多样化的业务需求,如何有效地对算力进行标识和度量、对任务内容进行分类解析、对用户的满意度进行测评量化,进而实现对业务需求-资源状态-服务质量之间的相关性进行准确评估是算网融合的基础步骤。其次,服务生成算力网络需要对自身的状态进行实时分析,洞悉当前的业务能力、性能水平、安全状态等,并能够进行风险预判和预测性资源配置。同时,服务生成算力网络还需要对不同流程、环节之间的逻辑关系进行解析,从而能够为多元业务构建最优的实现流程。在发生故障时,需第九届未来网络发展大会白皮书服务生成算力网络白皮书 17 要对故障根因进行分析,快速准确地定位出故障节点,并能够提供解决意见或方案。此外,服务生成算力网络还需要对业务承载、系统运行、故障分析等功能背后的机理进行认知,在解决问题的过程中将相关的规律、法则、策略等凝练为可复用的知识,从而支撑算网进行推理分析、闭环决策、自治运行等。3)自主决策自主决策:知识定义的自主决策知识定义的自主决策 在服务生成算力网络中,将复杂多元的计算任务分派并调度到最匹配的计算节点进行高效处理,需要算网具备实时精确、灵活智能的决策能力,能够根据任务需求和算网状态信息实现资源编排、路由选择、任务调度等功能。传统的策略生成通常基于人为设定的规则和经验数据,如基于链路基础度量值的路由选择、基于分时的计算节点选择、基于加权代价函数的任务调度等。然而,随着算网规模和业务类型的飞速扩增,上述的算网策略生成方式成本越来越高,而且无法保证最优的服务质量和用户体验。为此,基于知识定义的算网自主决策通过利用构建的领域知识库对任务需求进行分析,能够使能算网像人类一样智能、自动地做出决策。作为数据的抽象升级,知识能够更好地揭示策略生成的可解释性和逻辑推理,并能够通过挖掘不同知识点之间的深层关系来推理探索新的知识。算网知识的生成依赖不同类型的数据,包括日志、性能指标、运维手册、业务需求、用户服务体验等,以及先验知识,例如拓扑、专家规则、运维经验等。基于自动化或半自动化的知识抽取方法,算网知识可以以结构化数据、知识图谱、AI 模型等方式进行表征,具第九届未来网络发展大会白皮书服务生成算力网络白皮书 18 体内容可归纳为历史记载、客观现状、主观体验和动作反馈等类型。目前,基于 AI 的策略自动生成机制、基于数字孪生的策略验证,以及基于用户反馈的策略自动优化等技术已经成为相关研究的热点。4)自动执行自动执行:基于自主学习的算网自动驾驶基于自主学习的算网自动驾驶 算力网络的基本目标是根据自身资源状态最优地进行用户意图执行和方案部署,而服务生成运行概念的引入又赋予其自动化、智能化的发展目标,其自动执行涵盖动作的自动完成、故障的自动修复、服务的自动优化、能力的自主学习等多个层面,即实现算网“自动驾驶”。考虑传统算力网络缺少系统功能运行层面的思考,通常无法有效应对算网规模动态化调整、意图适应性承载、故障自动化修复、智能自适应演进等需求。为此,首先需要对算网全元素进行多粒度、全维度的精准控制,能够满足复杂多元应用的不同服务需求。其次,需要对算网进行全局协同控制,在对单域内元素进行管控的基础上,在业务运行、系统优化、监控排障等具体场景中通过联合多域构筑端到端的智能化闭环,进一步支撑算网实现自动化运行、故障自修复等。另外,引入智能控制策略,利用机器学习与深度学习等方法对算网数据进行分析和学习,绕过复杂的数据特征提取和网络功能建模,基于生成的普适性、智能化的控制策略完成端到端的控制流程,最终实现算网运行的智能化。此外,高度智能化的算力网络还需要具备自优化和自学习的能力。在业务的承载以及与用户的交互过程中,算网能够根据用户的反馈自第九届未来网络发展大会白皮书服务生成算力网络白皮书 19 动化地对资源配置、业务流程、服务质量等进行改进,从而为用户提供更好的体验。同时,算网还需要利用自主学习能力不断的扩展和改善自身能力水平。在不受外界支配与干扰的情况下,能够自动地完成选择学习目标、制定学习计划、构建学习方法、评价学习结果等,从而获得应对新业务需求的能力。第九届未来网络发展大会白皮书服务生成算力网络白皮书 20 三三、服务生成算力服务生成算力网络网络使能技术使能技术 服务生成算力网络的实现依托算力网络和服务生成网络两个领域研究成果的融合,以及各种新兴技术的结合。一方面,服务生成网络为算力网络提供智能化解决方案。另一方面,算力网络为服务生成网络提供业务场景。在构建服务生成算力网络过程中,需要将算力网络的具体业务功能与服务生成网络的智能化策略进行深度融合,基于智能算法使能流程自动化、智能化,并由单域自治演进到多域协同智能,逐步推动算网自主运行、自适演进,从而最终实现算网服务生成。3.1 算力网络算力网络 算力网络通过将分布的计算节点连接起来,动态实时感知计算资源和网络资源状态,进而统筹分配和调度计算任务,形成一张计算资源可感知、可分配、可调度的网络,满足新业务新应用对算力的要求,是一种云边网深度融合的新范式,也是边缘计算向泛在计算网络融合演进的新阶段。本节将从资源感知、资源编排与任务调度三个关键技术对算力网络进行介绍。算网资源感知是实现算力网络按需调度的基础,其关键技术主要体现在异构泛在资源的实时感知与状态同步机制。计算资源广泛部署于端、边、云,状态随任务执行动态变化;网络资源则需实时感知时延、抖动、带宽等指标,以支持最优路径选择。IETF 架构草案将资源感知能力集成于控制平面,通过扩展 BGP/IGP 协议实现节点间 SID第九届未来网络发展大会白皮书服务生成算力网络白皮书 21 及计算负载信息的动态通告。计算负载基于 CPU、会话数、QPS 等多维度加权计算,采用阈值触发或定时更新机制减少网络波动。入口节点需综合计算负载与网络成本选择出口节点,避免单一负载最低策略导致的拥塞。任播地址机制进一步优化了请求转发路径,提升系统整体性能。资源感知技术为后续资源编排与任务调度提供了实时、准确的数据支撑,是算力网络高效运行的核心保障。在资源感知基础上,算力网络资源编排通过结合用户多样化需求,对算网资源进行一体化调度与组织,以服务化方式实现服务注册、发现与路由,并采用服务网格提供扁平化编排。编排时需综合考虑效费比、平台锁定和服务模式等因素。对于效费比,通常引入无服务器计算(Serverless)作为关键技术,通过事件驱动、函数即服务(FaaS)和按需计费,实现资源动态扩缩容与细粒度调用,屏蔽底层管理,显著降低成本并提升效率。对于平台锁定,通过采用多云多平台容灾备份机制,保障业务连续性与数据安全。在服务模式方面,构建开放共享的算力生态圈,促进多维有序协作。资源编排通过整合Serverless、微服务、容器化等技术,实现算力资源的高效、灵活、安全调度,是算力网络服务化运营的核心支撑。算力网络任务调度技术基于任务的时间特性、SLA 需求和应用场景进行差异化调度,旨在实现资源的高效利用与公平分配。调度策略包括基于队列和用户配额的公平性保障,通过优先级排序确保关键任务优先执行。节点资源排序则依据负载均衡或节能目标选择最优节点,算力亲和调度则根据任务类型匹配异构资源,如 TPU、GPU 等,以最大化资源利用率。此外,资源抢占机制支持高优先级任务紧急回收借用资源,资源预留解决大小任务混部时的资源竞争问题,而资源回填第九届未来网络发展大会白皮书服务生成算力网络白皮书 22 则通过感知任务结束时间,复用预留资源进一步提升集群效率。这些调度策略协同作用,确保算力网络在多样化任务负载下的灵活性与高效性。3.2 自智网络自智网络 基于 AI Network 的融合模式来使能网络智能已经成为构建新一代网络的研究共识。作为网络智能化的终极目标,服务生成网络的建设愿景由 TM Forum 率先提出,旨在通过将 AI 技术深度嵌入网络的硬件、软件、系统、流程等层面,助力网络流程自动化和智能化。随着 ETSI、3GPP、ITU-T、TMF、GSMA 和国内 CCSA 等标准化组织在服务生成网络的愿景目标、参考架构、功能和管理要求、分级测评等工作的展开,目前,服务生成网络在产业愿景、目标架构和分级标准等方面已达成了广泛的产业共识,相关技术已被网络运营商视为实现业务提质、增效、降本,使能业务敏捷创新的重要手段。本节将介绍构建服务生成网络的三项关键技术:单域自治与跨域协同、意图网络和智能运维。3.2.1 单域自治与跨域协同单域自治与跨域协同 随着网络规模日趋增大和应用范式的日益复杂,需要支持的软硬件基础设施、功能架构、业务场景等越来越复杂多样,大规模网络系统的复杂性、分散性等为实现全域网络服务生成带来挑战。为此,基于分而治之的思想,将复杂网络分解为多个自治域,通过单域自治和跨域协同的策略来实现复杂和超大网络的闭环服务生成。具体来说,第九届未来网络发展大会白皮书服务生成算力网络白皮书 23 单域自治是指在单个网络域内实现自主决策和自主学习的能力。该域可以是一个子网或一个较小的网络环境,可以是根据业务特点、网络技术、维护模式等来划分的一组网络基础设施及其管控系统的组合,服务生成网络在这个域内能够独立感知并做出决策,根据网络负载、性能需求等因素优化网络资源分配。在运行过程中,服务生成网络不需要关心各个单域的内部实现细节和差异,仅需要根据其提供的意图化 API 接口进行交互操作。跨域协同是指不同网络单域之间进行合作和协同工作。多个网络单域可以通过相互通信和信息共享来共同解决复杂的网络问题,优化整个网络的性能和效率。跨域协同使得网络能够更好地适应动态变化的环境和需求,提供更强大的网络服务能力。通过自主决策和协同合作,实现网络的智能化和在线闭环优化。作为构建服务生成网络的核心思想,“单域自治、跨域协同”通过分层次构建体系化能力,一方面,通过模块化的极简网络来降低网络操作复杂度,为用户提供极致的服务体验。另一方面,允许面向业务场景、部署方案、运维流程和用户需求等进行灵活定义、全局规划、优化,使能网络更好地适应复杂的网络环境和需求。上述思想也是实现全场景算网自动化和智能化的关键。3.2.2 意图网络意图网络 在构建服务生成网络的实践过程中,意图网络(IBN,Intent-Based Network)被认为是实现网络智能化的关键技术,其概念是由 Gartner提出的一种能够把意图转换为针对基础设施配置的网络技术,主要流程包括:意图表达/解析、转译和验证、自动化部署/实施、网络状态第九届未来网络发展大会白皮书服务生成算力网络白皮书 24 感知、保障和自动调优。意图网络是由人工智能算法驱动的,通常包括自然语言处理、机器学习和深度神经网络等技术,通过分析用户的输入,包括文本、语音或图像等形式,能够准确识别用户的意图,并将其转化为可理解的指令或任务。意图网络的引入为服务生成网络确定了清晰的发展目标,即通过对基础设施进行自动配置来实现网络自规划、自适应、自优化、自管理,最终达成“网随意动”。类似的,服务生成算力网络在面向多元业务的算网自动化全场景按需服务时,也需要构建一种能有效挖掘用户或业务意图并实现算网资源自动化按需分配的方法,将规划设计、自动化配置、仿真验证、监控分析、故障修复和策略优化等进行有效组织,最终实现以意图为中心的全生命周期闭环,如图 3-1 所示。图 3-1 以意图为中心的网络全生命周期闭环示意图 3.2.3 智能运维智能运维 为实现全流程的闭环自治,服务生成网络需要智能运维来实现网络在线优化和闭环管理过程中的各个环节的自动化。在传统运维第九届未来网络发展大会白皮书服务生成算力网络白皮书 25 方式下,数据规模大且离散,数据治理和全面分析能力薄弱且依赖于经验和规则,运维十分被动,解决问题效率非常低下,运维的实用性大打折扣,难以满足主动运营的要求。智能运维(AIOPS,Artificial Intelligence for IT Operations)通过机器学习等人工智能算法,自动地从海量运维数据中学习并总结规则,并作出决策的运维方式。在网络运行过程中,智能运维可以通过实时监控网络设备和链路的状态和性能,并结合故障诊断和问题排查的功能,实现快速反应和自动化修复。当系统发现故障或异常时,可以迅速定位问题、尝试自动修复,并记录和学习相关的知识,以避免类似问题的再次发生。通过不断的学习和改进,闭环管理可以提高网络运维的效率和准确性,并减少对人工干预的需求。3.3 人工智能人工智能 AI 是构建服务生成算力网络的关键技术之一,是使能算力网络模拟人类高级智能进行感知(算网状态感知、用户意图解析等)、决策(资源编排、任务调度等)、思考(逻辑推理、规律总结等)、行动(运营管控、故障修复等)、学习(机器学习、知识表示等)等活动的主要手段。经过 60 多年的发展,AI 在算法、算力和数据等方面取得了重要突破,包括自然语言处理、图像处理、强化学习等,已经从学术研究走向产业实践,正成为推动网络智能化的决定性力量。此外,以生成式人工智能(GAI)、大语言模型(LLM)和智能体(Agent)为代表的新兴技术,正深刻推动算力网络向更高阶智能演进。第九届未来网络发展大会白皮书服务生成算力网络白皮书 26 首先,传统 AI 算法在算力网络智能化中一直扮演着重要角色,通过优化资源调度、提升网络感知能力及增强服务智能化水平,显著提升了算力网络的运行效率与可靠性。例如,自然语言处理技术通过对日志、配置指令及用户需求的语义理解与分析,实现智能化的网络管理与调度,将用户请求自动转化为资源调度指令,减少人工干预,提升响应速度,并优化用户服务体验。图像处理算法则通过高效处理和分析网络中的图像数据,在边缘计算场景中提取关键信息,减少数据传输量,降低网络负载,同时优化图像压缩与增强算法,提升带宽利用率,保障高质量图像传输的实时性与稳定性。此外,强化学习通过奖惩机制训练智能体,在动态环境中自主优化资源调度策略,根据实时负载与任务需求动态调整资源分配,最大化资源利用率并降低能耗,同时应用于网络故障预测与修复,提高网络鲁棒性。总的来说,传统AI 算法的应用为算力网络的高效运行提供了重要技术支撑。近年来,大语言模型(LLM)凭借其卓越的语义理解、逻辑推理与知识表示能力,正成为算力网络智能化升级的核心引擎。在算力网络中,LLM 的应用贯穿服务全生命周期,赋能从用户交互、资源调度到系统运维的全方位智能化。通过自然语言理解用户意图,LLM 能够将复杂需求转化为可执行策略,实现动态资源调度与故障自愈,大幅提升系统的自适应能力与响应效率。在运维领域,LLM 可对海量日志与告警信息进行语义分析,快速定位故障根因并生成修复方案,显著缩短故障恢复时间,保障业务连续性。此外,LLM 还能从多源异构数据中提取知识,构建算力网络知识图谱,支持跨域、跨平台的第九届未来网络发展大会白皮书服务生成算力网络白皮书 27 知识共享与协同决策,打破信息孤岛,提升整体资源利用率与服务一致性。随着 LLM 与智能体技术的深度融合,算力网络将逐步实现从被动响应到主动预测、从规则驱动到数据驱动的智能化转型,为构建自主、高效、韧性的智能算力网络奠定坚实基础。图 3-2 基于 LLM Agent 的算网流程自动化示意图 如图 3-2 所示,Agent 作为具备自主感知、决策与执行能力的智能实体,正在成为算力网络实现分布式智能控制与自主运营的核心技术支撑。通过引入多 Agent 系统,算力网络中的各个节点能够实现自组织、自配置与自优化,从而摆脱传统集中式管理的局限,形成更为灵活、高效的分布式智能架构。每个节点部署的轻量级 Agent 能够实时感知本地资源状态,并通过与其他 Agent 的协作,共同完成全局资源调度与负载均衡,确保系统整体性能的最优。在故障场景下,Agent的自主性尤为突出,它能够迅速执行隔离、切换、修复等操作,有效减少人工干预,显著提升网络的高可用性与韧性。这种自主运营模式不仅增强了系统的鲁棒性,还大幅降低了运维成本,为算力网络在复杂动态环境下的稳定运行提供了坚实保障。随着 Agent 技术的不断演进,算力网络将逐步实现从被动响应到主动管理、从静态配置到动态优化的智能化转型,相关技术或许是构建真正意义上的服务生成算力第九届未来网络发展大会白皮书服务生成算力网络白皮书 28 网络的关键。3.4 数字孪生数字孪生 数字孪生技术可以利用物理实体模型参数、传感数据、运行历史数据等在虚拟空间中完整映射出一个与物理实体一致的孪生体,并在孪生体中精准呈现反映物理实体的全生命周期。在算网场景下,构建算力网络数字孪生体,基于算网孪生体可实现对算网状态的持续分析和预测、算网治理需求和场景自发掘、业务服务到算网资源的灵活映射,为自动化评估、高效评估、敏捷迭代的服务生成算网提供构建基础,实现算力网络的全生命周期自治。通过物理网络和孪生网络实时交互,相互影响,借助算网孪生体助力算力网络实现低成本试错、智能化决策和高效率创新,同时为算网服务生成提供感知与决策验证平台,进一步提升算网服务生成化。具体架构如图 3-3 所示。图 3-3 算网数字孪生架构图 第九届未来网络发展大会白皮书服务生成算力网络白皮书 29 本节将介绍构建数字孪生的三项关键技术:数据采集和传感、仿真建模、实时更新和反馈。3.4.1 数据采集和传感数据采集和传感 数字孪生需要在建模过程中获取与真实系统相对应的数据,以确保模型的准确性和可靠性。数据采集与传感技术涉及到传感器、数据采集设备和通信技术等,用于实时或离线地采集物理系统的各种参数和状态信息。这些数据可以来自于物联网设备、传感器网络、监控系统等,也可以通过人工采集和整理。数据采集与传感技术的发展使得数字孪生能够更加准确地反映真实系统的行为和性能。在一个完备的数字孪生系统中,对运行环境和数字孪生组成部件自身状态数据的获取,是实现物理对象与其数字孪生系统间全要素、全业务、全流程精准映射与实时交互的重要一环。因此,数字孪生体系对感知技术提出更高要求,为了建立全域全时段的物联感知体系,并实现物理对象运行态势的多维度、多层次精准监测,感知技术不但需要更精确可靠的物理测量技术,还需考虑感知数据间的协同交互,明确物体在全域的空间位置及唯一标识,并确保设备可信可控。构建数字全域标识能够为物理对象赋予数字“身份信息”,赋予独一无二的数字化身份编码,从而确保现实世界中的每一个物理实体都能与孪生空间中的数字虚体精准映射、一一对应,物理实体的任何状态变化都能同步反应在数字虚体中,对数字虚体的任何操控都能实时影响到对应的物理实体,也便于物理实体之问跨域、跨系统的互通和共享,支撑孪生映射。在算网场景中,为各类算网资源在信息模型平台中构第九届未来网络发展大会白皮书服务生成算力网络白皮书 30 建算网统一标识,不仅实现对物体快速索引、定位及关联信息感知,支撑孪生体的建模,同时能够支撑算网资源调度与任务编排。3.4.2 仿真建模仿真建模 数字孪生的仿真建模是将物理世界的对象数字化和模型化的过程。通过建模将物理对象表达为计算机和网络所能识别的数字模型,对物理世界或问题的理解进行简化和模型化。数字孪生建模需要完成从多领域多学科角度模型融合以实现物理对象各领域特征的全面刻画,建模后的虚拟对象会表征实体对象的状态、模拟实体对象在现实环境中的行为、分析物理对象的未来发展趋势。建立物理对象的数字化建模技术是实现数字孪生的源头和核心技术,也是“数字化”阶段的核心。而模型实现方法研究主要涉及建模语言和模型开发工具等,关注如何从技术上实现数字挛生模型。在模型实现方法上,相关技术方法和工具呈多元化发展趋势。当前,数字孪生建模语言主要有 Modelica、AutomationML、UML、SysML 及 XML 等。在算网场景中,对算网资源特征抽象,并进一步描述抽象后的信息,实现模型表达,校验、编排后构建模型,可实现算网资源与孪生空间中的数字虚体精准映射,支撑孪生的管理。数字孪生体系中的仿真作为一种在线数字仿真技术,将包含了确定性规律和完整机理的模型转化成软件的方式来模拟物理世界。只要模型正确,并拥有了完整的输入信息和环境数据,就可以基本正确地反映物理世界的特性和参数,验证和确认对物理世界或问题理解的正确性和有效性。从仿真的视角,数字孪生技术中的仿真属于一种在线第九届未来网络发展大会白皮书服务生成算力网络白皮书 31 数字仿真技术,可以将数字孪生理解为:针对物理实体建立相对应的虚拟模型,并模拟物理实体在真实环境下的行为。和传统的仿真技术相比,更强调物理系统和信息系统之间的虚实共融和实时交互,是作贯穿全生命周期的高频次并不断循环迭代的仿真过程。因此仿真技术不再仅仅用于降低测试成本,通过打造数字孪生,仿真技术的应用将扩展到各个运营领域,其至涵盖产品的健康管理、远程诊断、智能维护、共享服务等应用。3.4.3 实时更新和反馈实时更新和反馈 数字孪生需要能够实时地更新模型,并将模型的分析结果与真实系统进行反馈。实时更新与反馈技术涉及到数据传输、通信网络、数据处理和分析等,以保证数字孪生与真实系统的同步性和一致性。通过实时更新与反馈技术,可以将数字孪生应用于对现实系统的监控、优化和决策支持,实现故障诊断、预测性维护、性能优化等目标。针对服务生成算力网络,服务生成算网决策无处不在且策略复杂多样,针对业务运行状态的策略修改将“牵一发而动全身”。利用数字孪生技术,算力网络服务生成策略可以在与物理网络相同的孪生环境中进行初步验证和协同,确保得到最优策略。与此同时,孪生体可基于实时的输入数据对服务生成算力网络配置等参数进行动态调整,提高服务生成算力网络的稳定性和可靠性。第九届未来网络发展大会白皮书服务生成算力网络白皮书 32 四、四、服务生成算力网络应用案例服务生成算力网络应用案例 算力网络以其高效灵活的算力供给和服务应用,为千行百业带来了巨大的赋能。作为当前算力网络的升级迭代,服务生成算力网络将丰富和革新算力的供给、应用和服务模式,能够极大地提升算网系统的智能化水平与服务质量,并通过不断演进和优化来应对新的挑战和需求。本章简述服务生成算力网络在推动数智化过程中对各行业已有场景的升级和未来场景的畅想,包括为用户提供极致的体验、为行业提供高效的管理,为社会提供普惠的智能服务。然而,算力网络业务和应用场景是不断涌现和创新的,在各行业共同挖掘和努力下,服务生成算力网络势必将开启前所未有的可能性。4.1 算网数据按需生成算网数据按需生成 数据作为驱动 AI 发展的核心燃料,然而,现实情境中,获取这些关键数据资源往往伴随着巨大的经济和时间成本。在算网数据按需生成的广阔场景中,网络中的各类数据源,无论是来自传感器、用户交互、业务系统还是计算任务本身,都呈现出高度的异构性。这些数据源具有不同的数据产生机制、更新频率、数据结构和内在逻辑,在不同状态下或针对不同需求,会产生属性各异的复杂数据流。尽管当前存在一些基于传统生成模型(如 RNN、GAN 等)的数据生成方法,它们或许能够模拟特定类型数据源产生的部分数据特征,但往往难以深入捕捉数据流中潜藏的复杂时空相关性、多模态依赖关系以及深层第九届未来网络发展大会白皮书服务生成算力网络白皮书 33 语义关联,导致生成数据的质量和真实感通常不尽如人意,并且难以实现对生成内容细节的精确控制和定制。此外,构建能够处理和理解这种数据多样性的通用数据生成大模型也面临严峻挑战。直接利用大规模、高质量且经过充分标注的跨领域数据集来训练这类模型,在现实中往往是不切实际的,因为这样的训练数据集本身就极度匮乏且获取成本极高。因此,为了在算网环境中实现高效、高质量的按需数据生成,一方面,需要研究具备高度可控性的通用数据生成模型。这类模型应当能够深刻理解并模拟不同数据源的数据产生规律,捕捉数据流中复杂的内在关联和长期依赖,并根据用户提出的具体需求(如数据类型、时间特性、语义特征、分布模式等)智能地生成符合预期、细节丰富且具有高度真实感的数据。传统的生成方法往往局限于特定模式,难以泛化到多样化的数据源,且通常需要对不同来源或类型的数据分别训练专门的模型,缺乏通用性。为此,首要任务是建立对网络中多元数据源的深度认知能力,理解其背后的生成机制、业务逻辑和潜在模式,在此基础上才能实现面向任意需求属性的高质量数据生成。另一方面,必须解决训练数据匮乏这一核心瓶颈。鉴于直接获取大规模、跨领域标注数据的困难,需要探索高效的学习策略。这包括将来自其他领域(如物理定律、业务规则、先验知识图谱等)的知识显式或隐式地融入生成模型的学习过程中,通过知识蒸馏、迁移学习、小样本学习等手段,结合有限的数据驱动训练,来弥补原始训练数据的不足,从而使得通用数据生成大模型能够在数据相对稀缺的情况下依然能第九届未来网络发展大会白皮书服务生成算力网络白皮书 34 够有效学习和泛化。这样,算网数据按需生成才能真正摆脱对海量原始数据的过度依赖,变得更加灵活、经济和实用。图 4-1 高质量算网数据按需生成示意图 针对当前算网数据生成领域普遍存在的生成结果质量不高且难以精确控制、高质量训练数据匮乏、模型通用性差等问题,构建面向算网环境的通用数据生成模型成为一项关键任务。在训练数据有限的情况下,通过跨域多模型协同,将一个领域(如文本、图像、知识图谱等)中已学习到的知识融入到目标数据(如网络流量、用户行为、业务日志等)的生成过程中,以此解决训练数据不足的问题,并提升生成数据的质量和对生成过程的可控性,构成了基于跨域多模型协同进行算网数据按需生成的核心挑战。针对当前大规模标注的算网数据训练集缺失这一普遍困境,摒弃直接训练通用算网数据生成大模型的常规思路,将复杂的算网数据生成问题分解为两个核心子问题:一是对网络中各类数据源及其生成环第九届未来网络发展大会白皮书服务生成算力网络白皮书 35 境的深度认知,二是基于这种认知的数据生成。我们利用现有的通用语言大模型(或其他类型的预训练模型)来处理海量的、未标记的网络相关语料库(如技术文档、系统日志、用户反馈等),通过筛选和提炼,生成特定格式的数据对(例如,描述网络状态的文本与其对应的理想数据特征对)作为训练样本,并迭代地选择高质量样本以持续优化认知模型。在实现对网络数据源特性、生成机制和潜在模式认知的基础上,采用联合先验知识和数据驱动的方式来训练数据生成大模型,有效缓解了算网数据训练集缺失的问题。同时,我们构建了面向不同生成目标(如模拟特定网络负载、生成合成用户行为轨迹等)的专用大模型,并精心设计了这些大模型之间的交互协作机制,将认知模型中蕴含的领域特定知识(如网络协议规则、业务逻辑约束等)融入到数据生成模型中,从而能够根据用户需求生成具备任意指定属性(如时间分布、空间关联、语义内容等)的高质量算网数据。4.2 网络拓扑网络拓扑智能生成智能生成 在生成式 AI 推动下,AI 模型参数呈指数级增长,这催生了对大规模、高密度计算集群的迫切需求,也彻底改变了智能计算中心在处理速度、内存容量/带宽以及网络延迟/带宽方面的要求。如今,部署超过一万 GPU 的集群已成为 AIGC 领域领先玩家的标配。在实际应用中,智能计算中心能力的首要制约因素已从计算能力的不足,转变为网络对计算效能最大化所施加的限制。因此,网络基础设施超越了第九届未来网络发展大会白皮书服务生成算力网络白皮书 36 其传统上仅仅连接设备的功能,成为决定整个智算中心绝对性能上限的关键命脉。同时,考虑到用户需求的多样性,现代智算中心网络拓扑的设计必须优先考虑可扩展性、高性能、稳定可靠、自动化运维以及未来的扩展能力。图 4-2 网络拓扑智能生成示意图 传统网络设计方法难以高效应对超大规模集群的复杂性和个性化需求,而大模型强大的模式识别、知识推理和生成能力提供了新的可能。其核心需求是利用大模型学习海量网络设计案例、性能数据及用户需求,自动生成满足特定性能指标(如低延迟、高带宽、高可靠性)、易于扩展且符合预算约束的定制化网络拓扑方案,从而克服人工设计的瓶颈。基于大模型的网络拓扑生成技术不仅能显著提升智算中心网络设计的效率和质量,确保网络基础设施真正成为支撑 AI 大模型训练和推理的“高速路”,最大限度地释放计算潜能,还能通过自动化设计减少人为错误,增强网络的稳定性和可维护性,最终为智第九届未来网络发展大会白皮书服务生成算力网络白皮书 37 算中心提供更强大的算力保障,推动 AI 技术的进一步发展。尽管 LLMs 在自然语言理解、逻辑分析等方面展现出强大的能力,但直接将其用于网络拓扑设计这类高度结构化、需要精确计算和优化的工程问题,缺乏精确计算和优化能力,难以保证结果的可验证性和可靠性。为此,可以通过一种基于两阶段的网络拓扑设计方法,该方法包含一个迭代模块级联,包括全局架构设计(Global Architecture Design,GAD)和局部连接搜索(Local Connectivity Search,LCS)。如图 4-2 所示,该框架采用交替优化的方式运行:GAD 负责生成高层特征,如拓扑模式和连接类型;而 LCS 则专注于细化更精细的特征,如组间连接和组内连接。具体来说,针对给定的任务需求,GAD首先利用 LLM 的知识库,根据预设提示确定所需的网络拓扑类型和连接要求。基于 GAD 的输出,LCS 随后采用搜索算法来探索最优的拓扑细节,从而优化最终的拓扑结构。在拓扑生成过程中,前一次迭代的结果会被反馈并作为当前迭代的参考。这使得 GAD 和 LCS 都能在已有进展的基础上进行改进,实现设计的迭代优化。例如,GAD 可以根据 LCS 在前一步找到的详细连接来调整其高层决策,而 LCS 则能根据 GAD 提供的高层结构优化其搜索焦点。这种迭代确保了宏观结构和微观连接都能精细调整,以满足当前任务的具体需求。4.3 算网服务智能生成算网服务智能生成 服务智能生成是服务生成算力网络所具备的典型能力之一。针对多元用户的自动化按需服务需求,服务生成算力网络能够准确挖掘用第九届未来网络发展大会白皮书服务生成算力网络白皮书 38 户意图并自动将其转化为策略对算网资源进行管理。具体来说,服务生成算力网络能够根据用户意图,整合各级资源的特点和需求,为各类用户都提供一套定制化、自动化的资源分配解决方案。同时,在资源紧缺或资源调度低效等情况下,能够进行敏捷有效地资源分配,满足不同计算场景对带宽、延迟、算力等的需求,为客户提供随需可调、场景多样、质量感知的一体化算力服务。为此,服务生成算力网络不仅需要对用户意图进行解析,还需要据此生成算网资源服务策略,从而端到端地将用户意图转译成为具体的算网服务策略。这需要服务生成算力网络对自身的实时状态、运行流程、服务机制等进行深入理解,并能够在当前算力网络服务框架中基于现有的功能模型实现算网资源按需服务。下面以ChatGPT为例来阐述服务生成算力网络融合当前通用大模型进行服务智能生成的过程。服务生成算力网络通过将 ChatGPT(Chat Generative Pre-trained Transformer)作为逻辑处理中心来接入用户意图和对算网进行管理,利用 ChatGPT 强大的语言理解和决策学习能力,能够对用户意图进行准确解析并将其转化为算网配置策略,使能算网资源自动化按需分配。利用指令微调技术(Prompt Engineering)来使能 ChatGPT 具备解决算力网络应用场景中特定问题的能力,包括提供智能聊天交互功能,通过多轮问答的方式来准确全面了解用户意图需求;提供算网策略自动生成功能,在当前算力网络架构下自动选择匹配的功能组件,通过生成算网资源配置策略来对算网资源进行配置管理,并从负载、第九届未来网络发展大会白皮书服务生成算力网络白皮书 39 延时、成本、服务质量、安全等维度向用户展示预期效果;提供基于用户反馈的优化功能,能够根据用户反馈对整体流程、特定模块、服务质量等进行优化。如图 4-3 所示,上述流程主要包括以下四个关键阶段:图 4-3 服务生成算力网络服务智能生成示意图(1)意图解析意图解析:用户将对算网服务的期望通过自然语言输入到服务生成算力网络,服务生成算力网络利用 ChatGPT 以准确挖掘用户意图并满足下一阶段策略生成的输入条件为目标,在多轮对话交互过程中,根据用户意图输入、算网状态、以及交互历史,智能生成相关的交互问题来对用户进行问询。如图 4-3 所示,用户输入“需要对 12 路 1080p 视频使用 yolov5 进行物体识别,处理延时不超过 500ms”,ChatGPT 能够轻松理解任务内容和用户对时延的要第九届未来网络发展大会白皮书服务生成算力网络白皮书 40 求,但由于用户输出缺少在负载、功耗、成本等方面的描述,无法得知相关方面的需求。因此,ChatGPT 需要生成“您能否告诉我您在寻找服务或产品时所考虑的价格范围?”、“您是否需要在运行过程中动态增加或减少计算资源,以适应业务快速变化和需求变更?”等问题来询问,从而对用户意图进行全面理解。通过多次的交互,最终完全理解用户意图并为下一阶段的策略生成提供输入。(2)策略生成策略生成:服务生成算力网络通过将算网服务策略生成问题转化为用户意图-功能组件匹配问题,在现有的算力网络服务框架下,从算力网络系统的功能组件中选择合适的模块来满足用户意图。首先,对算力网络中各功能组件进行描述,包括功能作用、输入输出、调用方法、版本信息等,例如调度模块的描述如下“功能:解决任务调度问题,支持负载、成本、服务质量、能效等优化目标;输入输出:输入包括任务对算力资源、网络资源、存储资源等需求,以及用户在负载、成本、服务质量、能效等方面的期望。输出包括算力节点的选择、部署方式、参数设置等;版本信息:V1-1;.”。ChatGPT 基于各个功能模块的描述信息,结合用户意图解析结果,自动匹配合适的功能模块来生成满足用户意图的算网服务策略。在策略生成后,ChatGPT 会从分析负载、成本、能耗、安全等维度对其进行分析估计,并将结果展示给用户。若在某些方面未达到用户需求,ChatGPT 根据用户意见从算网系统中选择合适的组件进行策略优化调整,直到完全符合用户期望。例如,用户觉得当前策略的成本超出预期,ChatGPT 重新选择配置较低的硬件设施来提第九届未来网络发展大会白皮书服务生成算力网络白皮书 41 供服务。(3)策略执行策略执行:将生成的算网服务策略下发到算网系统中,根据算网服务流程和逻辑规则,自动执行相关步骤。ChatGPT 可以对执行流程进行监控,并在发生故障情况下给出解决建议。图 4-4 服务生成算力网络服务策略生成流程(4)反馈优化反馈优化:对于一个完整的算网服务流程,服务生成算力网络对各个环节进行记录总结,包括用户意图输入、交互过程、解析结果、策略生成过程与结果、服务质量、用户反馈等。通过对历史案例总结进行分析学习,并根据用户反馈对算网服务流程提出优化建议。具体来说,历史案例能够作为示例样本来供 ChatGPT 学习,从而提高其解决意图解析、策略生成等任务的能力。同时,ChatGPT 还能够根据用户反馈对算网服务流程各环节进行优化,例如优化意图解析过程中生成的问题、为调度模块的算法提供优化建议、根据实际运行结果丰富和优化各模块组件的描述等。通过上述方式,通过不断的学习优化来提高算网服务质量,提升用户服务体验。作为一种意图驱动的算力服务,服务生成算力网络具备强大的计第九届未来网络发展大会白皮书服务生成算力网络白皮书 42 算能力、灵活的使用方式、可扩展性和弹性伸缩能力,而服务智能生成能力能够进一步帮助用户高效、便捷地使用服务生成算力网络进行任务处理,并获得满意的服务体验。在使用过程中,用户只需明确自己的需求并提出要求,无需关心底层的计算环境和复杂的技术细节,服务生成算力网络可以通过自动感知用户的需求和偏好,提供定制化、智能化、场景化的服务。4.4 业务流程自主管控业务流程自主管控 服务生成算力网络本身是一个高度智能化的信息基础设施,在对外提供服务时能够助力业务流程高度自动化。尽管当前众多业务都使用 AI 来提升自身智能化水平,但大多都存在单点智能水平有限、业务流程断点等问题,服务生成算力网络可以使能垂直领域大模型,通过与业务流程中已有的智能组件相结合,基于联合数据驱动与知识引导的方式来调用各单点能力,打通长流程断点和技术难点,实现流程自动化和业务闭环处理。例如,在智能制造场景中,服务生成算力网络可以通过自动化任务和工作流的功能,将数据处理和分析、决策支持、流程控制、智能机器人和自动化设备以及自动化交互等环节进行自动化和流程化管理,根据预设的规则和条件,在不同的环节之间自动触发和传递任务,实现业务流程的顺畅执行。这样可以减少人工干预和错误,并提升业务流程的效率。下将从智能规建、智能运维、智能营销、智能计费、智能客服、智能客户关系管理、商业智能等方面,如何赋能算力网络应用进行分第九届未来网络发展大会白皮书服务生成算力网络白皮书 43 析。图 4-5 服务生成算力网络全流程自主管控 智能规建智能规建:服务生成算力网络能够助力智能构建的关键在于其强大的生成能力和适应性。它可以解决各种自然语言处理任务,代码自动生成,文档生成和摘要,以及数据增强等应用场景,对研发生命周期的需求、设计、开发、集成、测试、发布等关键阶段进行赋能,从而加快需求理解和沟通、简化设计过程、提高开发效率、辅助测试执行等。在需求分析阶段,服务生成算力网络可以使能高效的需求沟通和理解,辅助开发团队、业务人员以及用户之间的交流,根据需求描述和问题陈述,生成相关领域的文档、提出潜在问题和建议,帮助确保需求的准确性和完整性。在原型设计阶段,服务生成算力网络可以辅助或自主构建原型和模型,例如,它可以根据输入的需求,利用现有的设计原型工具,快速生成交互原型,完成原型可视化和快速验证。同时,服务生成算力网络可以根据给定的上下文和提示,实现自动化的代码片段生成、函数定义和注释、代码审查和优化等任务,提高智能开发者的开发效率。在测试执行第九届未来网络发展大会白皮书服务生成算力网络白皮书 44 阶段,服务生成算力网络可以基于领域知识和历史测试数据,辅助或自主制定精准的测试计划,包括测试范围、测试用例设计、测试覆盖率等方面,保证测试的效率和覆盖度,减少漏测和误测的情况。在此技术上,使用自动化测试工具进行自动化测试,包括单元测试、集成测试、功能测试、性能测试等。图 4-6 基于 LLM Agent 的流程自动执行机制 智能运维智能运维:AIOps(Artificial Intelligence for IT Operations)旨在通过整合人工智能技术和 IT 运维过程,实现自动化的运维管理,包括运行数据(包括日志、指标、事件)进行分析和处理,自动识别和分析故障,快速定位问题等。服务生成算力网络能够构建完整的故障快速识别、故障处理策略生成以及故障自愈流程,从而进一步提升AIOps 的自动化和智能化水平。基于当前已有的系统指标检测、日志分析等运维组件,服务生成算力网络能够作为运维专家经验和知识库与上述组件中智能算法检测的结果进行融合,以数、知双驱动能力提升运维效率。运维专家的经验通常包含了最佳实践、故障处理流程和第九届未来网络发展大会白皮书服务生成算力网络白皮书 45 解决方案等,将这些知识融入到智能运维系统中,可以使系统具备更准确和高效地诊断和解决问题的能力。此外,服务生成算力网络可以自动生成脚本以及 自动化运维工具需要的程序代码,实现故障自愈。图 4-7 基于自演技 LLM Agent 的智能运维 智能客户管理智能客户管理:智能客户管理通过有效地整合、分析和利用客户相关的信息,帮助企业建立和维护与客户之间的良好关系,并提供个性化的客户服务。服务生成算力网络能够提供更加人性化的智能交互方式,例如在进行调查问卷过程中,采用更为人性化的提问方式进行问卷调查,根据客户的给出的答案,更为智能地选择向客户询问的问题,若发现客户出现不满情绪,能及时进行安抚。在进行服务方案推荐时,以具体用户需求为意图基础,同时整合各类资源、各类服务能力的信息,利用思维链进行多步推理,给出符合客户场景意图的最佳建议方案。在进行客服时,除了准确理解用户的问题和需求,生成准确、个性化和自然的回答和解决方案,还能够识别用户的情感和语气状态,进而提供更加细致的服务。第九届未来网络发展大会白皮书服务生成算力网络白皮书 46 总的来说,服务生成算力网络通过融合 AI、物联网、5G、边缘计算、数字孪生等技术要素,能够为制造业、金融服务、医疗健康、教育培训和城市管理等千行百业带来赋能,并推动各个行业的智能化发展和提升。在赋能各行业的过程中,服务生成算力网络也逐渐改变着各个行业中人类的功能期望与参与方式。首先,服务生成算力网络可以提供泛在的 AI 能力,能够接管那些重复性、繁琐或机械化的任务,使人类能够将时间和精力集中在更高级别、更有创造性的工作上。这样可以提高工作效率,减少错误,并释放出更多的时间供人工从事战略规划、创新和解决复杂问题等任务。同时,服务生成算力网络可以支撑 AI 来作为辅助工具,生成各种创意和设计,为人类提供灵感和参考,帮助人类进行创新、拓宽思维和解决问题的视野。在不久的将来,人类与 AI 副手协同工作将成为常态,从内容创作、办公、搜索和人机交互,都将被深深变革,在智能客服、营销、投研、推荐等各个方面降本增效。4.5 服务自优化与持续演进服务自优化与持续演进 服务生成算力网络具备自主学习、智能决策、自适应优化、自修复和持续演进等典型特征。这些特征使得服务生成算力网络能够根据环境和需求的变化,在无需人工参与的情况下主动调整和优化自身,提供更智能、高效和可靠的服务和体验。第九届未来网络发展大会白皮书服务生成算力网络白皮书 47 图 4-8 服务生成算力网络能力自优化与持续演进 个性化服务个性化服务:服务生成算力网络具有智能交互和个性化服务的优点,能够理解用户需求,并根据用户的个性化偏好提供相应的回答和服务。这使得用户能够享受到更加智能化和个性化的体验,更高效地获取所需信息和解决方案。一方面,服务生成算力网络本身具备灵活多样的节点选择、弹性扩展能力、定制化的 SLA、数据安全与隐私保护、费用灵活计费等特点,支持用户能够根据自身需求和偏好,获得定制化的算力资源和计算服务。另一方面,通过先进的人工智能技术,服务生成算力网络能够理解用户输入的自然语言,并根据用户的需求提供智能化的回答和建议。用户可以通过对话、问题输入等方式与服务生成算力网络进行交互,就像与一个人类进行对话一样。同时,服务生成算力网络可以根据用户的历史数据和行为习惯,提供个性化的服务和建议。通过分析用户的历史查询记录、喜好偏好等信息,能够更好地理解用户需求,从而提供更加符合用户偏好的回答和解决方案。能力自主优化能力自主优化:服务生成算力网络能够根据自身的学习和经验积第九届未来网络发展大会白皮书服务生成算力网络白皮书 48 累不断进行自我改进和优化的能力。通过分析和评估当前的性能和效果,系统可以主动识别问题并提出解决方案,进一步提高系统的性能和效率。首先,服务生成算力网络需要对当前的能力状况进行评估和反馈。系统或个体可以通过监测和分析自身的表现和结果,了解到存在的问题和改进的空间。在此基础上,通过主动获取新知识、技巧和经验,通过学习和积累来丰富自身的能力和知识库,能够对问题制定相应的改进计划。其次,服务生成算力网络还需要具备自我调节和自我控制的能力。系统或个体可以通过自主设定目标、制定计划,并自我约束和监督实施,从而达到预期的改进效果。此外,服务生成算力网络可以与用户互动和交流,接受来自外界的建议和指导,通过协作和合作促进能力的优化和提高。这些特点使得服务生成算力网络能够主动地改进和提高自身的能力水平,提高适应性、灵活性和服务质量。智能自适演进智能自适演进:服务生成算力网络能够通过学习、适应和自我调整,不断改进和提升其智能水平和能力,并在不同环境和任务中展示出更好的表现。基于自主学习和迭代优化的机制,服务生成算力网络通过不断地与用户互动和获取新的数据,从中学习新知识和经验,不断提升自身的智能水平和服务能力。这使得服务生成算力网络能够跟上技术和用户需求的发展,在无需人工操作的情况下,持续提供优质、全面和个性化的服务。为此,服务生成算力网络可以基于不同单域感知的差异性、计算资源的互补性、数据的共享性、域间的交互性,通过跨域协同来赋予算网解决更复杂任务和自适应场景适配的能力。例如,在联邦学习的框架下利用知识蒸馏来实现多节点知识的迁移复用,第九届未来网络发展大会白皮书服务生成算力网络白皮书 49 基于终身学习来实现智能的可持续演进等。第九届未来网络发展大会白皮书服务生成算力网络白皮书 50 五五、技术挑战与未来方向技术挑战与未来方向 服务生成算力网络具有潜在的发展前景,但为实现其落地应用仍有一些挑战和技术难点需要解决,包括智能训练与部署、功能方案设计、智能度量与评估、自演进可控、应用落地与生态建设等。本章节总结分析了这些研究挑战和待解决问题,以供在未来充分发掘服务生成算力网络的潜力和效益。5.1 智能训练与部署问题智能训练与部署问题 服务生成算力网络的智能化建设缺乏基础设施支撑,一方面,核心算法的攻关面临数据、知识、环境等原料匮乏的问题。尽管算力网络中存在海量数据,但异构数据缺乏标准化描述,数据的类型、格式、来源等都差异巨大,而且缺少标注信息,尚无法为算网智能化提供统一的数据支撑能力。而当前存在于文档、书本、标准等中的算力网络专家知识缺少体系化的表达,亟需利用数字化技术将相关知识、经验与 AI 等技术融合,形成具备行业共识的标准化表达。同时,算力网络领域缺少能够提供完善的、有及时闭环反馈的、接近真实算网的实验环境或仿真系统,因此无法有效支撑相关算法的验证和创新。另一方面,当前 AI 技术仍然面临着能力效率、可解释性、安全和隐私等方面的挑战。例如,生成式 AI 是实现算网服务生成的关键手段,发展前景也无限可期,但生成式 AI 仍面临着技术创新、安全规范、应用融合等挑战。从技术演进的角度来说,当前生成式 AI 在生成内容第九届未来网络发展大会白皮书服务生成算力网络白皮书 51 的细节质量、真实度等方面发展迅速,但仍然无法解决数据依赖性高、可控性不好、缺乏可解释性、资源消耗大等问题。此外,当前生成式AI 仅能根据已有的数据库生成相关领域内的内容,生成结果的泛化能力和多样性尚有不足。随着关键技术和基础理论的不断突破,最终能否超越人类的创造性和智慧也尚未可知。服务生成算力网络的智能化建设还面临着智能部署的挑战。首先,AI 模型,尤其是 AI 大模型,通常需要大量的计算资源来进行推断和处理,这可能导致在部署阶段面临硬件性能、存储容量和计算效率等方面的挑战。为此,在智能部署阶段可以通过分布式推理、批量推理、算子融合、硬件加速等提高推理效率,同时,还可以使用模型剪枝、蒸馏、量化压缩等来减少大模型的参数冗余。同时,在将 AI 模型部署到真实环境中时,需要确保智能模型能够适应各种硬件设备、操作系统和网络条件。不同的部署环境可能需要进行适配和优化,以确保良好的性能和稳定性。其次,AI 模型的更新和迭代管理也是一个挑战。当模型需要改进或修复时,如何进行无缝的更新和部署,而不会中断现有系统的正常运行,是一个需要考虑的问题。此外,还需要处理隐私和安全的问题。AI 模型可能包含敏感信息,需要采取措施确保智能模型和数据的安全,并防止未经授权的访问和滥用。针对上述挑战,研究人员正在积极探索改善大模型的部署方法和技术,以提高其效率、可靠性和安全性,以适应各种实际应用场景。第九届未来网络发展大会白皮书服务生成算力网络白皮书 52 5.2 业务融合方案设计业务融合方案设计 算网服务生成在赋予算力网络多维建设愿景的同时,包括高效的资源利用率、极致的用户体验、使能算网自动、自愈、自优、自治等,也对其体系架构提出了更多的要求。首先,服务生成算力网络的架构应该支持统一纳管计算资源、存储资源、网络资源的能力,并能够将基础设施资源以统一的标准进行度量,抽象为信息要素加载在网络报文中,通过网络进行共享。同时,为敏捷实现多元业务并提供极致的用户体验,服务生成算网的体系架构需要是极简的,支持模块化的功能组件、标准化的协议接口、扁平化的管理机制、可解耦的服务策略等功能。在此基础上,服务生成算网的架构还应该遵循分层跨域的设计思想,基于单域自治与跨域协同的建设思想,进而实现全域服务生成。例如,开放可编程的算网自治域、高度自动化的服务流程、以用户体验为中心的闭环运维等。总的来说,在设计服务生成算网体系架构时,应该综合考虑算网业务功能实现、功能服务优化、系统全域服务生成等方面的诉求。然而,如何通过建立统一的体系架构来满足各方面的功能需求,最终的形态还需要在未来进一步探索。5.3 智能度量与评估智能度量与评估 智能度量与评估是对智能系统的性能和智能能力进行量化和评价的过程,其目的是提供一个客观、可靠的方式来衡量和比较智能系统的表现,并为改进优化和进一步发展智能系统提供指导。目前,服务第九届未来网络发展大会白皮书服务生成算力网络白皮书 53 生成网络领域效仿自动驾驶能力的分级策略,将网络智能能力分级为0(完全依赖人工操作)到 5(高度自治、操作无人化)的六个等级。上述分级框架亦可用于服务生成算网领域。然而,服务生成算网的建设之路是个长期的过程,目前可能在很多单点上形成了突破和高度智能,但尚无法形成具有颠覆意义的完全智能化解决方案。在进行智能度量与评估的过程中,对算网整体智能水平的评估通常目标统一、方式直接,可以采用一系列定量和定性的评估方法,例如使用标准数据集进行测试、设计特定的验证任务、进行人工评估或开展实际应用场景的验证等。但对单点的评估不仅需要根据特定任务或领域上的目标设计定制化的测试方案,考虑到智能能力的提升应该来自于系自身的内部发展和学习,而非受到关联节点的影响所致,还需要对各单点的边界定义、因果关联、局部与整体的关系等具有清晰的认识。而这需要在服务生成算网架构设计之初就对相关内容进行明确定义和准则制定。在构建服务生成算网过程中,需要同时考虑单点智能和全域智能的培养和提升,以实现更全面、更广泛的智能表现。5.4 自演进可控性自演进可控性 自演进学习不仅是服务生成算力网络应对环境动态变化的技术需求,也是其具备高阶智能的重要体现之一。在自然界中,智能生物能够根据环境、条件、目标,自适应地调整自身或调度各种资源尽可能地实现预定目标,并在长期累月的进化中实现智能从简单到复杂,从低级到高级的演化。类比而言,服务生成算力网络作为一第九届未来网络发展大会白皮书服务生成算力网络白皮书 54 个高级智能体,自身智能也需要随着时间迁移、系统迭代、场景迁移、需求变更等成长并演化,即通过自学习、自适应、自协同、自组织,实现体系架构动态演进、业务功能逐步拓展、服务能力持续增强等。为实现上述目标,持续学习(CL,Continual Learning)通过从不断变化的数据中进行学习,旨在使能 AI 自动地积累知识和技能,并将其用于未来的学习中。结合不同的学习过程,CL 可以归类为:类增量型持续学习、任务增量型持续学习、域增量型持续学习、任务不可知型增量学习。在算力网络自演进学习过程中,可以根据自身系统状态的参数变化、与用户的交互信息、外部专家的先验知识等通过 CL 来不断提高服务能力和智能水平。然而,CL 目前处于初期研究阶段,尚不具备完备的自演进学习理论模型和体系方法,相关算法仍无法有效解决学习效率低、灾难性遗忘(Catastrohic Forgetting)等问题。5.5 应用落地与生态建设应用落地与生态建设 尽管服务生成算力网络技术存在诸多优势,但在整个社会行业中全面推广并非易事,尤其是当其有可能彻底改变现有的工作方式,重塑商业模式、引导用户习惯时,会遇到各种挑战和阻力。首先,服务生成算网力网络在面向行业的具体应用时,需要把技术、业务、场景和商业打通,这是超越简单技术维度的更富挑战的问题,而且从技术创新到落地应用仍需要时间和进一步的发展,技术的不成熟可能限制了其应用范围和可靠性。此外,服务生成算力网络的应用大量的数据第九届未来网络发展大会白皮书服务生成算力网络白皮书 55 传输和处理,对于个人隐私、社会伦理、和国家安全的担忧是推广面临的另一个重要挑战。另一方面,服务生成算力网络技术的推广会对某些行业和就业形态产生影响,会革新或取代特定工作岗位,因此存在抵制和反对的可能。而对于算网使用者来说,服务生成算力网络技术的使用需要面对人们对于新技术和新方式的接受程度和适应能力,而习惯和文化的改变需要时间和适应过程。为切实促进服务生成算力网络的创新与应,需要构建一个以服务生成算力网络为核心的、具有良好发展与合作机制的生态系统,包括但不限于以下几个方面:建立数据共享机制,通过合理授权和隐私保护,鼓励数据持有方共享数据资源。这样可以提供更多的训练数据,促进模型的发展和优化;建立跨界、跨领域的合作与联合研究机制,促进学术界、产业界、政府和社会各方之间的合作。通过资源共享、技术交流和合作创新,加速服务生成算力网络技术的发展和应用;建立服务生成算力网络伦理道德准则和规范,确保服务生成算力网络技术的研发和使用符合道德和法律要求。保障用户隐私,防止滥用和歧视,同时注重公平、透明和可解释性;提供资金支持和政策引导,鼓励企业投入服务生成算力网络研发和创新应用。制定相关政策和规划,为服务生成算力网络产业的发展提供良好的环境和支持。加强服务生成算力网络领域的人才培养和引进工作,培养专业人才和跨学科人才。推动服务生成算力网络技术的普及和应用,提高整个社会对服务生成算力网络的认知和理解;建立创新孵化器和科技园区,提供创业支持和资源共享平台,激励创新创业者在服务生成算力网络领域开展实践第九届未来网络发展大会白皮书服务生成算力网络白皮书 56 和创新,推动创新成果转化为商业价值。总的来说,服务生成算力网络生态建设需要各方的积极参与和共同努力,包括政府、企业、社会组织等。通过构建健全的生态系统,可以推动服务生成算力网络技术的健康发展,实现技术的共享与合作,促进社会的可持续发展。第九届未来网络发展大会白皮书服务生成算力网络白皮书 57 六六、总结与展望、总结与展望 随着云计算、大数据、物联网、边缘计算等技术的兴起,以及各行各业在数字化转型过程对算力网络的自动化和智能化提出了更迫切的要求,服务生成算力网络的提出,为进一步提升算力网络的资源利用率、提高算网自动化和智能化水平、使能极致的用户体验提供了一个新思路,是算力网络智能化演进的终究目标。同时,我们还必须清楚地认识到服务生成算力网络还处于研究阶段,还存在许多问题和挑战亟待解决,例如功能架构设计、智能度量与评估、生成式 AI 融合、自演进可控、应用落地与推广等。本白皮书通过介绍服务生成算力网络的发展背景、功能愿景、参考架构、使能技术、应用场景和趋势挑战,试图为大家详细地描述服务生成算力网络在未来发展中的潜在价值和美好愿景。期待在不久的将来,服务生成算力网络能够进一步赋能各行各业,推动人类向智能化社会迈进。第九届未来网络发展大会白皮书 服务生成算力网络白皮书 58 附录 A:术语与缩略语 英文缩写英文缩写 英文全拼英文全拼 中文释义中文释义 AI Artificial Intelligence 人工智能 CNC Computing and Network Convergence 算力网络 DT Digital Twin 数字孪生 CCSA China Communications Standards Association 中国通信标准化协会 ETSI European Telecommunications Sdandards Institute 欧洲电信标准化协会 IoT The Internet of Things 物联网 IoV Internet of Vehicles 车联网 SID Service ID 服务标识符 SDN Software Defined Network 软件定义网络 FaaS Function-as-a-Service 函数即服务 TSN Time-Sensitive Networking 时间敏感网络 VR Virtual Reality 虚拟现实 TL Transfer Learning 迁移学习 CL Continual Learning 持续学习 AIopS Artificial Intelligence for IT Operations 智能运维 IBN Intent-Based Network 意图网络 LLM Large Language Model 大型语言模型 DRL Deep Reinforcement Learning 深度强化学习 NLP Natural Language Processing 自然语言处理 GAI Generative Artificial Intelligence 生成式人工智能 GAD Global Architecture Design 全局架构设计 LCS Local Connectivity Search 局部连接搜索 第九届未来网络发展大会白皮书服务生成算力网络白皮书 59 参考文献 1 ETSI GS MEC 003-2020,Multi-access Edge Computing(MEC);Framework and Reference Architecture Disclaimer(V2.2.1)S.2 贾庆民,胡玉姣,谢人超等,确定性算力网络研究J.通信学报,2022.3 中国联通研究院,算力网络架构与技术体系白皮书,2020.10.4 中兴通讯,服务生成网络白皮书,2022.12.5 周晓茂,贾庆民,胡玉姣,郭凯,马千飘,刘辉,谢人超.自智算力网络:架构、技术与展望J.物联网学报,2023.6 Zhou,X.,Hu,Y.,Jia,Q.and Xie,R.LLM-Enabled Multi-Modal Data Synthesis via Cross-Domain CollaborationJ.IEEE Communications Magazine,2025.

    发布时间2025-08-22 66页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 未来网络发展大会:2025东数西算算网协同调度业务场景白皮书(118页).pdf

    未来网络技术发展系列白皮书(2025)东数西算算网协同调度业务场景白皮书第九届未来网络发展大会组委会2025年8月版权声明版权声明本白皮书版权属于紫金山实验室及其合作单位所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:紫金山实验室等来源:紫金山实验室等”。否则将可能违反中国有关知识产权的相关法律和法规,对此紫金山实验室有权追究侵权者的相关法律责任。编写说明编写说明I主要编写单位:主要编写单位:紫金山实验室、江苏未来网络集团有限公司、江苏省未来网络创新研究院国家信息中心大数据发展部参与编写单位(拼音序):参与编写单位(拼音序):安徽提尔液冷科技有限公司、北京北方算力智联科技有限责任公司、北京积算科技有限公司、北京趋动智能科技有限公司、成都交投信息科技有限公司、赣州市数字产业集团有限公司、广东华韶数智科技有限公司、贵州南智云谷数字产业发展有限公司、贵州省算力科技有限责任公司、贵州师范大学(未来网络贵州省院士创新团队工作站)、贵州算家计算服务有限公司、合肥城市云数据中心股份有限公司、湖南城市云智数科技有限公司、昆仑芯(北京)科技有限公司、南京中科逆熵科技有限公司、宁夏西云算力科技有限公司、宁夏中卫市新型互联网交换中心有限责任公司、派欧云计算(上海)有限公司、庆阳云创智慧大数据有限公司、四川省算云科技有限责任公司、苏州国科综合数据中心有限公司、算力互联(北京)科技有限公司、曙光信息产业股份有限公司、天津大学、武汉优普拉斯通信有限公司、西安特发千喜网络信息产业发展有限公司、银川中创普惠互联网科技有限公司、鹰硕(韶关)信息产业集团有限公司、宇耀未来(南京)科技有限公司、中航信云数据有限公司II主要编写人员:主要编写人员:罗曙晖、张晨、孙婵娟、张玉军、潘凤薇、周俊、芮美芳、陆明明、高新平、李屹、陈晓波、赵芷晴、梁木III前言前言2023年底关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见(简称意见)发布后,全国一体化算力网的建设浩荡展开。意见中多次提及“算网协同”,明确指出“加快算网协同编排调度技术部署应用”、“探索算网协同运营机制”。实际上,自2019年业界相关研究起步,“算力网”、“算力网络”、“算力互联网”等概念层出不穷,“算网协同”、“算网融合”、“算网一体”等路线众说纷纭。为科学推进全国一体化算力网、有效实践算网协同,务须明确“算力网”和“算网协同”的内涵。2025年4月,全国一体化算力网监测调度平台建设指南(简称指南)正式公开征求意见,对算力网的内涵进行了阐述,从顶层设计来看,算力网不是对于多方传统云计算平台进行简单的封装与转售:使用方式使用方式,将从传统的“买算/租算”转为“用算”;渠道特征渠道特征,将从传统的“互联网自选下单订购”转为“算力网动态调度消纳”;网络网络连接连接,可基于互联网或专用网络,专用网络相比于互联网可实现更好的服务质量保障。可以看到,算力网是一种新型的服务模式,是一种包含了网络、算力、平台的服务能力集合,而算力网络应属于算力网中的一种专用网络,算力互联网应属于一种基于互联网的算力网形态。指南中的这些顶层设计,在底层逻辑上牵引了“全国一体化算力网”中“算网协同”的实践方向。当使用方式将从“买算/租算”转为“用算”、渠道特征从“互联网自选下单订购”转为“算力网动态调度消纳”,意味着算力资源将从传统的“虚拟机/裸金属”逐步转IV为“容器/作业”,并提供“最优匹配、按需启停、精准计量、效用付费”的任务式计算服务。任务式计算服务的时间特征具有“临时性”、空间特征具有“跳跃性”、流量特征具有“突变性”,即平时不用时任务不存在只有用时才临时启动任务,本次启动在A地X供应方而下次可能启动在B地Y供应方,平时不用时流量为0而用时流量会随计算服务负载大幅波动。那么,传输服务如何能够满足并匹配任务式计算服务的临时性、跳跃性、突变性?这必然要求网络资源的可调度。在互联网不具备调度能力的情况下,如何通过专用网络更好地匹配任务式计算服务的特征与需求?这就是算力网中算网协同的实践方向。进一步地,如何将这种实践能够构建在跨东西部区域的广域网络之上,就是面向东数西算的算网协同。东数西算算网协同调度-业务场景白皮书(简称白皮书)的编制,是基于国家东数西算“安全新总线”项目所开展的算网协同工程实践。“安全新总线”通过400Gbps互联了国家八大枢纽节点、以及多个国家超算中心,可根据任务时延、带宽需求提供广域确定性网络传输质量,并通过网络操作系统开放网络资源的调度能力,算网协同调度平台即原生构建其上。白皮书以业务场景视角切入,对东数西算算网协同调度的调度架构、应用场景、生态模式等进行了深入的分析论述。希望能够通过本白皮书,为业界树立面向东数西算的算网协同调度范式,为国家东数西算与全国一体化算力网的规模落地提供未来网络实践经验。V目录目录.V一、“东数西算”概述.11.1背景.11.2目标及意义.11.3发展历程及现状.21.4本文内容结构.2二、整体架构.3三、调度架构.43.1总分调度架构.53.2分总调度架构.83.3混合调度架构.14四、应用场景.194.1东数西算场景.194.2数据快递场景.294.3东数西存场景.354.4协同训练场景.444.5协同推理场景.664.6西训东推场景.79五、生态模式.102VI5.1边云一体模式.1025.2云算分离模式.1045.3边缘共享模式.106六、商业价值与前景展望.1081一、“东数西算”概述一、“东数西算”概述1.1背景背景随着数字经济的迅猛发展,数据量呈爆发式增长,对算力的需求也日益迫切。然而,我国东部地区经济发达,数据需求旺盛,但面临土地、能源等资源紧张的问题,算力供给受限;而西部地区资源丰富,具备发展数据中心的天然优势,但数据需求相对不足。在此背景下,我国“东数西算”工程应运而生。“东数西算”就是将东部地区产生的数据传输到西部地区进行计算和存储,促进东西部算力协同联动。1.2目标及意义目标及意义目标:目标:通过“东数西算”工程,在全国范围内规划建设多个国家级算力枢纽节点和大数据中心集群,形成布局合理、绿色集约的算力基础设施体系。实现算力的规模化、集约化发展,提升算力使用效率,降低算力使用成本,推动算力资源的高效配置。意义:意义:从经济角度看“东数西算”工程带动了数据中心建设、网络通信、IT设备制造、软件等相关产业的发展,促进了产业结构优化升级,为经济增长注入新动力。在资源利用方面,充分发挥了西部地区的能源优势,提高了能源利用效率,实现了东西部资源的优势互补。同时,有助于缩小东西部数字经济发展差距,推动区域协调发展,提升我国整体数字经济竞争力,为数字中国建设提供坚实支撑。21.3发展历程及现状发展历程及现状2021年,国家发展改革委、中央网信办、工业和信息化部、国家能源局联合印发 全国一体化大数据中心协同创新体系算力枢纽实施方案,为“东数西算”工程奠定了政策基础。2022年2月,国家正式全面启动“东数西算”工程,在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等8地启动建设国家算力枢纽节点,并规划10个国家数据中心集群。截至目前,各枢纽节点和数据中心集群建设稳步推进,算力规模不断扩大,网络传输能力逐步提升,初步形成了全国一体化算力网的基本框架。2023年底,国家发改委、数据局、网信办、工信部等多部委联合印发关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见,明确了全国一体化算力网的指导思想、基本原则和建设目标。意见多次提及“算网协同”,明确指出“加快算网协同编排调度技术部署应用”、“探索算网协同运营机制”,为算网协同的发展确立了基础。1.4本文内容结构本文内容结构本文的编制,是基于国家东数西算“安全新总线”项目所开展的算网协同工程实践。深入分析“东数西算”工程中的总分调度、分总调度、混合调度的总体调度架构,东数西算、数据快递、东数西存、协同推理、协同训练和西训东推等核心应用场景,以及边云一体、云3算分离和边缘共享等新型生态模式。同时,通过对典型应用场景的详细的业务流程分析,力求为产业参与者提供可操作、可复制的交付参考与决策依据,加速“东数西算”从战略规划向工程落地的转化进程。二、整体架构二、整体架构系统整体架构如图 2-1 所示:异地、异构、异属的各类算力资源通过网关实现物理与逻辑层面的并网,构建起“全域可达、动态可控、高效可用”的算力资源池,为算网协同调度平台提供标准化的资源服务支撑。图2-1整体架构图算网协同调度平台包含两大用户入口及四个调度模块,功能如下:资源需方入口资源需方入口:资源需求方可通过该入口发布涵盖算力、存储、网络等多维度的应用需求。平台将基于全域算力资源池,4精准调度匹配需求的算力及网络资源,完成用户任务的部署与执行。资源供方入口:资源供方入口:资源供应方可通过该入口向平台注册算力资源,同时登记账户信息等相关内容,实现资源发布、调度、使用、计量、计费及结算的全业务流程闭环。协同调度模块:协同调度模块:通过协同任务调度、流量调度与数据调度,满足算力消费者对系统在算力、网络、存储等多维度的使用需求。任务调度模块:任务调度模块:接受协同调度的调控,聚焦算力维度需求,调度相应算力资源以支撑用户任务的算力供给。流量调度模块:流量调度模块:接受协同调度的调控,聚焦网络维度需求,调度相关资源以保障用户任务的网络支撑。数据调度模块:数据调度模块:接受协同调度的调控,聚焦存储维度需求,调度对应资源以满足用户任务的存储需求。三、调度架构三、调度架构在东数西算场景中,算力资源的全域统筹与动态调配构成了新型基础设施的核心能力。面对多样化的业务需求与复杂网络环境,单一调度模式难以满足所有场景。为此,需进一步探索总分、分总、混合三种典型调度架构,通过差异化的层级设计与控制策略,构建更加灵活适配的算力网调度体系。53.1总分调度架构总分调度架构全局调度为“总”,区域调度为“分”,总分调度架构指的是在全局调度与区域调度构成的层级调度结构中,以全局调度为业务入口,经由全局调度将业务需求拆分,下发到区域调度,再由区域调度完成业务的部署与运行。3.1.1背景描述背景描述在算力资源全网分布的生态体系中,每一算网资源均可自主经营,构建独立的运维、管理、结算系统。3.1.2目标效果目标效果算力使用者在使用算网资源时,能够通过算网协同调度平台为统一平台,实现对所有算网资源的无差别调度使用。这意味着,无论资源的属性和管理方式如何,用户只需关注自身的业务需求,无需了解资源的复杂细节,即可便捷、高效地获取所需算力、网络和存储资源,享受一体化的优质服务体验。这种无差别调度模式极大地简化了资源获取流程,提高了用户的使用便利性,降低了用户的使用门槛,有助于吸引更多潜在用户进入算力市场。3.1.3业务流程业务流程步骤一:资源注册登记与纳管步骤一:资源注册登记与纳管6算力提供者积极响应市场需求,主动向算网协同调度平台进行资源注册登记。这一过程如同企业在市场中进行合法合规的商业注册,通过详细、准确地提交自身算网资源的各项参数和特性,如CPU核心数量、内存容量、GPU性能、存储类型及容量等关键信息,将自身资源纳入算网协同调度平台的统一管理范畴。算网协同调度平台则扮演着“市场监管者”和“资源整合者”的角色,运用多种的技术手段和管理策略,对这些资源进行集中纳管,构建起一个庞大、有序的算力资源库,为后续的高效调度奠定坚实基础。图3-1总分调度-资源注册登记与纳管步骤二:资源状态上报步骤二:资源状态上报为了确保算网协同调度平台能够实时掌握资源的动态情况,实现精准调度,算力提供者需要定期或实时向调度中心上报算网资源状态。这些状态信息涵盖了资源的关键性能指标,如空闲可用的CPU核心数量、内存数量、GPU数量以及存储容量等。通过及时、准确的状7态上报,调度中心能够如同拥有了一双“透视眼”,清晰地了解资源的实时情况,从而根据用户的需求进行科学合理的调度安排,避免资源的闲置浪费或过度使用,提高资源的整体利用效率。图3-2总分调度-资源状态上报步骤三:算网调度操作与协同调度步骤三:算网调度操作与协同调度当算力使用者产生业务需求时,他们只需通过算网协同调度平台提供的便捷操作界面(如控制台等),发起算网调度请求。调度中心在接收到请求后,迅速启动协同调度机制,如同一位经验丰富的指挥家,协调各方资源,综合考虑用户的算力、网络和存储需求,以及当前资源池中各类资源的实时状态,制定出最优的调度方案。通过准确的任务分配、流量调度和数据传输安排,满足用户多样化的应用需求,确保业务的高效运行。8图3-3总分调度-算网调度操作与协同调度3.2分总调度架构分总调度架构3.2.1背景描述背景描述在算力资源池的生态中,具有自治能力的算网资源以其独立的运维、管理、结算系统为依托,在接入整体算力资源池后,如同一个个充满活力的“小生态”,在保持自身业务独立性和创新性的同时,积极寻求与外部资源的协同合作。这些算网资源期望借助自身的业务入口,突破地域和资源限制,调度使用全局算网资源,实现资源的优化配置和业务的拓展升级。这种模式不仅丰富了算力市场的竞争格局,还促进了资源的共享与流通,为整个产业的发展带来了新的机遇和活力。93.2.2目标效果目标效果一方面,算力使用者通过算网协同调度平台总入口,能够像在总分调度场景中一样,实现对系统内所有算网资源的无差别调度使用,享受统一、便捷的资源服务。另一方面,算力使用者还可以通过自治系统业务入口,同样实现对其他系统内所有算网资源的无差别调度使用。这一创新模式为用户提供了更多的选择和灵活性,满足了不同用户在不同场景下的多样化需求,进一步提升了用户的使用体验和满意度。3.2.3业务流程业务流程步骤一:资源注册登记与纳管步骤一:资源注册登记与纳管同总分调度场景类似,算力提供者首先向算网协同调度平台进行资源注册登记,将自身的算网资源信息全面、准确地提交给调度中心。调度中心则运用专业的管理技术和高效的处理流程,对这些资源进行集中纳管,构建起一个完整、有序的算力资源目录,为后续的调度工作提供坚实的数据支持10图3-4分总调度-资源注册登记与纳管步骤二:资源状态上报步骤二:资源状态上报为了保障调度的准确性和及时性,算力提供者需要持续向调度中心上报算网资源状态,包括资源的实时使用情况、性能指标变化等关键信息。这些信息如同资源的“健康报告”,帮助调度中心及时了解资源的动态变化,以便在调度过程中做出更加科学合理的决策。图3-5分总调度-资源状态上报步骤三:算网资源调度使用步骤三:算网资源调度使用 北向调度11算力使用者通过算网协同调度平台进行算网调度操作,调度中心根据用户的需求和资源状态,启动协同调度机制。这一过程涉及到对多种资源的统筹安排,包括任务的合理分配、流量的准确调度以及数据的高效传输,以满足用户在算力、网络和存储方面的综合应用需求,确保业务的稳定、高效运行。需要注意的是,由于需要算网协同调度平台对用户自治系统内部署的应用和算网协同调度平台调度部署的应用之间进行互相访问的流量调度,或者是需要算网协同调度平台对用户自治系统内部署的应用副本和算网协同调度平台调度部署的应用副本间对终端用户的访问请求做负载分担处理,所以需要在调度请求中携带自治系统中部署的推理应用信息如等。图3-6分总调度-算网资源调度使用-北向调度 全局缩略图方式调度需求提交12当算力使用者通过自治系统进行算网调度操作时,如果本地资源无法满足业务需求,自治系统会将这些未满足的要求提交给算网系统调度平台,如同在市场中寻求外部合作伙伴的支持。资源快照返回算网协同调度平台在接收到请求后,迅速对整体算网资源进行扫描和分析,生成一份全局算网资源快照。这份快照包含了各类资源的实时状态和关键信息,就像是一份详细的“算网资源清单”,为后续的调度决策提供了全面的参考依据。基于快照调度与部署自治系统根据这份资源快照,结合自身业务需求和调度策略,进行资源调度决策,并将请求发送给目标算网资源,完成业务部署。这一过程充分体现了资源的共享和协同,提高了资源的利用效率,满足了用户多样化的业务需求。图3-7分总调度-算网资源调度使用-全局缩略图方式调度13 东-北-西方式调度需求提交与计算算力使用者通过自治系统发起算网调度请求,当本地资源不足时,自治系统将需求提交给算网协同调度平台,算网协同调度平台基于当前算网资源状态,运用有效的算法和模型进行调度计算,制定出最优的调度方案,确定目标资源和任务分配策略。需要注意的是,由于需要算网协同调度平台对用户自治系统内部署的应用和算网协同调度平台调度部署的应用之间进行互相访问的流量调度,或者是需要算网协同调度平台对用户自治系统内部署的应用副本和算网协同调度平台调度部署的应用副本间对终端用户的访问请求做负载分担处理,所以需要在调度请求中携带自治系统中部署的推理应用信息如等。调度方案返回算网协同调度平台将可选的调度方案返回给自治系统,自治系统进行人工或者自动的选择,确定调度方案。请求发送与部署根据确定的调度方案,算网协同调度平台将请求发送给目标资源,完成业务部署,确保任务能够在最合适的资源上高效执行。调度结果返回调度完成后,算网协同调度平台将调度结果返回给源自治系统,让其及时了解任务的执行情况和资源的使用状态,便于后续的业务管理和优化。14图3-8分总调度-算网资源调度使用-东-北-西方式调度3.3混合调度架构混合调度架构3.3.1背景描述背景描述在复杂的分布式计算架构体系下,针对具有自治能力的的资源提供方而言,其在承担算力使用方角色时,具备多样化且灵活的算力需求调度策略选择。当资源提供方在自治系统内进行算力需求调度处理时,可凭借系统内部自有的资源管理与调度机制,独立开展算力资源的调配工作,这种方式能够充分利用自治系统内部资源的局部优势,实现快速、自主的资源调配,降低对外部系统的依赖。资源提供方也可采用分总调度模式,借助自治系统向算网协同调度平台提交算力需求。自治系统作为一个具有独立管理和控制能力的网络实体,在该过程中充当了连接自治系统与算网协同调度平台的桥梁。资源提供方将自身的算力需求进行规范化整理与封装,通过自治15系统所定义的接口与通信协议,将需求信息传输至算网协同调度平台。在此情形下,算网协同调度平台在接收到需求后,算网协同调度平台会识别自治系统所属的资源范围,并在资源筛选与调度过程中,将这部分资源予以过滤,转而在其他更为广泛的资源池内,对算力需求进行优化匹配与调度。算网协同调度平台依托其庞大的资源数据库,其中涵盖了来自不同地理区域、各类资源供应主体的丰富资源信息,从众多外部资源中筛选出最契合算力使用方需求的资源组合,实现跨区域、跨系统的资源高效调配,以满足自治系统资源提供方作为算力使用方的复杂需求。此外,当资源提供方作为算力使用方,不期望算网协同调度平台过滤己方资源时,可直接向算网协同调度平台发起总分调度请求。在这种模式下,资源提供方将自身的算力需求,包括详细的计算需求(如计算架构类型、算力大小等)、存储需求(存储容量、存储介质偏好等)以及网络需求(网络带宽、传输延迟要求等),以标准化的格式提交给算网协同调度平台。算网协同调度平台则将资源提供方自身的资源纳入全局资源调度的范畴,综合评估所有可获取的资源,包括来自不同区域、不同类型的计算资源、存储资源以及网络资源,运用全面的资源优化算法,进行统一的资源调度与分配,旨在实现对算力使用方需求的精准满足,同时充分挖掘和利用所有潜在的资源优势。3.3.2目标效果目标效果增强资源调配自主性16自治系统资源提供方作为算力使用方,可依自身情况,自主决定在系统内独立调度、借助自治系统分总调度或直接发起总分调度,灵活把控资源调配流程,契合复杂多变的业务需求场景。达成资源高效协同不同调度模式下,算网协同调度平台及自治系统内调度机制,整合本地与外部资源,运用有效算法实现资源的跨区域、跨系统优化配置,提高资源整体利用率。确保业务稳定运行面对各类复杂业务需求,多样的调度方式保障资源提供方总能找到优化方案,获取充足且适宜的计算、存储、网络资源,维持业务连续性,助力业务稳步拓展。实现成本效益最优资源提供方通过合理选择调度策略,既能充分挖掘本地资源潜力,减少外部资源调用开支,又能在全局调度中优化资源组合,避免资源闲置浪费,降低总体资源调度成本,提升投入产出效益。3.3.3业务流程业务流程步骤一:资源注册登记与纳管步骤一:资源注册登记与纳管算力提供者首先向算网协同调度平台进行资源注册登记,将自身的算网资源信息全面、准确地提交给调度中心。调度中心则运用专业的管理技术和高效的处理流程,对这些资源进行集中纳管,构建起一个完整、有序的算力资源目录,为后续的调度工作提供坚实的数据支17持。图3-9混合调度-资源注册登记与纳管步骤二:资源状态上报步骤二:资源状态上报为了保障调度的准确性和及时性,算力提供者需要持续向调度中心上报算网资源状态,包括资源的实时使用情况、性能指标变化等关键信息。这些信息如同资源的”健康报告”,帮助调度中心及时了解资源的动态变化,以便在调度过程中做出更加科学合理的决策。18图3-10混合调度-资源状态上报步骤三:算网调度操作与协同调度步骤三:算网调度操作与协同调度在混合调度架构下,算力使用者可以使用多种方式利用作为资源提供方的资源和系统整体的算力资源,从不同的层面满足需求具体有以下三种需求处理路径:自治系统内部调度算力使用者向自治系统提交需求。自治系统 利用内部资源管理与调度模块,实时监测系统内计算、网络、存储资源状态,依据使用者需求,运用本地预设算法,在系统内筛选、匹配、调度资源,利用内部资源优势,实现快速自主调配,降低对外部系统的依赖。自治系统与算网协同调度平台协同处理若自治系统评估自身资源无法满足需求,会按既定协议和流程,将未满足部分以标准格式提交给算网协同调度平台。算网协同调度平台收到需求后,识别并过滤自治系统所属资源,依托资源数据库,运用优化算法,在其他资源池内重新匹配调度,实现跨区域、跨系统的高效资源调配,弥补自治系统资源不足。需要注意的是,由于需要算网协同调度平台对用户自治系统内部署的应用和算网协同调度平台调度部署的应用之间进行互相访问的流量调度,或者是需要算网协同调度平台对用户自治系统内部署的应用副本和算网协同调度平台调度部署的应用副本间对终端用户的访问请求做负载分担处理,所以需要在调度请求中携带自治系统中部署的推理应用信息如等。19直接向算网协同调度平台请求调度算力使用者也可直接向算网协同调度平台提需求。此时,算网协同调度平台从全局出发,综合考量包括自治系统资源在内的整体资源池,依据使用者详细需求和资源实时状态,运用优化算法统一调配计算、网络、存储资源,准确满足需求,挖掘潜在资源优势,保障业务在充足资源支持下高效运行。图3-11混合调度-算网调度操作与协同调度四、应用场景四、应用场景4.1东数西算场景东数西算场景4.1.1场景描述场景描述在我国数字化发展的进程中,东部地区凭借其人口密集、经济发达的优势,成为了数据的“高产田”。大量的数据如潮水般不断涌现,20涵盖了金融、电商、社交等各个领域,这些数据的处理需求极为迫切。然而,东部地区在数据处理过程中面临着严峻的挑战电力紧张且成本高昂。电力作为数据处理的关键支撑,其短缺和高成本严重制约了东部数据中心的发展。与之形成鲜明对比的是,西部地区拥有丰富的电力资源,且电价相对经济实惠。这一得天独厚的优势使得西部地区成为了数据处理的理想之地。因此,“东数西算”战略应运而生,旨在将东部地区产生的数据处理任务有序、高效地转移到西部数据中心进行处理。这不仅能够充分利用西部地区的电力资源优势,降低数据处理成本,还能促进西部地区的数字经济发展,实现区域间的优势互补和协同发展。4.1.2目标效果目标效果在东数西算场景里,“数据跟随任务走,流量匹配数据传”是提升效率的重要理念。任务启动时,所需数据同步就位,精准贴合任务流程,为其提供支撑。与此同时,流量依据数据的规模、存储类型及传输紧急程度进行适配,保障数据快速、稳定传输,让任务执行全程无阻,高效达成目标,有力推动业务持续发展。应用部署优化根据算网用户的多样化需求,算网协同调度平台利用资源调配能力精准匹配数据处理应用与西部具有合适价格、算力和存储条件的算网资源,实现应用的高效部署,确保业务的稳定运行和成本的有效控制。21数据迁移保障通过定制化的确定性广域网,算网协同调度平台为东部数据的迁移提供可靠的网络通道,确保数据能够安全、快速地从东部数据中心迁移到西部数据处理应用所在的算网资源,保障数据的完整性和可用性。数据集处理策略算网协同调度平台针对不同特性的数据集采用差异化处理方式。在整体数据集处理方面,在数据迁移完成后再启动数据处理应用,以此确保数据处理的准确性与高效性。而对于持续更新/增长的动态数据集,在部署数据处理应用的同时即刻启动处理流程:对源和目的的数据集间进行实时高效地同步,从而满足业务对数据时效性的严苛要求。4.1.3业务流程业务流程步骤一:数据生成与步骤一:数据生成与ID标识标识在东部地区,各类业务系统不断产生海量数据,这些数据被写入本地数据中心进行存储。为了实现对数据的精准管理和追踪,系统会为每个数据集生成唯一的ID标识,如同为每件商品贴上独一无二的”条形码”,方便后续的数据处理和调度操作。22图4-1东数西算-数据生成与ID标识步骤二:任务发布与需求明确步骤二:任务发布与需求明确算力使用者根据业务需求,通过算网协同调度平台发布数据处理任务。在发布过程中,用户需要详细明确各项任务要求,包括指定待处理的数据集ID,确保处理的准确性;提出处理数据所需的算力要求,如算力大小、价格预期以及算力类型(如神威、天河等),以满足不同业务对算力的差异化需求;规定待数据集的存储要求,包括存储容量、价格和存储类型,确保数据存储的安全性和经济性;明确迁移数据的网络需求,如所需带宽和流量,保障数据传输的高效性和稳定性。总分调度架构此架构下,资源需方直接在算网协同调度平台发布业务需求。23图4-2东数西算-任务发布与需求明确-总分调度 混合调度架构此架构下,算力资源需方通过自治系统向算网协同调度平台发布业务需求,需要注意的是,由于需要算网协同调度平台对用户自治系统内部署的应用和算网协同调度平台调度部署的应用之间进行互相访问的流量调度,所以需要在调度请求中携带自治系统中部署的应用信息如等。24图4-3东数西算-任务发布与需求明确-混合调度步骤三:协同调度与结果生成步骤三:协同调度与结果生成算网协同调度平台在接收到数据处理任务请求后,迅速启动协同调度机制。它综合考虑当前算网资源的实时状态,包括西部各数据中心的算力、存储和网络资源情况,最终生成包含任务调度结果、流量调度结果和数据调度结果的调度结果集,为后续的任务执行提供详细的指导方案。需要注意的是,若涉及混合调度场景,系统将遵循既定规则,对资源进行筛选。具体而言,对于归属于自治系统的资源,系统不会将其纳入本次混合调度的资源池范畴,避免调度请求在两个系统间循环往复的乒乓效应。25图4-4东数西算-协同调度与结果生成步骤四:调度结果实施与数据迁移步骤四:调度结果实施与数据迁移 任务调度任务调度模块根据协同调度生成的结果,将数据处理应用准确部署到西部合适的算网资源上,确保应用能够在最佳的环境中运行,发挥最大的效能。图4-5东数西算-调度结果实施与数据迁移-任务调度26 流量调度流量调度模块借助确定性网络网络控制器,为数据迁移准备高速、稳定的网络通道,优化网络配置,避免数据在迁移过程中收到网络拥塞等问题的限制,实现快速、安全的传输。图4-6东数西算-调度结果实施与数据迁移-流量调度 数据调度数据调度模块在源数据中心(东部)与目的数据中心(西部)之间启动数据迁移操作,依据预设的调度方案,将待处理数据集从东部源数据中心高效传输至西部目的数据中心,为后续数据处理工作奠定坚实基础。27图4-7东数西算-调度结果实施与数据迁移-数据调度 网络资源释放在数据迁移传输完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-8东数西算-调度结果实施与数据迁移-网络资源释放步骤五:数据处理步骤五:数据处理28在完成数据迁移后,数据处理应用开始对西部数据中心的待处理数据进行处理。通过运用各种的数据处理技术和算法,挖掘数据中的潜在价值,为企业的决策制定、业务创新和市场拓展提供有力支持,实现数据的商业价值最大化。图4-9东数西算-数据处理步骤六:应用删除与数据清理步骤六:应用删除与数据清理任务型应用在运行结束后,及时进行应用的删除工作。对于数据清理,这是一项具有灵活性的操作。在实际执行中,清理应用生成的临时数据为必选动作,以此释放存储空间,提升系统运行效率。而针对应用所消费的数据,是否清理则为可选行为。若后续业务流程不再需要该部分数据,或出于数据隐私、存储成本等方面考虑,可选择清理相关数据集;若该数据仍具有潜在价值,如可能在未来相似任务中复用,则可保留。这种灵活的处理方式旨在平衡资源利用与数据留存的多元需求。29图4-10东数西算-应用删除与数据清理4.2数据快递场景数据快递场景4.2.1场景描述场景描述在智算大模型训练、超算科学计算与工程仿真等前沿领域,海量数据集是驱动创新的关键要素。传统的数据传输方式,如机械化运载海量硬盘甚至整个存储机柜,在效率、安全性和成本方面面临诸多挑战。例如,运输过程易受物理环境影响,数据丢失或损坏风险高;运输时间长,无法满足快速迭代的业务需求;高昂的运输和人力成本也给企业带来沉重负担。而传统互联网同样难以支撑这些前沿领域对数据传输的严苛要求。其网络带宽有限,在面对海量数据洪流时,传输速度缓慢,严重影响数据处理时效。并且,传统互联网网络稳定性欠佳,极易受到网络拥塞、节点故障等因素干扰,导致数据传输中断或出错,对于不容许丝毫差错的大模型训练和高精度科学计算而言,这30无疑是巨大阻碍。同时,传统互联网基于尽力而为的传输机制,无法为特定任务提供有保障的传输质量,难以契合前沿科研和创新应用对数据传输确定性、可靠性的需求。随着确定性广域网的发展,其高带宽和确定性传输能力为数据传输带来新的解决方案。借助信息化手段,实现海量数据的高速、安全传输,如同搭建一条数据高速公路,有效提升数据传输效率,降低成本,增强数据安全性,为前沿科研和创新应用提供有力支撑。4.2.2目标效果目标效果准确迁移定位用户可根据业务需求,准确指定数据迁移目的地,确保数据准确送达所需位置,满足不同业务场景下对数据存储和处理的特定要求,提高数据使用的针对性和效率。异构存储兼容具备良好的兼容性,能够与各类硬盘设备和多种存储系统无缝对接,提供海量高效的文件读写能力,支持异构格式和不同大小文件的处理。这意味着企业无需担心数据格式和存储设备的差异,可轻松实现数据的传输和处理,降低数据管理的复杂性。高效任务式传输在数据传输领域,准备时间的长短往往决定了业务响应的速度。我们所提供的任务式跨广域数据传输服务,将这一关键环节做到极致,实现分钟级业务开通。用户可根据自身实际需求,轻松定制小时级或31分钟级的业务服务时长。与传统传输模式动辄需要数小时甚至数天来筹备数据传输不同,我们的灵活、高效传输模式,将数据传输准备时间极大地压缩,精准契合企业对业务时效性的严苛要求。多样接入选择为用户提供多样化的广域接入方式,满足不同企业在网络环境和成本预算上的差异。无论是光纤专线接入,还是其他灵活的接入方案,企业都能根据自身情况选择最适合的接入方式,确保数据传输的稳定性和经济性。高速传输能力在光纤专线接入方式下,面向单任务可提供高达端到端Gbps至Tbps级的传输能力,实现海量数据的快速传输。这一高速传输能力能够大幅缩短数据传输时间,加速业务处理进程,使企业能够更快地获取数据价值,在激烈的市场竞争中占据优势。4.2.3业务流程业务流程步骤一:任务发布步骤一:任务发布算力使用者通过调度中心发布数据处理任务,详细指定待迁移的数据集ID,明确数据迁移目的,以及迁移数据所需的网络带宽和流量要求。这一过程如同在物流平台下单,用户清晰告知发货地、收货地和运输要求,确保调度中心准确理解业务需求,调度中心接收到任务后,启动协同调度机制,根据指定的目的地和网络需求,生成详细的数据快递任务操作集,包括流量调度操作集和数据迁移操作集。这32一操作集如同详细的运输计划,规划了数据传输的路径、方式和时间安排,确保数据传输的高效有序。总分调度架构此架构下,资源需方直接在算网协同调度平台发布业务需求。图4-11数据快递-任务发布-总分调度 混合调度架构此架构下,资源需方通过自治系统向算网协同调度平台发布业务需求,需要注意的是,自治系统在没有全局资源视图的情况下无法指定数据快递的目的地,所以在这种情况下,需要结合缩略图的混合调度方式,自治系统先行得到全局资源的缩略图,如图红线所示。33图4-12数据快递-任务发布-混合调度步骤二:调度执行步骤二:调度执行 流量调度流量调度模块借助网络控制器,为数据迁移准备高速、稳定的网络通道。通过优化网络配置和资源分配,确保数据在传输过程中能够获得充足的网络带宽,避免网络拥堵,保障数据传输的流畅性。图4-13数据快递-调度执行-流量调度34 数据调度数据调度模块在源数据中心和目的数据中心之间发起数据迁移操作,按照预定的操作集,将待处理数据集从源数据中心快速、准确地迁移到目的数据中心。在迁移过程中,严格监控数据传输状态,确保数据的完整性和准确性。图4-14数据快递-调度执行-数据调度 网络资源释放在数据快递任务传输完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。35图4-15数据快递-调度执行-网络资源释放4.3东数西存场景东数西存场景4.3.1场景描述场景描述众多行业客户在日常运营中持续产生海量数据,随着时间的不断推移,本地数据中心的存储容量日益难以承载这一数据增长趋势。在这些数据中,大量具有长期保存价值但当前使用频率较低的数据,急需合理归档存储。将部分数据转移到公共云端进行归档存储,已然成为应对这一存储难题的必然选择。传统的数据归档做法是,大型公有云通过邮寄存储网关到客户本地数据中心,在完成数据拷贝后,再运输到公有云网络接入点,最后借助专用网络传输到指定区域。这种方式流程繁琐、耗时漫长,且存在数据丢失风险。而在西部,一些小型公有云或通算中心由于缺乏自建专网,使得数据归档传输更是面临重重挑战。36此时,确定性广域网的优势得以充分彰显,它专门为这些需要归档的数据构建起高速传输通道。通过这一通道,企业能够将本地需归档的数据快速、稳定地传输至公共云端,打破了数据存储的地域限制,实现数据的高效归档存储与管理。这不仅大幅降低了企业的存储成本,还极大地提升了数据存储的安全性与可靠性,确保归档数据得以长期妥善保存,为企业数据资产的持续积累与深度利用筑牢根基。4.3.2目标效果目标效果数据快递与东数西存虽都借助确定性广域网提升数据传输效能,但在诸多方面存在显著差异。在应用场景上,数据快递聚焦于智算大模型训练、超算科学计算与工程仿真等前沿领域,这些领域对数据处理时效要求极高,需快速获取和传输海量数据以驱动创新;而东数西存主要针对众多行业客户日常运营中产生的大量具有长期保存价值、当前使用频率较低的数据,旨在解决本地数据中心存储容量不足的难题。从数据特点来看,数据快递涉及的是在前沿科研和创新应用中用于实时计算、迭代的数据,数据量庞大且更新频繁;东数西存的数据则相对稳定,重点在于长期归档保存。在业务要求上,数据快递为实现前沿业务快速迭代,满足业务对时效性的严格要求;东数西存是为达成数据的高效存储与管理,降低存储成本,提升数据存储安全性与可靠性。优化存储配置根据算网用户需求,算网协同调度平台精准匹配东部数据与西部37具有合适价格和存储条件的算网资源,实现数据的高效存储。企业可在降低存储成本的同时,确保数据存储的安全性和可靠性,如同在不同仓库中选择最为经济、安全的存储地点。异构存储适配具备与多种硬盘设备和存储系统对接的能力,提供海量高效的文件读写服务,支持异构格式和不同大小文件的处理,自动感知源和目的两地存储环境的特性差异,动态适配两端的读写速率,同时无缝对接公有云归档存储系统。这使得企业在数据存储和管理上更加灵活,无需担心设备和格式兼容性问题,提高数据管理效率。高效数据传输服务提供任务式的跨广域数据传输能力,实现分钟级业务开通,支持定制小时级或分钟级业务服务时长。这种高效的传输服务能够快速响应企业数据存储需求,减少数据存储等待时间,提高企业运营效率。多样接入方式提供多样化的广域接入方式,满足不同企业的网络环境和成本需求。企业可根据自身实际情况选择最合适的接入方式,确保数据传输的稳定性和经济性,提升企业对数据存储服务的适应性。高速传输性能在光纤专线接入方式下,可为单任务提供端到端Gbps级别的传输能力,实现数据的快速存储。鉴于东数西存业务特性,企业可充分依据自身业务节奏,选择在网络闲时进行数据传输。比如,将东部数据中心需转移至西部存储的数据备份、归档等任务,合理规划在闲时38执行。此时,网络不仅具备高带宽优势,稳定性也更佳,企业能够高效地把大量数据传输至西部存储设备。这种方式不仅充分盘活了网络闲时资源,避免了资源的白白浪费,还极大地提升了数据存储效率。全生命周期管理提供任务进度实时查询和详细日志记录功能,让用户随时了解数据迁移和存储状态,增强用户使用体验。同时,具备超过最低存储时间后自动删除文件的能力,有效管理存储资源,避免存储空间浪费。4.3.3业务流程业务流程步骤一:数据生成与标识步骤一:数据生成与标识东部地区企业在业务开展过程中产生大量数据,这些数据被写入本地数据中心,并生成唯一的数据集ID。这一ID如同数据的“身份证”,方便后续的数据管理和追踪,确保数据的准确性和可追溯性。图4-16东数西存-数据生成与标识39步骤二:任务发布步骤二:任务发布算力使用者通过调度中心发布数据迁移任务,详细指定待处理的数据集ID、存储容量和价格要求、迁移数据的网络带宽和流量需求,以及设定归档超时时间。这一过程明确了数据存储的各项要求,为调度中心制定合理的调度方案提供依据。总分调度架构此架构下,资源需方直接在算网协同调度平台发布业务需求。图4-17东数西存-任务发布-总分调度 混合调度架构此架构下,资源需方通过自治系统向算网协同调度平台发布业务需求。40图4-18东数西存-任务发布-混合调度步骤三:调度结果生成步骤三:调度结果生成调度中心接收到任务后,依据当前算网资源状态,启动协同调度机制,生成包含任务流量调度结果和数据调度结果的调度结果集。这一结果集是数据存储任务的详细执行计划,确保资源的合理分配和数据的高效传输,需要注意的是,若涉及混合调度场景,系统将遵循既定规则,对资源进行筛选。具体而言,对于归属于自治系统的资源,系统不会将其纳入本次混合调度的资源池范畴,避免调度请求在两个系统间循环往复的乒乓效应。41图4-19东数西存-调度结果生成步骤四:调度执行步骤四:调度执行 流量调度流量调度模块借助网络控制器,为数据迁移准备稳定的网络通道,优化网络资源配置,确保数据在传输过程中能够快速高效到达西部目的数据中心,保障数据传输的稳定性。图4-20东数西存-调度执行-流量调度42 数据调度数据调度模块在东部源数据中心和西部目的数据中心之间发起数据迁移操作,将待处理数据集从东部迁移到西部,完成数据的归档存储。在迁移过程中,严格监控数据传输状态,确保数据的完整性和准确性。图4-21东数西存-调度执行-数据调度 网络资源释放在东数西存任务传输完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。43图4-22东数西存-调度执行-网络资源释放步骤五:归档文件管理步骤五:归档文件管理当到达设定的超时时间后,协同调度向数据调度发起删除归档指令,数据调度据此向目的数据中心发起删除归档文件操作,实现存储资源的自动清理和回收,提高存储资源的利用效率,并节省用户的不必要的开支。44图4-23东数西存-归档文件管理4.4协同训练场景协同训练场景4.4.1场景描述场景描述在智算领域,随着人工智能技术的飞速发展,大模型训练成为推动创新的关键环节。然而,当前部分智算中心存在高端GPU算力资源碎片化建设与使用的状况。这一现象导致小型互联网公司、行业客户以及科研客户在开展大模型训练,尤其是模型预训练时,常常遭遇单智算中心资源不足的困境。由于缺乏有效的跨智算中心协同训练机制,这些客户只能被动等待,直至有足够的资源释放,这不仅延长了项目周期,增加了时间成本,还可能使企业错失市场先机,科研进展受阻。借助调度平台的跨智算调度能力,可实现多个智算中心共同协作完成一个训练任务。同时,通过优化网络配置,保障任务内部跨智算中心的并行流量,能够显著提升计算通信加速比,提高训练效率,降低资源浪费,为企业和科研机构提供更高效、更经济的大模型训练解决方案。4.4.2目标效果目标效果模型规模支持能够面向千亿或以下参数量大模型训练,满足不同规模和复杂度45模型的训练需求,为人工智能领域的前沿研究和应用创新提供有力支撑。多元主体兼容支持不同运营主体、网络规划相互独立的智算中心参与协同训练。这意味着无论是大型科技企业的私有智算中心,还是面向市场服务的公共智算平台,都能打破壁垒,实现资源共享与协同,充分整合行业内的算力资源,提升整体算力利用率。异构GPU混训无缝兼容不同型号的GPU进行混合训练,在训练过程中,能够充分发挥各类GPU的独特优势,如某些GPU在数据处理速度上表现出色,而另一些在复杂算法运算方面更具效能,通过合理调配,让不同型号GPU协同工作,极大提升整体算力利用率,为各类复杂训练任务提供了更为灵活、高效的解决方案,有力推动人工智能训练迈向新高度。并行训练优化智算中心在提升训练效率上展现出卓越性能。其具备跨广域网、跨城市通过确定性网络通信的能力,保障数据传输稳定且低延迟,使分布于不同地区的智算中心协作无间,宛如共处同一机房,为大规模分布式训练筑牢网络根基。在此基础上,智算中心支持训练任务跨智算中心、跨广域并行运行,极大地降低了GPU资源空转率,有效规避资源浪费,显著提高资源利用效率,切实降低训练成本。不仅如此,通过算网协同调度和对训练框架的优化,智算中心能够将协同训练的46通信计算加速比精准控制在10%以内,最大程度减少训练过程中通信开销对计算效率的负面影响,全方位实现高效的分布式训练,为各类复杂的人工智能训练任务提供强有力的支撑。智算资源整合在数字经济蓬勃发展的当下,数据处理需求呈指数级增长。各个智算中心虽具备一定算力,但因任务分配不均、资源闲置等问题,产生了大量碎片化算力。这些算力亟待串连。通过科学合理地分配任务,精准匹配所需资源,能将分布于不同区域、不同规模智算中心的碎片化算力充分汇聚起来。如此一来,原本看似零散的算力,得以整合成强大的计算合力,为科研创新、大数据分析、人工智能训练等复杂任务提供坚实有力的支撑。容错能力保障支持故障恢复和断点续训等容错能力。在训练过程中,若某个智算中心出现故障,系统能够快速检测并切换,通过checkpoint机制自动恢复训练,减少因故障导致的训练中断和数据损失,保障训练任务的连续性和可靠性。4.4.3业务流程业务流程步骤一:任务发布步骤一:任务发布算力使用者通过调度中心发布训练任务,详细指定各项需求。包括待训练的数据集ID、模型文件、数据集预处理过程、存储要求(容量、价格),以确保数据的存储和预处理满足训练需求;指定迁移数47据的网络需求(带宽、流量),保障数据传输的高效性;明确训练的计算需求(CPU、GPU数/型号、框架、价格),根据模型特点和预算选择合适的计算资源;以及指定训练任务的网络需求(IB、RDMA,时延,带宽),满足训练过程中数据通信的严格要求。总分调度架构此架构下,资源需方直接在算网协同调度平台发布业务需求。图4-24协同训练-任务发布-总分调度 混合调度架构此架构下,资源需方通过自治系统向算网协同调度平台发布业务需求,需要注意的是,由于需要算网协同调度平台对用户自治系统内部署的训练应用和算网协同调度平台调度部署的训练应用之间进行互相访问的流量调度,所以需要在调度请求中携带自治系统中部署的训练应用信息如等。48图4-25协同训练-任务发布-混合调度步骤二:调度规划步骤二:调度规划调度中心依据当前算网资源状态,对训练任务集进行综合调度,生成全面的调度结果集和操作集。其中包括数据集和模型迁移操作集,规划数据的传输路径和方式;训练任务调度结果集,确定各个智算中心承担的训练任务;以及流量调度结果集,保障数据传输和训练过程中的网络畅通。需要注意的是,若涉及混合调度场景,系统将遵循既定规则,对资源进行筛选。具体而言,对于归属于自治系统的资源,系统不会将其纳入本次混合调度的资源池范畴,避免调度请求在两个系统间循环往复的乒乓效应。49图4-26协同训练-调度规划步骤三:数据集和模型文件处理与迁移步骤三:数据集和模型文件处理与迁移协同调度将数据预处理操作集和数据集和模型文件迁移操作集交由数据调度、流量调度实施。数据调度负责对数据集进行预处理。标准化公开数据集和模型可以托管于算网协同调度平台的存储资源池中。在此模式下,数据迁移操作在算网协同调度平台与目标数据中心之间执行。流量调度借助确定性广域网网络控制器,为数据迁移准备稳定的网络通道,优化网络资源配置,确保数据在传输过程中能够快速高效到达目的数据中心,保障数据传输的稳定性。50图4-27协同训练-数据集和模型文件迁移-平台托管-流量调度数据迁移数据调度发起数据迁移操作,将待处理数据集、模型从源数据中心迁移到目的数据中心,在迁移过程中,严格监控数据传输状态,确保数据的完整性和准确性。图4-28协同训练-数据集和模型文件迁移-平台托管-数据迁移51网络资源释放在数据集迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-29协同训练-数据集和模型文件迁移-平台托管-资源释放 定制数据集、模型迁移私有定制化数据集、模型的迁移通常遵循特定的数据流动规范。这类数据集、模型的原始存储位置往往位于用户本地数据中心,其迁移过程需要综合考虑数据主权、传输安全以等多重因素,那么数据集、模型会从用户的数据中心迁移到目的数据中心。流量调度借助网络控制器,为数据迁移准备稳定的网络通道,优化网络资源配置,确保数据在传输过程中能够快速高效到达目的数据中心,保52障数据传输的稳定性。图4-30协同训练-数据集和模型文件迁移-本地托管-流量调度数据迁移数据调度发起数据迁移操作,将待处理数据集、模型从源数据中心迁移到目的数据中心,在迁移过程中,严格监控数据传输状态,确保数据的完整性和准确性。图4-31协同训练-数据集和模型文件迁移-本地托管-数据迁移网络资源释放53在数据集迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-32协同训练-数据集和模型文件迁移-本地托管-资源释放 标准化公开数据集和模型可托管于公有云的存储资源池中。在此模式下,数据迁移操作在公有云与目标数据中心之间执行。流量调度借助网络控制器,为数据迁移准备稳定的网络通道,优化网络资源配置,确保数据在传输过程中能够快速高效到达目的数据中心,保障数据传输的稳定性。54图4-33协同训练-数据集和模型文件迁移-公有云托管-流量调度数据迁移数据调度发起数据迁移操作,将待处理数据集、模型从源公有云迁移到目的数据中心,在迁移过程中,严格监控数据传输状态,确保数据的完整性和准确性。图4-34协同训练-数据集和模型文件迁移-公有云托管-数据迁移网络资源释放55在数据集迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-35协同训练-数据集和模型文件迁移-公有云托管-资源释放步骤四:任务部署步骤四:任务部署协同调度将训练任务调度结果集和流量调度结果集交由任务调度、流量调度实施。标准化训练镜像可以托管于算网协同调度平台的存储资源池中。在此模式下,镜像迁移操作在算网协同调度平台与目标数据中心之间执行。流量调度流量调度模块借助确定性广域网网络控制器,为训练任务运行镜像的迁移准备稳定的网络通道,优化网络资源配置,确保数据在传输过程中能够快速高效到达目的数据中心,保障数据传输的稳定性。56图4-36协同训练-任务部署-平台托管-流量调度镜像迁移数据调度发起数据迁移操作,将镜像从算网协同调度平台迁移到目的数据中心,在迁移过程中,严格监控数据传输状态,确保数据的完整性和准确性。图4-37协同训练-任务部署-平台托管-镜像迁移网络资源释放57在镜像迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-38协同训练-任务部署-平台托管-资源释放 私有定制的训练镜像的原始存储位置往往位于用户本地数据中心,其迁移过程需要综合考虑数据主权、传输安全等多重因素,那么镜像会从用户的数据中心迁移到目的数据中心。流量调度流量调度模块借助网络控制器,为训练任务运行镜像的迁移准备稳定的网络通道,优化网络资源配置,确保数据在传输过程中能够快速高效到达目的数据中心,保障数据传输的稳定性。58图4-39协同训练-任务部署-本地托管-流量调度镜像迁移数据调度发起数据迁移操作,将镜像从用户数据中心迁移到目的数据中心,在迁移过程中,严格监控数据传输状态,确保数据的完整性和准确性。图4-40协同训练-任务部署-本地托管-镜像迁移网络资源释放在镜像迁移任务完成后,系统立即执行网络通道资源释放流程,59确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-41协同训练-任务部署-本地托管-资源释放 标准化训练镜像可以托管于用公有云的镜像仓库中。在此模式下,镜像迁移操作在算网协同调度平台与目标数据中心之间执行。流量调度流量调度模块借助确定性广域网网络控制器,为训练任务运行镜像的迁移准备稳定的网络通道,优化网络资源配置,确保数据在传输过程中能够快速高效到达目的数据中心,保障数据传输的稳定性。图4-42协同训练-任务部署-公有云托管-流量调度60镜像迁移数据调度发起数据迁移操作,将镜像从公有云迁移到目的数据中心,在迁移过程中,严格监控数据传输状态,确保数据的完整性和准确性。图4-43协同训练-任务部署-公有云托管-镜像迁移网络资源释放在镜像迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-44协同训练-任务部署-公有云托管-资源释放61步骤五:流量调度步骤五:流量调度流量调度模块借助确定性广域网网络控制器,为分布式训练任务之间的通信准备网络通道,保障分布式训练任务之间之间的高效、高带宽的通信。图4-45协同训练-流量调度步骤六:任务部署步骤六:任务部署模型文件和应用镜像迁移完成,分布式训练任务间网络通道建立完成后,通过任务调度部署训练应用,确保训练任务在各个智算中心快速启动和运行。图4-46协同训练-任务部署62步骤七:任务运行步骤七:任务运行训练任务以数据集作为基础数据支撑。借助确定性网络所具备的独特优势,对训练过程实施并行加速策略。在确定性网络环境下,数据能够以高效且稳定的方式进行传输与交互,通过合理的任务分配与调度机制,将训练任务拆解为多个并行子任务,各个子任务在不同的计算节点上同步运行,显著提升训练效率。历经多轮迭代训练后,最终成功生成模型文件,该模型文件承载着基于数据集训练所学习到的特征与模式,为后续的相关应用提供了关键的基础支撑。图4-47协同训练-任务运行步骤八:任务清理和模型留存步骤八:任务清理和模型留存网络资源释放训练任务完成后,系统立即释放分布式训练任务内部的跨广域的网络通道,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用63效率。图4-48协同训练-任务清理和模型留存-资源释放应用删除和数据集清理当训练过程结束,协同调度模块依据预设流程,向数据调度模块发送删除指令。数据调度模块按照既定协议向目标数据中心发起数据集删除操作请求。目标数据中心的数据管理系统接收到请求后,自动启动存储资源清理流程,删除已完成训练任务所关联的数据集,实现存储资源的高效回收,提升了存储资源的利用效率。与此同时,系统自动触发训练应用的删除流程,清除运行时产生的临时文件等一系列操作,全面释放训练应用所占用的系统资源。64图4-49协同训练-任务清理和模型留存-应用删除和数据集清理流量调度流量调度模块借助确定性广域网网络控制器,为模型文件的留存准备稳定的网络通道,优化网络资源配置,确保传输过程中能够快速高效到达目的数据中心,保障数据传输的稳定性。图4-50协同训练-任务清理和模型留存-流量调度模型文件留存数据调度严格依循预设指令,针对训练任务生成的模型文件,经65动态构建的网络通道,运用高效传输协议,将其可靠迁移至预设目标数据中心,依照既定存储架构与策略,存入对应介质及目录。图4-51协同训练-任务清理和模型留存-模型文件留存网络资源释放模型文件留存任务传输完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-52协同训练-任务清理和模型留存-资源释放664.5协同推理场景协同推理场景4.5.1场景描述场景描述在AI应用广泛普及的当下,推理服务面临着海量用户访问请求的挑战。为了提供优质的用户体验,不仅需要具备GPU的弹性并发能力,以满足高并发访问时的计算需求,还要有效降低推理服务成本,实现经济效益最大化。对于实时性要求较高的请求,在边缘云上使用GPU的成本问题尤为突出。现有公有云通过Serverless容器的方式为AI推理提供弹性能力,但由于AI镜像和模型文件较大,导致冷启动问题严重,这极大地影响了用户体验。此外,公有云通常无法提供城域级的边缘云服务,难以满足部分对实时性和本地化要求较高的应用场景。因此,协同全网边缘云上的GPU资源成为解决问题的关键,既能满足实时性请求,又能最大程度地降低推理成本,提升服务质量和竞争力。4.5.2目标效果目标效果并发能力提升支持调度多供应方的边缘算力来执行推理服务的并发操作,以此充分整合分散于各个边缘节点的算力资源,极大地提高系统的并发处理能力,保障在高流量访问场景下服务的稳定性与响应速度。同时具备基于GPU状态指标的弹性扩缩能力,可依据实时负载状况自动调整算力资源,避免资源浪费或过载,达成资源的动态优化配置。此外,67系统还能充分运用多个推理服务,借助智能调度算法有效均衡用户访问请求,将其合理分配至各个推理服务节点,防止单点负载过高,进而提升系统整体的处理效率以及用户满意度。模型独立演进模型和推理应用可以独立更新演进,独立部署和扩展。这使得开发者能够快速迭代模型和算法,无需担心对整个系统的影响,加速创新步伐,满足市场对AI应用不断升级的需求。冷启动优化支持基于用户请求访问的从0到1冷启动,并且具备冷启动加速能力,提升用户体验,使得AI应用能够快速响应用户请求,增强产品的竞争力。镜像和模型预热支持特定地域进行镜像和模型文件预热,提前将常用的AI镜像和模型文件加载到边缘节点,进一步缩短冷启动时间,提高服务的响应速度和质量。4.5.3业务流程业务流程步骤一:任务发布步骤一:任务发布算力使用者通过调度中心发布推理任务,明确指定推理任务的计算需求(CPU、GPU型号/数量、框架、价格)、网络需求(IB、RDMA)、地域需求以及任务类型为Serverless。这些详细的参数设定,确保调度中心能够精准匹配最合适的边缘算力资源,满足任务的多样68化需求。总分调度架构此架构下,资源需方直接在算网协同调度平台发布业务需求。图4-53协同推理-任务发布-总分调度 混合调度架构此架构下,资源需方通过自治系统向算网协同调度平台发布业务需求,需要注意的是,由于需要算网协同调度平台对用户自治系统内部署的推理应用和算网协同调度平台调度部署的推理应用之间进行互相访问的流量调度,或者是需要算网协同调度平台对用户自治系统内部署的推理应用副本和算网协同调度平台调度部署的推理应用副本间对终端用户的访问请求做负载分担处理,所以需要在调度请求中携带自治系统中部署的推理应用信息如等。69图4-54协同推理-任务发布-混合调度步骤二:调度决策步骤二:调度决策调度中心依据算网资源状态,对推理任务集进行调度,生成推理任务的调度结果集。这一结果集综合考虑了资源的可用性、性能和成本等因素,为后续的任务实施提供了详细的指导。需要注意的是,若涉及混合调度场景,系统将遵循既定规则,对资源进行筛选。具体而言,对于归属于自治系统的资源,系统不会将其纳入本次混合调度的资源池范畴,避免调度请求在两个系统间循环往复的乒乓效应。图4-55协同推理-调度决策70步骤三:方案执行步骤三:方案执行协同调度将调度结果集交由任务调度、流量调度实施。标准化镜像及模型通常托管于算网协同调度平台的存储资源池中。在此模式下,数据迁移操作在算网协同调度平台与目标数据中心之间执行。流量调度借助网络控制器,为模型文件准备和镜像文件迁移准备稳定的网络通道,优化网络资源配置,确保模型文件和镜像文件在传输过程中能够快速高效到达目的数据中心,保障数据传输的稳定性。图4-56协同推理-方案执行-平台托管-流量调度镜像和模型预热协同调度根据推理任务调度结果集发起镜像和模型文件预热过程,数据调度在调度中心和目的数据中心间发起数据迁移操作,将镜像和模型文件预热到目的数据中心,减少冷启动时间。71图4-57协同推理-方案执行-平台托管-镜像和模型预热网络资源释放在任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-58协同推理-方案执行-平台托管-资源释放 私有定制化镜像及模型的原始存储位置往往位于用户本地数72据中心,其迁移过程需要综合考虑数据主权、传输安全等多重因素,那么镜像及模型会从用户的数据中心迁移到目的数据中心。准备迁移通道流量调度通过网络控制器为数据集及模型迁移准备网络通道,保障数据传输的高效性。图4-59协同推理-方案执行-本地托管-准备迁移通道镜像及模型预热协同调度根据推理任务调度结果集发起镜像和模型文件预热过程,数据调度在用户本地数据中心和目的数据中心间发起数据迁移操作,将镜像和模型文件预热到目的数据中心,减少冷启动时间。73图4-60协同推理-方案执行-本地托管-镜像及模型预热网络资源释放在数集迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-61协同推理-方案执行-本地托管-网络资源释放 标准化镜像及模型可能托管与公有云的存储资源池中。在此模式下,数据迁移操作在公有云与目标数据中心之间执行。准备迁移通道流量调度通过网络控制器为镜像及模型迁移准备网络通道,保障数据传输的高效性。74图4-62协同推理-方案执行-公有云托管-准备迁移通道镜像及模型预热协同调度根据推理任务调度结果集发起镜像和模型文件预热过程,数据调度在公有云和目的数据中心间发起数据迁移操作,将镜像和模型文件预热到目的数据中心,减少冷启动时间。图4-63协同推理-方案执行-公有云托管-镜像及模型预热网络资源释放在数集迁移任务完成后,系统立即执行网络通道资源释放流程,75确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-64协同推理-方案执行-公有云托管-资源释放步骤四:无服务器化的推理服务步骤四:无服务器化的推理服务弹性资源调整:推理任务实例根据使用情况弹性扩缩。系统实时监测资源使用情况,当负载增加时自动扩展资源,当负载降低时释放资源,实现资源的动态优化,降低运营成本。用户访问用户通过终端设备产生对推理应用的访问需求。该访问请求首先抵达流量网关,流量网关作为网络流量的关键枢纽,对用户请求进行解析、验证并触发系统内访问请求事件。76图4-65协同推理-推理服务-用户访问服务触发当用户首次针对推理服务发起访问请求时,该请求将遵循既定的系统路由策略,被路由至系统中一个具体的推理服务,经过预热的推理服务提前加载了数据与环境参数,能立即被拉起,这一过程涉及资源的快速分配与初始化,包括但不限于内存资源的申请、计算资源的调度以及相关服务组件的加载,在完成启动流程后,执行推理任务、输出结果,满足用户实时需求,保障推理服务高效稳定。77图4-66协同推理-推理服务-服务触发流量调度在确定性广域网内,依托网络控制器所提供的智能化管控能力,系统将为用户访问推理服务针对网络时延、抖动以及带宽等关键性能指标构建并维护稳定的网络通道。图4-67协同推理-推理服务-流量调度负载分担在全局负载均衡技术体系下,用户对推理任务的访问趋于均衡。系统实时监测各推理服务的负载与网络状态,依据GPU、显存使用率、CPU、内存占用率、QPS等负载指标,以及网络延迟、丢包率等网络参数,运用智能算法动态分配用户请求,将其导向负载轻且网络佳的节点,确保系统高效运行与用户体验一致。78图4-68协同推理-推理服务-负载分担访问释放当终端用户结束对推理服务的访问,流量网关作为网络流量管控关键节点会触发系统资源释放流程,系统启动自动化回收程序,按序依次释放资源,解除链路带宽分配,供后续用户使用。通过这系列自动化操作,系统高效完成网络通道资源释放,保障资源合理利用与系统高效运行。图4-69协同推理-推理服务-访问释放79服务释放在系统运行过程中,资源的合理调配对于优化整体性能与降低成本至关重要。当进入低峰时段,如深夜期间,经系统监测判定推理服务处于完全空闲状态,长时间未接收到任何推理任务请求时,系统将依据预先设定的资源释放策略,释放全部推理服务实例,以达成资源的高效回收与再利用。图4-70协同推理-推理服务-服务释放4.6西训东推场景西训东推场景4.6.1场景描述场景描述在AI领域,训练和推理具有不同的特性。AI训练过程需要强大的计算能力,对硬件资源要求较高,但与外部的交互相对较少;而AI推理则侧重于快速响应用户请求,具有强交互的特点,但计算量相对较小。目前,训练和推理通常部署在相同集群甚至通过一体机方式进行部署,这种方式无法充分发挥不同区域的优势,造成资源配置80不合理和成本浪费。面向“东数西算”战略,将训练任务分发到算力质优价廉的西部,利用西部丰富的算力资源和较低的成本优势,提高训练效率,降低训练成本;将推理任务分发到终端用户密集的东部,减少数据传输延迟,将提高用户体验,实现区域间的协同发展,提升整体的资源利用效率和经济效益。4.6.2目标效果目标效果解耦优化效能在AI应用体系中,训练与推理通过模型紧密相连,训练时,借助大量标注数据与优化算法调校模型参数,使模型掌握数据特征模式,训练完成生成特定参数模型后,推理阶段将新数据输入该模型,依据已学习模式分析、预测并输出结果,模型是二者间的核心纽带;解耦AI训练与推理极为重要,一方面,二者可独立优化,训练能随新算法、数据升级,推理不受影响,保持稳定以适配不同业务场景;另一方面,资源分配更合理,训练用高算力处理大量数据,推理专注实时响应,避免资源冲突;另外,模型读取速度对推理效率影响显著,训练产生的模型文件将会复制于推理应用所在智算中心存储系统,确保推理能快速加载模型,实现高效推理。训练资源优化支持将训练任务调度到满足其GPU需求同时价格最低的西部智算中心,实现训练资源的最优配置,降低企业的训练成本,提高资源81利用效率。推理就近访问推理服务能够负载分担地实现东部用户的就近访问,减少网络延迟,提高用户体验,增强产品的竞争力。模型管理与分发系统通过统一存储系统对模型文件进行统一管理,并借助高带宽的确定性广域网,综合考量推理应用位置、网络及负载等因素,实现高效快捷地模型分发。镜像和模型高效传输镜像和模型从源数据中心到目的数据中心的高效传输,确保了训练/推理任务能够快速获取所需的镜像和模型,缩短训练/推理准备时间,提高训练/推理效率。4.6.3业务流程业务流程步骤一:任务发布步骤一:任务发布算力使用者通过调度中心发布训练任务和推理任务,详细指定各项需求。对于训练任务,可以指定优先使用西部资源,明确计算需求(CPU、GPU,框架,价格),指定内部网络需求(IB、RDMA),并要求对训练任务镜像进行存储预热;对于推理任务指明确计算需求(CPU、GPU,框架,价格),指定地域需求,任务类型为Serverless,要求对推理任务镜像进行存储预热,指定所需的存储类型和存储介质。这些详细的参数设置,为调度中心提供了准确的任务信息,便于进行82合理的资源调度。总分调度架构此架构下,资源需方直接在算网协同调度平台发布业务需求。图4-80西训东推-任务发布-总分调度 混合调度架构此架构下,资源需方通过自治系统向算网协同调度平台发布业务需求,需要注意的是,由于需要算网协同调度平台对用户自治系统内部署的推理/训练应用和算网协同调度平台调度部署的推理/训练应用之间进行互相访问的流量调度,或者是需要算网协同调度平台对用户自治系统内部署的推理应用副本和算网协同调度平台调度部署的推理应用副本间对终端用户的访问请求做负载分担处理,所以需要在调度请求中携带自治系统中部署的推理/训练应用信息如等。83图4-81西训东推-任务发布-混合调度步骤二:调度规划步骤二:调度规划调度中心依据算网资源状态,对推理任务和训练任务集进行协同调度,生成推理任务调度结果集和训练任务调度结果集。调度过程综合考虑了资源的分布、性能、成本以及任务的需求等因素,确保资源的最优分配,需要注意的是,若涉及混合调度场景,系统将遵循既定规则,对资源进行筛选。具体而言,对于归属于自治系统的资源,系统不会将其纳入本次混合调度的资源池范畴,避免调度请求在两个系统间循环往复的乒乓效应。84图4-82西训东推-调度规划步骤三:数据集和模型准备步骤三:数据集和模型准备协同调度根据训练任务调度结果集和推理任务调度结果集发起存预热过程,生成相应的流量调度结果集和存储调度操作集,并交由流量调度和数据调度执行。私有定制化数据集及模型的原始存储位置往往位于用户本地数据中心,其迁移过程需要综合考虑数据主权、传输安全等多重因素,那么数据集及模型会从用户的数据中心迁移到目的数据中心。准备迁移通道流量调度通过网络控制器为数据集及模型迁移准备网络通道,保障数据传输的高效性。85图4-83西训东推-数据集和模型准备-本地保存-准备迁移通道数据集及模型迁移数据调度在用户数据中心和目的数据中心间发起数据集及模型迁移操作,为后续的任务执行做好准备。图4-84西训东推-数据集和模型准备-本地保存-数据集模型迁移网络资源释放86在数集迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-85西训东推-数据集和模型准备-本地保存-网络资源释放 标准化公开数据集及模型通常托管于算网协同调度平台的存储资源池中。在此模式下,数据迁移操作在算网协同调度平台与目标数据中心之间执行。准备通道流量调度通过网络控制器为迁移准备网络通道,保障数据传输的高效性。87图4-86西训东推-数据集和模型准备-平台托管-准备通道数据集和模型迁移数据调度在调度中心和目的数据中心间发起数据集及模型迁移操作,为后续的任务执行做好准备。图4-87西训东推-数据集和模型准备-平台托管-数据集模型迁移网络资源释放在数集迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或88二次任务调度冲突,从而保障全链路传输资源的循环利用效率。图4-88西训东推-数据集和模型准备-平台托管-网络资源释放 标准化公开数据集及模型可能托管与公有云的存储资源池中。在此模式下,数据迁移操作在公有云与目标数据中心之间执行。准备迁移通道流量调度通过网络控制器为数据集及模型迁移准备网络通道,保障数据传输的高效性。图4-89西训东推-数据集和模型准备-公有云托管-准备迁移通道89数据集及模型迁移数据调度在公有云和目的数据中心间发起数据集及模型迁移操作,为后续的任务执行做好准备。图4-90西训东推-数据集模型准备-公有云托管-数据集模型迁移网络资源释放在数据集迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。90图4-91西训东推-数据集模型准备-公有云托管-网络资源释放步骤四:任务部署步骤四:任务部署协同调度根据推理任务调度结果集和推理任务调度结果集发起任务部署过程,任务调度分别部署训练任务和推理任务,确保任务在选定的资源上快速启动和运行。标准化训练和推理镜像通常托管于算网协同调度平台的存储资源池中。在此模式下,镜像迁移操作在算网协同调度平台与目标数据中心之间执行。准备应用镜像预热通道流量调度通过网络控制器为镜像迁移准备网络通道,保障数据传输的高效性。图4-92西训东推-任务部署-平台托管-准备通道镜像预热数据调度在调度中心与目的数据中心间启动迁移流程,按既定策91略,运用高效传输协议,保障数据在不同数据中心间可靠传输。为提升推理、训练任务在西部目的数据中心的执行效率,数据调度对两类任务开展镜像预热,在触发时能迅速响应,减少启动延迟,保障执行高效、连续。图4-93西训东推-任务部署-平台托管-镜像预热网络资源释放在镜像迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。92图4-94西训东推-任务部署-平台托管-资源释放 私有定制的训练镜像的原始存储位置往往位于用户本地数据中心,其迁移过程需要综合考虑数据主权、传输安全以及业务连续性等多重因素,那么镜像会从用户的数据中心迁移到目的数据中心。准备应用镜像预热通道流量调度通过网络控制器为镜像迁移准备网络通道,保障数据传输的高效性。图4-95西训东推-任务部署-本地保存-准备通道93镜像预热数据调度在用户数据中心与西部目的数据中心间启动迁移流程,按既定策略,运用高效传输协议,保障数据在不同数据中心间可靠传输。为提升推理、训练任务在西部目的数据中心的执行效率,数据调度对两类任务开展镜像预热,在触发时能迅速响应,减少启动延迟,保障执行高效、连续。图4-96西训东推-任务部署-本地保存-镜像预热网络资源释放在镜像迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。94图4-97西训东推-任务部署-本地保存-资源释放 标准化训练和推理镜像可以托管于公有云的存储资源池中。在此模式下,镜像迁移操作在公有云与目标数据中心之间执行。准备应用镜像预热通道流量调度通过网络控制器为镜像迁移准备网络通道,保障数据传输的高效性。图4-98西训东推-任务部署-公有云托管-准备通道镜像预热95数据调度在调度中心与目的数据中心间启动迁移流程,按既定策略,运用高效传输协议,保障数据在不同数据中心间可靠传输。为提升推理、训练任务在西部目的数据中心的执行效率,数据调度对两类任务开展镜像预热,在触发时能迅速响应,减少启动延迟,保障执行高效、连续。图4-99西训东推-任务部署-公有云托管-镜像预热网络资源释放在镜像迁移任务完成后,系统立即执行网络通道资源释放流程,确保网络带宽资源池的实时更新,避免因资源滞留导致的网络拥堵或二次任务调度冲突,从而保障全链路传输资源的循环利用效率。96图4-100西训东推-任务部署-公有云托管-资源释放步骤五:部署训练任务和推理任务步骤五:部署训练任务和推理任务系统将即刻完成训练任务的部署,并启动运行流程。针对推理服务,其并非在系统启动后即刻投入运行,而是基于事件驱动机制,仅在接收到用户访问请求时,才实时触发并激活相应服务,以此实现推理服务资源的精准调用与高效利用。97图4-101西训东推-部署训练任务和推理任务步骤六:训练任务运行步骤六:训练任务运行训练任务以数据集为输入,借助强大算力,运用深度学习、机器学习等算法挖掘数据特征。训练中模型持续迭代,调整参数优化拟合效果。当准确率、均方误差等性能指标达预设标准,训练结束,生成模型文件。该文件存储模型参数、结构等关键信息,为后续推理、分析提供核心支撑。图4-102西训东推-训练任务运行步骤七:模型同步步骤七:模型同步 任务终止和数据清理训练任务完成后,协同调度依据既定策略发送指令,终止训练任务,释放算力资源。同时,清理训练任务使用的数据集,回收存储资源,保障系统高效运行。98图4-103西训东推-模型同步-任务终止和数据清理 模型迁移准备流量调度借助网络控制器,依数据传输需求与网络拓扑,为模型迁移构建网络通道。网络控制器实时监测网络链路,智能整合资源,精准管控流量,保障镜像迁移数据传输高效、低延迟。图4-104西训东推-模型同步-模型迁移准备 模型迁移数据调度在训练所在数据中心和算网协同调度平台间发起模型99迁移操作,为后续的模型分发做好准备。图4-105西训东推-模型同步-模型迁移 资源清理模型迁移完成后,流量调度模块立即释放相关网络通道。将网络资源归还系统资源池。同时,存储调度模块删除源模型文件,为新数据存储准备好空间。图4-106西训东推-模型同步-资源清理 组播模型文件分发:100推理应用的网关发起IGMP消息到BFER(Bit-Forwarding EgressRouter)PE,请求加入模型文件所在的组播组。BFER PE接收IGMP请求后,将其作为组播接收者注册到BIER控制平面(如BGP EVPN)。BFER PE向BIER控制平面注册组播接收者信息(组播组 接收者),由BFIR(Bit-Forwarding Ingress Router)构建相应BIFT条目。调度平台网关向组播组发送模型文件。BFIR PE收到模型文件报文,构造BIER Header,将模型文件报文发送给多个推理应用相关的BFER PE。BFER PE将组播模型文件报文发送给推理应用所在网关。网关将模型文件推送给推理应用。推理应用启动,其加载模型文件,将关键信息读入内存构建推理环境,并依据模型特性调配系统资源,接收用户请求,调用模型运算,以规范格式反馈结果,提供推理服务。101图4-107西训东推-模型同步-组播模型文件分发步骤八:就近访问步骤八:就近访问流量调度系统对优化用户终端访问推理服务体验起着关键作用,当用户终端发起访问推理服务请求,流量调度系统迅速响应。通过IP地址解析、基站定位等技术,准确定位用户终端位置,同时综合评估推理服务的分布式部署,掌握各节点实时负载、处理能力及与终端的网络距离。基于这些信息,运用最短路径、加权路径等算法,筛选出最优路径,让用户终端能就近访问推理服务,缩短传输距离,降低网络延迟与丢包率。图4-108西训东推-就近访问步骤九:服务释放步骤九:服务释放在系统运行过程中,资源的合理调配对于优化整体性能与降低成本至关重要。当进入低峰时段,如深夜期间,经系统监测判定推理服务处于完全空闲状态,长时间未接收到任何推理任务请求时,系统将依据预先设定的资源释放策略,释放全部推理服务实例,以达成资源102的高效回收与再利用。图4-109西训东推-服务释放五、生态模式五、生态模式5.1边云一体模式边云一体模式用户作为算网资源的需求方,具备多元化的资源获取渠道。当前,为了确保数据的安全性以及业务处理的高效及时性,许多企业选择在本地部署私有云或一体机,将其作为基础的算力支撑。这一举措在一定程度内满足了企业对于数据安全管控和业务即时处理的需求。然而,在企业业务快速发展的大背景下,数据量与计算任务正以指数级速度增长,特别是对于一些AI推理应用等具体业务而言,其对资源的访问需求呈现出多样化、高并发以及高负载的特点。在此情况下,本地私有云或一体机的扩展性弱点便逐渐凸显出来。由于其资103源容量的局限性,难以灵活、快速地根据业务增长和推理应用等具体业务的弹性扩缩需求进行扩展,无法及时、有效地满足企业不断攀升变化的业务需求。算网协同调度平台依托确定性广域网技术构建起广域的全局算网资源池。当本地私有云/一体机资源告急时,用户只需通过算网协同调度平台提交资源需求任务,平台便会依据实时资源状态与任务的多维度需求,在全局范围内智能筛选、调配合适的算网资源,通过协同调度及时开通算网资源,部署用户的应用,精准满足企业在数据处理、业务分析、人工智能推理等多场景下的复杂需求,有效突破本地资源瓶颈,助力企业业务的高效、稳定运行。特别地,对于应用的使用者而言,在访问和使用本地部署的应用与访问和使用通过算网协同调度平台部署的应用之间的使用体验是连贯和一致的。简要过程如下:图5-1边云一体 企业内部用户向企业内私有云/一体机提交应用算力需求。应用在私有云/一体机上调度部署。104 如访问量增加等原因导致私有云/一体机上部署的应用需要扩容,私有云/一体机由于资源所限不能满足。企业私有云/一体机管理系统以算网调度平台资源需求方身份向平台发起算网资源需求,包括可能的:私有部署应用信息,计算需求,存储需求,网络需求等。算网调度平台调度全局资源,满足企业私有云/一体机管理系统的需求。应用的使用者以一致而连贯的方式访问私有部署的应用和在全局资源部署的应用。5.2云算分离模式云算分离模式云供应商作为算网资源的主要供应方,承载着满足用户多元需求的重任。在实际业务场景中,云供应商虽具备一定规模的资源储备,但常因各类因素难以全方位契合用户诉求。例如,在地域性方面,部分用户对数据存储与处理的地理位置有严苛要求,期望数据能就近处理以降低延迟、提升响应速度,或是出于法规、安全等考量,限定资源必须部署在特定区域,而云供应商现有资源布局无法覆盖;在价格层面,随着市场竞争加剧与用户成本控制意识增强,一些用户对资源租赁价格极为敏感,云供应商既定的价格体系难以匹配用户预算;此外,在智算领域,面对人工智能、大数据分析等对算力要求极高的应用场景,用户对智算GPU资源的性能105与数量需求不断攀升,云供应商自身资源难以足额供应。此时,当云供应商遭遇上述资源匹配困境时,可将用户需求提交至算网协同调度平台。平台依托广泛的资源连接网络,资源池涵盖来自不同地域、不同价格、不同服务提供商的各类算网资源,通过对资源状态、价格、性能等多维度信息的分析筛选,调度出契合用户地域性、价格及智算GPU要求的资源组合,进而满足用户复杂且多变的需求。简要过程如下:图5-2云算分离 云提供商的用户向云提供商提交应用算力需求。云提供商自身资源由于地域性、价格等因素不能满足用户需求。云提供商以平台资源需方的身份将用户算力需求提交到算网协同调度平台,包括可能的:计算需求,存储需求,网络需求等。算网系统调度平台在广域资源池内调度满足用户需求。1065.3边缘共享模式边缘共享模式企业作为算网资源的使用者和需求方,为了确保自身业务的平稳运行与高效拓展,往往会投入大量的人力、物力和财力,搭建私有云系统(这些私有云在位置上看可以看作是边缘云)或者购置价格不菲的一体机设备。这一举措旨在全方位满足自身业务需求,私有云与一体机在初期确实发挥了显著作用。然而,企业业务的发展态势并非一成不变,而是呈现出一定的波动性特征,算力需求在不同时期起伏不定。在业务低谷期,大量的计算资源被迫处于闲置状态,这无疑造成了资源的极大浪费,使得企业前期投入的成本无法得到充分的利用与回报。例如,一些季节性企业,在非旺季时,其搭建的私有云与购置的一体机所承载的计算任务量锐减,或者是由于时区的不同,在当地时区的夜间时段,业务量可能大幅度锐减,这样大量的硬件资源只能在机房中“沉睡”。当企业出现计算能力过剩的情况时,一个行之有效的解决策略便是将这些闲置资源接入算网协同调度平台。通过这一平台,企业能够与广大的算力需求方实现高效对接,将自身闲置的算力资源进行共享。这一举措带来了诸多积极影响。一方面,企业自身的计算资源利用率得以大幅提升,原本闲置的资源重新焕发生机,为企业创造价值。另一方面,企业成功开辟了全新的经济收益渠道。通过向算力需求方合理收取使用费用,企业能够将过剩的算力转化为实实在在的货币收入,有效抵减部分前期在基础设施投资方面的巨大开支。107从更宏观的行业视角来看,算力共享有力地促进了整个行业资源的合理分配。对于那些规模较小、资金相对匮乏的小型企业,或者计算需求具有间歇性特点的企业而言,它们无需再为高额的硬件前期投入而望而却步。借助算网协同调度平台,这些企业能够以低成本获取到优质的算力资源,满足自身业务发展的阶段性需求。特别是对于边缘云而言,共享算力资源尤为重要,在供给侧,边缘云的建设通常并不是大型公有云的重点,而在需求侧,特别是AI推理应用蓬勃发展的情况下,边缘云的需求是旺盛而高速发展的,而边缘云的异属共享,是弥补需求和供给之间的结构失衡的重要而有效的方式。简要流程如下:图5-3边缘共享 企业管理者作为平台算力资源供应方将本企业的私有云/一体机注册并接入到算网协同调度平台。其他的企业或者个人作为平台的资源需方向平台提出算网需108求。算网平台根据调度算法,可以资源需方的应用调度并部署到共享的企业私有云/一体机上,完成资源共享过程。六、商业价值与前景展望六、商业价值与前景展望“东数西算”工程涵盖了总分调度、分总调度、混合调度等调度架构、东数西算、数据快递、东数西存、协同推理、协同训练和西训东推等核心场景,具备明确的商业价值和广阔的市场前景。在总分调度、分总调度和混合调度架构中,通过优化算网资源的调度和管理,提升了资源的利用率和灵活性,降低了算力提供者和使用者的运营成本。对于算力提供者而言,能够充分利用闲置资源,拓展业务收入来源;对于算力使用者来说,简化了资源获取流程,提升了业务部署效率,增强了市场竞争力。这些架构为构建一个高效、公平、开放的算力市场奠定了坚实基础。东数西算场景充分发挥了东西部地区的资源互补优势,有效降低了数据处理的电力成本,提升了数据处理效率。这不仅为东部地区的数据密集型企业减轻了运营负担,提升了企业的盈利能力和市场竞争力,还为西部地区带来了新的经济增长点,推动了西部地区的数字基础设施建设和产业升级。随着“东数西算”工程的深入推进,相关产业链上下游企业将迎来更多发展机遇,如数据中心建设、网络设备制造、数据处理服务、算力运营等领域将迎来爆发式增长,有望形成一109个规模庞大、协同发展的数字经济产业集群。数据快递场景打破了传统数据传输的瓶颈,提升数据传输效率和安全性,降低数据运输成本,为智算、超算等领域的创新发展提供有力支持,促进相关产业的快速发展。东数西存场景有效解决了企业数据存储难题,利用西部低成本存储资源,降低企业存储成本,同时提升数据存储的安全性和管理效率,释放企业数据价值。协同训练场景打破了智算中心之间的资源壁垒,提升了GPU资源的利用效率,降低了企业和科研机构的大模型训练成本,加速了人工智能技术的创新和应用落地。协同推理场景通过整合边缘算力资源,优化冷启动时间和弹性扩缩能力,提升了推理服务的质量和效率,降低了运营成本,增强了企业在AI应用市场的竞争力。西训东推场景充分发挥了东西部地区的资源优势,实现了训练和推理任务的合理分布,提升了整体资源利用效率,为AI产业的可持续发展提供了有力支撑。边云一体模式为企业带来了强大的资源整合优势与业务拓展能力。对企业而言,其商业价值首先体现在成本控制与效率提升上。企业通过本地私有云或一体机进行基础业务处理,在需求高峰借助算网协同调度平台获取广域资源,避免了大规模自建资源的高额投入,有效降低硬件采购、运维成本。同时,这种模式满足企业复杂业务场景需求,加速数据处理与分析,助力企业快速决策,提升市场响应速度,增强企业竞争力。云算分离模式则打破了云供应商资源供给的局限性,为整个云服务市场注入新活力。对于云供应商,它拓宽了业务边界,即便自身资源不足,也能借助算网协同调度平台满足用户需求,提升110客户满意度与忠诚度,增加市场份额。对于用户,能获取更贴合自身需求的资源,如满足地域性、价格、智算GPU性能等特殊要求,降低使用成本,提升服务质量。边缘共享模式开启了企业间资源共享的全新商业篇章。对于拥有闲置算力的企业,将过剩资源货币化,创造额外收入,提高资源投资回报率。对于需求方,尤其是小型企业或计算需求间歇的企业,以低成本获取优质算力,减少前期硬件投入,降低运营成本。这种模式还促进了行业资源的优化配置,提升整体行业效率。展望未来,随着“东数西算”工程的深入推进,这些场景将不断优化和拓展。技术创新将进一步提升算网资源调度效率和数据传输性能,降低成本,提升服务质量。跨区域、跨行业的合作将更加紧密,推动形成更加完善的数字经济生态系统。企业应积极拥抱这些变化,充分利用“东数西算”带来的机遇,优化自身业务布局,提升数字化竞争力,在数字经济浪潮中实现可持续发展。

    发布时间2025-08-22 118页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 未来网络发展大会:2025算电协同技术白皮书(66页).pdf

    未来网络技术发展系列白皮书(2025)算电协同技术白皮书第九届未来网络发展大会组委会2025年8月算电协同技术白皮书 I 版权声明版权声明 本白皮书版权属于北京邮电大学、紫金山实验室所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:来源:北京邮电大北京邮电大学、紫金山实验室等学、紫金山实验室等”。否则将可能违反中国有关知识产权的相关法律和法规,对此北京邮电大学、紫金山实验室有权追究侵权者的相关法律责任。算电协同技术白皮书 II 编编写说明写说明 主编单位:主编单位:北京邮电大学、紫金山实验室 参编单位:参编单位:国网山东省电力公司信息通信公司、国网山东省电力公司青岛供电公司 江苏省未来网络创新研究院、江苏方天电力技术有限公司 中国电力科学研究院有限公司、中国联合网络通信有限公司研究院 指导专家:指导专家:刘韵洁 黄 韬 张 鑫 谢人超 田 鹏 王 勇 蒲天骄 曹 畅邢宏伟 李 勇 李 明 李 宁 严 莉 陈 琛 魏 亮 参编人员:参编人员:唐琴琴 贾庆民 文 雯 李 硕 孙思齐 李敏宽 张 岩 牛德玲 王云霄 黄 华 刘子雁 刘 学 王新惠 于文洁 程 辉 韩 然 侯 路 汪 洋 王晓辉 吴春鹏 王子涵 黄 祥 吴 媚 贾雪琴 汪 硕 刘 辉 王立文 邵子豪 王志浩 王文正 徐宏亮 谢高畅 沈 薇 第九届未来网络发展大会白皮书算电协同技术白皮书 III 前前 言言 在数字经济与能源革命深度融合的时代背景下,算力与电力的协同发展正面临前所未有的机遇与挑战。随着 5G、人工智能、工业互联网等新一代信息技术的迅猛发展,全球算力需求呈现爆发式增长,2023 年我国算力总规模已达 230EFLOPS,智能算力增速高达45%。然而,这种增长也带来了严峻的能源问题,全国数据中心年耗电量突破 1500 亿千瓦时,占全社会用电量的 1.6%,单次 AI 大模型训练的能耗相当于数百个家庭年用电量。与此同时,我国电力系统正在经历深刻变革,新能源装机占比已突破 50%,但“弃风弃光”与东部电力短缺并存的结构性矛盾日益凸显。这种算力需求激增与能源转型的双重压力,使得构建高效、低碳的算电协同体系成为实现“双碳”目标的关键路径。当前算电协同发展面临诸多现实挑战。在资源匹配方面,算力基础设施主要集中在东部负荷中心,依赖化石能源供电,而西部新能源富集区却面临算力需求不足的问题,影响了绿电的消纳。在系统协同层面,算力调度以性能优化为导向,电力系统则以稳频调峰为目标,二者缺乏统一的优化框架,造成新能源利用率损失 3%-5%。技术层面,算力系统的异构性与电力系统的波动性难以通过传统控制模型实现兼容,跨域协同效率低下。这些问题的存在严重制约了算力产业与能源系统的协同发展。本白皮书详细介绍了算电协同的发展背景、基本概念、功能架构、关键使能技术等;同时,分析了算电协同典型应用场景、生态第九届未来网络发展大会白皮书算电协同技术白皮书 IV 建设,并探讨了算电协同面临的技术挑战和未来发展方向。我们期待本白皮书能够为政产学研各界提供系统性参考,推动算力网络与新型电力系统从简单叠加走向深度融合,最终实现“绿色算力赋能数字经济,高效能源驱动算力革命”的美好愿景。第九届未来网络发展大会白皮书算电协同技术白皮书 V 目目 录录 一、算电协同发展背景.1 1.1 技术业务发展,驱动算力电力协同变革.1 1.2 国家政策规划,推动算力绿色低碳转型.3 1.3 行业实践进展,加速算力电力协同创新.5 1.4 算电协同愿景,构建比特与瓦特的智能闭环.8 二、算电协同功能架构及关键使能技术.11 2.1 算电协同功能架构.11 2.2 算电协同关键使能技术.14 2.2.1 多元异构算力适配纳管.15 2.2.2 多能互补电力协同调度.16 2.2.3 算电协同感知模型构建.17 2.2.4 高可靠确定性网络承载.18 2.2.5 生成式智能化决策控制.19 2.2.6 全周期高实时数字孪生.22 2.2.7 多要素高可信算电交易.24 三、算电协同典型应用场景.26 3.1 算随电调,助力电力新能源消纳.26 3.2 电随算用,满足算力新负荷需求.29 四、算电协同生态建设.33 4.1 电力侧发展与绿色转型.33 4.1.1 优化可再生能源供给体系.33 4.1.2 完善供需动态平衡机制.35 4.1.3 提升算力产业支撑能力.35 4.2 算力侧规划与能源协同.37 4.2.1 规划与布局算力基础设施.37 4.2.2 构建算力-电力接口技术.38 4.3 平台侧建设与功能优化.40 4.4 用户侧协同与服务创新.42 4.4.1 推进需求侧响应模式.42 4.4.2 创新算力能源交易模式.44 第九届未来网络发展大会白皮书算电协同技术白皮书 VI 五、技术挑战与未来方向.47 5.1 技术挑战.47 5.1.1 系统复杂性,算电协同的纳管挑战.47 5.1.2 资源动态匹配,协同控制的核心难题.48 5.1.3 能效瓶颈,电力侧的关键制约.48 5.1.4 安全与可靠性,交易机制的基础挑战.49 5.2 未来发展方向.50 5.2.1 智能调度技术从单目标优化迈向多模态协同,推动算力网络向全域资源动态匹配演进.50 5.2.2 绿色计算技术从能效提升转向全生命周期减碳,零碳数据中心架构加速普及.51 5.2.3 边缘计算与微电网从独立部署走向深度耦合,构建区域性能电自平衡单元.52 5.2.4 政策体系从单一激励升级为多维生态构建,算力-电力协同治理框架初步成型.53 5.2.5 量子计算与 AI 大模型赋能调度系统,突破传统优化算法的算力瓶颈.54 5.3 算力电力协同发展建议.55 参考文献.58 第九届未来网络发展大会白皮书算电协同技术白皮书 1 一、一、算电协同算电协同发展背景发展背景 随着全球数字经济与能源革命的深度融合,算力与电力的协同发展已成为推动“双碳”目标实现的关键路径。本章将从技术业务发展、国家政策规划、行业实践进展和协同愿景四个维度,系统阐述算电协同的发展背景与战略意义,为后续章节的技术架构与应用场景奠定基础。1.1 技术业务发展,驱动算力电力协同变革技术业务发展,驱动算力电力协同变革 随着全球数字经济进入高速发展阶段,算力已成为继热力、电力之后的新型生产力,在人工智能、元宇宙、工业互联网、自动驾驶等前沿领域发挥着关键作用。据中国信通院统计,2023 年我国算力总规模达到 230EFLOPS,同比增长约 35%,其中智能算力增速更是高达45%,显示出强劲的发展势头。然而,算力产业的爆发式增长也带来了巨大的能源消耗问题。以数据中心为例,2023 年全国数据中心用电量突破 1500 亿千瓦时,占全社会用电量的 1.6%,相当于三峡电站全年发电量的 1.5 倍。更值得关注的是,随着大模型技术的快速发展,单次训练能耗屡创新高OpenAI 的 GPT-3 模型训练耗电达 128.7万千瓦时,相当于 430 个家庭一年的用电量;而 GPT-4 的能耗预计是前者的 3-5 倍。与此同时,我国电力系统正经历深刻变革,新能源装机占比已突破 50%,但消纳问题日益突出。2024 年一季度,西藏光伏利用率仅第九届未来网络发展大会白皮书算电协同技术白皮书 2 为 68.6%,青海、甘肃等新能源大省也面临类似困境。在此背景下,算力负荷的时空可转移特性(如“东数西算”工程中的冷数据处理西迁)和灵活调节潜力(如 AI 训练任务的错峰调度)为电力系统提供了新的调节手段。研究表明,通过优化调度,全国数据中心可提供约3000 万千瓦的灵活调节能力,相当于 30 座百万千瓦级抽水蓄能电站。此外,在“双碳”目标约束下,算力产业的绿色转型需求迫切,但目前绿电使用率仅 22%左右,亟需建立更高效的算电协同机制。算电协同创新发展已成为当前数字经济与能源革命深度融合的核心命题。从算力需求侧看,AI 技术爆发式增长推动全球算力规模年均增速超 30%,我国智能算力规模 2023 年达 435 EFlops,占全球31%,但数据中心年耗电量预计 2030 年将突破 4000 亿千瓦时,占全社会用电量 4%,其中东部算力集群因绿电供给不足仍依赖化石能源,加剧碳排放矛盾。与此同时,电力系统面临新能源消纳的结构性难题;尽管我国风光发电装机超 14.5 亿千瓦(2024 年底),但间歇性、波动性导致西部“弃风弃光”与东部“缺电”并存,而算力中心的灵活负载特性可成为破解这一困局的关键通过 AI 调度算法将非实时计算任务转移至绿电富集时段,理论上可提升新能源消纳率 15%以上,实现“比特”与“瓦特”的时空耦合。政策层面,“东数西算”工程已明确要求 2025 年国家枢纽节点数据中心绿电占比超 80%,加快构建新型电力系统行动方案(20242027 年)更将算电协同列为新型基础设施建设的战略抓手,通过源网荷储一体化项目推动“大”“小”电网与算力节点的双向赋能。产业实践中,青海柴达木 100%绿电算第九届未来网络发展大会白皮书算电协同技术白皮书 3 力中心、阿里云张北液冷数据中心等标杆项目已验证“算力随能源跑”的可行性,但跨行业标准缺失、区域资源错配等问题仍制约协同深度,亟需通过电力市场与算力价格联动机制、虚拟电厂等技术突破构建系统性解决方案。这一变革不仅关乎单一产业,更是重塑全球竞争格局的战略支点美国、日本已加速布局算力-绿电融合技术,而我国若能率先打通“规划-技术-市场”全链条,或将输出能源数字化转型的“中国方案”。本节通过详实的数据分析,揭示了算力产业爆发式增长带来的能源挑战与电力系统新能源消纳困境,为算电协同的必要性提供了量化依据。1.2 国家政策规划,推动算力绿色低碳转型国家政策规划,推动算力绿色低碳转型 在技术业务需求驱动的同时,国家层面的政策引导为算电协同提供了制度保障和发展方向。国家层面已构建起较为完善的算电协同政策体系。2021 年 5 月,国家发改委等四部委联合印发全国一体化大数据中心协同创新体系算力枢纽实施方案,首次提出“东数西算”工程,在京津冀、长三角、粤港澳等 8 个地区布局国家算力枢纽节点,明确要求西部节点可再生能源使用率不低于 65%。2022 年 2 月,“东数西算”工程全面启动,规划建设 10 个国家数据中心集群,展望“十五五”期间,我国将进一步提升可再生能源的利用比例,到 2030 年,全国可再生能源消费量将达到 15 亿吨标煤以上。2023 年 10 月,工信部等六部门发布算力基础设施高质量发展行动计划,提出到 2025 年实现算力规模超过 300EFLOPS、智能算第九届未来网络发展大会白皮书算电协同技术白皮书 4 力占比达 35%、新建数据中心 PUE 低于 1.25 等具体目标。同月,国家数据局等五部门出台关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见,首次将算力电力协同作为独立章节,要求建立算力电力协同调度机制,支持算力企业参与电力市场化交易。2024 年,政策进一步细化落地。国家发改委加快构建新型电力系统行动方案 提出开展算力 电力协同调度试点;工信部 数据中心绿色低碳发展专项行动计划要求到 2025 年新建大型数据中心PUE 降至 1.1 以下,绿电使用率超过 50%。这些政策形成了从顶层设计到实施细则的完整体系,为算电协同发展提供了制度保障。2025 年算电协同国家政策规划的最新进展主要体现在顶层设计的深化与试点示范的加速落地。根据加快构建新型电力系统行动方案(20242027 年),算电协同被列为七大试点方向之一,明确要求在国家枢纽节点和青海、新疆等能源富集区,通过“绿电聚合供应”模式提升数据中心绿电占比,并探索算力负荷与新能源功率联合预测、柔性控制等技术,以降低电网保障容量需求。国家能源局 2025 年 5月发布的 新型电力系统建设第一批试点通知 进一步细化实施路径,提出通过余热回收、光热发电协同等技术提升能源利用效率,并要求试点项目在 2024 年 8 月后开工,2025 年底前形成阶段性成果。同时,2025 年能源工作指导意见将算电协同纳入新型电力系统建设重点任务,强调需与“东数西算”工程联动,推动国家枢纽节点数据中心绿电占比超 80%的目标。国家数据局等五部门联合印发的加快构建全国一体化算力网的实施意见则提出“算力与绿色电力第九届未来网络发展大会白皮书算电协同技术白皮书 5 一体化融合”的专项要求,计划到 2025 年底初步形成算力电力双向协同机制,并通过算力券、REITs 等政策工具支持示范项目建设。本节系统梳理了从东数西算工程到新型电力系统建设的政策演进,展示了我国在算电协同领域构建的完整政策体系。表 1-1 算电协同国家政策演进表(2021-2025)时间时间 政策名称政策名称 关键指标与要求关键指标与要求 2021.05 全国一体化大数据中心协同创新体系算力枢纽实施方案 西部节点可再生能源使用率65%布局 8 大国家算力枢纽节点 2023.10 算力基础设施高质量发展行动计划 算力规模300EFLOPS 智能算力占比 35%新建数据中心 PUE1.25 2023.12 关于深入实施东数西算工程加快构建全国一体化算力网的实施意见 建立算力电力协同调度机制 支持算力企业参与电力市场化交易 2024.07 数据中心绿色低碳发展专项行动计划 国家枢纽节点绿电占比80%新建大型数据中心PUE1.25 2024.07 加快构建新型电力系统行动方案(2024-2027)开展“算力 电力”协同试点 探索绿电聚合供应模式 提升新能源消纳率 15%如表 1-1 所示,我国算电协同政策呈现三阶段特征:2021-2022 年侧重空间布局优化,2023 年强化技术标准建设,2024 年后重点突破市场机制创新。政策也从重点考虑单节点绿电占比转向全网协同调度能力建设,体现了从局部优化到系统协同的演进路径。1.3 行业实践进展,加速算力电力协同创新行业实践进展,加速算力电力协同创新 政策引导下,行业组织、产业界和学术界正在形成协同创新的合第九届未来网络发展大会白皮书算电协同技术白皮书 6 力,推动算电协同从理论走向实践。行业组织与机构在算电协同领域开展了系统性工作行业组织与机构在算电协同领域开展了系统性工作,中国电力发展促进会于 2023 年 12 月成立电力与算力协同发展专业委员会,联合国家电网、南方电网、中国信通院等 20 余家单位编制电力与算力协同发展蓝皮书(2024)。该报告首次提出算力电力协同度评价指标体系,包含 6 个一级指标和 18 个二级指标,为行业提供了量化评估工具。中国信通院发布的算力电力协同发展研究报告(2025 年)则聚焦技术路径,提出“云边端协同调度”“算力负荷聚合响应”等创新模式。产业界也取得实质性突破产业界也取得实质性突破,2023 年 8 月,阿里巴巴与华北电力大学合作完成全球首次跨区域“算力-电力”优化调度试验,通过将杭州的 AI 训练任务迁移至内蒙古数据中心,节省电费支出 15%,减少碳排放 20%。2024 年初,腾讯联合英特尔开发出智能负载调节系统,可根据电网频率波动在 10 毫秒内完成服务器功耗调整,单数据中心可提供最大 20%的瞬时调节能力。南方电网研发的“驭电”智能仿真大模型,通过融合气象、负荷、设备等多维数据,将新能源预测准确率提升至 95%以上。华为在贵安建设的绿色数据中心采用“分布式光伏 液冷”技术,年均 PUE 低至 1.12;中国电信青海数据中心实现100%绿电供应,年减排二氧化碳 50 万吨;万国数据在上海临港试点算力银行模式,通过电力现货市场套利降低用能成本 8%。这些探索为算电协同的商业化推广积累了宝贵经验。2025 年,国家电网联合中国移动、阿里云等企业发起“算力电力协同创新推进计划”,推动第九届未来网络发展大会白皮书算电协同技术白皮书 7 “源网荷储”一体化项目落地,如青海柴达木建成全球首个 100%绿电微电网算力中心,通过“自发自用”模式实现绿电消纳率超 95%。学术界则聚焦技术融合创新,清华大学团队提出“算-电-热-碳”协同理论框架,北京理工大学团队开发出基于 AI 的算力负荷动态预测模型,可优化电网调度响应速度 30%以上。学术届也在积极推进算电协同研究学术届也在积极推进算电协同研究,北京邮电大学未来网络团队(FNL)和紫金山实验室团队持续开展创新实践,共同推动着这一交叉学科的发展。北京邮电大学未来网络团队长期深耕网络与能源融合领域,通过构建“算力-电力-环境”三元耦合技术体系,提出了面向绿色计算的算网能一体化创新架构。该团队不仅发表了多篇发表于IEEE JSAC、IEEE TMC 等顶级期刊的高水平论文,还成功研发了绿色算力枢纽一体化调度平台,这一成果已实际应用于中国能建“东数西算”项目,为甘肃庆阳源网荷储一体化智慧零碳大数据产业园建设提供了关键技术支撑。团队牵头制定的 9 项团体标准以及联合发布的行业首部 算网能一体化白皮书,为行业发展提供了重要规范指导。依托国家重大科技基础设施“未来网络试验设施”(CENI),团队构建了覆盖全国 40 个城市的试验环境,为算力网络创新研究搭建了重要平台。与此同时,紫金山实验室团队在算网融合基础理论研究方面取得突破性进展,其研发的支持大规模异构算力调度的核心技术,以及建设的国家级算力网络试验平台,为行业提供了重要的技术支撑和验证环境。两个团队通过紧密的产学研合作,共同推动了我国算力电力协同领域从理论到应用的全链条创新,为“东数西算”国家战略的落第九届未来网络发展大会白皮书算电协同技术白皮书 8 地实施奠定了坚实的学术基础和技术保障。未来,双方将继续深化在动态资源感知、跨域协同优化、可信交易机制等前沿方向的研究,共同推动构建更加绿色低碳、高效可靠的全国一体化算力网络体系。本节通过典型案例展示了产学研各界的创新实践,验证了算电协同在技术可行性和商业价值方面的巨大潜力。1.4 算电协同愿景,构建比特与瓦特的智能闭环算电协同愿景,构建比特与瓦特的智能闭环 基于上述技术、政策和实践基础,算电协同正在形成清晰的愿景框架和发展路径。算电协同是指以新型电力系统和全国一体化算力网为基础平台,通过技术创新、机制改革和产业融合,实现电力系统与算力基础设施在规划建设、运行调度、市场交易、技术创新等全环节的深度协同。其核心内涵可从四个维度解析:规划协同层面,规划协同层面,我国通过“东数西算”工程(国家发改委等,关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见,2023 年 12 月)系统推进算力基础设施布局与能源资源禀赋的匹配,引导实时性要求低的算力负荷向西部新能源富集地区转移。根据国家发改委 2025 年监测数据,内蒙古、甘肃等西部枢纽节点数据中心绿电占比已达 65%(其中内蒙古和林格尔数据中心集群绿电占比达84.57%,2025 年 5 月数据),较东部地区高出 40 个百分点,有效缓解了东部用电紧张并促进西部绿电消纳。这一协同发展模式在数据中心绿色低碳发展专项行动计划(2024 年 7 月)和加快构建新型电力系统行动方案(2024-2027 年)中得到进一步强化,明确要求到第九届未来网络发展大会白皮书算电协同技术白皮书 9 2025 年底国家枢纽节点新建数据中心绿电占比超过 80%,并通过“源网荷储”一体化等创新模式持续优化算力电力协同机制。调度协同层面调度协同层面,挖掘算力负荷的灵活调节价值。包括:时间维度上,利用 AI 训练、大数据分析等可中断负荷参与需求响应;空间维度上,通过“算力漫游”实现跨区域资源调配;能效维度上,采用液冷、余热回收等技术提升能源利用效率。国网能源研究院测算,全国数据中心可调节潜力相当于当前电网灵活调节资源的 15%。市场协同层面市场协同层面,构建电算融合的交易机制。包括绿电直供(如腾讯与华能合作的分布式风电项目)、容量补偿(对参与调度的算力企业给予经济激励)、碳电联动(将算力碳足迹纳入绿证交易)等创新模式。广东电力交易中心数据显示,2025 年上半年算力聚合商现货交易电量达 4.5 亿千瓦时,较 2023 年 1.2 亿千瓦时增长 275%,且绿电交易量达 82.9 亿千瓦时(同比增长 60.2%),环境溢价降至 6.7 厘/千瓦时 产业协同层面产业协同层面,形成双向赋能的发展格局。算力支撑电力数字化转型,如百度智能云为国网提供的AI巡检系统使运维效率提升3倍;电力保障算力绿色发展,如三峡集团在长三角建设的“风光储数据中心”实现清洁能源就地消纳。中国信通院预测,到 2025 年底算电协同将带动相关产业规模突破万亿元。电促会提出三阶段发展路径:2023-2025 年为探索期,重点突破关键技术;2026-2030 年为全面协同期,建立市场化机制;2031 年后进入深度融合期,实现“算力即电力”的智能调度。这一演进过程将第九届未来网络发展大会白皮书算电协同技术白皮书 10 推动能源与数字两大革命实现历史性交汇。本章通过“问题-政策-实践-愿景”的逻辑链条,完整呈现了算电协同的发展背景。技术业务需求揭示了协同必要性,国家政策提供了制度保障,行业实践验证了可行性,最终形成“规划-调度-市场-产业”四维协同的愿景框架。这为后续章节的技术架构设计和应用场景探索奠定了坚实基础。图 1-1 算力与电力协同发展驱动逻辑图 第九届未来网络发展大会白皮书算电协同技术白皮书 11 二、二、算电协同功能算电协同功能架构及关键架构及关键使能使能技术技术 为推进算力电力协同创新发展,整合电力与算力资源,实现能源高效利用与算力灵活调度,进一步推动数字经济与能源领域深度融合,亟需开展算电协同体系架构与关键技术创新。本章首先介绍了算电协同功能架构,然后对算电协同潜在关键使能技术进行分析总结。2.1 算电协同功能算电协同功能架构架构 算电协同功能架构是实现算力系统与电力系统深度融合的功能支撑体系。该架构遵循分层解耦、模块协同、智能演化的设计理念,围绕资源调度、系统感知、任务控制、能效优化等核心目标,构建涵盖从基础设施到智能决策的完整功能闭环。整体架构划分为五个功能层级:基础设施层、数据接入层、智能决策层、应用服务层与安全保障层。图 2-1 算电协同功能架构图 第九届未来网络发展大会白皮书算电协同技术白皮书 12 (1)基础设施层)基础设施层 基础设施层是算电协同系统的物理承载基础,包括计算基础设施(如边缘节点、云平台、高性能计算集群)、网络基础设施(如确定性以太网、广域传输链路)以及能源基础设施(如光伏阵列、储能设备、电力监测终端)。本层负责算电任务的运行支撑与能量供给,要求具备高可用性、可扩展性与绿色化能力。(2)数据接入数据接入层层 数据接入层在算电协同中发挥着统一资源感知与数据支撑的基础作用,具体包括感知模块、建模模块与数据服务模块。具体功能有:实现对算力、电力、网络等多源异构资源状态的实时感知与数据采集、构建任务行为与资源状态的多维建模体系,支持预测评估与能效优化以及提供边缘与中心的数据缓存、分发与分析能力,为调度控制策略提供数据支撑1。该层实现算电资源的全域感知、精准建模与高效数据支撑,助力智能调度与协同优化。(3)智能决策智能决策层层 智能决策层是实现算电资源全局优化与任务智能调度的核心层级,融合了控制机制与决策智能。该层集成算力调度、电力分配、网络控制等功能模块,结合人工智能、大数据分析、强化学习等技术,开展资源预测、任务规划、碳排控制与成本评估。(4)应用服务应用服务层层 第九届未来网络发展大会白皮书算电协同技术白皮书 13 应用服务层负责对算电系统内各类服务能力进行统一注册、封装与组合。该层支持多租户接入、服务模板管理、任务部署调度与运行状态监控,确保算电服务的灵活调用与高效交付。(5)安全保障层)安全保障层 安全保障层为算电系统提供全面的可信运行环境。该层涵盖身份认证、访问控制、数据加密、隐私保护、可信交易与应急响应等功能,构建纵深防御体系,确保数据安全、交易可信与服务可用。算电协同功能架构通过五层功能模块的协同配合,实现从“资源运行”到“智能调度”的全流程闭环支撑。该架构可适应多业务场景、复杂资源环境与动态负载需求,为算电系统提供可持续、高效率、高可靠的服务支撑能力。第九届未来网络发展大会白皮书算电协同技术白皮书 14 2.2 算电协同算电协同关键关键使能技术使能技术 在算电协同体系中,使能技术是实现算力、网络与能源资源高效融合与协同调度的关键支撑。其涵盖从底层资源纳管,到能源多能互补调度,再到全局感知预测、确定性网络承载、智能化决策控制、全周期数字孪生以及多要素可信交易等多个环节。通过技术协同共同构筑面向绿色、低碳与高效运行目标的算电融合基础设施底座。表 2-1 算电协同关键使能技术表 技术名称技术名称 核心目标核心目标 关键方法关键方法 多元异构算力适配纳管 统一管理跨层级、跨架构、跨域的算力资源 资源建模与能力抽象、异构资源编排与统一调度、标准化接口与协议、“中心 边缘”纳管 多能互补电力协同调度 实现算力系统与能源系统的时空优化耦合 源网荷储一体化、多能互补、综合能源系统集成、任务负载预测与自适应调度 算电协同感知模型构建 实现算力、电力、网络多维资源的实时感知与预测 感知采集、智能融合、预测决策(LSTM、Transformer 等)高可靠确定性网络承载 保障算电任务传输的低时延、高可靠性 时间敏感网络(TSN)、SRv6、广域无损网络(RDMA、RoCEv2)、网络测量与反馈 生成式智能化决策控制 实现资源调度的智能生成与自适应优化 生成式算法(Transformer)、在线学习与反馈机制 全周期高实时数字孪生 构建算电系统的虚实映射,实现实时监控与优化 生命周期管理、实时监控与反馈、自适应控制 多要素高可信算电交易 构建透明、公平、可追溯的资源交易机制 区块链、智能合约、碳排放因子与能耗权重、多维资源组合交易 第九届未来网络发展大会白皮书算电协同技术白皮书 15 2.2.1 多元异构多元异构算力算力适配纳管适配纳管 在算电协同体系中,算力资源的异构性是调度管理的关键挑战。当前计算资源呈现出多层级(云、边、端)、多架构(CPU、GPU、FPGA、ASIC)以及多运营域(公网、私网、专网)并存的格局。与此同时,各类算力节点在任务响应能力、能耗水平、部署位置等方面存在显著差异,若无法统一建模与纳管,将严重制约协同效率。因此,构建面向多元异构算力资源的适配与纳管机制,是实现算电协同调度的核心基础2。面向异构算力系统的纳管体系,主要从资源建模、能力抽象、标准接口和自治控制四个维度进行构建:(1)资源建模与能力抽象:)资源建模与能力抽象:通过构建统一的资源建模框架,对不同类型算力资源的算力指标(如 FLOPS)、能效比(如 TOPS/W)、网络延迟、功耗水平等进行标准化表达,形成可调度、可比对的虚拟算力单元(Virtual Computing Unit,VCU),为算电协同调度提供抽象载体3。(2)异构算力编排与统一调度:)异构算力编排与统一调度:引入容器化调度(如 Kubernetes)与算网融合调度框架(如 Volcano、KubeEdge),实现 CPU、GPU、FPGA 等异构资源的统一调度与按需编排,满足不同计算任务对性能、时延、能耗的差异化要求。(3)标准化接口与协议体系:)标准化接口与协议体系:面向算电平台与应用接入侧,建设支持 OpenAPI、gRPC、ONNX Runtime 等协议的标准化接口体系,确保多厂商、多系统环境下的资源能力可识别、可调用、可复用。第九届未来网络发展大会白皮书算电协同技术白皮书 16 (4)自治控制与边缘纳管:)自治控制与边缘纳管:构建“中心 边缘”双层纳管体系,在边缘节点部署智能代理模块,实现算力资源的状态感知、自主注册、动态调控与异常恢复,降低系统整体运维复杂度,增强纳管系统的可扩展性与鲁棒性。多元异构资源适配纳管体系的建立,不仅提升了资源统一管理的效率,也为实现弹性算力提供了必要前提,构筑算电协同系统的算力基础设施底座。2.2.2 多能互补电力协同调度多能互补电力协同调度 算电协同的本质,是算力系统对电力系统的深度感知、动态响应与反向驱动。在以可再生能源为主体的新型电力系统中,“源网荷储”一体化与“多能互补”协同机制成为能源高质量供应的关键支撑。实现算力系统与电力系统在时空维度上的优化耦合,是推动绿色、稳定、经济算电调度的必要路径。在“源”侧,融合风能、光能、水能等可再生能源,构建清洁化供能体系;在“网”侧,构建覆盖广域的智能输电网络,通过输配一体的能流调控系统,实现电能的跨区协调与精准传输;在“荷”侧,引入算力负载预测4与自适应调度策略5,实现任务电耗负载的动态转移与均衡调控;在“储”侧,部署灵活储能单元,支撑高波动负载下的稳定供能。此外,综合能源系统(Integrated Energy System,IES)进一步整合电、热、冷、气等多种能源形式,打通算电任务生命周期中可能涉及第九届未来网络发展大会白皮书算电协同技术白皮书 17 的跨域能流路径,为算力基础设施提供柔性、高效、低碳的能源支撑。通过能源管理平台,算力负载可与能源供给实时互动,实现动态价格驱动下的任务迁移与能耗分摊。该技术体系的最终目标,是构建“算为电服务、电为算赋能”的双向协同模型,推动算力基础设施与电力系统的同步演化,为构建绿色可持续的算电协同系统提供坚实支撑。2.2.3 算电协同感知模型构建算电协同感知模型构建 算电感知模型是实现算电协同系统智能调度的前提保障,其目标是实现对算力状态、电力供应、网络连接质量等多维资源信息的实时感知与动态预测,从而支撑任务在调度前的精准匹配与在运行中的自适应调整。感知模型主要分为三层架构:感知采集层、智能融合层与预测决策层。(1)感知采集层感知采集层:部署于算网能三类资源的关键节点,通过传感器、控制器与标准化接口采集当前运行状态信息。例如,算力侧监测节点 CPU 利用率、内存占用、电耗水平等;电力侧感知电压波动、负载响应、电价趋势等;网络侧感知带宽、时延、丢包等关键指标。(2)智能融合层智能融合层:基于边缘计算节点与中心调度平台,对感知数据进行时空对齐、语义关联与清洗降噪,构建统一的数据表示模型。(3)预测决策层预测决策层:是感知模型的智能核心,基于大数据驱动的机器学习模型(如 LSTM、Transformer、LightGBM 等)进行任务行为建模、能耗演化建模与网络 QoS 趋势预测,进而实现如任务执行第九届未来网络发展大会白皮书算电协同技术白皮书 18 时间预测、电力价格时序预测、节点拥堵概率评估等关键指标的前向推演。通过引入元学习、自适应学习等技术,可不断提升预测模型的泛化能力与鲁棒性。感知模型不仅提升了调度系统的智能化水平,还为绿色调度、碳排优化、能耗闭环控制等功能提供了决策基础,是支撑算电协同的关键使能环节。2.2.4 高可靠确定性网络承载高可靠确定性网络承载 在算电协同体系中,网络不仅作为资源传输的基础设施,更是连接算力、电力和调度控制各要素的关键纽带。算电任务对时延敏感性高、负载波动性大、控制反馈频繁,传统“尽力而为”的网络已难以满足协同调度所需的高可靠、低时延与高带宽性能。因此,构建支持确定性通信与资源感知调度的高可靠网络能力体系,成为算电融合发展的核心支撑。(1)确定性网络确定性网络基于时间敏感网络(Time-Sensitive Networking,TSN)与 IPv6 分段路由(Segment Routing over IPv6,SRv6)等技术,能够在多跳传输环境中实现端到端的低时延、低抖动与高可预测性。其核心机制包括时间同步、时隙调度、路径预留与流量整形等,适用于算电系统中对控制闭环要求高的场景(如电网调频、负载迁移、边缘推理任务传输等)。通过 TSN 调度机制,任务数据包可根据优先级与时限进行排队与转发,避免突发拥塞带来的性能波动。(2)广域无损网络)广域无损网络(Lossless WAN)通过 RDMA(远程直接内第九届未来网络发展大会白皮书算电协同技术白皮书 19 存访问)、RoCEv2、PFC(优先级流控)等协议构建跨区域、无拥塞的数据传输路径在广域调度环境下,算电系统跨域部署广泛,涉及多级边缘、云中心与分布式电源系统,需借助广域无损网络(Lossless Wide-Area Network)技术,保障高并发数据流的传输效率与一致性。无损网络引入拥塞控制(如 ECN 标记)、队列优化(如 RoCEv2)与端到端流控机制,在面对算力状态回传、能耗预测数据上传、电价曲线下发等数据流场景中,有效降低重传率与延迟波动,提升系统响应速度。此外,网络还具备资源感知与调度反馈能力。通过网络测量(Network Telemetry)技术,系统可实时采集链路利用率、时延变化、带宽瓶颈等信息,反馈给算网调度平台,辅助实现路径重选、任务转移与资源重配,提升整体算电调度的适应性与鲁棒性。通过引入确定性与无损通信机制,构建面向算电任务的高可靠网络基础,可为算电融合提供坚实的连接底座与动态支撑能力。2.2.5 生成式智能化生成式智能化决策控制决策控制 算电协同网络智能决策是实现高效资源管理和优化服务的关键环节。它实时监控分析海量数据,并据此动态调整资源分配,以满足变化的用户需求和业务要求。(1)决策生成技术:决策生成技术:综合分析用户意图、业务场景、资源状态等多维信息,运用智能算法自动生成最优的资源配置和调度决策。(2)自适应与反馈机制:自适应与反馈机制:系统通过在线学习持续更新模型参数,第九届未来网络发展大会白皮书算电协同技术白皮书 20 适应环境和需求变化。同时收集用户反馈和性能数据,不断优化决策模型,提升准确性和鲁棒性。综合运用这些技术,智能决策系统能高效管理资源、优化服务,提升用户体验和系统性能,增强响应速度、准确性、鲁棒性和灵活性,为算力网络智能化奠定基础。图 2-2 Transformer 原理 在智能决策中,生成式智能算法(如 Transformer)在算力能源管理等领域作用显著。Transformer 是一种先进的序列建模方法(原理见图 2-2),核心组件为编码器和解码器:编码器:编码器:输入序列经词嵌入转换为向量,再经多层编码器处理。每层包含自注意力结构(计算元素间相关性,捕捉全局上下文)和多头注意力机制(并行多角度建模,增强表达能力),以及进行非线性变换的前馈网络。解码器:解码器:除自注意力、多头注意力和前馈网络外,增加了编码第九届未来网络发展大会白皮书算电协同技术白皮书 21 器-解码器注意力子层(建模输入与输出序列间相关性)。多层解码器堆叠,逐步生成目标序列并参考源语言上下文。处理步骤:处理步骤:输入编码(词嵌入)编码器层(生成编码矩阵)解码器层(输出目标序列)。图 2-3.Stable Diffusion 原理 Stable Diffusion 是一种先进的图像生成技术(原理见图 2-3),通过多步骤从噪声生成高质量图像,涉及编码器、解码器、学习的条件、采样和去噪阶段:编码阶段:编码阶段:预处理后,图像经编码器网络转换为潜在图像(捕捉关键特征)。学习条件学习条件:提取编码器特征或其他条件信息(如使用 CLIP 编码器基于对比学习对齐图文语义的模型)指导生成。采样阶段采样阶段:对潜在图像采样,生成向量输入生成器。去噪阶段:去噪阶段:迭代使用生成器网络和学习条件,从噪声逐步恢复高质量图像。其核心技术包括:第九届未来网络发展大会白皮书算电协同技术白皮书 22 VAE(变分自编码器):(变分自编码器):由编码器(压缩图像,保留深层特征)和解码器(恢复至像素空间)组成。条件编码器(如条件编码器(如 CLIP):):提供图文语义指导。UNet:经典的编码器-解码器结构图像分割模型。编码器(卷积和池化层)逐步提取特征并降维;解码器(上采样和特征融合)逐步恢复尺寸并生成结果。在此用于实现高质量图像生成,有效融合多级特征处理不同目标,具有强鲁棒性。2.2.6 全周期高实时全周期高实时数字孪生数字孪生 在算电协同的控制阶段,数字孪生技术的应用至关重要,能有效提升网络管理效率、优化资源调度。其应用主要体现在孪生体的生命周期管理、实时监控与反馈、自适应控制策略等方面。(1)生命周期管理涵盖从创建、运行、优化到维护的全过程。创建阶段创建阶段,系统需从物理算力网络中获取基础数据,包括计算节点拓扑结构、资源利用率、数据流向等,并利用数据建模技术构建虚拟映射体,此过程依赖传感器数据采集、网络日志分析以及人工智能算法,以确保孪生体对物理系统的映射精度足够高。运行阶段运行阶段,孪生体实时同步物理网络的状态数据,并通过多层次建模手段,实现对算力资源的动态监测和智能预测,结合大数据分析和机器方法学习,不断优化预测能力,提高资源调度的准确性,确保算力网络的高效运作。优化阶段优化阶段,系统基于长期运行数据和动态环境变化,对孪生体第九届未来网络发展大会白皮书算电协同技术白皮书 23 进行智能调整,适应不断演进的计算需求,优化过程主要依赖数据挖掘、强化学习以及自适应优化算法,涉及能耗管理、资源负载均衡以及异常检测等多个方面。当孪生体的运行性能下降或算力网络发生重大变更时,需进入维护或替换阶段,系统对孪生体的建模精度进行评估,并依据最新的物理网络状态对孪生体进行升级或重构。(2)实时监控与反馈机制使得算力网络能够在毫秒级时间内感知网络状态,并据此调整资源分配策略。在实时监控体系中,孪生体从物理网络中获取计算节点的运行状态数据,并结合历史数据进行趋势分析,以预测未来算力需求,这一过程依托于云计算、边缘计算以及大数据分析技术,使得孪生体能够在计算资源紧张或任务负载激增时,迅速调整调度方案,优化算力资源的利用率,同时提供可视化数据展示,使管理者能够直观了解算力网络的运行状况。(3)自适应控制策略的核心目标是根据算力需求的实时变化,动态调整计算资源分配方案。传统算力网络的控制机制基于固定规则设定,在面对突发计算需求或网络环境变化时存在明显局限性,而数字孪生的自适应控制策略依赖于强化学习、神经网络和深度学习等人工智能算法,能够在不断变化的环境中进行实时调整。自适应控制策略还能实现智能负载均衡与能耗优化,实时监测网络状态,根据当前计算需求,动态调整计算资源的分配,当计算需求低谷时,关闭部分计算节点,以减少能耗,而在计算需求高峰时,自动扩展计算资源,确保计算任务能够高效执行,同时利用历史数据预测未来计算需求,提前做好资源调度准备,减少突发计算需求对系统稳定性的影响。第九届未来网络发展大会白皮书算电协同技术白皮书 24 2.2.7 多要素高可信多要素高可信算电交易算电交易 算电协同系统作为多主体参与、多资源流动、多场景协同的新型体系,其资源调度与服务模式日益朝着市场化、自组织方向发展。在此背景下,传统依赖中心化平台的资源交易模式难以满足系统对透明性、公平性与可追溯性的需求。因此,构建基于区块链的算电资源可信交易机制,是推动算电协同迈向开放协同与高可信自治的重要路径。交易机制将算力供应商、电力供应商、任务需求方、调度平台等多方纳入统一的可信网络中,通过分布式账本技术实现资源状态、价格、交易等信息的同步共享与共识记录。系统引入智能合约机制,支持自动化的资源撮合、价格结算、服务审计等交易过程,降低交易成本与信任门槛。例如,当用户提交调度请求,平台可通过合约自动比对资源匹配度与碳排等级,在多方中择优生成交易对并完成资源绑定。可信交易机制支持多维资源的组合交易,如“算力 绿电”、“计算 带宽 时延保障”资源服务。平台可在交易中引入碳排放因子与能耗权重,实现绿色优先调度与碳资产管理。同时,系统支持引入可验证计算、可信执行环境等技术,确保服务方履约情况的链上可验证与纠纷可追溯,提升资源交易体系的可靠性与安全性。此外,平台还可与现有电力碳市场、算力服务平台进行对接,推动“算电碳”三要素在价值层面的融合交易。例如,完成某一绿色算力任务后,平台可根据实际能耗计算并发行碳积分,作为绿色任务的凭证,支持后续在能源积分交易市场中自由流通。区块链技术为算电资源交易构建了“可信账本 自动履约 多方协第九届未来网络发展大会白皮书算电协同技术白皮书 25 作”的数字信任基础。未来,基于可信交易机制的算电协同系统将具备更高的市场弹性、更强的资源流通效率以及更优的绿色发展能力,成为数字经济与绿色能源深度融合的重要支点。第九届未来网络发展大会白皮书算电协同技术白皮书 26 三、三、算电协同典型算电协同典型应用场景应用场景 在“双碳”目标引领下,算力基础设施与电力系统的深度融合已成为推动能源转型与数字经济发展的关键路径。一方面,以“算随电调”为代表的调度机制,通过柔性调控算力负荷主动适配新能源出力特性,有效提升可再生能源消纳能力;另一方面,“电随算用”模式通过电力资源的动态优化配置,满足算力负荷的差异化需求,实现绿电高效利用与算力稳定运行的协同。两种模式互为补充,共同构建了“源-网-荷-储-算”一体化发展的新格局。图 3-1 典型算电协同应用场景 3.1 算随电调,助力电力新能源消纳算随电调,助力电力新能源消纳 在“双碳”目标驱动下,算力基础设施作为新型能源负荷的重要组成,正在成为影响电力系统运行的新变量。随着大模型训练、人工智能推理、批量渲染等高能耗算力任务需求激增,算力能耗占比持续上升,对电网负荷和新能源消纳能力提出更高要求。在此背景下,“算驱电”调度机制应运而生,即通过算力任务的柔性调控,主动响应电力系统状态,提升可再生能源利用水平,实现算力与电力系统的深度第九届未来网络发展大会白皮书算电协同技术白皮书 27 融合协同。表 3-1 算随电调应用实例表 序号序号 项目项目 位置位置 1 Tesla 自动驾驶训练集群调度 美国内华达州 2 Microsoft Azure 爱尔兰风电数据中心 爱尔兰都柏林 3 字节跳动 清洁能源算力迁移项目 内蒙古乌兰察布 4 阿里云算力-电力联动项目 浙江杭州(1)发展特点发展特点 当前,我国可再生能源发展呈现出集中式大规模接入与分布式多当前,我国可再生能源发展呈现出集中式大规模接入与分布式多点消纳并存的格局,风电、光伏等清洁能源资源具有明显的波动性和点消纳并存的格局,风电、光伏等清洁能源资源具有明显的波动性和间歇性,部分地区间歇性,部分地区“弃风弃光弃风弃光”问题仍较突出问题仍较突出。与此同时,算力资源呈现“可转移、可延迟、可拆分”的典型特征,为其作为“柔性可控负荷”参与电力系统调度提供了现实基础,具备广阔的技术应用前景。然而,算力参与电力系统调度仍面临多重挑战:一是算力任务调度与电网调控节律之间存在时空偏差。由于算力任务的调度粒度与电网调控节律存在时空偏差,因此亟需建立更精细化的预测与匹配机制。二是算力调度策略无法完全适配电力系统的调度特点。当前算力调度主要以算力利用效率为核心,与能源调度的目标不一致,缺乏面向电力系统友好性的联合优化策略。三是能源系统与算网系统之间的建模标准存在壁垒。由于能源系统与算力系统之间仍存在数据壁垒与接口不兼容问题,联合优化过程中容易产生模型冲突,因此制约跨系统协同能力的提升。第九届未来网络发展大会白皮书算电协同技术白皮书 28 (2)应用)应用现状现状 在实际应用中,西北风光基地与“绿电算力集群”的协同调度便是“算随电调”的典型场景。我国西北地区(如甘肃、宁夏)拥有多个千万千瓦级风光基地,是新能源富集区域,但同时也面临着新能源消纳难与算力需求增长的双重挑战。一方面,风电、光伏受天气影响显著,出力随机性强,若本地用电负荷不足,易出现“弃风弃光”现象,2022 年西北弃风率约 3%,弃光率约 2%,仍有较大优化空间;另一方面,数字经济的蓬勃发展推动 AI 训练、数据备份、视频渲染等算力任务激增,而算力中心属于高耗能设施,单座超算中心年耗电量可达 10 亿度以上,若依赖火电则与“双碳”目标相悖。基于此,当地在“风光”基地周边布局“绿电算力集群”,借助“算随电调”模式实现新能源与算力的协同,既解决了新能源消纳问题,又为算力提供了低成本的绿电。该场景的具体运作流程在不同时段呈现出不同特点。在白天光伏大发时段(9:00 15:00),光伏出力峰值较高,风电出力较低,总新能源出力存在过剩情况。此时,算力调度系统启动“负荷提升模式”,优先运行延迟容忍类任务,使算力集群满负荷运行,恰好消化过剩的新能源电力,避免弃光。傍晚风光交替时段(17:00 19:00),光伏出力快速下降,风电出力有所上升,但总新能源出力无法完全覆盖本地负荷,存在缺口。算力调度系统切换为“负荷削减模式”,仅保留实时性任务,降低算力负荷,以匹配新能源出力与本地负荷的总和。夜间风电波动时段(23:00 次日 3:00),光伏停运,风电出力波动大,第九届未来网络发展大会白皮书算电协同技术白皮书 29 可能导致电力供需失衡。算力调度系统启动“动态跟随模式”,根据风电出力的变化实时调整算力负荷,以实现电力的平衡。“算随电调”模式的有效运作离不开关键支撑技术。新能源出力预测系统基于 AI 模型,结合气象数据提前预测风光出力,为算力调度提供时间窗口;算力任务分级机制将任务分为实时性、延迟容忍和弹性三类,便于根据电力情况进行调度;电算协同调度平台整合各类数据,通过优化算法实时输出调度指令,实现电力与算力的协同。该应用场景取得了显著的效果,新能源消纳率大幅提升,风光弃电率从原 3%5%降至 1%以下,年增新能源利用量超 1 亿度;算力成本降低 200%,得益于新能源低谷电价;同时,低碳效益显著,50 万千瓦算力集群年减碳量约 40 万吨(等效替代火电)。(3)未来需求及发展趋势未来需求及发展趋势 面向未来,应构建“源-网-荷-储-算”一体化协调控制架构,通过融合可再生能源功率预测与算力负载预测,建立基于绿电友好性的算力调度模型,动态匹配任务类型与可用清洁电力资源。在此基础上,结合碳价、电价、负荷调节能力等多源信号,引导算力任务向新能源出力高峰区域与时段迁移,通过算力任务的集中调度提升可再生能源的即使消纳水平,同时推动算力基础设施向绿色、低碳、高效方向演进,助力构建新型电力系统与智能算力网络深度融合的发展新格局。3.2 电随算用,满足算力新负荷需求电随算用,满足算力新负荷需求 在新型电力系统构建和“东数西算”工程加快推进的背景下,我第九届未来网络发展大会白皮书算电协同技术白皮书 30 国算力基础设施正逐步向风光资源富集、绿电占比高的区域集聚。为提升可再生能源本地消纳能力,实现绿色能源与数字算力的融合应用,“电驱算”调度机制应运而生。该机制通过可再生能源侧的主动感知捕捉可再生能源的出力波动,引导可延迟算力任务的调度决策与适时启动,有效促进新能源出力与算力负荷的动态耦合,成为推动源-荷协同、促进绿电增值的重要路径。表 3-2 电随算调应用实例表 序号序号 项目项目 位置位置 1 美国德州“ERCO”弹性算力电网 美国得克萨斯州 2 冰岛地热-算力协同系统 冰岛雷克雅内斯半岛 3 深圳5G 基站 虚拟电厂项目 广东深圳 4 青海绿电 算力一体化示范区 青海海南自治州(1)发展特点发展特点 当前当前“电驱算电驱算”应用仍面临协同能力不足的问题。应用仍面临协同能力不足的问题。其主要问题有以下三个方面:一方面,新能源出力与算力任务间歇的维度不一致。新能源出力的间歇性与算力业务运行的连续性存在时序不匹配问题,需依赖高精度的负荷与资源预测模型;另一方面,算力任务迁移约束复杂。算力任务的跨域迁移涉及算力调度、链路传输与业务可靠性等多重约束,系统响应能力和成本控制能力要求较高;最后,电力系统与算力系统的协同缺乏一致性协议。电力系统与算力系统间缺乏统一的资源编排接口与调度协议,统一调度还存在困难,制约协同机制的高效落地。第九届未来网络发展大会白皮书算电协同技术白皮书 31 (2)应用现状应用现状 在东部 AI 算力枢纽与“灵活电力池”的动态适配场景中,东部沿海地区作为数字经济核心区,算力需求巨大,但面临算力负荷波动剧烈、电力保供压力大及绿电替代需求迫切等挑战。为此,当地构建“灵活电力池”,整合多元电力资源,围绕算力负荷变化进行动态调度。在常规算力时段,以稳定负荷为主,电力池优先启用基荷电源并辅以调节电源,维持供电稳定;算力高峰时段,启动全量电源协同并启用需求响应备用,保障电力供应不缺口、不波动;算力低谷时段,削减可调电源出力,启用低成本绿电,同时让储能系统充电,降低用电成本。这一模式的有效运作依托于关键支撑技术体系:首先,算力负荷预测系统基于人工智能算法与大数据分析,可对算力集群的运行状态、任务调度及能源消耗进行分钟级动态预测,误差率控制在 3%以内;其次,协同调度技术通过建立电力算力资源双维度模型,实现风光储等新能源、电网侧可调节负荷与数据中心算力需求的智能匹配,提升资源利用效率超 20%;此外应用该模式通过动态算力调度与电力供应的精准匹配,将算力系统的平均故障间隔时间提升 40%,关键业务连续性保障能力显著增强;依托智能负荷预测算法,电力资源利用率从68%提升至 85%,有效降低电网峰谷差;在绿电消纳方面,实现年度绿电占比达 75%,超额完成区域碳减排目标,经测算每年可减少二氧化碳排放超 12 万吨;同时,通过错峰用电策略与电力市场交易优化,企业综合用电成本同比下降 18%,实现经济效益与环境效益的双重第九届未来网络发展大会白皮书算电协同技术白皮书 32 突破。(3)未来需求及发展趋势未来需求及发展趋势 未来,构建面向“电驱算”场景的一体化感知与协同调度平台,是实现可再生能源柔性负荷引导的关键路径。该平台应集成新能源出力预测、算力任务特性度量、迁移成本评估等核心能力,通过发布“算力调度时间窗口”,驱动 AI 训练、数据分析等可调任务向绿电富集时段和区域主动靠拢。同时,结合实时电价、碳排放强度和系统负荷水平,实现多维调度信号融合控制,推动绿电高效利用与算力系统绿色运行的深度耦合。第九届未来网络发展大会白皮书算电协同技术白皮书 33 四、算电协同生态建设四、算电协同生态建设 在“双碳”战略、数字中国与新型电力系统共同推动的背景下,算力基础设施作为新型生产力的关键支撑,其运行能耗与电力系统间的互动关系日益紧密。构建算电协同生态,已成为推动产业绿色升级和技术创新融合发展的重要抓手。“十五五”期间,我国需统筹考虑算力侧与电力侧协同规划、智能响应与绿色低碳路径,实现从单点优化向系统性协同升级,形成全产业链高质量发展新格局。4.14.1 电力侧发展与绿色转型电力侧发展与绿色转型 4.1.14.1.1 优化可再生能源供给体系优化可再生能源供给体系 随着人工智能、大数据、云计算等新兴技术的快速发展,算力基础设施呈现出高密度部署、高能耗运行的特征,电力消耗量逐年攀升,绿色低碳的能源供给能力正成为算力可持续发展的基础保障6。构建以可再生能源为主体的电力供给体系,不仅是响应国家“双碳”战略的重要举措,更是推动算力产业绿色转型、实现经济社会高质量发展的必然要求。一方面,应加快构建以风电、光伏、水电、生物质能等为核心的多元化清洁能源生产体系,推动可再生能源从集中式开发向分布式融合转变。在资源禀赋优越的西部地区和风光富集的边缘区域,应加快推进大型风光基地建设,配套建设高可靠性输电通道,为全国算力节点提供稳定可控的绿色电力。同时,在东部用电负荷密集地区,可因地制宜发展分布式光伏、建筑光伏一体化等新型供电方式,实现“就第九届未来网络发展大会白皮书算电协同技术白皮书 34 地发电、就近使用”,有效缓解电力调配压力。另一方面,应以“源-网-荷-储”协同发展为主线,构建柔性、高效、智能的新型电力系统。具体而言,在“源”端推动风光等新能源灵活接入和输出平滑化,在“网”端加快构建坚强智能电网与跨区互联通道,在“荷”端优化算力负荷调度方式、提升响应能力,在“储”端加快部署新型储能设施如锂电池、液流电池、氢储能等,实现多时空尺度下的电力调节与冗余释放,增强算力与电力之间的耦合度和协同度。图 4-1 能源供给示意图 此外,应重点支持在清洁能源资源富集区建设“零碳园区”或“可再生能源直供型”算力集群。例如在青海、内蒙古、新疆等地,依托光伏、风电优势,打造清洁能源供电的智算中心或超算基地,实现算力资源“就近绿色供给”,减少长距离输电损耗,提高能源利用效率7。在这类示范园区中,可探索能源互联网、园区级微电网、源荷储一体化系统的深度融合,为全国算力与能源协同发展提供先行先试样板。同时,还应注重绿色电力的市场机制创新。通过推动绿电交易、电力现货交易与算力调度的联动机制,建立算力负载与绿色电力之间第九届未来网络发展大会白皮书算电协同技术白皮书 35 的实时动态映射关系,使算力设施能够依据绿电价格变化灵活调整任务排布与能耗策略,实现资源与环境效益的最优协同。绿色电力消费凭证(GEC)和碳配额制度也应逐步引入算力行业,使算力企业通过市场化手段实现低碳运营、环境友好型发展的目标。4.1.24.1.2 完善供需动态平衡机制完善供需动态平衡机制 供需平衡的可持续运行需市场化调节机制支持,应完善电力现货市场和辅助服务市场,建立与算力用电行为挂钩的价格信号传导机制,引导算力基础设施依据电力系统运行状态灵活调整运行策略。政策引导方面,可通过绿色电价、差异化电费、碳积分奖励等方式,推动算力设施在非高峰时段运行或优先使用清洁能源,提高系统调节响应积极性。感知与控制系统能力提升也是关键,构建面向电力与算力融合的统一调控平台,实现电力供需态势、算力资源分布及响应措施的全局感知与统一调度。在关键节点部署智能计量和快速控制装置,实现微秒级数据采集与指令响应,提升调度响应精度和系统协同效率。推动相关标准与制度制定完善,明确算力设施参与电力系统调节的技术规范、数据格式和接口协议,建立统一规则体系。构建多方协同工作机制,推动传统供给中心平衡体系向负荷柔性与供需协同的动态调节机制转型,促进绿色、稳定、高效的能源-算力融合生态建设。4.1.34.1.3 提升算力产业支撑能力提升算力产业支撑能力 对算力产业的支撑能力方面,算力作为新质生产力的重要体现,能源作为其运行的基础资源,其供给质量、调配效率和绿色属性直接第九届未来网络发展大会白皮书算电协同技术白皮书 36 影响产业整体发展质量。实现算力基础设施的集约化、高可靠和低碳运行,需系统构建适应算力产业需求的多维能源支撑能力。首先,提升能源供给的可靠性和适配性是保障算力系统稳定运行的前提。智算中心和超算节点对电力供给有高连续性和冗余性要求,应围绕重点区域建设高可靠、高负载电网接入体系,优化供电路径结构,增强电源冗余配置能力。配置区域级或站级储能系统,构建“主电源 储能 备电”三重保障模式,提高抗扰能力。为提升能源使用效率,引导算力产业开展能源精细化管理,通过建设能耗管理系统和能效监测终端,实现对机房负载、电源系统、冷却系统全流程能耗的数据采集和智能分析,推动 PUE 等核心指标持续优化9。探索负荷聚合与边缘调度机制,将边缘节点零散计算任务统一纳管,提升算力与电力资源协同调度能力,降低能耗冗余。构建绿色能源导向的能源接入体系,是算力行业低碳转型关键。应在风光资源富集区和沙漠荒漠等绿电潜力区域布局清洁能源直供算力集群示范项目,实现电源侧绿色化、负荷侧集约化和网络侧高效化协同。结合绿电消纳政策与市场机制,引导算力企业通过集中式绿电采购和可再生能源证书交易提高绿电使用比例。建立分类分级能源服务体系,针对不同算力场景(如超算中心、大规模云计算、边缘计算节点)设计差异化的供电保障方案,兼顾稳定性、经济性与绿色属性。最后,加强能源与算力产业技术标准和运维体系对接,推动绿色运维技术、智能监测预警与快速响应体系建设,提升系统整体运维效率和安全水平。通过构建高可靠、低碳、高效、智能的能源支撑体系,为算力基础设施提供坚实保障,助力构建绿色低碳第九届未来网络发展大会白皮书算电协同技术白皮书 37 的数字经济发展新生态。4.24.2 算力侧规划与能源协同算力侧规划与能源协同 4.2.14.2.1 规划与布局算力基础设施规划与布局算力基础设施 算力侧发展规划同样需紧密结合能源禀赋、通信网络布局及政策导向,推动算力资源与清洁能源基地协同布局,实现算力资源的合理分布和绿色高效运行。超算中心与智算中心需实现由东向西梯度转移,优化网络传输路径,提升算力资源全国平衡与调度效率。数据中心建设标准应强化绿色低碳指标,推动 PUE、WUE 等达到国际先进水平,积极推广液冷等节能技术10。边缘计算节点需结合分布式电源、储能和微电网建设,提升能源供给的灵活性和系统的鲁棒性。异构计算架构融合与资源池化平台建设,满足多样化业务对算力的动态分配需求。构建“中心-边缘-终端”三层协同体系,支持多样算力应用。加强标准化体系建设,推动算力资源接入与能效评估标准统一,提升算力绿色发展水平。此外,还需加强标准体系建设与技术体系对接,推动资源接入、能效评估、调度接口等关键环节的标准化、模块化,提升算力设施建设的通用性与兼容性。在政策层面,加快出台异构算力资源配置与绿色能耗评估导则,推动算力设施向高性能、可扩展、绿色低碳方向加速演进。通过上述多层次、系统化的基础设施规划与建设布局,将有力夯实算力产业发展的底座,支撑智能经济的快速发展,推动我国算力体第九届未来网络发展大会白皮书算电协同技术白皮书 38 系实现结构优化、效能提升与绿色转型的战略目标。4.2.24.2.2 构建算力构建算力-电力接口技术电力接口技术 随着大规模算力基础设施的不断建设,算力系统对电力系统的依赖愈加紧密。算力设施已不再是传统意义上的被动用能方,而逐步演变为具备柔性调节能力的负荷资源,在新型电力系统建设中具备积极作用。构建高效、标准化的电-算接口体系,是实现算力基础设施绿色运行与电网协同调节能力提升的关键环节。图 4-2 算力-电力接口技术示意图 当前,算力负载具备高度可编程性与运行时可控性,在任务调度、资源分配等环节具备较强的弹性,能够根据外部能耗信号动态调整运行状态。结合智能调度系统,可在不影响关键计算任务执行质量的前提下,释放出一定比例的调节能力,对应电网的负荷波动进行响应。通过构建具备时效性、电价联动性和能耗约束能力的运行策略,推动算力资源主动参与电力系统的频率控制、负荷平衡和需求响应,提升第九届未来网络发展大会白皮书算电协同技术白皮书 39 整体系统运行的稳定性与柔性。面向新型电力系统发展趋势,需要推动算力设施深度接入电力市场体系,在技术上打通两类系统间的接口屏障。为此,应建立覆盖监控、通信、调度等多维度的技术对接标准,确保算力平台能够实时接收电网负荷状态、价格信号和调控指令,并据此进行能耗调度与算力迁移。算力任务的批处理属性、低时效性容忍度等特点,使其具备成为可中断负荷的潜力,在负荷侧资源日益多样化的背景下,提供了一类全新的调节资源形态11。此外,在能源互联网和多能融合背景下,还需构建统一的算力负荷模型与运行行为描述机制,使电力系统能够识别并预判算力运行对供能系统的影响。例如,通过建立动态计算功耗曲线与任务类型映射关系,可实现算力负载在不同工况下对电网功率变化的预测响应,从而纳入系统级调控模型中。标准体系建设是推动算力设施参与电力市场交易和辅助服务的前提。应制定涵盖算力设备状态感知、任务调度接口、电量与功率反馈、响应确认机制等内容的互联协议,实现算力平台与电网调度平台之间的信息同步与控制闭环。配套数据安全与隐私保护机制,确保算力运行数据在调度过程中的可控、可审与合规使用。面向未来,应鼓励各类智算平台、边缘节点及数据中心运营方参与需求响应机制试点,在新能源占比高、电网调节能力薄弱的区域开展算力调节能力评估与验证。通过构建多类型算力节点响应特性数据库,建立典型场景下的调度机制,为形成统一的技术标准体系和市场第九届未来网络发展大会白皮书算电协同技术白皮书 40 交易机制提供基础支撑。通过推动算力系统从单一耗能载体向可调节负荷资源转变,构建完善的电算接口技术体系,将为新型电力系统注入新的柔性资源,有效提升能源使用效率,推动算网融合系统向低碳、智能、高效方向持续演进。4.34.3 平台侧建设与功能优化平台侧建设与功能优化 为实现绿色低碳发展目标,推动新型基础设施高质量建设,构建算电协同平台成为实现算力网络与电力系统高效融合的重要路径。当前,随着数据中心规模持续扩大和计算需求快速增长,算力设施的能耗问题日益突出,迫切需要构建以“网络运营商、算力服务商、电力能源企业”三方为核心的算电协同体系,实现资源高效调度与能耗动态控制。在此背景下,算电协同平台建设应围绕资源集约化、能耗优化和调度智能化三大核心目标展开,打通算力供需与电力供需之间的壁垒,推动算网与电网的深度融合。平台总体架构平台总体架构可划分为协同控制层、资源接入层以及数据与服务层。其中,协同控制层负责调度逻辑的统一与策略制定,涵盖算力资源与电力资源的协调控制机制。资源接入层实现不同来源的算力节点(如边缘、云端、终端)与电力资源(如传统电网、可再生能源、储能装置)的统一接入与管理。数据与服务层则汇聚平台运行状态、用电负载、算力任务以及碳排放数据,通过智能分析技术,支撑上层优化控制和动态决策。第九届未来网络发展大会白皮书算电协同技术白皮书 41 下表简要列出了平台架构的三层功能:表 4-1 平台架构功能表 层级层级 功能描述功能描述 协同控制层 统一调度策略制定,实时协调算力调度与能耗调配,实现最优资源匹配 资源接入层 对接多类异构算力和电力资源,保障平台资源可扩展性与可调控性 数据与服务层 提供任务预测、电力动态分析、碳排监测等数据支撑,赋能智能化平台运行 平台核心功能平台核心功能模块主要包括四个方面:一是算电资源映射模块,通过构建算力任务特征与用电曲线之间的对应关系,实现资源配置的精准化;二是多方协同调度模块,支撑网络运营商、算力服务商、电力能源企业的信息互通与策略联动,提升整体系统响应能力;三是碳排放监测与控制模块,借助传感与数据采集技术,实时掌握不同计算任务或节点的碳排放数据,并提供优化建议;四是基于市场机制的激励模块,引导用户或算力服务商在电力紧张时主动调整任务策略,或利用绿电资源以获取经济激励,从而推动绿色调度目标实现。算电协同平台在多个典型场景下展现出显著效益。例如在高能耗任务分流方面,平台可将非关键任务自动迁移至低碳或低电价区域执行,从而缓解本地电网压力并降低碳排放;在用能负荷响应场景中,平台结合电价波动或供需变化,动态调整算力任务执行顺序与节点分布,实现算电双赢;而在能源与计算资源联合规划场景下,平台还可依据区域算力布局与电力结构,形成城市级或园区级的绿色算力部署策略,提高资源利用率的同时支持区域能源系统平衡。具体场景与预期收益如下表所示:第九届未来网络发展大会白皮书算电协同技术白皮书 42 表 4-2 场景与预期收益说明表 应用场景应用场景 场景说明场景说明 预期效益预期效益 高能耗任务分流 将可延迟任务迁移至绿电丰富或电价低区域执行 降低碳排放与电网运行压力 用能负荷响应 根据电价或负荷预测动态调度算力资源 降低能耗成本,实现负荷平衡 联合资源规划 融合算力需求与区域电力结构制定部署策略 提高能效比,助力区域碳达峰 相关研究表明,算电协同平台能够显著提升资源利用效率,实现系统整体能耗降低 10 %8,同时增强算力系统的可持续运行能力。通过动态任务调度与电力响应机制的结合,平台实现了技术驱动下的碳减排目标,具备良好的可推广性。未来算电协同平台的持续发展应聚焦于三方面:首先,在标准制定方面,需构建统一的数据模型与资源接入接口,打通不同参与主体之间的技术壁垒;其次,在示范试点方面,应推动园区级、城市级的协同平台部署,验证关键技术与机制的可行性;第三,在激励机制设计方面,建议深化碳成本内部化手段,探索算电交易市场与碳交易机制的融合路径,以市场力量推动绿色算力交易行为的常态化与制度化。通过政策引导与技术创新双轮驱动,算电协同平台将在推动绿色低碳数字经济发展中发挥重要支撑作用。4.44.4 用户侧协同与服务创新用户侧协同与服务创新 4.4.14.4.1 推进需求侧响应模式推进需求侧响应模式 (1)算力弹性供给与电价联动机制 在当前以低碳目标驱动的算网能一体化交易体系中,传统以电力第九届未来网络发展大会白皮书算电协同技术白皮书 43 为中心的响应机制已难以支撑异构算力资源与多变电价环境下的高效协同调度。尤其是在算力任务灵活度提高、电价动态波动频繁的背景下,构建具备弹性调节能力的算力资源调度机制,并与电价联动成为实现系统优化的关键路径。算力弹性供给与电价联动机制本质上是一种将算力任务视作可调负荷的动态控制方式。系统根据实时电价波动,智能分析算力任务的调度优先级和延迟容忍性,在高电价阶段主动降低计算任务投入,或将非实时任务延后执行,以实现对电网负荷的柔性响应。同时,在低电价时段系统可调动大量待执行任务集中运行,提升能源使用效率并降低整体能耗成本。该机制不仅提升了算网系统的经济性,也为用户提供了绿色低碳的用算环境。通过将弹性调度能力嵌入算力平台核心控制逻辑中,系统可实时感知电价变化并执行任务迁移策略,支撑算力资源与能源价格的协同演进,从而提升整体算网能系统的时空资源利用率。图 4-3.算力弹性供给与电价联动机制示意图(2)用户侧储能 算力资源聚合模式 随着用户侧储能设备的普及和能算融合趋势的增强,构建面向多资源协同的“储能 算力”聚合机制成为提升用户侧响应效率的重要方式。该模式通过在本地部署储能设备,并与算力服务节点形成深度耦合,实现用户负荷在能源和算力层面的双重可调。系统在电价高峰第九届未来网络发展大会白皮书算电协同技术白皮书 44 期调动储能释放能量支撑算力节点持续运行,避免因能耗成本过高而引发算力任务中断;而在电价低谷期,则集中调度大量算力任务运行,同时储能设备完成充电,形成良性的“能量蓄积-算力释放”循环。此外,在碳交易或绿色能源优先消纳等制度背景下,该模式也可将绿色能源优先匹配至具备高能效比的算力节点,从而优化任务的碳排放路径。在实际系统运行中,“储能 算力”聚合机制常通过本地能源管理系统或边缘智能平台完成,具备高响应性和良好的可扩展性。资源调度策略则需综合考虑任务延迟容忍度、设备能效、储能状态、电价趋势等多因素进行动态优化,以确保资源匹配效率与经济收益最大化。该模式有效推动用户从能源消费者转变为灵活调节参与者,同时也为构建基于负荷聚合与资源交易的算网能互动平台提供了坚实基础。4.4.24.4.2 创新算力能源交易模式创新算力能源交易模式 (1)虚拟电厂参与电力现货市场 在传统电力系统中,用户资源大多处于被动响应状态,缺乏对市场机制的主动适应能力。随着算力资源逐步具备调度性与市场交易属性,其与能源资源的融合也从辅助响应阶段进入到了正式交易阶段。算力能源交易模式即是在此背景下发展而来,通过构建面向市场化运行的资源交易体系,推动用户侧算力节点与电网侧现货市场、调度平台、综合能源管理系统实现直接联动。其中,“虚拟电厂参与电力现货市场”是最具代表性的机制形式之一12。算力节点作为新型可调负荷,其任务运行的时间性和空间性为电力系统调峰调频提供了巨大的柔性空间。通过接入虚拟电厂聚合平台,用户侧算力设备可根据市场第九届未来网络发展大会白皮书算电协同技术白皮书 45 电价信号提交可调负荷能力,并在电力现货市场中申报参与出清。系统可根据节点的历史运行曲线、服务等级、能耗特性等参数,对其调度能力进行动态评估与量化,形成可交易的负荷资源。图 4-4 算力能源交易模式图 在调度过程中,虚拟电厂平台作为中介聚合方,承担起算力资源的预测、管理与交易撮合功能。一方面,它能够将多个用户侧小型算力节点整合为具有规模效应的调节单元,以提高其市场议价能力;另一方面,通过嵌入区块链技术与智能合约协议,可实现交易过程的可验证与可追溯,确保算力任务调整的执行性与清结算的准确性。当电网侧发生负荷激增、频率波动或新能源出力波动时,系统即可调用这些具备“虚负荷”属性的算力节点进行即时卸载或迁移,以实现系统稳定性的快速恢复。这种交易模式打破了传统供需两端的刚性匹配边界,为算力市场与能源市场的融合提供了落地通道,也为用户侧资源价值释放创造了全新路径。(2)能算一体化综合能源服务 在更为集成化的服务场景中,面向高等级负载聚集区域和绿色用能需求强烈的用户,构建“能算一体化综合能源服务”模式已成为当前系统创新的重要方向。该模式以算力调度平台为核心控制引擎,以储能设备、分布式可再生能源与区域电网为资源支撑,通过统一的资第九届未来网络发展大会白皮书算电协同技术白皮书 46 源调配策略与能碳管理模型,实现从任务接收到能源调度、碳排跟踪、交易结算的全过程闭环控制。在这一体系中,算力服务不再孤立存在,而是作为综合能源服务的一部分,为用户提供低碳计算、绿色调度、能源优化等复合型解决方案。系统可根据用户任务的计算量、电价预测曲线与碳强度变化趋势,动态选择最佳的算力节点与能源路径,并通过智能合约完成服务部署与清算结算。用户不仅能够获得算力服务,还能同步享受绿色能源激励、电力成本优化及碳足迹减免等附加收益。第九届未来网络发展大会白皮书算电协同技术白皮书 47 五五、技术挑战与未来方向技术挑战与未来方向 在充分认识算电协同发展背景和应用场景的基础上,本章将深入剖析当前面临的核心技术挑战,并前瞻性地提出未来发展方向。通过“挑战-方向”的对应分析,为算电协同的技术创新和产业推进提供系统性指导。5.1 技术挑战技术挑战 5.1.1 系统复杂性,算电协同的纳管挑战系统复杂性,算电协同的纳管挑战 算电协同的一大核心技术挑战在于系统复杂性的指数级增长,这主要体现在跨层协同与异构资源整合的双重难题上。首先,系统需要实现从底层硬件到上层电网的多维度深度耦合:在硬件层面,需协调芯片级(如异构计算单元的动态电压频率调节)、服务器级(如液冷机柜的功耗-散热联动)与电网级(如需求响应信号)的实时交互;在软件层面,则要求调度算法能同时解析计算任务 QoS 需求、电力市场价格信号和碳排放约束等多目标参数。这种跨物理域、跨时间尺度的协同设计,使得传统分层优化方法面临严峻挑战。其次,在资源整合维度,云-边-端构成的异构算力网络呈现出三高三低特征高异构性(从云端 FPGA 到终端传感器)、高动态性(边缘节点随时离网)、高不确定性(可再生能源波动),但同时又存在低耦合度(缺乏统一接口)、低可见性(局部资源状态不可观测)和低时效性(广域通信延迟可能达百毫秒级)。这种矛盾特性使得全局资源协调如同在时变拓扑网络上求解动态博弈问题,需要开发新型数字孪生平台来实第九届未来网络发展大会白皮书算电协同技术白皮书 48 现“算力-电力-网络”三者的联合状态估计与预测性控制。5.1.2 资源动态匹配,协同控制的核心难题资源动态匹配,协同控制的核心难题 算电协同的另一大核心技术挑战在于资源动态匹配难题,这主要体现在两个方面:首先,算力需求的动态波动与电力供应的不稳定性(尤其是可再生能源的间歇性特征)需要实现实时精准平衡。由于算力负载往往呈现突发性和时变特性,而风电、光伏等清洁能源的输出受自然条件影响具有显著不确定性,二者在时空尺度上的动态匹配需要构建高响应的协同调控机制。其次,该问题本质上是一个多目标优化难题,需在性能(如计算任务完成率)、服务质量(如端到端延迟)和能源效率(如 PUE 指标)之间实现动态权衡。这要求设计具备在线学习能力的智能调度算法,既要考虑算力集群的异构性(如CPU/GPU 的能效比差异),又要兼顾电力系统的运行约束(如电网调频需求),最终形成跨域资源的最优分配策略。5.1.3 能效瓶颈,电力侧的关键制约能效瓶颈,电力侧的关键制约 算电协同面临的第三大核心技术挑战是能效瓶颈问题,这主要体现在集中式与分布式计算场景的双重制约。在集中式高密度计算场景(如超大规模数据中心)中,随着算力密度的持续提升,散热与供电效率逐渐逼近物理极限传统风冷散热已难以满足高性能计算芯片的热管理需求,而电力转换与传输损耗在总能耗中的占比显著增加,亟需通过液冷技术、高压直流供电等创新方案突破能效天花板。与此同时,在分布式边缘计算场景下,海量边缘节点的能源管理效率低下第九届未来网络发展大会白皮书算电协同技术白皮书 49 问题日益凸显:由于边缘设备通常部署在供电条件受限的环境中(如基站、变电站),其能源供给往往依赖本地化可再生能源或电池储能,而分布式节点的异构性、间歇性工作模式以及缺乏全局协同调度机制,导致整体能源利用率低下。这种集中式与分布式的双重能效挑战,要求构建跨层级的能效优化体系,从芯片级(如异构计算架构)、设施级(如智能冷却系统)到系统级(如算力-电力联合调度)实现全栈创新。5.1.4 安全与可靠性,交易机制的基础挑战安全与可靠性,交易机制的基础挑战 算电协同的第四大核心技术挑战聚焦于安全与可靠性的双重保障问题,这涉及物理层和网络层的复合风险。在物理可靠性层面,电力系统的固有波动特性(如电压暂降、频率闪变等电能质量问题)与计算设备的精密运行需求存在根本性矛盾毫秒级的电压扰动可能导致服务器集群的批量宕机,而可再生能源的大规模接入进一步加剧了电网的不确定性。这要求构建具备“算力-电力”状态感知能力的韧性架构,通过智能 UPS(不间断电源)、分布式储能与算力迁移的协同响应,实现从“供电中断耐受”到“供电质量敏感”的可靠性升级。在网络安全性维度,算电融合显著扩大了系统攻击面:一方面,计算侧的数据隐私可能通过电力侧信息(如功耗指纹)被逆向推导;另一方面,电网关键控制信号可能因算力平台的漏洞遭受供应链攻击。这种“数据流”与“电力流”的深度耦合,使得传统孤立防护体系失效,亟需发展基于零信任架构的跨域安全防护技术,包括可信执行环境(TEE)与电力物理隔离装置的联合部署、以及面向算电协同的入第九届未来网络发展大会白皮书算电协同技术白皮书 50 侵检测系统(IDS)该系统需能同时识别 APT 组织对服务器的网络渗透和针对变电站的虚假数据注入攻击。这种安全可靠性的多维保障,成为算电系统能否规模应用的关键前提。本节从系统复杂性、资源匹配、能效瓶颈和安全可靠性四个维度,全面分析了算电协同面临的技术挑战,为后续发展方向的确立提供了问题导向。5.2 未来发展方向未来发展方向 面对这些挑战,需要从技术创新、系统架构和市场机制等多个层面寻求突破,以下将具体阐述五大未来发展方向。5.2.1 智能调度技术从单目标优化迈向多模态协同,推动算力网络向智能调度技术从单目标优化迈向多模态协同,推动算力网络向全域资源动态匹配演进全域资源动态匹配演进 未来算电协同的重要发展方向在于智能调度与优化技术的突破,其核心在于利用人工智能和数字孪生技术实现电力与算力资源的高效动态匹配。一方面,基于强化学习、联邦学习等 AI 算法的预测性调度系统将成为关键,能够实时分析算力需求波动(如突发性 AI 训练任务)与可再生能源发电(如风电、光伏的间歇性输出)的时空关联性,并动态优化资源分配策略。例如,通过数字孪生构建“算力-电力”虚拟映射,结合强化学习的在线训练能力,可在满足计算任务 SLA(服务等级协议)的同时,最大化清洁能源消纳比例。另一方面,随着分布式能源(如屋顶光伏、分布式储能)和边缘计算节点的广泛部署,本地化协同将成为重要趋势。通过设计“光储算”一体化微电网第九届未来网络发展大会白皮书算电协同技术白皮书 51 架构,使边缘数据中心能够根据本地可再生能源发电情况动态调整计算负载(如延迟容忍型任务的错峰执行),甚至通过算力节点的灵活启停参与电网需求响应,实现“计算即负荷”的能源互联网新范式。这一方向的发展将显著提升算电系统的经济性和可持续性,但也面临分布式系统状态估计精度、多主体博弈均衡等关键技术挑战。5.2.2 绿色计算技术从能效提升转向全生命周期减碳,零碳数据中心绿色计算技术从能效提升转向全生命周期减碳,零碳数据中心架构加速普及架构加速普及 未来算电协同的另一关键发展方向是绿色计算与能源创新的深度融合,其核心在于通过跨领域技术突破实现算力基础设施的能效革命与清洁化转型。在硬件能效维度,液冷/浸没式散热技术将逐步替代传统风冷方案,通过相变材料与微通道设计的结合,使 PUE(电能使用效率)突破 1.05 的理论极限;同时,存算一体芯片、近阈值电压计算等低功耗架构的成熟,将重构计算设备的能耗范式例如基于3D 堆叠存储器的存内计算可减少 90%的数据搬运能耗。在供电架构层面,高压直流配电与固态变压器的规模化应用,有望将电能转换损耗从当前的 15%降至 5%以下,形成“芯片级-机柜级-园区级”的三级高效供能体系。在能源协同维度,面向算电协同的可再生能源消纳技术将成为突破重点:一方面,通过波动性适配算法(如基于 LSTM-GAN 混合模型的发电出力预测),使计算负载曲线主动追踪光伏/风电的波动特性,实现“算力跟随电力”的动态调度;另一方面,探索算力设施作为电网柔性负载的新模式如数据中心集群通过调节批处理任务时序第九届未来网络发展大会白皮书算电协同技术白皮书 52 参与电网调频,或利用异构计算单元(CPU/GPU/FPGA)的差异化能效特性构建虚拟储能池。这类创新不仅需要突破跨域建模技术(如统一量化计算任务与电力调节的价值当量),还需建立算力-电力市场的联合出清机制。最终,通过“硬件能效革新 系统协同优化”的双轮驱动,推动算电系统迈向“零碳计算”的新纪元。5.2.3 边缘计算与微电网从独立部署走向深度耦合,构建区域性能电边缘计算与微电网从独立部署走向深度耦合,构建区域性能电自平衡单元自平衡单元 未来算电协同的重要演进方向在于边缘计算与微电网的深度耦合,这将重塑分布式算力与能源系统的协同范式。在架构层面,边缘节点将演变为“算力-电力双枢纽”,通过集成分布式能源控制器(DERMS)与算力调度器,实现区域内计算负载与可再生能源的闭环优化例如 5G 基站搭载“光伏 储能系统”时,可基于业务流量预测动态调节边缘服务器的供电模式,使 80%以上的计算需求由本地绿电直接支撑。在服务能力维度,这种融合创造了“能源自洽型边缘计算”新形态,通过构建细胞化算电单元(Cell-based Computing-Power Grid),既能保障自动驾驶、工业 AR 等场景的毫秒级响应,又可实现区域能源的 90%以上自给率。在系统韧性方面,面向算力突发的微电网弹性设计成为关键突破点:一方面采用“异构储能矩阵”架构(如飞轮 锂电池 超级电容混合储能),通过多时间尺度能量缓冲匹配计算负载的秒级至小时级波动;另一方面开发“算力感知型保护系统”,当边缘数据中心突发热点事件(如大型模型推理请求激增)时,可智能触发微电网的孤岛运第九届未来网络发展大会白皮书算电协同技术白皮书 53 行模式,并优先保障 GPU 集群的供电质量。这种深度协同需要攻克两大技术瓶颈:一是建立计算任务 QoS 与电力系统稳定性指标的跨域等价模型,二是开发支持 10 万级边缘节点协同的分布式共识算法。最终形成的“边缘算力微电网”生态,将实现从“电力支撑计算”到“算电共生”的范式跃迁。5.2.4 政策体系从单一激励升级为多维生态构建,算力政策体系从单一激励升级为多维生态构建,算力-电力协同治电力协同治理框架初步成型理框架初步成型 未来算电协同的可持续发展离不开政策与生态体系的系统性构建,这需要从标准体系与市场机制两个维度进行突破。在标准化建设方面,亟需建立跨行业的融合性技术标准:一方面需制定算力碳足迹的精准计量规范,统一量化从芯片指令集到数据中心集群的碳排放当量(如基于 PUE 与碳强度指数的动态折算方法);另一方面要设计算电协同接口协议,涵盖电力需求响应信号与计算任务优先级的映射规则、异构算力资源的电网调频能力认证等。例如,通过 IEEE 与 IEC联合工作组推动 算力-电力互操作白皮书,解决当前“计算无碳标、电力无算力”的双轨制困境。在市场机制创新维度,算力与电力资源的市场化交易模式将成为关键探索方向:一是构建算力可调节容量市场,允许云服务商将闲置算力(如夜间 GPU 集群)以虚拟储能形式参与电力辅助服务交易;二是试点算电联合出清机制,在电力现货市场中引入计算任务延迟容忍度作为报价参数,形成“算力需求侧响应”的新型市场品种。这类创新需要政策端突破现有行业壁垒如允许数据中心运营商获取第九届未来网络发展大会白皮书算电协同技术白皮书 54 售电牌照,或制定算力负荷聚合商的准入规范。最终通过“标准牵引 市场驱动”的双轮机制,培育出涵盖设备商、运营商、交易平台的算电协同生态系统,实现从技术融合到商业闭环的跨越。5.2.5 量子计算与量子计算与 AI 大模型赋能调度系统,突破传统优化算法的算大模型赋能调度系统,突破传统优化算法的算力瓶颈力瓶颈 未来算电协同的创新发展还将深度依赖前沿技术的融合应用,特别是在可信交易与复杂优化两大关键领域。在能源-算力交易方面,区块链技术的去中心化协作能力将重构市场信任机制通过部署智能合约驱动的交易引擎,可实现分布式算力资源(如边缘节点闲置CPU 周期)与微电网绿电的原子级交易:例如基于 Hyperledger Fabric构建的联盟链平台,能够自动执行“发电预测-算力预约-绿电交割-碳迹追溯”的全流程,在保证交易透明性的同时将结算延迟压缩至亚秒级。更值得关注的是,区块链与物联网的融合将催生算力资源证券化新模式,使 GPU 算力、储能容量等抽象资源转化为可拆分交易的数字资产。在优化计算领域,量子计算的革命性潜力有望突破传统算力瓶颈:一方面,量子退火算法可高效求解百万级变量的“算力-电力”联合调度问题,在多项式时间内完成传统超算需数小时运算的 NP难问题(如含随机新能源出力的鲁棒优化);另一方面,量子机器学习将赋能跨域预测模型,通过量子神经网络同时处理电力负荷曲线与算力需求图谱的万亿级关联特征。当前需重点突破量子-经典混合计算架构,开发适配 NISQ(含噪声中等规模量子)设备的协同优化算法,为算电系第九届未来网络发展大会白皮书算电协同技术白皮书 55 统提供“量子优越性”加持。这两大技术的融合应用,将推动算电协同从“资源耦合”迈向“价值共生”的新阶段。本章构建了完整的“挑战-对策”分析框架,系统性地提出了算电协同的发展路径。智能调度技术解决资源匹配难题,绿色计算技术突破能效瓶颈,边缘计算与微电网耦合应对系统复杂性,政策体系构建保障安全可靠性,量子计算与 AI 大模型则为全面突破提供前沿支撑。这些方向相互关联、互为支撑,共同推动算电协同向更高效、更绿色、更智能的方向发展。5.3 算力电力协同发展建议算力电力协同发展建议 (一)强化政策支撑与体制机制创新(一)强化政策支撑与体制机制创新 当前我国算电协同发展仍处于关键起步期,亟需完善顶层设计与政策保障体系。建议由国家相关部委组织建立跨部门协调机制,制定算力电力协同发展三年行动计划,明确 2025-2030 年分阶段实施路径。重点在“东数西算”工程八大枢纽节点推行算力-绿电绑定政策,将新建数据中心绿电使用比例提升至 80%以上。同时创新资金支持模式,设立国家级算电协同发展基金,采用财政补贴与市场化融资相结合的方式,对符合 PUE1.25、绿电占比50%的示范项目给予最高 30%的建设补贴,并支持算力负荷参与电力辅助服务市场交易。(二)构建标准化技术体系与创新生态(二)构建标准化技术体系与创新生态 技术标准体系的统一是算电协同发展的基础保障。建议由电促会、信通院等机构牵头,制定算力-电力协同接口技术规范,重点解决第九届未来网络发展大会白皮书算电协同技术白皮书 56 三大关键问题:建立算力可调节容量计量标准,明确 1 万 GPU 时相当于 2MWh 电网调节能力的折算方法;统一电力-算力协同调度协议,基于图 2-1 所示的功能架构实现跨系统互联互通;完善碳排放动态折算体系,开发基于实时碳足迹因子的精准计量模型。在技术创新方面,应重点突破异构算力动态纳管技术、新能源出力与算力负载联合预测算法等核心难题,将预测误差控制在 5%以内,同时加快区块链技术在算电交易平台中的应用,实现绿电溯源与碳足迹全生命周期追踪。(三)打造示范工程与产业协同新模式(三)打造示范工程与产业协同新模式 选择青海、内蒙古等新能源富集区域建设 3-5 个国家级“零碳算力示范区”,形成可复制推广的典型经验。示范工程应实现三大目标:通过算力负荷就地消纳风光电力,参照青海柴达木 100%绿电中心的成功案例;规模化应用液冷散热与余热回收技术,将 PUE 控制在 1.1以下;提升算力参与电网调频的响应能力,确保响应时间小于 200 毫秒。在商业模式创新方面,重点培育“虚拟电厂 算力聚合商”新型业态,探索电力-算力-碳权捆绑交易机制,形成多元价值变现渠道。(四)健全评估体系与安全保障机制(四)健全评估体系与安全保障机制 建立科学的算电协同度评价指标体系(SEI),从能源匹配度、调度协同性、经济效益、技术创新和生态效益五个维度开展动态评估。其中能源匹配度重点考核绿电占比与新能源消纳率指标,权重设为30%;调度协同性主要评估响应速度与任务迁移成功率,占 25%权重;经济效益关注度电成本与碳减排收益,占 20%权重。在安全保障方面,构建“电力-算力”融合防护体系,电力侧部署量子加密通信设备,算第九届未来网络发展大会白皮书算电协同技术白皮书 57 力侧建立 TEE 可信执行环境,协同层开发跨域入侵检测系统,形成三位一体的安全防护网络。通过政策引导、标准先行、示范带动、评价保障的系统推进策略,最终实现比特驱动瓦特,瓦特赋能比特的协同发展愿景,预计到 2030 年带动相关产业规模突破万亿元。第九届未来网络发展大会白皮书算电协同技术白皮书 58 参考文献参考文献 1 郭力争,张翼飞,赵曙光.数据中心环境下能耗性能感知的优化方法J.北京邮电大学学报,2015,38(s1):72.2 熊伟,李兵.云计算环境下基于能耗感知的弹性资源管理机制J.四川大学学报(工程科学版),2015,47(2):112-116.3 罗亮,吴文峻,张飞.面向云计算数据中心的能耗建模方法J.软件学报,2014,25(7):1371-1387.4 Rossi M,Brunelli D.Forecasting data centers power consumption with the Holt-Winters methodC/2015 IEEE Workshop on Environmental,Energy,and Structural Monitoring Systems(EESMS)Proceedings.IEEE,2015:210-214.5 Smpokos G,Elshatshat M A,Lioumpas A,et al.On the energy consumption forecasting of data centers based on weather conditions:Remote sensing and machine learning approachC/2018 11th International Symposium on Communication Systems,Networks&Digital Signal Processing(CSNDSP).IEEE,2018:1-6.6 工业和信息化部.数据中心绿色低碳发展行动计划EB/OL.2021.7 国家能源局.2023 年可再生能源并网运行情况EB/OL.2024-01-25.8 国家电网公司能源研究院.算力设施与电力系统融合研究报告(2023)R.9 中国电子节能技术协会.中国绿色数据中心发展白皮书(2023)R.10 Uptime Institute.Global Data Center Survey 2023R.11 刘志刚,刘宝琛.算力资源柔性调度研究综述J.电力系统保护与控制,2022,50(14):174-183.12 国家发展改革委,国家能源局.关于加快推动新型电力系统发第九届未来网络发展大会白皮书算电协同技术白皮书 59 展的指导意见EB/OL.2021.

    发布时间2025-08-22 66页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 未来网络发展大会:2025网络原生智能架构重构安全网络一体化白皮书(83页).pdf

    未来网络技术发展系列白皮书(2025)网络原生智能架构重构安全网络一体化白皮书第九届未来网络发展大会组委会2025年8月 版权声明版权声明 本白皮书版权属于紫金山实验室及其合作单位所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:来源:紫金山实验室紫金山实验室等等”。否则将可能违反中国有关知识产权的相关法律和法规,对此紫金山实验室有权追究侵权者的相关法律责任。编写说明编写说明 主要编写单位:主要编写单位:紫金山实验室 主要编写人员:主要编写人员:逯云松、吴柯萌、黄一凡、刘超、郭栋、薛妍妍、李天萁、赵倩、周序、李煊、王晓露、冉茂莹 I 前 言 随着全球信息通信技术的快速发展,网络的智能化水平不断提升,网络智能化已成为核心研究方向之一,传统的网络架构在面对日益复杂的应用场景和多样化的用户需求时,逐渐显现出其局限性。面对云、边、物多元场景交汇的挑战,我们提出一种全新的架构思维网络网络原生智能(原生智能(Network-Native Intelligence),在安全网络一体化的基础上,可在网络自身之中、之上原生地生长出 AI 能力。本白皮书正式发布“网络原生智能架构网络原生智能架构”。该架构基于图建模与推基于图建模与推理能力的可编排智能框架理能力的可编排智能框架,具备高度解耦、自适应与跨域感知能力。框架天然融合了网络拓扑、安全策略、业务意图等要素,以图为基础、以编排为方法,可实现安全能力的智能组合与按需投送。在此架构之下,网络与智能不再是串联关系,而是共生于一体的共生于一体的协同系统协同系统。白皮书详细阐述该架构的设计理念、技术基础、核心能力、应用场景及行业落地价值,并引领行业进入“安全网络一体化”的新范式。本白皮书介绍了现有网络原生智能的背景与挑战,描述了网络原生智能的设计理念,通过安全网络一体化机制,颠覆传统网络与安全割裂模式,强调二者一体化共生,以智能为核心驱动,安全能力在网络中自然生长。技术基础以图建模和编排方法为核心,融合轻量级 AI模型、可扩展机制,实现高度解耦与自适应能力。核心能力涵盖感知、II 理解、决策和响应四个阶段,支撑安全能力的智能组合与按需投送。应用场景聚焦工业 4.0 时代的安全防护案例,结合云、边、物多元场景,提供针对性防御策略。行业落地价值体现在资源优化、专用性、可控性,引领“安全网络一体化”新范式,应对现代网络攻击的复杂性并提升整体系统防护效能。III 目 录 前 言.I 目 录.III 一、背景与挑战.1 1.1 研究背景.1 1.2 网络原生智能现状及挑战.3 二、网络原生智能理念.6 2.1 网络原生智能的定义.6 2.2 网络原生智能的核心特征.7 2.2 网络原生智能的安全基础.9 2.4 网络原生智能的概念对比.10 三、安全网络一体化机制.15 3.1 路由与策略协同.15 3.2 安全能力按需投送.18 四、图驱动智能编排的框架设计.22 4.1 感知、理解、决策、响应的核心能力.24 4.2 全网流量的实时感知与处理.27 4.3 拓扑、流量与安全状态的统一图建模.30 4.4 可编排智能引擎.40 4.5 插件化机制.47 五、框架落地与场景实践.50 IV 5.1 全网 DDoS 攻击检测与缓解方案.50 5.2 路由安全一体化解决方案.55 六、架构生态与未来展望.58 6.1 模块化开放的架构、生态与接口.58 6.2 迈向全面零信任及下一代 SASE 与 SD-WAN.61 6.3 构建可验证的安全智能体系.65 七、结语.67 附录 A:术语与缩略语.68 参考文献.70 1 一、背景与挑战一、背景与挑战 1.1 研究背景研究背景 人工智能(Artificial Intelligence,AI)是利用计算机或者由计算机控制的机器,模拟、延伸和扩展人类智能的理论、方法、技术及应用的一门新技术科学。随着大数据、云计算技术的普及,分布式存储和计算能力的大幅提升,人工智能在多个领域得到了快速应用,例如语音识别与合成、计算机视觉、知识图谱、自然语言处理、人脸识别、机器翻译、舆情分析、推荐系统、自动驾驶等。近年来美国政府在 国家人工智能研发战略规划的基础上,发布了国家人工智能研发战略计划,提出了 8 项国家人工智能研发战略,确定了联邦政府在人工智能研发方面投资的优先领域,以不断提升美国的人工智能应用能力1。其他国家也相继将人工智能技术提升到国家科技发展的战略高度,人工智能必将越来越深入地渗透到各行各业和社会生活的方方面面。它涉及的范畴包括自然语言处理、智能搜索、推理、规划、机器学习、知识获取、模式识别、神经网络、遗传算法等。人工智能的核心是算法,包括传统的机器学习算法和非传统的机器学习算法,其中,传统的机器学习算法主要解决简单的应用场景以及结构化的数据,非传统的机器学习算法主要解决比较复杂的应用场景以及非结构化的数据或者多样化的数据。2 全球正步入一个以数字化、网络化、智能化为核心特征的全新发展阶段2。以“新型基础设施建设”(简称“新基建”)为代表的宏伟蓝图3,正在全球范围内重塑经济社会的发展根基。从高速泛在的5G 网络、工业互联网,到支撑海量数据处理的人工智能与云计算中心,“新基建”不仅是技术设施的迭代升级,更是一场深刻的结构性变革,其最终目标是构建一个万物互联、数据驱动、智能引领的社会运行体系。以中国的“东数西算”国家工程为例,其构建了一个横跨东西、服务全国的一体化算力网络,旨在优化国家算力资源布局,为千行百业的数字化转型提供澎湃动力4。在应用人工智能技术的各个行业中,网络安全是活跃度排名前 3的行业之一,典型应用例如恶意流量识别、钓鱼邮件检测、恶意代码识别、僵尸网络检测等5。近年来,网络空间安全重大事件持续爆发,网络安全威胁全面泛化。斯诺登事件、乌克兰电网攻击事件、美国大选干预事件等表明,网络空间安全威胁覆盖了从物理基础设施、网络信息系统到社交媒体信息,对虚拟世界、物理世界的诸多方面构成威胁。网络空间安全已经成为非传统安全的重要组成部分。随着人工智能第三次浪潮的兴起,人工智能向诸多行业、领域不断渗透并交叉融合的趋势已经显现。人工智能因其智能化与自动化的识别及处理能力、强大的数据分析能力、可与网络空间安全技术及应用进行深度协同的特性,对网络空间安全的理论、技术、方法、应用产生重要影响,促进变革性进步。着眼人工智能赋能网络攻击的威胁和影响,从防范安全威胁、构建对等能力的视角着手,尽快开展重大关键技术研究。推 3 动“产学研”机构以有效应对人工智能赋能攻击新型威胁场景为首要需求,从攻防两方面进行联合攻关,开展智能化威胁态势感知、自动化漏洞挖掘与利用、智能恶意代码等技术研究。加快人工智能技术在国家、重要行业关键信息基础设施安全防护方面的体系化应用,整体性完成智能化升级换代,大幅提升关键信息基础设施安全保障、网络安全态势感知、网络安全防御、网络威慑的能力水平。1.2 网络原生智能现状及挑战网络原生智能现状及挑战 随着全球信息通信技术的快速发展,网络的智能化水平不断提升,特别是在即将到来的 6G 时代,网络智能化已成为核心研究方向之一6。传统的网络架构在面对日益复杂的应用场景和多样化的用户需求时,逐渐显现出其局限性。为了解决这些挑战,学术界和工业界开始探索“网络原生智能”(Network Native Intelligence,NNI)的概念,即将智能转变为一种可按需生成、精准交付的网络原生能力,以满足未来应用对高阶智能服务(如分布式 AI、安全网络一体化)的根本性需求7。在 5G 网络中,虽然 AI 技术已经开始应用于部分网络功能,如网络负载预测和用户行为分析,但其整体架构仍主要依赖于传统的网络功能分离(Network Function Virtualization,NFV)和软件定义网络(Software Defined Networking,SDN)等技术。相比之下,6G 网络则将更深入地融合 AI 技术,致力于构建一个“AI 原生”(AI-Native)的网络智能系统,从而实现更高层次的智能化管理89。这种融合不 4 仅体现在网络核心功能的智能化改造上,还涉及网络架构的整体重构,以及跨域协作机制的深入研究。网络原生智能并非简单地引入 AI 模型以优化网络基础设施,而是代表了对网络角色的一次范式重塑:即将网络从被动的数据流水线,转变为一个能够主动为分布式智能任务提供原生执行环境的计算平台。在这一前瞻理念下,如 DAEMON 项目所展示的,其技术关键在于构建一个网络智能协调器(Network Intelligence Orchestrator)10。该协调器并非传统意义上的网络控制器,而是作为智能工作负载的生命周期编排引擎,它通过对底层网络资源的深度抽象与统一调度,实现了 AI/ML 模型部署、执行与协同的自动化。其所展现出的灵活性与适应性,本质上是网络按需组合与交付智能服务的核心能力体现。然而,尽管网络原生智能具有广阔的应用前景,其在实际部署过程中仍面临诸多挑战。首先,AI/ML 模型在网络中的应用需要解决模型依赖性和跨域协作等复杂问题。尤其是随着 6G 网络的引入,网络功能间的模型依赖性将更加复杂,如何在保障网络服务质量的同时,合理管理这些依赖性成为一个亟待解决的问题11。此外,6G 网络中的智能化管理还需要进一步优化跨域协作机制,以实现各个智能节点之间的高效协同。因此,需进一步将网原智能工作前置,探索用多模态在线训练与网络智能模拟等前沿技术,构建“网络原生智能”系统,构建源于网络,服务于多形态、多业务 AI 的“网络原生智能”,挑战网络智能,建立面向 AI 服务与 AI 应用的端到端安全防御系统,保障 AI 数据安全、5 模型安全、服务安全以及应用安全。6 二二、网络原生智能理念网络原生智能理念 2.1 网络原生智能的定义网络原生智能的定义 网络原生智能是一个以图建模为核心,通过智能编排引擎,调度原生于网络设备中部署的AI能力,并利用实时反馈进行持续优化的自动化协同框架。其主要理念是在安全网络一体化的基础上,可在网络自身之中、之上原生地生长出 AI 能力。该架构是一个基于图建模与推理能力的可编排智能框架,通过深度融合网络拓扑、安全策略与业务意图,最终实现安全能力的智能组合与按需投送。具体架构图 图 1-1 网络原生智能架构图 7 如图 1-1 所示。2.2 网络原生智能的网络原生智能的核心特征核心特征 网络原生智能的核心特征如下:(1)泛在的分布式智能泛在的分布式智能 网络原生智能框架主张 AI 工作负载(包括模型训练和推理)应根据成本效益分析,被部署在网络中最合理的位置,无论是终端设备、网络边缘,还是中心云。这种“智能无处不在”的理念,打破了传统集中式 AI 模型的束缚,是实现低延迟应用和高效资源利用的关键。网络本身演变为一个巨大的、分布式的计算平台,智能分析能力可以根据任务需求,被灵活地调度到离数据源最近的地方。分布式智能技术主要分为分布式智能训练与分布式智能推理两方面,在分布式智能训练领域,联邦学习是一种经典架构。参与训练的客户端无需上传本地数据,仅需上传训练后的 ONNX 模型更新;边缘服务器节点对这些模型参数聚合更新后,再下发给各客户端。分布图 1-2 网络原生智能的核心特征 8 式智能推理指在网络边缘分布式执行 ONNX 模型。由于边缘节点的计算与存储资源有限,如何减小并优化模型在分布式推理中的开销显得尤为重要。常见的模型压缩方法包括网络剪枝、知识蒸馏、参数量化、结构优化等12。(2)持续学习与实时自适应持续学习与实时自适应 网络原生智能框架能够在无需人工干预的情况下,实时地学习和适应网络环境变化。这通过架构中内建的闭环反馈机制得以实现。这些闭环持续捕捉网络交互和运营结果,自动将这些反馈用于模型的迭代和优化,使系统能够“自我进化”。面对 6G 网络环境的高度动态性和不可预测性,这种持续学习和自适应的能力是维持网络高性能和高可靠性的根本保障。(3)动态任务图调度)动态任务图调度 网络原生智能框架通过分布式任务图调度技术,将复杂的安全任务细分并分配到不同的任务图中进行处理,这不仅优化了计算资源的利用效率,还显著提高了系统的吞吐能力和响应速度。其中每个任务图都可以独立运行,并根据不同的需求进行动态调整。这种设计灵活性使得系统能够根据网络环境的变化进行即时的优化配置,从而显著提升系统的适应能力和防护效果。例如,当检测到新的安全威胁时,系统可以即时加载新的防护策略或调整现有任务的执行顺序,而无需重新部署整个系统。这种即时反应能力在当今瞬息万变的网络环境中尤为重要,它确保了任务图驱动能够始终保持在最佳防护状态。4)多阶段并行流水线)多阶段并行流水线 9 在网络原生智能框架中,多集安全防御策略的引入是实现高效网络安全防护的重要组成部分。通过多阶段并行流水线设计,将网络流量从初步分析到对流量进行处理的过程,分为感知、理解、决策和响应。在多集安全防御策略基础上,网络原生智能框架还通过引入网络业务的服务水平协议(Service Level Agreement,SLA)优化模型,实现了在算力网络中的 SLA 协议优化。2.2 网络原生智能的网络原生智能的安全安全基础基础 网络原生智能包含两大安全基础,分别为智能驱动安全和网络安全一体化:图 1-3 网络原生智能技术组成(1 1)智能驱动安全智能驱动安全 传统基于机器学习的安全检测安全技术通常依赖于预设规则和人网络原生智能网络原生智能网络安全一体化智能驱动安全 10 工分析,面对日益复杂且快速演变的威胁时,响应滞后、误报率高且难以应对未知攻击,形成“事后诸葛亮”式的被动防御。通过遍布全网的分布式智能体协同工作,网络能够自主地感知安全威胁、深入分析潜在风险并迅速作出决策,从而实现从传统的“亡羊补牢”式被动防御向“未雨绸缪”式主动预测与防护的根本性转变,构建起一个具备全局视野和快速响应能力的智能安全防护系统。(2 2)网络安全一体化网络安全一体化 传统网络安全领域,安全产品和网络往往各自为政,形成分散且孤立的“烟囱式”架构,导致安全信息难以共享、策略难以协同,安全事件响应效率低下,甚至出现安全盲区。网络安全一体化技术旨在打破这些壁垒,通过构建一个统一协同的安全防护系统,实现安全能力的内聚与联动。该系统不仅能实现安全事件的自动化感知、深度分析和智能处置,更强调将处理结果实时反馈至整个网络,从而形成一个自适应的安全防御能力,最终构建出能够全面抵御复杂威胁的“免疫系统”。2.4 网络原生智能网络原生智能的概念对比的概念对比 2.4.1 Network for AI 和和 AI for Network 的的对比对比 Network for AI 和 AI for Network 代表了人工智能与网络基础设施融合的双向路径,前者强调网络架构的优化以支持人工智能应用的运行,而后者则聚焦于利用人工智能技术来提升网络本身的性能和管 11 理效率,这种区别不仅体现了技术发展的互补性,还突显了从基础设施到应用优化的全面转型15。Network for AI 主要关注设计和构建网络系统来满足人工智能工作负载的需求,例如通过高带宽、低延迟的互联技术如 InfiniBand 或优化以太网来处理大规模数据传输和计算任务16,这使得它特别适用于数据中心和边缘计算环境,其中 GPU 集群需要高效的分布式计算支持,以实现人工智能模型的训练和推理过程,从而提高整体系统效率并减少瓶颈17。相比之下,AI for Network 则将人工智能算法作为工具嵌入网络管理中,例如采用 AIOps(人工智能运维)来实现故障预测、资源动态分配和自动化配置18,这有助于网络从传统的反应式维护转向预测式优化,显著降低停机时间并提升安全性。总体上,这种区别推动了行业从单一方向的优化向闭环生态的构建演进19,在实际应用中,二者往往相互依赖,例如在 6G 网络中,Network for AI 提供支持人工智能的底层架构,而 AI for Network 则利用这些架构进行自我优化,从而形成一个高效、适应性的智能网络体系。2.4.2 网络原生智能网络原生智能与与 AI for Network 的的关系关系 在人工智能与网络基础设施深度融合的背景下,网络原生智能与AI for Network 之间形成了紧密的驱动与优化关系,前者强调人工智能算法直接嵌入网络架构中成为其内在组成部分,实现分布式智能代理的协作和实时适应,而后者则聚焦于利用人工智能技术来提升网络 12 的管理效率、性能和自动化水平,这种关系不仅体现了从外部工具到内在嵌入的演进路径,还为网络从被动传输向主动智能决策的转型提供了关键机制。网络原生智能的核心在于将 AI 作为网络的“原生”功能,例如通过边缘计算和分布式学习机制在无线接入网或核心网中部署模型21,从而推动网络的韧性和规模化协作,而 AI for Network 则为其提供必要的优化工具,如 AIOps 和机器学习算法,用于故障预测和资源动态分配,确保嵌入式 AI 模型能在复杂环境中高效运行22。进一步而言,这种关系在 5G-Advanced 和 6G 愿景中尤为突出,AI for Network 通过预测式维护和自动化配置机制,使网络原生智能能够实现“零接触优化”的目标,例如支持联邦学习以保护隐私并加速模型迭代,从而提升网络的自主性和可靠性23。总体上,AI for Network 不仅是网络原生智能的实现路径,还促进了其在实际应用中的扩展,例如在电信运营商环境中,AI 驱动的流量分析确保嵌入式智能的无缝协作,而网络原生智能则利用这些工具进行实时决策,形成一个闭环的生态循环。这种关系还延伸到标准制定中,例如在 3GPP 规范中,强调 AI for Network 的算法框架作为网络原生智能嵌入的支撑,推动从传统网络向 AI-centric 架构的平滑过渡24。在具体实践如 Nokia 的 AI-native 框架中,这种关系表现为双向强化28,AI for Network 不仅提供监控和根因分析以支持网络原生智能的部署,还通过 MLOps 机制确保模型的生命周期管理,进一步降低了复杂性和数据隐私挑战。13 2.4.3 网络原生智能和智能原生网络的网络原生智能和智能原生网络的对比对比“智能原生网络”与“网络原生智能”则共同代表了人工智能与网络技术深度融合的前沿方向,然而,两者在架构设计与研究对象上存在本质区别。智能原生网络是专为满足大规模 AI 工作负载通信需求而设计的网络架构,遵循 Network for AI 的设计原则。其主要目标是通过优化数据传输来提升 AI 集群的整体计算效率,这一效率通常通过 AI 任务完成时间和 GPU 利用率等指标进行评估26。为实现此目标,该网络架构致力于构建一个为 AI 服务的可预测的、端到端的无损以太网27,其关键技术包括:采用支持远程直接内存访问(Remote Direct Memory Access over Converged Ethernet,RoCE)v2 的硬件,以及针对 AI 训练中常见的集合通信流量模式而优化的拥塞控制和负载均衡算法28。在实际部署中,智能原生网络的设计涵盖了从交换机、DPU 智能网卡到网络操作系统和管理软件的整个技术栈,旨在与 AI计算单元紧密配合,为连接大规模分布式计算节点的 AI 系统提供必要的、可扩展的高吞吐量与低延迟通信能力。而网络原生智能致力于提升网络自身的智能化水平(AI for Network)。如果说“智能原生网络”的目标是为 AI 应用构建一条极致通畅的网络,那么网络原生智能的目标则是让网络本身具备思考、感知和协同行动的能力。它不以加速 AI 训练任务或提升 GPU 利用率为主要目的,而是追求网络在安全防护、自动化运维和资源调度等原生能力上的革新。14 在实现路径上,二者的技术栈存在显著差异。智能原生网络聚焦于物理层和传输层的技术,如通过采用 RoCEv2 和专门的拥塞控制算法来打造无损、低延迟的数据通道29。相比之下,网络原生智能更侧重于架构和软件层面的创新。它通过引入图建模技术来统一描述网络拓扑、安全策略与业务意图,形成一个可供机器理解和推理的任务流水线。基于此,它将 AI 能力(如安全检测模型、流量分析模型)作为可调度的插件功能,通过一个智能编排引擎,动态地部署到网络中的路由器、交换机或边缘节点上,使整个网络成为一个分布式的 AI计算平台。网络原生智能与相关概念的对比如表 2-1 所示:方面 网络原生智能 智能原生网络 AI for Network Network for AI 定义 AI 能力原生于网络,实现分布式主动决策。为 AI 工作负载通信而设计的专用高性能网络。利用 AI 技术优化网络运维、性能与自动化。构建专用网络基础设施以支持 AI 工作负载。核心目标 网络具备主动决策能力,提升原生安全与韧性。最小化 AI 任务耗时,最大化 GPU 利用率。实现网络预测性维护 与 自 动 化 运 维(AIOps)。为 AI 集群提供无阻塞、低延迟的高速通道。技术实现 图建模、分布式 AI调度、边缘模型部署。无损以太网、RoCE v2、专用拥塞控制。AIOps 平台、机器学习、强化学习。高 带 宽 互 联 技 术(如 InfiniBand)。应用场景 实时安全防御、智能路由、自动化编排。AI 训练/推理集群、高性能计算(HPC)。故障预测、自动化运维、资源动态分配。支撑大模型训练的底层网络。优势 决策实时性强、韧性高、安全网络一体化。提升 AI 集群效率、加速模型训练。提升运维自动化水平、降低故障率。消除 AI 数据传输瓶颈。挑战 分布式 AI 的复杂成本高昂、需与计模型的准确性与可大规模集群的拥塞 15 性和安全性问题 算深度协同。解释性。管理。关系 AI for Network 的演进与高级实践。Network for AI 的具体实现。网络原生智能 的技术使能与工具。智能原生网络 的设计原则与基础。表 2-1 网络原生智能概念对比 三、安全网络一体化机制三、安全网络一体化机制 网络原生智能的目标,是构建能自主感知、决策和执行的网络智能系统。它要求网元设备不仅能智能优化路由、分配资源,更能主动预测风险、自动响应威胁。要实现这一目标,其核心前提是智能系统必须能够获取全面、实时的网络状态信息,并能对网络实施统一、协同的控制,并能预防潜在的安全性问题。然而,如果网络设备与安全设备在物理上分离、功能上独立,则无法在传输中保障模型、数据、业务的安全,这构成了实现网络原生智能的最大障碍。这种分离的架构导致安全策略部署滞后、网络优化与安全需求之间存在冲突,以及资源利用效率低下等突出问题。我们提出“安全网络一体化”这一创新机制,它作为网络原生智能的底层安全支撑,主要通过路由与策略协同以及安全能力按需投送两大核心途径来实现。3.1 路由与策略协同路由与策略协同 3.1.1 传统路由安全面临的挑战传统路由安全面临的挑战 在传统网络中,路由功能与安全策略通常是分离式管理。路由协 16 议(如 BGP、OSPF)的核心目标是保障网络的连通性与转发效率,而安全策略(如防火墙规则、访问控制列表 ACL)则由独立的网络设备进行配置和执行。这种分离式架构导致了诸多问题:首先,网络路由的调整是常态,但安全策略的变更却往往无法同步。为了优化路径而更改路由时,安全策略可能因未能及时更新而产生安全盲区,或因不匹配新路径而导致业务中断。在拥有成千上万条规则的大型网络中,人工管理这种动态一致性几乎是不可能的,极易引发策略冲突与配置错误。而且,传统的威胁检测,如旁路部署的入侵检测系统,其工作模式存在固有的延迟。它需要先由网络设备将流量镜像一份,再传输至分析设备,经过分析识别出威胁后,才能产生告警。整个过程链条漫长,从攻击发生到安全团队介入处置,往往存在数分钟甚至数小时的延迟。更严重的是,这种架构忽视了对网络控制平面自身的安全防护,使得 BGP 路由劫持、泄漏等威胁能够绕过传统安全设备,直接影响网络核心的稳定性与数据流向。3.1.2 3.1.2 安全网络安全网络一体化一体化平台平台下的下的路由与策略协同路由与策略协同 安全网络一体化平台是指将传统上分离的网络转发、安全防护与运行管控等功能,通过平台进行深度融合的设计范式。其内涵在于:网络基础设施(如路由器、交换机)具备标准化的可编程接口,使其从静态的转发设备转变为可由上层软件定义的策略执行点,使平台能够对全网的设备、策略和流量进行统一的分析、调度与编排。17 通过平台,路由与策略协同将安全分析模块的决策结果,转化为网络路由系统可执行的流量调度与路径调整动作的自动化机制。安全网络一体化平台接收来自威胁检测或业务策略模块的高级指令,并将其编译为具体的路由协议操作,从网络层面改变流量的走向,实现对网络行为的动态、精准干预。以 BGP 路由劫持这一典型的控制平面攻击为例,传统网络对此类威胁的响应严重依赖人工。网络运维团队通常在业务中断或用户投诉后才被动感知,需要通过复杂的 BGP 数据分析来定位劫持源,然后手动登录多台设备配置过滤器进行补救,整个过程耗时数小时甚至数天,期间造成的业务损失已难以挽回。平台则提供了一种主动、闭环的自动化处置方案。平台的智能感知能力是协同的基础,它通过 BMP 等技术实时采集全网 BGP 路由更新,并与 RPKI 等可信基准进行交叉验证。一旦检测到路由宣告的源AS 与基准不符,系统便在数秒内判定为“路由劫持”。此时,平台的协同处置能力将被激活:它不再仅仅是产生告警,而是自动触发处置决策。基于对劫持事件的分析,平台会决策并生成相应的缓解策略,并通过标准化的南向接口下发至网络中的核心及边界路由器。处置方式有如下两种:精确阻断:平台可生成 BGP FlowSpec 规则,指令全网路由器精准识别并丢弃所有发往被劫持前缀的、且源于恶意 AS路径的流量。路径重定向:平台亦可生成一条新的 SRv6 路由策略,将所有访问被劫持前缀的合法流量,强制牵引至一条预设的、可信的、未受 18 污染的备用路径上,从而在攻击持续期间保障核心业务的连续性。通过上述协同机制,网络的安全能力不再仅仅是数据平面的被动过滤,而是升级为深入控制平面的、主动的路由路径调度与治理。这种方式打破了传统网络与安全的壁垒,能够更快速、更灵活地应对包括控制平面和数据平面在内的各类安全威胁,在阻断攻击的同时,最大限度地保障正常业务的连续性。3.2 安全安全能力按需投送能力按需投送 3.2.1 传统传统安全安全能力部署的痛点能力部署的痛点 传统安全能力在长期实践中暴露了三个主要局限性:(1 1)部署僵化与资源利用率低部署僵化与资源利用率低 安全设备的处理能力一旦部署后便难以更改。企业为了应对业务流量的峰值,必须提前采购并部署超出日常需求的硬件容量,导致在大部分时间里,这些昂贵的安全资源处于闲置或低负载状态,造成投资浪费。当业务增长需要扩容时,又面临着复杂的硬件替换、网络拓扑变更和较长的交付周期。(2 2)流量路径迂回与性能瓶颈流量路径迂回与性能瓶颈 由于设备集中部署,许多网络流量无法通过最优路径直接到达目的地,而是必须先被重定向至这些安全设备集群,处理完毕后再转发至最终目的地。这种迂回的流量路径显著增加了数据传输的延迟,并占用了额外的网络带宽。同时,这些集中的安全设备的处理能力上限,19 也构成了整个网络吞吐性能的瓶颈。(3 3)防御能力响应迟缓防御能力响应迟缓 传统安全架构下,新的威胁特征库更新、安全策略调整往往需要在每一台独立的安全设备上进行手动配置或分批推送。当面对突发的新型网络攻击(如零日漏洞利用、新型勒索病毒变种等)时,这种分散化的操作模式会导致防御规则无法快速、统一地覆盖整个网络防护节点。此外,对于跨地域、跨网络的分布式业务场景,安全团队需要耗费大量时间协调不同节点的设备参数同步,使得整体防御体系对威胁的响应速度滞后于攻击扩散速度,大幅增加了安全事件的处置难度和潜在损失。3.2.2 安全安全能力按需投送理念能力按需投送理念“安全能力按需投送”是为解决上述问题而提出的理念,所谓“按需投送”,其本质是依据策略,在数据流经网络设备时,对这些默认处于静默状态的安全功能进行动态“激活”和应用。具体实现上,统一的管控平台负责制定并下发安全策略。当网络设备接收到数据流时,能够实时识别其业务属性或安全风险等级。若该流量匹配了特定策略,设备便会立即调用其内部相应的安全处理模块,在不中断转发流程的前提下完成深度检查或过滤。对于不匹配策略的常规流量,则直接通过高速转发路径处理,其安全模块不被激活,从而避免了性能损耗。这种模式确保了安全防护能够精准、高效地应用于任意节点的任意流量,实现了安全覆盖的无处不在和网络资源的最优化利用,从 20 根本上改变了传统安全部署的被动和僵化局面。3.2.3 技术实现技术实现 实现按需投送的第一步,是建立一个能够统一制定和下发策略的管控平台。安全网络一体化平台负责将业务或安全需求转化为网络设备可以理解和执行的具体指令。在技术实现上,这依赖于标准化的建模与通信协议。平台采用 YANG 数据模型来对网络设备的安全功能(如访问控制、状态化防火墙、流量过滤等)进行标准化的、结构化的定义。随后,平台通过 NETCONF 协议,与网络设备建立安全、可靠的连接。当管理员在平台上定义一项策略时(例如,“禁止 A 业务群组访问 B 数据库”),平台会将其翻译成符合 YANG 模型的配置数据,并通过 NETCONF 协议以事务化的方式,精准地推送给全网中所有相关的网络设备。这种方式确保了策略能够被准确、一致地部署,并避免了传统命令行配置的复杂性和不确定性。当策略成功下发至网络设备后,设备必须具备精准识别相应数据流的能力,这是触发“按需”动作的前提。在技术上,这要求网络设备在其入口接口处具备一个高性能的流量分类引擎。传统的五元组(源/目的 IP、源/目的端口、协议号)是基础的分类依据。但为实现更精细化的管控,现代网络设备还需支持更深度的识别技术。例如,通过异常流量检测技术识别特定的流量异常模式,或者根据报文中携带的特定元数据标签(如 VLAN Tag、MPLS Label 或 SRv6 SID 中包含的应用信息)进行分类。当一个数据包进入设备时,分类引擎会 21 高速匹配这些预设的规则。一旦命中,该数据流便被“标记”并准备接受下一步的策略处理 动态调用是实现“按需投送”的核心环节。当一个数据流被分类引擎成功识别并标记后,设备的控制平面会根据策略指令,动态调用其芯片或操作系统中对应的按需投送功能模块。这个调用过程发生在设备内部,而非将流量转发至外部。例如,若策略要求对一个新建的TCP 连接进行状态化防火墙检测,设备的处理器会为该连接在专门的硬件会话表中创建一个条目,后续属于该连接的数据包将依据此会话表状态进行快速匹配与处理。若策略要求对流向某个服务器的流量进行异常流量清洗,设备则会激活其网络处理单元(NPU)中专门的DDoS 攻击缓解逻辑,对该特定流量进行速率限制和特征过滤。这个“调用”过程是瞬时的,且只针对被标记的流量,确保了常规流量的转发性能不受影响。3.3.4 按需投送的优势与价值按需投送的优势与价值 首先,在网络性能与资源效率方面,该模式旨在减少不必要的性能开销。通过在流量路径上的网络设备进行原生处理,可避免将流量重定向至集中部署的专用安全设备,从而有助于降低因路径迂回产生的网络延迟和带宽消耗。同时,安全功能按需激活的机制,使得设备的安全处理模块在未触发策略时保持较低负载,这种设计旨在提升硬件资源的整体利用效率,并更好地平衡安全处理与高性能转发之间的关系。22 其次,在业务响应与部署灵活性方面,此模式提供了一种更为敏捷的能力部署方式。由于安全能力的启用是通过下发软件策略来完成,而非部署实体硬件,因此能够缩短为新业务提供安全防护所需的准备周期,以适应快速迭代的业务环境。它也允许安全策略以更精细的粒度进行应用,例如针对特定的应用或业务流进行差异化配置,这相较于传统的边界防护模型,提供了更为灵活的管控选项。最后,在安全覆盖的广度和策略的一致性上,该模式也带来了显著改进。由于网络中的众多设备均可作为策略执行点,这种架构具备了将安全防护能力延伸至网络内部的潜力,为传统模型中通常缺乏有效监控的“东西向”流量提供了防护手段。此外,通过统一平台对策略进行集中管理和下发,有助于确保安全规则在不同网络节点间的应用一致性,能够在一定程度上降低因手动、分散配置所引入的策略冲突或遗漏风险。四、四、图驱动智能编排图驱动智能编排的的框架框架设计设计 在网络原生智能架构中,图驱动智能编排框架扮演着核心中枢的角色,它将网络资源、安全功能和业务需求抽象为图结构模型,通过图推理算法实现要素间的动态关联解析和逻辑决策,从而桥接基础设施与智能应用,确保整个架构从被动响应向主动适应演进。这种关系不仅体现了图驱动机制作为数据基座的支撑作用,还突显了编排引擎在执行层面的关键性。我们以 DDoS 攻击检测和缓解为案例,来阐述 23 图驱动智能编排框架所完成的过程:首先安全网络数据智能平台先通过可编程交换机的采集技术感知到攻击特征、流量信息、设备状态及环境关联内容,接着由智能分析引擎解析出攻击属性、设备适配性并排除不合规方案,再借助图驱动框架选定“交换机 A 阻断”的方案,确定执行顺序与资源分配,最后通过智能分析引擎下发指令激活设备功能,监控执行状态与效果并反馈更新形成闭环,高效处置了攻击,从而保障了核心业务的正常运行。简言之,通过图驱动与智能编排的框架,使网络设备的安全能力变为可分析、可编排、可升级的标准化模块,成为安全网络一体化中“能力聚合、策略适配、资源协同、快速响应”的智能中枢。为了构建并实现上述案例中的智能系统,我们需要构建一个全新的、具备高度解耦、自适应和跨域感知能力的框架。本章将深入探讨图驱动与智能编排框架的感知、理解、决策、响应核心能力,以及其在全网流量实时感知与处理能力,拓扑、流量与安全状态的统一图建模能力,可编排智能引擎与动态逻辑能力,解耦 AI 组件与网络设施的插件化机制等关键能力。24 4.1 感知、理解、决策、响应的核心能力感知、理解、决策、响应的核心能力 图驱动智能编排框架的核心能力由感知、理解、决策和响应这四个步骤构成。具体过程如图 4-1 所示。4.1.1 感知感知阶段阶段 感知阶段是整个框架的数据基础,其核心职责是从所有相关的网络基础设施中全面、持续地采集各类数据,并进行标准化的处理与治理,为后续的智能分析提供高质量的数据输入。该过程首先通过分布式数据采集能力,从传统数据中心、动态云环境、边缘设备和物联网等多样化的环境中,实时获取全网流量数据。随后,这些原始数据会立即进入实时数据处理与治理流程,进行统一的清洗、格式转换和关图 4-1 图驱动智能编排的框架图 25 联丰富,特别是对时序数据的处理,以确保数据的一致性与可用性。同时,该层通过持续安全内容监控能力,动态监测用户与设备实体的行为,并对已知的威胁和漏洞信息进行感知,从而确保了数据来源的全面性和安全相关性。4.1.2 理解理解阶段阶段 理解阶段的核心任务是将来自感知阶段的海量、零散的数据,转化为结构化的、具有深度洞察的知识。该层通过构建统一图建模来完成这一目标,即将网络拓扑、流量信息、安全实体等关键要素抽象为图的节点,并将它们之间的连接、策略应用和威胁关系等定义为图的边,从而将复杂的网络环境映射为一个统一、关联的数学模型。在此基础上,图驱推理引擎会运用智能编排算法对该图进行深度挖掘,其能力包括执行行为分析以发现偏离正常模式的异常活动,通过攻击路径可视化直观地展现潜在攻击的传播路径,以及进行威胁情报融合,将外部威胁数据与内部网络状态相结合,最终形成对安全态势全面而深刻的理解。4.1.3 决策决策阶段阶段 决策阶段依据理解阶段提供的深度洞察,负责制定最优的应对策略,并将其转化为可执行的任务。首先,智能决策引擎基于跨域情报分析和 AI 辅助决策技术,对识别出的风险进行风险定级,并能够根据预设的业务或安全意图,自动生成相应的安全策略,即意图驱动策 26 略生成。决策制定后,可编排智能引擎会负责后续的执行与协调。它通过策略解析功能,将抽象的策略指令翻译成具体设备能够识别的命令,并可调用预设的自动化剧本来执行标准化的操作流程,最终通过任务下发机制,将指令准确无误地传递给响应阶段。4.1.4 响应阶段响应阶段 响应阶段是将决策阶段生成的策略转化为实际行动的关键环节,核心目标是依托网络设备的策略执行能力,实现对威胁的快速阻断、流量的动态调控及安全状态的持续优化,最终形成从检测到阻断的闭环防御。在安全网络一体化的解决方案中,通过路由器为核心执行单元,融合硬件加速、标准化接口与状态反馈机制,形成从策略下发到效果验证的完整闭环,确保安全意图在网络中高效落地。其能力包括如下 3 个方面:(1 1)路径与应用的精细化控制路径与应用的精细化控制 为实现有效的策略协同,执行单元需具备精准的控制能力。SRv6技术通过网络路径可编程性,能够将抽象的策略意图(如租户隔离)转化为具体的数据转发行为,确保不同业务的流量严格按照预设路径进行端到端传输。例如,在应对路由劫持时,可通过下发 SRv6 策略,将受影响的业务流量强制牵引至一条可信的备用路径,保障业务连续性。(2 2)数据平面的策略执行与状态反馈数据平面的策略执行与状态反馈 路由器的 ACL 能力是策略执行的直接体现。它支持在硬件层面对 27 数据流进行过滤和阻断。同时,现代路由器能够为 ACL 规则关联独立的硬件丢包计数器。当有报文因匹配 Deny 规则被丢弃时,相应的计数器会自动累加。上层管控平台可通过周期性地查询这些计数器,精确地量化策略的执行效果,为实现自动化闭环处置和安全态势分析提供了数据输入。此外,更先进的 BGP FlowSpec 技术,允许平台基于 BGP 属性动态生成流量过滤器,为处置路由安全威胁提供了更精准的手段。(3 3)自动化管控的标准化接口自动化管控的标准化接口 上述能力的调度协同,依赖于统一、开放的管控接口。以NETCONF 协议及相应的 YANG 数据模型为代表的标准化南向接口,正在取代传统的 CLI和 SNMP。YANG模型为路由器的各项功能提供了标准化的数据结构定义,NETCONF 则提供了基于模型进行配置和操作的协议框架。这使得上层平台可以自动化、程序化地完成对路由器的精细化配置和海量数据采集,为实现大规模网络的统一管控提供了技术基础。无论是下发一条用于阻断恶意宣告的 BGP 路由策略,还是订阅 ACL/FlowSpec 的匹配计数,这些标准接口都确保了平台能够对全网设备进行统一、实时且高效的管控。4.2 全网流量的实时感知与处理全网流量的实时感知与处理 全网流量的实时感知与处理是图驱动与智能编排框架的“神经末梢”,贯穿于感知阶段的前端数据采集与预处理环节,核心目标是实现对网络中各类流量的全域、实时、多维度捕捉,并通过标准化处理 28 为后续的理解、决策阶段提供高质量数据输入。该环节打破传统网络中流量监测的碎片化局限,依托分布式采集节点与智能化处理引擎,构建覆盖“云、边、物”全场景的流量感知体系,确保威胁特征、业务需求与网络状态的即时可见。4.2.1 全域流量感知的核心维度全域流量感知的核心维度 流量基础特征感知:通过 NetFlow、sFlow 等流采样技术,实时采集全网流量的五元组(源/目的 IP、端口、协议)、数据包大小分布、传输速率等基础属性。例如,对核心交换机的进出流量进行采样,精准识别流量突增、异常端口通信等潜在风险。路由与安全状态关联感知:结合 BGP 路由更新消息、路由器接口状态(如 Up/Down)、安全模块运行日志(如 ACL 命中记录、DDoS 检测告警),将流量特征与网络拓扑、策略执行状态关联。例如,当某条 BGP 路由突然失效时,同步追踪该路由关联的业务流量是否出现路径切换或丢包,判断是网络故障还是恶意路由劫持。应用层协议特征感知:解析 HTTP、DNS、SMB 等协议流量的负载内容,提取 URI 路径、域名请求模式、文件传输类型等应用层特征。例如,DNS 日志中出现 这类熵值超过 7.5 的随机域名(正常域名熵值通常 5),且每分钟发起 80 次递归查询,系统会自动匹配威胁情报库中的 DGA(域名生成算法)域名特征;对 HTTP 流量中 User-Agent 字段包含Wget/1.16(linux-gnu)-spider且高频访问/admin 路径的请求,结合 URI 中出现./目录 29 穿越特征,判定为可疑漏洞扫描行为。安全设备日志联动感知:汇聚 WAF、IPS、防火墙等安全产品的实时日志,提取攻击源 IP、攻击类型、防护动作等信息。例如,Cloudflare WAF 在 3 分钟内拦截同一 IP 的 15 次 CC 攻击(特征为不同 User-Agent 但相同请求频率的 HTTP GET),系统自动触发与 DDoS 清洗设备的联动,通过 GRE 隧道牵引该 IP 流量至清洗节点,同时从日志中提取攻击者指纹:地域、攻击工具、历史攻击记录,生成可视化的攻击者画像报告。4.2.2 实时处理的关键技术机制实时处理的关键技术机制 首先,机制的底层核心是其分布式数据采集架构。在边缘路由器、核心交换机、云边界网关等关键节点部署采集代理,通过“Master-Client”模式,可以在全网资产中部署轻量级的 Client 代理,构建了一个能够横向扩展的统一数据采集网络。这些客户端能够持续性地从主机和网络设备等多元实体中。具体的采集内容如图 4-2 所示。汇聚的数据流被送至作为系统核心的 Master 总控平台,进行高性能的智能分析与深度处理。该平台整合了时序存储、分布式处理与并行计算技术,能够对海量数据进行高效的治理与挖掘。其处理能力可支持对高达 10Tbps 级别的网络流量进行瞬时、高保真的精准采样与分析。Master 平台不仅是数据存储库,更是一个多维度智能分析引擎,通过整合与关联来自不同维度的数据源,实现对网络健康状态的综合评估、异常行为的精准识别以及潜在安全威胁的深度洞察,最 30 终构建起一个立体化的实时网络监测体系。图 4-2 实时数据采集内容 4.3.3 与响应阶段的联动反馈与响应阶段的联动反馈 流量感知与处理环节并非单向数据输出,而是通过与响应阶段的实时联动形成闭环:响应阶段执行的路由策略调整(如流量重定向、带宽限制)会实时反馈至感知层,触发流量基线的动态更新。例如,当响应阶段对某攻击源执行带宽限速后,感知层会立即更新该源 IP 的流量基线,避免将限速后的正常流量误判为异常;同时,通过监测重定向后流量的清洗效果(如攻击包占比下降),验证响应措施的有效性,为策略优化提供数据支撑。4.3 拓扑、流量与安全状态的统一图建模拓扑、流量与安全状态的统一图建模 拓扑、流量与安全状态的统一图建模是图驱动与智能编排框架中“理解阶段”的核心技术支撑,其核心目标是将分散的网络拓扑信息、动态流量特征与安全状态数据抽象为“节点-边”的图结构,此过程 31 是一个并行的、由数据驱动的持续性工作流,它将原始的感知数据实时地注入、实例化并关联到图模型中。4.3.1 多源数据融合图结构多源数据融合图结构 统一图建模以有向无环图(Directed Acyclic Graph,DAG)为基础,将网络拓扑、流量特征与安全状态抽象为图中节点与边的关联关系节节点点包含三类核心节点,分别对应拓扑节点、流量节点与安全状态和安全状态节点。具体结构如图 4-3 所示。拓扑节点:代表网络中的物理或逻辑基础设施,如路由器、交换机、服务器、物联网设备等。其节点属性主要为相对静态的配置信息,包含 IP/MAC 地址、设备类型、接口状态(Up/Down)以及通过LLDP 或路由协议发现的拓扑层级关系 流量节点:代表一次具体的通信行为,是对一个或一组聚合后通信流的抽象。其属性包括通过 NetFlow 提取的五元组(源/目的 IP、端口、协议)、数据包统计特征(如字节数、包长分布)及载荷二图 4-3 多源数据融合图结构 32 进制特征向量,形成流量模态节点。安全状态节点:代表一个具体安全事件的精细化建模。此类节点通常由外部安全系统事件实例化,如整合 WAF 拦截日志、IPS 告警、安全模块运行日志等安全事件作为一个独立的事件节点进行实例化。边的定义体现数据间的依赖关系:拓扑节点与流量节点通过流量路径边关联,拓扑节点或流量节点与安全状态节点通过事件关联边连接(如异常 DNS 请求指向恶意域名节点),流量节点与流量节点之间通过流关联边进行连接。流量路径边:核心功能是将逻辑上的通信行为映射到物理或虚拟的网络基础设施之上。此种边主要用于连接一个“流量节点”与一个或多个“拓扑节点”。当一个新的流量节点被实例化时,系统会解析其五元组信息中的源和目的 IP 地址,并结合图中已有的拓扑信息(如路由表、链路状态)来推算出该流量经过的转发路径。随后,系统会在该流量节点与路径上每一个关键的拓扑节点(如核心交换机、路由器)之间创建一条有向边。这条边清晰地表明了“此流量流经此设备”,从而为网络故障排查、流量工程以及基于路径的攻击溯源提供了直观的拓扑上下文。事件关联边:扮演着将抽象安全事件与具体网络资产进行归属的关键角色。它主要连接一个“拓扑节点”或“流量节点”到一个“安全事件节点”。当一个源自 WAF、IPS 或 EDR 的日志被创建为一个安全事件节点时,关联引擎会立即解析该事件涉及的主体信息(如源 IP、33 目的主机名等)。引擎会在图中查找与该信息匹配的拓扑节点或流量节点,并在二者之间建立一条“事件关联边”。例如,一个记录了 IP 地址 10.1.1.5 遭受 SQL 注入攻击的安全事件节点,会被一条边连接到图中代表 10.1.1.5 的服务器拓扑节点。这种关联使得安全告警不再是孤立的记录,而是直接附加到受影响资产上的、可供分析的动态属性,极大地提升了安全事件的上下文理解和响应效率。流关联边:模型中最具分析深度的一种边,其设计旨在揭示不同通信行为之间隐藏的、非直接的内在联系,这对于发现如僵尸网络、分布式扫描、多阶段攻击等协同性威胁至关重要。与前两者不同,此种边仅在两个“流量节点”之间建立。其创建过程遵循一套严谨的规则,这些规则主要借鉴了流量拓扑分析的研究成果。规则主要包括:o 共同源关联:若两个流量节点拥有相同的源 IP 地址,则在它们之间建立一条关联边。这种关联有助于识别同一源头发起的批量、发散式通信行为,如 P2P 应用的数据广播或恶意扫描活动。o 通信链关联:若流量节点 A 的目的 IP 恰好是流量节点 B 的源IP,则建立一条由 A 指向 B 的有向边。这种边能够有效地刻画出网络通信的接力或转发过程,对于追踪多跳攻击路径或服务调用链具有重要意义。o 时间邻近约束:上述所有流关联边的建立,都必须通过一个关键的时间窗口过滤器。只有当两个流量节点的产生时间戳之差小于一个预设的阈值 T(例如 3 秒),它们之间的关联才被认为是有效的。这一约束至关重要,因为它能确保所建立的关联 34 具有强时效性,有效排除了因时间跨度过大而产生的伪关系,并能显著控制图的边密度,从而提升后续图分析算法的性能与准确性。4.3.2 图模型的动态构建过程图模型的动态构建过程 图 4-4 图模型的动态构建过程 图模型的动态构建是一个由数据驱动的四阶段流水线过程,它首先通过标准化阶段将来自网络设备、流量探针和安全组件的异构原始数据流,解析并统一映射为拓扑、流量、安全状态这三类结构一致的节点模式,并依据关联逻辑定义了流量路径、流关联、事件关联这三类边的连接模式;随后,在实例化阶段,一个自动化引擎持续地将这些标准化的模式注入图数据库,通过对拓扑资产执行更新、对流量行 35 为进行累加、对安全事件进行独立创建的差异化策略来生成实体节点,并依据节点变更触发的规则,实时地创建或更新节点间的关系连线,最终将孤立的数据点实时编织成一张动态演进、关系丰富的全局网络图谱。具体构建过程如图 4-4 所示。(1 1)节点标准化节点标准化 图模型的动态构建始于节点标准化阶段,其核心目标是将异构、多源的原始数据流,转换为三种类型化、结构一致的节点模式(Node Schema)。此过程由一个多路数据解析与范式化引擎并行驱动。拓扑节点模式:该模式的数据源主要为网络管理协议的输出,如BGP 路由更新、LLDP 邻居发现报文及 SNMP MIB 轮询数据。解析引擎针对这些协议的特定格式进行解码,提取设备标识、接口状态及连接关系等信息。最终,所有信息被映射为一个标准的拓扑节点 JSON对象,其核心字段包括:ip_address(IP 地址)、mac_address(MAC 地址)、device_type(设备类型)、interface_status(各接口 Up/Down 状态)以及通过 LLDP/BGP 解析出的 topology_hierarchy(拓扑层级关系)。流量节点模式:该模式主要处理由采集的 NetFlow、sFlow 或 IPFIX等二进制遥测数据。专用的解码器依据协议模板,将原始二进制流还原为结构化的通信记录。该记录随后被范式化为一个标准的流量节点JSON 对象,其属性严格对应一次通信行为的抽象,包含:由源/目的IP、端口、协议构成的 five_tuple(五元组);由数据包统计(如字节数、包长分布、包间时延)计算得出的 statistical_features(统计特征向量);以 及(在 深 度 包 检 测 启 用 时)对 载 荷 进 行 分 析 后 生 成 的 36 payload_feature_vector(载荷二进制特征向量)。安全状态节点模式:该模式专注于对安全事件的精细化建模,其数据源为 WAF 拦截日志、IPS 告警、EDR 检测日志等。日志解析器运用正则表达式或 CEF/LEEF 等标准格式解析库,从文本日志中提取事件元数据。这些元数据被统一转换为一个标准的安全状态节点JSON 对象,用以封装一次独立的安全事件。其核心属性包括:event_source(事件来源)、event_type(事件类型)、severity(严重等级)、timestamp_event(事件时间戳)以及包含原始日志和关键实体的 event_details(事件详情)。通过此阶段,三种不同模态的数据被统一为三种定义清晰、结构固定的 JSON 模式,为后续的实例化流程提供了确定性的数据基础。(2 2)节点实例化节点实例化 在数据完成标准化映射后,这些规整的 JSON 对象将进入节点实例化阶段。一个高吞吐的消息队列会持续接收这些对象,并将其分发给一组按节点类型划分的并行工作进程(Worker Processes),以执行针对性的数据库事务。拓扑节点实例化:由于拓扑节点代表相对静态的物理或逻辑资产,其实例化ID通常采用设备的MAC地址或主机名等稳定标识符(topo-mac_address)。工作进程向图数据库发起的 MERGE(合并)查询,主要执行更新操作。例如,当接收到新的 SNMP 数据时,它会以“时间戳优先”的策略覆盖更新节点的 interface_status 属性;当接收到LLDP 报文时,它会向节点的 topology_hierarchy 属性中追加或更新邻 37 居信息。流量节点实例化:流量节点代表一次具体的通信行为,其实例化 ID通过对五元组和聚合时间窗口进行哈希生成(flow-hash(five_tuple)-time_window),以支持对流的聚合。其 MERGE 查询逻辑是条件性的:如果具有相同 ID 的节点已存在,则执行“原子性加法”来累积statistical_features 中的字节数与包计数值,并重新计算分布特征;如果不存在,则创建一个新的流量节点,并将当前 JSON 对象中的所有属性作为其初始值写入。安全状态节点实例化:安全状态节点代表一个独立的、已发生的安全事件,具有不可变性。其实例化 ID 直接取自源安全系统的事件UUID 或对原始日志的哈希(event-source_uuid)。因此,其数据库事务几乎总是 CREATE(创建)操作。工作进程为每一条告警日志创建一个全新的、独立的事件节点,确保每个告警在图模型中都有一个唯一的、不被后续数据覆盖的实体代表,从而保留了安全事件的完整性和原始性。通过这一系列类型化、差异化的实例化策略,原始的感知数据被高效、准确地转化为图中持久化、可查询的实体节点,并确保了各类节点属性的动态更新符合其内在的数据逻辑。(3 3)边标准化边标准化 在图中所有节点完成初步实例化之后,图模型构建流程进入边标准化阶段,其核心任务是为不同维度的数据关联关系定义统一、规范的连接模式。此阶段并非直接处理原始数据流,而是以图中已存在的 38 标准化节点为输入,通过一个规则引擎进行驱动。该引擎根据预设的关联逻辑,为三类核心关系流量路径、流关联与事件关联分别定义了标准化的边模式。流量路径边模式:此模式定义了“通信行为”与“网络设备”间的归属关系。其生成规则被设定为:匹配一个流量节点的五元组属性中的源或目的 IP 地址与一个拓扑节点的 IP 地址属性。该模式规定了边的方向性和强制属性,从而为所有“流量途经设备”的场景建立了统一的数据结构。流关联边模式:此模式旨在揭示不同通信行为间的内在逻辑。其规则集借鉴了流量画像分析理论,主要包括“共同源/目的关联”与“通信链关联”。例如,“通信链”规则定义为:当流量节点 A 的目的 IP与流量节点 B 的源 IP 严格相等,且二者时间戳之差小于预设阈值 T 时,则满足关联条件。该模式确保了所有跨流量的分析型连接都遵循一致的判定标准和时间约束。事件关联边模式:此模式用于连接一个抽象的“安全事件”与一个具体的“网络实体”(拓扑节点或流量节点)。其规则通过解析安全状态节点的事件详情触发,例如,提取 WAF 告警中的攻击源 IP,并将其与图中对应 IP 的拓扑节点或流量节点进行匹配。该模式的标准化在于,它将所有源自异构安全系统的告警,都统一转换为一种“事件-实体”的指向性关联。此阶段的最终产出是一套抽象的、机器可读的边定义集合。每个定义都清晰地描述了一种关系的判定逻辑、源/目标节点类型以及必 39 要属性,为后续自动化、规模化的边实例化流程提供了结构化的蓝图。(4 4)边实例化边实例化 边实例化的核心是将节点间的潜在关系,依据标准化模式,显式化、持久化为图数据库中的结构化连接。这是一个由关联引擎驱动的、持续运行的异步工作流。该引擎通过订阅图数据库的节点变更事件来触发操作,确保图的连接性随数据注入而动态演进。当一个新的节点被实例化或其关键属性被更新时,关联引擎会启动一系列并行的图查询事务。以一个新创建的“流量节点-A”为例:触发路径关联:引擎立即发起一个查询,在所有“拓扑节点”中寻找其 ip_address 属性包含“流量节点-A”的源 IP 的节点。一旦匹配成功,引擎便会生成一个基于流量路径边模式的实例,并向数据库提交一个 CREATE 请求,建立一条从“流量节点-A”到“主机-X”的有向边。触发流关联:同时,引擎会执行另一项查询,在图中检索与“流量节点-A”共享同一源 IP 且时间戳在 T 秒内的其他流量节点。对于每一个检索到的“流量节点-B”,引擎都会实例化一个基于流关联边模式的连接,其 relation_type 属性被赋值为“共同源”,随后创建这条双向或有向的边。触发事件关联:反之,当一个“安全状态节点-S”(如 SQL 注入告警)被创建时,引擎会解析其 event_details,提取出攻击目标 IP。随后,它会查询图中所有与该 IP 相关的拓扑节点和近期活跃的流量节点,并根据预设的置信度算法,选择最相关的节点(例如“服务器-40 Y”),最终实例化一条从“安全状态节点-S”指向“服务器-Y”的事件关联边。在实例化过程中,为保证数据一致性与查询效率,每条边同样会生成一个基于其源/目标 ID 和类型的唯一哈希 ID。数据库操作普遍采用 MERGE 语义:若具有相同 ID 的边已存在,则仅更新其属性;若不存在,则创建新边。通过这一系列自动化的事务操作,原本孤立的数据点被实时地编织成一张动态演进、关系丰富的全局网络图谱。4.4 可编排智能引擎可编排智能引擎 可编排智能引擎的核心目标是将图模型的推理结果转化为可执行的自动化流程,并根据网络状态变化动态调整策略逻辑,实现全流程智能化。该引擎的实现,依赖于分布式智能编排框架。通过动态的、可根据安全需求进行灵活编排的逻辑中枢,能够将统一图模型中的海量数据,转化为可行动的、实时的网络安全能力。41 4.4.1 智能编排框架智能编排框架组成组成 (1)GraphConfig GraphConfig 负责描述整个流水线的结构与配置,包括哪些计算器(Calculator)需要被实例化、它们之间的数据流连接方式,以及输入输出如何映射到外部资源等。在智能编排框架中,GraphConfig 通过解析 输入配置文件(pbtxt、YAML、JSON)来获取所需的配置信息,随后会将这些信息提供给 Graph 对象,用于构建完整的有向图模型。借助 GraphConfig,开发者可以方便地在框架中添加、移除或替换不同的计算节点,灵活地对数据流进行重定向,从而实现对异常流量检测与分类流程的可扩展管理。(2)Graph 图 4-5 智能编排框架组成 42 Graph 是根据 GraphConfig 创建并运行整个数据流图的核心实体。它会读取并解析 GraphConfig 中的节点定义及流连接信息,将各个 Calculator(包括自定义的 ONNXRunner、Classifier 等)组装成一个有向图。Graph 在执行时,会自动管理节点之间的数据流动及并行执行顺序。通过对数据包(Packet)进行时间戳管理,Graph 可以在时间维度上协调各节点的处理流程,以保证异常流量检测场景下的时延与准确度。(3)Scheduler 调度器(Scheduler)负责动态管理图中节点的执行顺序和资源分配。调度器基于数据依赖关系和节点的实时状态(如输入流的满足情况)决定节点的执行时机,而非固定优先级规则。所有节点的任务通过一个全局线程池分配,线程数量根据硬件能力自动调整。调度器确保高效利用系统资源,同时提供灵活的任务优先级配置,允许开发者为关键节点分配更多资源。在智能编排框架中,调度器进一步扩展,支持复杂的多线程环境,通过动态调整任务优先级和节点分组机制,确保流量分类等关键任务在高负载场景下的实时性和稳定性。(4)Node/Calculator 节点(Node)是执行数据处理的核心组件,每个节点实现为一个独立的计算器(Calculator),负责接收输入流或旁路数据包,进行处理后将结果传递到下游节点。源节点通常从外部读取数据流(如文件或网络流量),而非源节点则通过输入策略(如时间戳匹配)确定执行条件。框架保证节点的线程安全性,使每个节点在单线程中运行,43 从而避免数据竞争问题。在智能编排框架中,节点通过模块化设计实现预处理、特征提取和分类等功能,开发者可灵活替换或扩展节点,以适应不同的异常流量检测需求。模块化和灵活性使得框架能够快速适配新的任务,同时确保框架整体的高效性。(5)Task 在智能编排框架中,ONNX Runner 和 Classifier 都是对 Task 接口的具体实现,分别用于载入已训练模型和流量分类。通过继承和扩展 Task 接口,开发者可以插入自定义的业务逻辑模块,满足在智能编排框架中对预处理、特征提取和模型推理等功能的需求,同时保持框架设计的模块化和扩展性。4.4.2 核心核心功能功能 (1 1)弹性资源管理)弹性资源管理 弹性资源管理旨在根据工作负载的实际需求,动态地分配和调整资源,包括计算资源(如 CPU、内存、GPU)、存储资源以及网络资源等。它能够在工作负载增加时自动分配更多资源以保障服务性能,在工作负载减少时释放闲置资源,避免资源浪费。通过将集群资源按照组织架构进行分层,形成资源池,并以树形结构呈现,具体结构图如图 4-6 所示。根节点(Root)下有组织节点(Org),组织节点下又细分团队节点(Team)。每个层级的资源池都关联一组资源配置参数,包括资源预留(Reservation,R)、权益资源(Entitlement,E)、共享资源(Share,S)以及资源上限(Limit,44 L)。资源预留是为该层级强制保障的最小资源量,权益资源是默认应得的资源比例,共享资源可在层级间弹性借用,提高资源利用率,资源上限则用于防止单个层级过度占用资源。分布式计算引擎具备动态调整资源分配的能力。在 Kubernetes 集群中,当某个工作负载的资源需求发生变化时,分布式计算引擎可以实时感知并快速重新分配资源。例如,在机器学习训练中,随着训练数据量和模型复杂度的动态变化,分布式计算引擎能够为训练任务及时调配更多或释放多余的 CPU、GPU、内存等资源,相比 K8s 原生的资源管理方式,能更高效地利用集群资源,避免资源闲置或浪费。(2 2)异构集群支持)异构集群支持 图 4-6 弹性资源管理结构图 45 在包含不同类型硬件(如 CPU 和 GPU)的混合集群中,能够有效运行训练作业。一方面,通过将不需要 GPU 的任务卸载到 CPU 节点,实现资源的合理利用,比如在机器学习训练中,将数据加载和混洗等任务放在 CPU 节点处理,再将处理后的数据传输到 GPU 节点进行模型训练。另一方面,开发 GPU 过滤插件,让非 GPU Pod 和 GPU Pod 分别在 CPU 节点和 GPU 节点上运行,并采用不同的调度策略,如负载感知策略用于 CPU 节点的 Pod 分配,装箱调度策略用于 GPU 节点的 Pod 分配。(3 3)动态编排动态编排逻辑逻辑 引擎的动态编排逻辑体现在其执行过程并非一成不变,而是能够根据数据和中间结果进行自适应调整,这由其事件驱动的调度器(Scheduler)来实现。该调度器基于数据依赖关系来管理任务的执行,而非固定的时间线或优先级。这意味着,一个计算节点的执行,是由其所有上游输入数据全部“准备就绪”这一事件来驱动的。这种机制天然地支持了动态和并行的工作流。例如,当原始数据进入后,两个并行的特征提取节点会同时开始工作。调度器会监控它们的状态,只有当其中一个节点(例如,提取统计特征的节点)率先完成后,它才会立即将结果数据传递给下游对应的推理节点并触发其执行,而无需等待另一个并行的 46 特征提取任务结束。具体示例如图 4-7 所示。更进一步,这种事件驱动的机制允许实现条件执行和逻辑分支。一个分析工作流的走向,可以由上一个节点的计算结果来动态决定。例如,可以设计一个“初步风险评估”节点,它会先对流量进行快速分类并输出一个风险评分。调度器可以根据这个评分结果,将流量动态地导向不同的处理路径:如果评分高于阈值,则将数据发送到一个需要消耗大量计算资源的“深度载荷分析”节点进行精细化检测;如果评分较低,则可能只将其发送到一个简单的“日志记录”节点。通过这种方式,引擎的分析逻辑能够实时地根据威胁的实际情况进行调整,将宝贵的计算资源集中在真正高风险的事件上,这就是其“动态逻辑”的核心体现。图 4-7 并行特征提取和推理分析 47 4.5 插件化机制插件化机制 4.5.1 ONNX 与模型模块化与模型模块化 ONNX 作为一项行业性的开放标准,其根本目标是解决机器学习领域中不同开发框架与部署环境之间的壁垒问题,为模型提供统一且中立的中间表示。这一标准的确立,是实现 AI 模型工程化与模块化的逻辑起点。在缺乏统一标准的情况下,模型与其训练框架、特定的运行时环境深度绑定,形成了紧耦合的技术孤岛,极大地阻碍了模型的复用、迁移与迭代。ONNX 通过定义一套标准的计算图结构、算子集合和文件格式,充当了模型生产者与模型消费者之间的“技术契约”,确保了只要遵循此规约,模型便能脱离其原始开发环境,作为一个独立的、可预测的单元而存在。深入分析一个 ONNX 文件的内部结构,可以更清晰地理解其模块化设计。文件的核心是计算图协议,它容纳了模型的所有构成元素。首先,计算图的公共接口由其输入和输出字段严格定义,每个接口都详细描述了张量的名称、数据类型及维度信息,这构成了模块清晰的外部边界。其次,图的内部实现由一系列节点构成,每个节点都是一个标准算子的实例,并精确地指定了其输入输出关系,共同组成一个有向无环图来描述数据处理的全过程。至关重要的一点是,模型的所有已训练参数,如卷积核的权重、全连接层的偏置等,都通过初始化器被序列化并包含在文件之内,这使得 ONNX 文件成为一个自包含的模块,无需依赖外部文件即可完整地重建模型状态。48 基于上述特性,ONNX 模型在现代 MLOps 体系中扮演了关键的模块化角色。其兼容性与生命周期由算子集版本提供保障。每一个ONNX 模型都声明了其依赖的 opset 版本,而推理引擎则依据此版本来确保对模型中所有算子的正确支持,这为模块的版本迭代与向后兼容提供了可靠依据。因此,一个经过验证的 ONNX 模型可以被视为一个稳定的软件构件,能够被存储在构件仓库中进行版本化管理,并通过 CI/CD 流水线被独立地部署到任何支持其 opset 版本的云端或边缘设备上。这种标准化的封装与管理方式,正是将 AI 模型从研究原型转化为健壮、可靠的工程模块的核心所在。4.5.2 自定义扩展与编排模块化自定义扩展与编排模块化 虽然 ONNX 标准提供了丰富的算子集,但在实际应用中,为了实现差异化的业务逻辑或极致的性能优化,仅依赖标准算子往往是不够的。此时,就需要通过自定义扩展机制来增强系统的能力,而自定义算子是实现原子功能模块化的关键手段。当需要引入专有算法、标准库未覆盖的数据处理逻辑、或针对特定硬件(如 FPGA、ASIC)的计算核时,开发者可以创建自定义算子。此过程遵循严格的模块化设计:算子需被定义在唯一的领域标识之下以避免命名冲突;其核心计算逻辑通常采用 C 或 CUDA 等高性能语言实现,并被编译成独立于模型的动态链接库。推理引擎在运行时,通过指定的 API(如 ONNX Runtime 的 register_custom_ops_library)动态加载这类库,从而使新的运算能力对当前会话可用。这种机制将算子的实现与模型本身、与 49 推理引擎核心都进行了解耦,使算子库成为一个可被多个模型共享、可独立升级和分发的功能模块。在原子化的功能扩展之外,模块化的思想也体现在更高层次的逻辑组合与抽象上,这主要通过 ONNX 标准中的函数机制来实现。该机制允许开发者将计算图中的一系列基础算子子图构成,并封装成一个可复用的、更高阶的新算子。例如,一个包含多头自注意力、残差连接和层归一化的 Transformer 编码器层,可以被完整地定义成一个函数。在主计算图中,可以直接像调用普通算子一样调用这个函数节点,而无需关心其内部复杂的实现细节。这种方式不仅极大地简化了主计算图的结构,提升了可读性与可维护性,也为推理引擎在执行时提供了更大的优化空间,因为引擎可以将整个函数作为一个整体进行调度或编译优化。它与自定义算子的关系在于,自定义算子是引入新的、基础的计算能力,而函数则是对已有的计算能力进行组合与封装。这两种扩展机制的结合,最终为上层的流程编排系统提供了极大的灵活性,使其能够实现真正的编排模块化。编排系统现在可以调度和组合三种不同粒度的模块:代表完整业务流程的 ONNX 模型、提供原子功能的自定义算子库、以及包含抽象逻辑组合的ONNX函数。一个复杂的 AI 工作流可以被清晰地分解和构建,例如,可编排智能引擎首先调用一个预处理模块,该模块使用了一个加载自lib_preproc.so 的自定义算子来执行特殊的数据增强;其输出接着被送入一个大型的、使用标准算子的目标检测模型;最后,检测结果被传递给一个后处理模块,该模块内部调用了一个计算图协议定义的复杂 50 非极大值抑制(Non-Maximum Suppression,NMS)函数来筛选检测框。在整个过程中,可编排智能引擎负责管理模块间的数据依赖与流转,并确保每个阶段所需的扩展库都已被正确加载。这充分体现了通过精细化的模块分解与组合,构建复杂、健壮且易于演进的 AI 应用的能力。五五、框架落地与场景实践框架落地与场景实践 5.1 全网全网 DDoS 攻击检测与缓解方案攻击检测与缓解方案 5.1.1 案例背景案例背景 在数字化浪潮席卷全球的今天,分布式拒绝服务(Distributed Denial of Service,DDoS)攻击已演变为网络空间中最具破坏力、最常见的安全威胁之一。攻击的规模从 Gbps 级别跃升至 Tbps 级别,攻击手法也从单一的容量耗尽型攻击,演变为包含应用层攻击、脉冲式攻击、“低慢速”攻击在内的复杂混合型攻击。这种演进趋势对所有依赖网络提供服务的组织构成了严峻挑战,传统的 DDoS 防御方案在应对现代高级威胁时,其固有的局限性日益凸显。尽管市场上存在多种 DDoS 检测与缓解方案,但许多现有方案在设计理念和技术实现上仍存在明显的不足之处,主要体现在以下几个方面:检测视角的局限性:检测视角的局限性:传统的 DDoS 防御体系通常采用单点部署模 51 式,例如仅在数据中心入口或互联网出口部署检测设备。这种“管中窥豹”式的检测方式,缺乏对全网流量拓扑和时空特征的宏观洞察力。它或许能发现指向某一特定目标的攻击流量,但无法有效还原攻击在整个网络中的传播路径、影响范围以及潜在的溯源线索。当攻击者采用多点、分散的攻击源时,这种局部视角极易造成判断失误,难以形成全局性的、协同一致的防御策略。检测逻辑的滞后性:检测逻辑的滞后性:许多现有方案的核心检测逻辑仍然基于静态的流量阈值或固定的攻击特征规则。这种“一刀切”的方法在面对流量平稳、模式简单的网络环境时或许尚能应付,但在业务流量复杂多变、攻击手法不断翻新的今天则显得力不从心。对于“低慢速”攻击、加密流量攻击以及模拟合法用户行为的应用层攻击,静态规则往往会产生大量的误报和漏报。它无法建立动态的、与业务紧密结合的流量基线,更不用说利用深度学习等智能技术去识别那些隐藏在海量正常通信中的细微异常模式。响应机制的割裂性:响应机制的割裂性:在众多防御体系中,攻击的“智能检测系统”与“缓解响应系统”(如流量清洗设备)往往是两套独立的系统。当检测系统发现攻击后,通常只能生成告警,需要安全运维人员介入分析,再手动配置清洗策略或引流策略。这一过程不仅耗费宝贵的人力资源,更重要的是,在检测和缓解之间造成了数分钟甚至更长的“响应延迟”。在 DDoS 攻击分秒必争的战场上,这个延迟的“窗口期”足以让业务中断,造成不可挽回的损失,防御效果大打折扣。适应能力的匮乏性:随着物联网(IoT)设备的普及,新型僵尸网 52 络的规模和复杂性空前增长。同时,网络的带宽和复杂度也在持续提升。传统的 DDoS 防御设备在架构上可能难以扩展,无法满足大规模网络的性能需求。更重要的是,其固化的检测模型和功能更新缓慢,面对层出不穷的新型攻击载体和技术,常常显得“捉襟见肘”,缺乏持续自适应学习和演进的能力。综上所述,一个缺乏全网视角、依赖静态逻辑、响应流程割裂且适应性差的防御体系,已无法有效应对当前复杂、智能的 DDoS 威胁格局。因此,业界迫切需要一种新一代的智能防御方案,它必须能够实现对全网流量的全面、快速、精确识别,并指导形成协同、高效的自动化防御闭环。5.2.2 解决方案解决方案 针对上述背景中提到的传统 DDoS 防御方案的种种局限,我们基于网络原生智能框架,设计并部署了全网智能 DDoS 检测与协同防御体系。该方案从根本上摒弃了网络与安全相互割裂的传统模式,将全网流量的精准检测、攻击行为的智能决策与阻断等自动化缓解手段深度融合,实现了从“秒级检测”到“秒级响应”的全流程自动化闭环。整体架构如下图所示,其核心逻辑是:通过遍布全网的采集点实时捕获流量数据,由智能分析引擎进行深度学习与行为建模分析,一旦识别攻击,可通过安全网络数据智能平台协同联动网络中智能分析引擎,自动执行流量精准阻断等防御策略并下发到可编程交换机进行DDoS 攻击缓解。53 图 5-1 全网 DDoS 攻击检测与缓解方案示意图(1)数据采集数据采集 为实现对网络核心流量的全面洞察,方案采用了一种高保真、非侵入式的数据采集策略。针对可编程交换机这类采用专用芯片进行高速转发的核心网络硬件,可编程交换机通过其旁路镜像功能进行数据采集。该技术将所有流经可编程交换机的实时流量,完整地复制一份,并旁路发送至一台专用的分析服务器作为智能分析引擎。部署在该服务器上的轻量级分析代理负责接收并处理这些海量的镜像数据,进行后续的抽样与分析。这种方式的优势在于对可编程交换机本身的转发性能做到零侵扰,在不影响主干网络正常运行的前提下,获取了最原始、最完整的流量全貌,为后续的智能分析与精准决策提供了坚实的数据基础。(2 2)多维数据驱动的智能攻击识别理解多维数据驱动的智能攻击识别理解 在完成全面数据感知后,汇聚而来的数据将注入系统的“大脑”智能分析引擎,进行深度理解与攻击识别。该引擎运用先进的行为 54 分析算法,对流量进行精细化解构,能够从协议类型、报文长度、源端口随机性等多个维度精准刻画攻击特征。在混合了正常业务的复杂场景下,智能分析引擎更能体现其智能性,它通过关联分析流量模式与设备性能指标,能够准确地将恶意攻击从海量背景流量中剥离出来,显著降低了传统方案的误报与漏报率。这一阶段的核心任务,是将纷繁复杂的原始数据转化为清晰、准确、可操作的攻击事件情报。(3 3)自动化、精准的防御策略生成自动化、精准的防御策略生成 一旦智能分析引擎确认了攻击事件,智能分析引擎便无缝衔接到决策阶段,自动生成高度精准且可解释的防御策略。这些策略并非宽泛的封堵指令,而是包含了明确五元组信息和处置动作的精细化规则。系统的决策能力足以应对大规模、分布式的复杂攻击。即便面对同时攻击数百个不同目标的场景,智能分析引擎依然能为每一个被攻击 IP独立生成并下发对应的防御策略,实现“点对点”的精确保护。这个自动化、智能化的决策过程,是连接威胁情报与有效防御之间的关键桥梁。(4 4)端到端、闭环化的协同联动响应端到端、闭环化的协同联动响应 流程的最后一步是将决策转化为行动,通过自动化的协同响应机制,完成对威胁的闭环处置。智能分析引擎生成的防御策略被设计为可直接下发至可编程交换机,并自动转化为标准的访问控制列表等设备可执行的规则。这些规则一旦生效,便会立刻对匹配攻击特征的恶意流量进行实时过滤与阻断。更重要的是,这是一个迭代式的防御过程。当最主要的攻击流量被阻断后,原先被掩盖的次要攻击会暴露出 55 来,随即被系统在新的检测周期中捕获并清除,从而实现对攻击流量的深度、持续性清洗,确保了业务的连续性和网络的安全性。5.2 路由安全一体化解决方案路由安全一体化解决方案 5.2.1 案例背景案例背景 作为互联网的关键基础设施,域间路由系统安全是网络空间安全的重要基石。以 BGP 为基础协议的全球互联网经过 50 多年的蓬勃发展,逐步从计算机互联网、消费互联网向产业互联网演进,成为全社会数字化基础设施,因而对安全可信的路由服务诉求越来越强烈。作为互联网数据传输的核心,互联网不仅在数据转发性能方面,而且在拓扑结构、健壮性、安全性等方面也都高度依赖域间路由系统。域间路由系统对于整个互联网的可靠稳定运行具有重要意义。传统的应对方案在面对控制平面威胁时,通常面临以下挑战:响应机制滞后,缺乏时效性响应机制滞后,缺乏时效性:安全事件的处置严重依赖网络工程师手动排查、定位问题、登录设备执行命令行进行策略封堵,整个过程耗时良久,无法在攻击发生的第一时间进行有效遏制。系统能力割裂,缺乏联动系统能力割裂,缺乏联动:安全监控系统与网络管理系统相互独立,安全分析产生的告警无法自动转化为网络侧的防御策略,缺乏有效的闭环协同机制。控制平面状态的可见性缺失控制平面状态的可见性缺失:对全网的 BGP 路由状态缺乏全面、实时、精细的可见性,难以快速识别异常路由的来源和影响范围。56 为了应对上述挑战,构建一个能够主动感知、智能决策、并自动处置路由威胁的现代化防御体系迫在眉睫。本案例将介绍一种基于“安全网络一体化”理念的创新解决方案 5.2.2 解决方案解决方案 针对上述背景中提到的 BGP 路由攻击场景,我们结合网络原生智能架构,设计并部署了一套以“安全网络一体化平台”为核心的闭环路由安全解决方案。该方案摒弃了传统安全与网络分离的模式,将威胁感知、智能分析与网络配置变更融为一体,实现了从“发现”到“处置”的全流程自动化。整体架构如图 5-2,方案的核心逻辑是:通过标准化的数据采集通道实时监控路由器集群的控制平面状态,由平台进行智能分析决策,并经由标准化的安全配置通道实现对恶意流量的精准、自动化处置。图 5-2 路由安全一体化解决方案示意图 57 具体实现步骤如下:(1 1)实时感知:基于协议的深度数据采集实时感知:基于协议的深度数据采集 首先,模拟终端作为自动化测试与验证工具,按照预设方案向网络中发起一次可控的路由劫持攻击。当这条恶意的 BGP 路由更新报文抵达网络边缘的路由器集群时,路由器集群在根据 BGP 协议进行常规路由计算的同时,也立即履行其作为“感知探针”的职责。它通过BMP 协议,将这条包含了攻击特征的原始 BGP 更新报文,实时、无损地传送安全网络一体化平台。(2 2)智能智能理解理解:基于可信基准的自动化检测:基于可信基准的自动化检测 原始数据流抵达安全网络一体化平台后,便进入一条自动化的内部处理流水线。数据采集与适配模块将其转换为平台内部的统一路由事件模型,并分发至核心分析模块与数据存储与管理模块。核心分析模块作为分析中枢,会立即执行多维度检测:它将该事件的源 AS、前缀等关键属性,与数据存储与管理模块中预设的RPKI源AS授权、ASPA 商业关系等可信基准进行交叉验证,最终将此事件精准地判定为一次“路由劫持”攻击,并生成结构化的告警。(3 3)协同决策:融合网络上下文的策略生成协同决策:融合网络上下文的策略生成 “路由劫持”的分析结论会立刻被送至决策与处置编排模块。为确保处置的精准性,该模块可调用与大网控制器的协同接口,查询受影响路由器的网络拓扑、设备角色等基础上下文信息,以丰富决策依据。在获得了完整的“安全告警 网络上下文”信息后,该模块才最终决策出最佳的处置方案,并自动生成一个协议无关的抽象处置指令,例 58 如一条用于精确丢弃恶意流量的 BGP FlowSpec 规则意图。(4 4)闭环闭环响应响应:基于标准化接口的自动化执行:基于标准化接口的自动化执行 编排好的抽象指令通过标准化的安全配置通道,被下发至作为执行单元的目标路由器集群。平台的南向通道适配器会将该指令翻译为具体的 NETCONF 配置或 BGP FlowSpec 宣告,并部署到设备。路由器接收到指令后,会即刻应用此安全策略,在硬件层面快速、精准地阻断由劫持路由所引入的非法流量,至此便完成了一次从攻击发生到威胁解除的自动化闭环处置。与此同时,整个处理过程的所有状态都会被实时汇聚到平台的管控与呈现模块,网络管理员可以通过图形化的 Web UI 清晰地监控此次安全事件的完整生命周期,实现了对路由安全的“可管、可控、可见”。六、六、架构生态与未来展望架构生态与未来展望 6.1 模块化开放的架构、生态与接口模块化开放的架构、生态与接口 ONNX 作为 AI 领域的开放标准,其模块化设计不仅体现在模型封装和扩展机制上,更延伸至系统级架构、生态建设和接口规范,共同构筑了一个前沿、协作的 AI 框架体系,随着 LLM、边缘计算和异构硬件加速的快速发展,ONNX 已演变为支持多模态 AI 和高效部署的核心枢纽。本小节将从模块化开放的架构、生态以及接口三个维度详细阐述 ONNX 如何实现 AI 系统的互联互通与持续创新,确保模 59 型在动态环境中无缝迁移、优化和扩展。6.1.1 ONNX 的开放架构的开放架构 ONNX 的架构设计遵循模块化开放原则,以计算图(Graph)为核心,构建了一个松耦合、可扩展的系统框架。这一架构将模型表示、执行引擎和硬件适配层解耦,允许开发者在不修改核心组件的情况下注入新功能。2025 年的最新发展中,ONNX v1.18.0 及后续迭代引入了对动态形状和量化支持的增强30,进一步适应了 LLM 和实时 AI 场景的需求。例如,通过 MLIR-based Compiler 的集成31,ONNX 架构现在支持更高效的中间表示编译,允许模型在编译时进行跨框架优化,减少了从训练到推理的转换开销。在架构层面,ONNX强调分层模块化:顶层是模型层,使用Protobuf序列化的 GraphProto 定义静态计算图,包括节点(NodeProto)、初始化器(TensorProto)和版本声明(OperatorSetIdProto),这确保了模型的自包含性和可移植性32。中层是运行时层,以 ONNX Runtime 为核心,支持插件化后端适配器(如 CPU、GPU、NPU),开发者可动态加载自定义执行提供者(Execution Providers),如 Qualcomm 的 QNN GPU backend33,实现针对 Adreno GPU 的硬件加速。底层是硬件抽象层,通过开放接口连接异构设备,支持从云端到边缘的部署。6.1.2 ONNX 的生态体系的生态体系 ONNX 的生态体系是一个由开源社区、框架提供商、硬件厂商和 60 企业用户共同构建的协作网络,2025 年已扩展至涵盖 LLM、边缘 AI和多模态应用的全面链条34。作为 LF AI&Data 基金会的毕业项目,ONNX 采用 Apache 2.0 许可,促进全球贡献者参与,年会如 2025 ONNX Annual Meetup 展示了 steering Committee 的更新,包括对大型模型 IR 的增强支持。在框架生态方面,ONNX 获得了广泛兼容:PyTorch 通过torch.onnx.export 无缝导出模型,TensorFlow 集成 tf2onnx 转换器,其他如 MXNet、Scikit-learn 和 PaddlePaddle 也提供插件支持。推理侧,ONNX Runtime 作为枢纽,与 Azure ML、AWS SageMaker 和 Google Cloud AI 集成;硬件伙伴如 NVIDIA(TensorRT-ONNX)、Intel(OpenVINO)、Qualcomm(SNPE-ONNX)和 AMD 积极贡献优化模块35,确保模型在 GPU、NPU 上的高效运行。6.1.3 ONNX 的接口机制的接口机制 ONNX 的接口机制标准化了模块间交互,确保互操作性和扩展性。核心是 Protobuf 协议接口,用于模型序列化,包括 GraphProto 定义计算图、TensorProto 处理张量数据,以及 OperatorSetIdProto 管理版本。这些接口提供精确语义,支持任何工具解析 ONNX 文件,而无需自定义适配。运行时接口以 ONNX Runtime API 为主,支持多语言(如 Python、C 、Java、C#),例如 SessionOptions 配置自定义算子加载,Run 方法标准化推理流程。扩展接口如CustomOpApi允许注册自定义算子,61 ONNXIFI 提供后端集成规范,支持专有硬件加速。6.2 迈向全面零信任及下一代迈向全面零信任及下一代 SASE 与与 SD-WAN 在网络原生智能的驱动下,下一代 SD-WAN 已远超第一代产品优化连接和降低成本的范畴,演变为一个具备预测和自愈能力的智能网络平台36。6.2.1 具备预测与自愈能力的下一代具备预测与自愈能力的下一代 SD-WAN 在网络原生智能的驱动下,下一代 SD-WAN 的使命已远超第一代产品优化连接和降低成本的范畴。它演变为一个具备认知能力的智能图 6-1 SWAN 组网结构和流程步骤 62 网络平台,成为整个 SASE 架构坚实、敏锐的“神经网络系统”37。其核心的升级体现在三个层面:首先,它具备了从被动响应到主动保障的预测能力,能够预见并规避网络质量问题;其次,它实现了从简单故障切换到业务自愈的升华,能够在故障发生时进行智能化的路径重规划与策略自适应;最后,它完成了从执行静态规则到理解业务意图的转变,能够为关键应用做出自主的、以体验为中心的决策。SD-WAN 的核心变革在于其预测能力,它通过在网络边缘部署轻量级探针并结合 AIOps 平台,对海量的遥测数据进行持续学习,从而将网络管理从被动响应转变为主动保障38。当网络出现故障时,下一代 SD-WAN 能够实现真正的网络自愈,其内涵远比传统的故障切换丰富。这一能力建立在对全网拓扑、业务策略和实时状态的全局视野之上39。例如,当某分支机构的核心路由器意外宕机,AIOps 平台能立即定位故障根源为硬件失效,并自主进行一次全局的路径重规划,可能会将高优先级的 ERP 流量引导至高质量 MPLS 链路,而将普通办公流量分流至多条互联网宽带,避免单点拥塞。同时,系统会自动将原路径关联的所有安全与 QoS 策略动态迁移并应用到新路径上,在毫秒级内完成业务恢复,最大限度地保障了业务的连续性。此外,下一代 SD-WAN 的核心是基于应用意图的自主决策,彻底将网络管理从繁琐的微观配置中解放出来。平台能够深度识别上千种应用的“指纹”,并理解其对网络的独特需求。在应对某突发性国家级安全事件时,指挥中心的 IT 管理员不再需要手动配置复杂的 QoS 和路由策略,只需声明最高优先级的业务意图:“为国家指挥中心、一线 63 移动单位和无人机侦察图像回传之间,建立一条高带宽、低延迟、抗干扰的加密通信线路”。系统接收到此意图后,便会自主地编排网络资源,动态聚合 5G、卫星和专线链路,应用军工级加密标准,并强制征用网络带宽,确保指挥、控制和情报(C2I)数据流的绝对优先传输。6.2.1 实现全面零信任的实现全面零信任的的下一代的下一代 SASE 如果说下一代 SD-WAN 是智能的“循环系统”,那么由网络原生智能驱动的下一代 SASE 就是智能的“免疫系统”40。它将零信任原则从一系列需要人工维护的静态配置规则,转变为一个动态的、能够自主执行并持续进化的安全能力。其基石是一个将网络拓扑、流量行为、用户身份、设备状态、应用漏洞及威胁情报等所有信息统一建模的全局安全知识图谱。基于此图谱,网络原生智能引擎能够进行深度推理,发现隐藏在海量数据中微弱的风险“信号”,从而将安全防御从被动响应提升至主动预测41。例如,通过发现“同一身份、多设备、异常行为”之间的隐藏关联,系统能预测横向移动攻击的早期侦察阶段;或是在新漏洞披露后,立即模拟并找出潜在的攻击路径,让防御者抢占先机。这是对零信任“假设泄露”原则的有效实践,当威胁被识别或预测后,下一代 SASE 的响应是自动化的、闭环的,从而实现安全层面的自愈。这个“从检测到阻断的原生响应闭环”意味着,当系统检测到一台属于国家重点航空航天研究机构高级研究员的工作站(高价值资产)64 出现异常时:EDR 终端检测到一个伪装成系统进程的恶意软件,正与某个已知具有国家背景的 APT 组织的 C2 服务器进行加密通信,同时该研究员的账户正尝试访问其数月未曾接触的涉密项目数据。AI 引擎识别出这是典型的 APT 攻击模式后,会自主决策并执行一套组合拳式的缓解策略:首先,通过微隔离技术将该工作站的端口在交换机层面进行隔离,阻断横向移动;同时,将恶意 C2 域名推送至云端 SWG,全局阻断所有用户的访问;最后,通过 API 调用终端 EDR 方案,强制终止恶意进程,并自动创建包含所有上下文的工单给 SOAR 平台,以供安全分析师复核。全面零信任的核心是“永不信任,始终验证”,而下一代 SASE 通过自主决策,让这个框架成为一个“活的”、自适应的现实42。每一次访问请求,都不再是简单地匹配一条静态规则,而是由系统基于其统一知识图谱提供的丰富实时上下文进行一次即时的、自主的风险评估与访问决策。例如,一个刚刚通过多因素认证的工程师在访问常规文档时可能畅通无阻,但当其设备风险评分因后台检测到异常进程而略微升高时,系统可能会在他试图访问核心代码库时,自主决策要求其进行一次额外的生物识别验证。这种动态、上下文感知的访问控制,使得“最低权限访问”原则能够被前所未有地动态、精准地执行。这种架构还将管理员的角色从“规则配置者”转变为“业务意图声明者”。他们只需用接近自然语言的方式定义高级目标,例如:“确保公司对欧盟公民数据的处理完全符合 GDPR 法规要求。”网络原生智能定的智能分析引擎则会自主地将这一合规意图翻译并编排成一 65 系列具体的、跨越多厂商、多地域设备的安全与网络配置:它会自动发现并标记所有包含欧盟个人身份信息(PII)的数据库和云存储;生成 ZTNA 策略,确保只有位于欧盟境内且属于特定访问组的用户才能访问这些数据;创建 DLP 和防火墙规则,阻止任何被标记的 PII 数据传输至欧盟以外的地区,并持续监控配置漂移,以始终满足最初声明的合规意图。6.3 构建可验证的安全智能体系构建可验证的安全智能体系 可验证的安全智能体系是融合网络原生智能架构,通过分层架构实现自动化威胁检测与响应,并具备可追溯、可解释、可审计、可靠性质的网络安全防护系统43。该定义以网络原生智能为核心支撑,强调通过智能化手段提升安全运营的自动化水平,同时通过可验证性相关机制保障体系的可信度与可控性。从技术内涵来看,体系的核心特征体现在三个层面:其一,技术架构层面,依托图驱动智能编排框架,实现对海量安全数据的实时处理与深度挖掘,支持从被动防御向主动预测的转变;其二,能力特性层面,具备自学习、自适应与自优化能力,能够基于历史威胁数据与实时情报动态调整安全策略,例如通过机器学习模型持续优化检测规则以应对新型攻击手段;其三,安全性质层面,以可验证性为核心,涵盖可追溯、可解释、可审计等关键属性44。其中,可验证性指信息在传输与处理过程中可被验证来源合法性与完整性,例如通过公钥基础设施(Public Key Infrastructure,PKI)系统颁发数字证书时,可借 66 助证书链验证确保实体身份的合法性;可审计性作为可验证性的重要组成部分,要求对所有网络操作与数据访问行为进行全面记录与追溯,例如记录用户登录、数据查询等操作日志以便事后审查。与传统安全体系相比,该体系的核心差异体现在两方面:一是动态调整能力的提升,传统安全体系多依赖人工配置的静态规则,难以应对快速演变的威胁环境,而可验证的安全智能体系通过 AI 驱动的自学习机制,实现安全策略的自动化优化与动态适配,例如基于攻防对抗数据实时更新检测模型;二是全流程可验证性的强化,传统安全机制虽具备部分审计功能,但缺乏对威胁检测、响应、处置全流程的系统性验证框架,该体系通过整合可追溯、可解释、可审计等性质,构建从数据采集到决策输出的完整可信链路45,例如通过操作日志的规范化管理与不可篡改设计(如基于区块链技术的存证方案)增强数据可信度,确保安全事件的可追溯与责任可认定。这种特性使得体系在金融、能源等关键领域的复杂环境中能够有效应对多维度、高持续性的安全威胁,提升整体防护效能。67 七、结语七、结语 本白皮书以应对数字化时代安全挑战为核心,系统阐述网络原生智能的设计理念、技术架构与实践场景,深入解析感知-理解-决策-响应的闭环机制,并通过全网 DDoS 攻击检测与缓解、路由安全等场景验证架构可行性,为安全网络一体化提供智能技术支撑。网络原生智能发展需由动态威胁防御需求与智能技术演进双向驱动。紫金山实验室联合产业伙伴在业界首次实现基于图驱动引擎的意图化安全编排框架,通过基于 YANG/NETCONF 的可编排安全能力按需投送理念,引领网络原生智能的技术革新。我们期待通过本白皮书的探索,凝聚更多行业力量。诚邀全球产学研伙伴携手突破轻量化 AI 推理、零信任架构融合等关键技术,共建具备自适应防护、可验证决策与全域协同能力的下一代智能安全网络基础设施,护航数字经济高质量发展。68 附录 A:术语与缩略语 中文名称中文名称 英文缩写英文缩写 英文全拼英文全拼 访问控制列表 ACL Access Control List 人工智能 AI Artificial Intelligence 智能运维 AIOps Artificial Intelligence for IT Operations 高级持续性威胁 APT Advanced Persistent Threat 自治系统 AS Autonomous System 自治系统提供商授权 ASPA Autonomous System Provider Authorization 边界网关协议 BGP Border Gateway Protocol BGP 监控协议 BMP BGP Monitoring Protocol 指挥、控制与情报 C2I Command,Control,and Intelligence 有向无环图 DAG Directed Acyclic Graph 分布式拒绝服务攻击 DDoS Distributed Denial of Service 域名生成算法 DGA Domain Generation Algorithm 数据防泄露 DLP Data Loss Prevention 数据处理单元 DPU Data Processing Unit 端点检测与响应 EDR Endpoint Detection and Response 通用数据保护条例 GDPR General Data Protection Regulation 基于虚拟机监控器的安全 HBS Hypervisor-Based Security 入侵防御系统 IPS Intrusion Prevention System 物联网 IoT Internet of Things 大语言模型 LLM Large Language Model 管理信息库 MIB Management Information Base 机器学习运维 MLOps Machine Learning Operations 网络流 NetFlow Network Flow 69 网络原生智能 NNI Network-Native Intelligence 神经网络处理单元 NPU Neural Processing Unit 开放神经网络交换 ONNX Open Neural Network Exchange ONNX 硬件集成接口 ONNXIFI ONNX Interface for Integration 个人身份信息 PII Personally Identifiable Information 服务质量 QoS Quality of Service 融合以太网上的远程直接内存访问 RoCE Remote Direct Memory Access over Converged Ethernet 资源公钥基础设施 RPKI Resource Public Key Infrastructure 数据采集与监视控制系统 SCADA Supervisory Control and Data Acquisition 安全访问服务边缘 SASE Secure Access Service Edge 软件定义网络 SDN Software-Defined Networking 软件定义广域网 SD-WAN Software-Defined Wide Area Network 分段路由 IPv6 SRv6 Segment Routing IPv6 安全 Web 网关 SWG Secure Web Gateway Web 应用防火墙 WAF Web Application Firewall 网络配置协议建模语言 YANG Yet Another Next Generation 零信任网络访问 ZTNA Zero Trust Network Access 70 参考文献 1 白宫科技政策办公室.国家人工智能研发战略计划:2023 更新版R.华盛顿:White House Office of Science and Technology Policy,2023.2 中共中央,国务院.关于构建更加完善的要素市场化配置体制机制的意见EB/OL.(2020-04-09)2024-12-01.http:/ 潘教峰,万劲波.构建现代化强国的十大新型基础设施J.中国科学院院刊,2020,35(5):545-554.国家发展改革委,中央网信办,工业和信息化部,等.东数西算工程实施方案EB/OL.(2022-02-17)2025-07-31.http:/ 国家发展改革委.关于深入实施东数西算工程加快构建全国一体化算力网络体系的实施意见EB/OL.(2024-01-01)2024-12-01.https:/ LI J,LIU L,ZHAO L,et al.Cyber security meets artificial intelligence:a surveyJ.Frontiers of Information Technology&Electronic Engineering,2018,19(12):1462-1474.6 Wu J,Li R,An X,et al.Toward native artificial intelligence in 6G networks:System design,architectures,and paradigmsJ.arXiv 71 preprint arXiv:2103.02823,2021.7 Banchs A,Fiore M,Garcia-Saavedra A,et al.Network intelligence in 6G:Challenges and opportunitiesC/Proceedings of the 16th ACM Workshop on Mobility in the Evolving Internet Architecture.2021:7-12.8 Wu W,Zhou C,Li M,et al.AI-native network slicing for 6G networksJ.IEEE Wireless Communications,2022,29(1):96-103.9 华为技术有限公司.AI 原生 6G 网络的数据面设计EB/OL.2024-12-01.https:/ 10 DAEMON Consortium.DAEMON:Network intelligence aDAptive sElf-Learning MObile NetworksEB/OL.2024-12-01.https:/h2020daemon.eu/.11 YANG Y,WU J,CHEN T,et al.Task-oriented 6G native-AI network architectureJ.IEEE Network,2023,37(6):272-279.12 Shi Y,Yang K,Jiang T,et al.Communication-efficient edge AI:Algorithms and systemsJ.IEEE communications surveys&tutorials,2020,22(4):2167-2191.13 AGRAWAL A,KEDIA N,PANWAR A,et al.Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-ServeC/18th USENIX Symposium on Operating Systems Design and Implementation(OSDI 24).Santa Clara:USENIX Association,2024:72 1-18.14 SONG L,HU X,ZHANG G,et al.Networking systems of AI:On the convergence of computing and communicationsJ.IEEE Internet of Things Journal,2022,9(14):12520-12540.15 Song L,Hu X,Zhang G,et al.Networking systems of AI:On the convergence of computing and communicationsJ.IEEE Internet of Things Journal,2022,9(20):20352-20381.16 傅懋钟,胡海洋,李忠金.面向 GPU 集群的动态资源调度方法J.计算机研究与发展,2023,60(6):1308-1321.DOI:10.7544/issn1 000-1239.202220149 17 MOKHTAR B.AI-enabled collaborative distributed computing in networked UAVsJ.IEEE Access,2024,12:89456-89470 18 JOY M,VENKATARAMANAN S,AHMED M.AIOps in Action:Streamlining IT Operations Through Artificial IntelligenceJ.International Journal of Artificial Intelligence,2024,12(3):45-62.19 BACCOUR E,MHAISEN N,ABDELLATIF A A,et al.Pervasive AI for IoT applications:A survey on resource-efficient distributed artificial intelligenceJ.IEEE Communications Surveys&Tutorials,2022,24(4):2182-2204.20 IMT-2030(6G)推进组.6G 网络原生 AI 技术需求白皮书R.北京:IMT-2030(6G)推进组,2022.21 JUNG B C.Toward artificial intelligence-native 6G servicesJ.73 IEEE Vehicular Technology Magazine,2024,19(4):18-25.22 CISCO Systems.What Is AIOps?Artificial Intelligence for IT OperationsEB/OL.2024-12-01.https:/ NGUYEN D C,DING M,PHAM Q V,et al.Federated learning meets blockchain in edge computing:Opportunities and challengesJ.IEEE Internet of Things Journal,2021,8(16):12806-12825.24 LIN X.Artificial intelligence in 3GPP 5G-advanced:A surveyJ.arXiv preprint arXiv:2305.05092,2023.25 商兴宇,刘小欧,杨明川.人工智能原生网络发展趋势研究J.信息通信技术与政策,2023,49(8):1-8.26 NEPTUNE AI.How to optimize GPU usage during model trainingEB/OL.2024-12-01.https:/neptune.ai/blog/optimizing-gpu-usage-during-model-training-with-neptune.27 ZHANG Y,MENG Q,HU C,et al.Revisiting congestion control for lossless ethernetC/21st USENIX Symposium on Networked Systems Design and Implementation(NSDI 24).Boston:USENIX Association,2024:1-18.28 PENG Y,WEI H,ZHONG X,et al.Barre:Empowering simplified and versatile programmable congestion control in high-speed AI clustersC/2025 USENIX Annual Technical Conference(ATC 25).Santa Clara:USENIX Association,2025:1-16.74 29 LIU S,WANG Q,ZHANG J,et al.NetReduce:RDMA-compatible in-network reduction for distributed DNN training accelerationJ.arXiv preprint arXiv:2009.09736,2020.30 ONNX Community.ONNX v1.18.0 Release NotesEB/OL.2025-01-15.https:/ LE A.An MLIR-based Compiler for ONNX AI modelsC/2025 AsiaLLVM Developers Meeting.2025.32 JOSHUA C,KARKALA S,HOSSAIN S,et al.Cross-Platform Optimization of ONNX Models for Mobile and Edge DeploymentJ/OL.ResearchGate,20252025-01-15.https:/ Qualcomm Technologies Inc.Unlocking the power of Qualcomm QNN Execution Provider GPU backend for ONNX RuntimeEB/OL.2025-05-10.https:/ NEZAMI Z,HAFEEZ M,DJEMAME K,et al.Generative AI on the edge:Architecture and performance evaluationJ.arXiv preprint arXiv:2411.17712,2024.35 NAAYINI P.Building ai-driven cloud-native applications with kubernetes and containerizationJ.International Journal of Scientific Advances(IJSCIA),2025,6(2):328-340.75 36 IPC.The Top 5 SD-WAN Trends and Advancements for 2025EB/OL.2025-01-15.https:/ SAXENA N,YADAV A R,TALWANDI N S.Beyond Intent:A Unified AI Framework for Self-Optimizing,Self-Securing,and Self-Healing Networks Using Generative AI,Federated Learning,and Neuromorphic ComputingJ.IJSAT-International Journal on Semantic Web and Information Systems,2025.38 DAVID S.AI-Driven Network Management Systems:A Review of Intelligent Monitoring,Predictive Maintenance,and Self-Healing CapabilitiesEB/OL.ResearchGate,20252025-01-15.https:/ SHAJARIAN S,KHORSANDROO S,ABDELSALAM M.A Survey on Self-Running Networks:Concepts,Components,Opportunities,and ChallengesJ.Authorea Preprints,2024.40 Zscaler Inc.5 Predictions for Zero Trust and SASE in 2025EB/OL.2025-01-15.https:/ FOPA MAMENE M.Secure Access Service Edge(SASE):Architecture,Implementation,and Performance EvaluationD.2024.42 AJISH D.The significance of artificial intelligence in zero trust technologies:a comprehensive reviewJ.Journal of Engineering 76 Science and Innovative Technology,2024.43 NWEJE U.Blockchain Technology for Secure Data Integrity and Transparent Audit Trails in CybersecurityJ.International Journal of Research and Publication Reviews,2024.44 QADER K S,CEK K.Influence of blockchain and artificial intelligence on audit quality:Evidence from TurkeyJ.Heliyon,2024,10(10):e30166.45 BESHARAT P.AI and Blockchain,Enhancing Security,Transparency,and IntegrityEB/OL.ResearchGate,20242025-01-15.https:/

    发布时间2025-08-22 83页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 未来网络发展大会:2025光电融合网络技术与产业应用白皮书(95页).pdf

    未来网络技术发展系列白皮书(2025)光电融合网络技术与产业应用白皮书第九届未来网络发展大会组委会2025年8月版权声明版权声明本白皮书版权属于紫金山实验室及其合作单位所有并受法律保护,任何个人或组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:紫金山实验室等来源:紫金山实验室等”。否则将可能违反中国有关知识产权的相关法律法规,对此紫金山实验室有权追究侵权者的相关法律责任。编写说明编写说明编写单位编写单位(排序不分先后(排序不分先后):江苏未来网络集团有限公司、紫金山实验室、江苏省未来网络创新研究院、中国联通设计院、中国电信股份有限公司研究院、中国移动通信有限公司研究院、新华三技术有限公司、武汉光迅科技股份有限公司、深圳瑞波光电子有限公司、南方科技大学编写人员编写人员(排序不分先后(排序不分先后):陶高峰、秦子健、李琳、尹睿、秦树鑫、任广臣、陈平平、黄韬、杨伟、刘刚、刘伯江、焦明涛、朱永庆、陈迅、胡泽华、杨冰、程伟强、阳进、姜文颖、王豪杰、田郁池、周鸣、赵红海、阮祖亮、刘建锋、喻杰奎、李恒、武毅博、郭鑫、李浩、胡海、汪漪,凌晨曦前言当前,以 6G、云计算、人工智能、未来网络技术等为代表的新一代信息技术正加速与实体经济深度融合,推动各行业数字化转型向纵深发展。然而,传统分离的光传输与 IP 网络架构已难以满足数字经济时代对超高速率、超低时延、超高可靠性的严苛要求。光电融合网络技术作为新一代信息基础设施的核心支撑,通过 IP 层与光层的深度融合,构建起大带宽、低时延、高可靠的确定性网络能力,为智能制造、远程医疗、自动驾驶等新兴应用场景提供坚实的网络保障。本白皮书系统阐述光电融合网络的技术特征与发展需求,深入分析长距离相干光传输技术、IP 光融合架构、光电协同的智能管控系统等关键技术,全面梳理国际国内标准进展与产业生态现状。通过剖析数据中心互联、算力网络等典型应用场景,展示了光电融合网络在降低 30%以上 TCO、提升 50%以上能效比等方面的显著优势。同时,本白皮书提出三阶段发展路径与产业协同建议,旨在推动构建开放、融合、智能的新一代光电网络体系。我们期待通过本白皮书的发布,吸引更多研究机构、企业和产业人员共同参与光电融合网络的技术创新与应用实践,把握光电融合网络技术带来的产业变革机遇,助力我国数字经济高质量发展,为全球信息通信产业升级贡献中国智慧和中国方案。目录前言.4目录.5一、光电融合网络背景.71.1光电融合网络概念和特征.71.2光电融合网络需求和意义.81.3光电融合网络发展目标.10二、光电融合网络技术.122.1技术体系架构.122.2ZRx 相干光技术.162.3IP 光融合技术.27三、光电融合网络技术发展趋势.353.1相干光技术演进方向.353.2光电融合网络的解耦和融合趋势.443.3光电协同的 SDN 控制与 AI 运维.49四、光电融合网络技术相关标准.554.1相关国际标准及进展.554.2相关国内标准及进展.60五、光电融合网络相关产品与解决方案.635.1ZRx 相干光模块.635.2光电融合网络设备.675.3光电融合管控系统.73六、光电融合网络产业应用场景与案例.776.1应用场景.776.2应用案例.78七、光电融合网络行业发展建议.837.1发展面临的挑战.837.2发展阶段划分.847.3发展对策建议.86八、光电融合网络未来展望.88附录 A:术语与缩略语.89参考文献.94一、一、光电融合网络背景光电融合网络背景1.1 光电融合网络概念和特征光电融合网络概念和特征当前网络容量需求以超过 35%的年复合增长率(CAGR)持续增长,AI、边缘计算等应用推动相干技术向网络边缘延伸。当前网络架构普遍采用“电处理 光传输”的分层方式,这一架构正面临功耗高、转发复杂、跨层协同效率低等核心瓶颈。IP 流量主导的容量激增对新一代节能技术提出更高的要求。行业正推动 IP 业务层与光传输层融合,通过将 DWDM 相干光模块直接部署于路由器等分组设备,消除独立光转发设备,降低功耗与空间占用。光电融合技术从最开始的 IP over WDM 方案,已有十余年历史,近年因开放解耦架构的普及和光模块技术进步(如微型化光电集成、相干容量提升)重获关注。消除独立光转发设备不仅降低 CAPEX,其扩展传输距离还可绕过汇聚节点,进一步节省成本。光电融合网络技术是通过光层传输与 IP 层控制的深度协同,构建的统一网络架构体系。其核心是将传统分离的光传输系统(DWDM/OTN)与分组交换设备(路由器/交换机)在物理设备层、协议层和网络管理层实现三重融合,形成下一代确定性、可编程、广覆盖的智能承载网络。光电融合网络技术具备如下三大关键特征:1.“IP 光光”协同引擎协同引擎采用高速相干彩光模块(如 400G/800G ZR 、1.6T 模块)作为IP 层直连接口,实现无电中继的长距离传输,构建从路由器到光层的透明链路。2.确定性网络增强机制确定性网络增强机制基于 SRv6 ODU/OSU 灵活复用,实现业务粒度切片(vlan/roce等)与路径稳定转发保障,支持微秒级时延控制,适应 AI/工业/金融等场景对稳定性、低抖动的极致要求。3.广域光电融合调度能力广域光电融合调度能力结合统一控制面(如 SDN 控制器)实现电信级路径动态调度,完成全网粒度识别、片段级路径编排与秒级快速发放,支持广域高效算力连接。1.2 光电融合网络需求和意义光电融合网络需求和意义随着 5G、物联网、高清视频等技术的普及,数据流量呈爆发式增长。传统通信网络在传输容量和速度上逐渐难以满足需求,光电融合网络凭借光信号高带宽的优势,能实现高速大容量数据传输,满足不断增长的数据传输需求。算力资源的分布往往和需求不匹配,导致资源利用率不高,严重影响了数字经济高质量发展,“东数西算”工程目前还面临“算不了、算不起、算不好”的问题。要解决这些难题,需构建低成本的智算互联网,以此支撑我国人工智能、大模型的发展需求,要将数据在不同地区的算力中心间高效传输和调度。光电融合网络可实现长距离、低延迟、无损的数据传输,为算力资源的跨区域协同提供支撑。人工智能大模型训练、工业控制、自动驾驶等新兴应用对网络延迟要求极高。如 AI 大模型训练中,网络抖动与丢包会严重影响性能,光电融合网络能有效降低延迟和抖动,满足这些应用的严格要求。数据中心等网络设施能耗巨大,传统电交换网络能耗较高。光电融合网络在光传输部分能耗较低,有助于降低网络整体能耗,符合绿色节能的发展趋势。光电融合网络则打破这一壁垒,提升网络资源灵活调度能力、降低网络架构复杂度,实现面向智算场景的泛在连接能力,其意义主要体现在:支撑数字经济:为 AI 训练、算网协同、大数据处理等业务提供高效、高可用底座;为智能制造、智慧城市、智慧能源等多个领域提供高性能网络支持,加速各行业数字化进程,提升生产效率和管理效能,促进产业升级。突破传统网络瓶颈:突破传统网络架构中光电信号分离以及高成本、高能耗、低效率等瓶颈,实现长距离无电中继无损承载、高性能、跨层调度、业务驱动、自适应修复等高级运维能力,为网络技术发展开辟新路径。降低部署与运营成本:统一架构减少设备种类和中继节点,显著降低 CAPEX 与 OPEX;促进算力与数据融合:为算力的传输、交易、应用打造优质平台,构建庞大的算力资源池,实现算力资源的高效调度和共享,推动算力与数据要素的流通,支撑人工智能等新兴技术发展。提升国家网络竞争力:光电融合网络相关技术是未来网络发展的关键。全球首个光电融合确定性新型算网基础设施的开通,为中国新型网络基础设施领域实现从技术突破到产业引领,迈向全球领先地位奠定了基础。同时有助于促进 DSP、硅光、TFLN、控制器等关键器件与平台的自主研发与规模应用。助力可持续发展:通过降低能耗,减少对环境的影响,有助于实现碳减排目标,促进人与自然的和谐共存,符合全球可持续发展的大趋势。1.3 光电融合网络发展目标光电融合网络发展目标光电融合网络的发展目标是通过光层传输与电层计算的深度协同,构建“光电一体、融合协同”的新型信息基础设施,以解决传统网络在带宽、时延、能耗方面的根本性瓶颈。(1)带宽升级网络带宽演进是一个不断发展提升的过程,从早期低速拨号上网,到如今的千兆、万兆光纤入户,以及数据中心的超高带宽网络,经历了多个阶段,以太网的速率也经历了从 10Mb/s,逐渐提升到 400Gb/s。未来光电融合网络需要支持 800Gb/s、1.6Tb/s,甚至 100Tb/s,从而支撑数据的速率增长。(2)确定性低时延在网络通信中,确定性时延是指数据传输的时延大小可精确预测、波动范围极小(甚至趋近于零)的特性,核心在于“可预期”而非单纯“低”。它对工业控制、自动驾驶等对时间敏感的场景至关重要。与之对应的是“不确定性时延”:时延大小随机波动,无法预测(可能很低,也可能突然增大),例如普通互联网中,视频卡顿多是因时延抖动过大导致的。确定性低时延的实现需从网络架构、调度机制、资源分配等多维度设计,消除不确定性,提升转发效率,降低时延,这些都是光电融合网络要解决的问题。(3)能效跃进在“双碳”战略驱动下,构建绿色、高效的网络基础设施成为行业共识。传统“电 光”分层架构下,多级转发、重复 OEO(光电光)转换导致整体链路能效低下。光电融合网络的发展目标之一,正是通过将高能耗的 IP 处理前移至光层边缘,利用低功耗相干模块(如400G/800G ZR )实现 IP 业务直接出彩光进入波分系统,减少两级OEO 过程,大幅减少中间设备和机房能耗。在架构层面,通过 CPO(共封装光学)、硅光集成、动态光层调度等新技术,推动网络走向“极简转发 按需编排”的绿色形态。最终目标是在保障高性能承载的同时,实现每比特传输能耗最小化,构建面向 AI 时代的低碳智联网络。(4)切片保障带宽切片保障是通过将网络带宽资源进行划分,为不同业务或用户提供独立、定制化的带宽服务,确保其性能不受其他业务影响的技术手段。利用网络切片技术将单一物理网络划分为多个虚拟网络,每个切片有独立的网络功能、配置参数等,切片间共享物理资源但业务相互隔离,避免干扰,从而保障每个切片的带宽稳定性和服务质量。目前较成熟的切片技术有光层的分光、波道、子载波、光通道数据单元、光业务单元、光交叉最小颗粒度等技术,在数据层有信道化子接口、FlexE 等,在光电融合网络架构下,这些功能将协同发挥更加高效作用。(5)智能运维光电融合网络需要改善传统的运维方式,从“人治”到“自愈”,实现自动驾驶,充分利用 AI,实现“人算”到“智算”。此外,光电融合网络需要根据用户的业务 SLA 需求做到动态智能选路,保障客户的业务情况。二、二、光电融合网络技术光电融合网络技术2.1 技术体系架构技术体系架构光电融合技术通过将 IP 路由和光网络功能集成在一个统一的架构中,减少了中间设备的数量和复杂性,减少了网络层级,使得网络管理更加简便,调度更加灵活,优化了资源利用率,提升了业务发放速度。图 1.光电融合网络系统架构图光电融合网络采用分层解耦、融合重构的技术架构。其核心结构包括三层:硬件层:由具体的光电融合硬件组成,包括彩光引擎线卡、彩光相干模块、模块化白盒波分设备、模块化白盒路由器、框式商用路由器等形态。该层直接承载业务转发与光信号调制解调,是支撑 IP 业务直接入光、光层传输、降低中继损耗、实现大带宽低功耗传输的物理基础。其形态灵活、接口丰富,可按需部署于算力集群边缘、骨干传输节点或广域边界侧。协议层:该层为设备的操作系统与功能编排系统,负责统一管理设备板卡、端口、链路等资源,支撑算力感知、自适应路径、彩光驱动、SR/SRv6、VPN、安全防护等网络服务能力。同时,封装各类硬件驱动抽象接口(如 SAI、ONLP),统一软硬件之间的调用协议与状态同步机制,实现设备的“能力开放”和“功能可编排”,构成网络智能化的核心执行单元。管控层(协同调度层):融合了“传输网管 SDN 网络控制器 数通网管”的统一编排调度系统,承担 IP 与光层资源的端到端联合调度。通过意图识别、路径计算、策略发放,构建确定性网络大脑,实现秒级响应的服务开通与跨层资源调度,是支持大模型训练、“东数西算”、超低时延业务的核心支撑平台。光电融合网络架构通过构建“管控层系统层硬件层”三位一体的融合体系,打通 IP 与光的界面,集成算力感知、路径调度、光层管理等能力,实现网络架构的整体重构与能力集成。其架构呈现出以下五大特点:1.端到端融合编排端到端融合编排架构打破 IP 与光层的传统分层边界,实现从业务接入到光层调度的统一控制,具备从路径规划到资源发放的端到端编排能力,支持确定性网络构建与秒级调度响应。2.软硬解耦、接口开放软硬解耦、接口开放引入 SAI、ONLP 等抽象接口,实现设备操作系统对多样硬件形态(芯片、线卡、模块)的封装与适配,促进产业生态开放,便于多供应商设备统一管控。3.融合多能力栈融合多能力栈网络设备不仅具备传统路由转发能力,还融合了算力感知、自适应路径、彩光驱动等智能调度模块,构成了“计算网络光传输”融合的综合服务平台。4.多样化形态适配多场景部署多样化形态适配多场景部署支持彩光线卡、模块化白盒、框式路由器等多种硬件形态,可灵活部署于核心、汇聚、边缘等多种应用场景,满足智算中心互联、骨干网演进、数据中心互联等需求。5.支持标准化协议与可编程能力支持标准化协议与可编程能力全面兼容 NETCONF、PCEP、Telemetry、BGP-LS 等南向接口协议,并支持 SR/SRv6、VPN、安全计算等网络能力开放,为构建自动化、可编程网络提供基础支撑。光电融合技术体系依赖三个方面的发展:光模块与白盒设备的发展、设备操作系统的发展、统一控制器的发展。光模块与白盒设备的发展:随着网络带宽需求增长和成本控制需求,为了解决灰光模块在大容量远距离传输时的局限性,彩光技术应运而生。随着技术的日渐成熟,业界的彩光方案有多种模式,例如DWDM 彩光方案将 OTU 模块集成到彩光光模块中,实现路由器直接出彩光进入合波设备传输,而光电一体方案则在 DWDM 基础上更进一步,路由器不仅集成 OTU 单元功能,还在发送/接收端集成分波/合波单元功能,两台路由器之间只需通过光纤连接即可。有了彩光模块,就需要数通设备支持彩光模块,与彩光模块灵活适配,在 IP 层和光层共同发展光电融合功能,但是传统的数通设备操作系统并不是灵活适配与更改的。将商用硬件与开源软件结合,打破传统厂商软硬件绑定模式的白盒设备发展至关重要。白盒核心在于通过软硬件解耦实现灵活性与成本优化,同时,白盒设备与 SDN/NFV、网络切片深度结合,实现“网络即服务”。光模块与白盒设备的互相结合,打造了光电融合网络的灵活底座。设备操作系统的发展:白盒操作系统是白盒数通设备实现软硬件解耦的核心。全球超 70%的白盒交换机采用 SONiC,亚马逊、阿里云、腾讯云均加入社区并贡献代码,支持 800G/1.6T 接口及 AI 训练所需的 RDMA 协议。白盒操作系统需要面向广域、算力、第三方应用等多场景,既可以满足广域业务的一键开通与承载,也可以响应算力的接入与调度,同时,面临用户界面的多场景应用也能灵活适配。随着多厂家加入白盒操作系统的研发,白盒操作系统在标准与成熟度上都有了质的提升。统一控制器:随着光电融合网络的不断发展,对光网络与电网络进行统一管理和控制,从而实现光层与电层的流量调度、路径计算等功能,以此提升网络灵活性与可扩展性的设计方案陆续涌现。2.2 ZRx 相干光技术相干光技术2.2.1 技术概述技术概述光电融合网络技术的发展,得益于相干光通信技术的持续突破。近年来,基于高阶调制(如 QPSK、16QAM、64QAM)、高速 ADC/DAC芯片、先进 DSP 算法与低功耗封装工艺的进步,使得相干光模块在速率、距离、集成度和能效方面大幅提升。从最初的 100G CFP 模块,到如今广泛商用的 400G ZR/ZR ,再到即将部署的 800G ZR /1.6T 方案,相干光技术正实现从骨干长距传输向城域接入乃至数据中心直连的广泛渗透。这种高性能光通信能力的普及,使 IP 与光层在物理层面具备深度融合的可行性,为构建统一架构、弹性调度、低时延、绿色高效的新型网络形态提供了坚实基础。最初的 ZR 相干光通信主要解决数据中心间光互连的问题,为数据中心之间的以太网业务信号在 80 公里到 120 公里这样的场景中提供了支持相干收发以及 DWDM 功能的光互连能力。为了实现数据中心在多供应商互联互通方面的需求,光互联论坛(OIF)经过 2016年到 2020 年 4 年时间的研究与标准制定,发布了最初的 ZR 应用协议:400ZR 标准。随后,在此基础上 400GBASE-ZR1、ZR 、FlexO-xe等不同的光接口方案在典型的 ZR 标准接口基础上被陆续提出,并在国际电联(ITU)和电气电子工程师学会(IEEE)等组织进行标准化,将 ZR 类型的相干光接口应用范围进一步扩展,覆盖短距到长距的不同场景,支持以太网业务信号直接使用相干光接口传输。图 2 展示了几个主要标准组织面向不同场景定义的相干光接口标准。图 2.不同标准组织所规范的 ZR/ZR 以及其他相干光信号接口相干光技术的发展经历了几个阶段,每个阶段都在性能、效率和集成度方面有显著提高。每个阶段主要特点:第 1 阶段相干技术:光纤容量、功率效率和每比特成本迅速提高,从 QPSK 调制过渡到 16QAM 调制,从摩尔定律中获益匪浅,数字处理消耗了更多的模块功率,引入业界首创的可插拔模块。第 2 阶段相干技术:标准化接口,在客户端外形中引入 ZR/ZR ,实现基于路由器的应用,首次部署概率星座整形解决方案,自适应波特率,使发射频谱与信道紧密匹配,更广泛地部署可插拔模块,使用75GHz 信道网格,以 60-68 Gbaud 速率运行。主要标准:400ZR、OpenZR 、Open ROADM。第 3 阶段相干技术:频谱效率逐步提高(约 20%),MSA(多源协议)插件中可互操作的 PCS(物理编码子层),提高密度和每比特成本,在可插拔外形尺寸中引入性能优化设计,以 120-136 Gbaud 速率和 150GHz 信道网格运行。主要标准 800LR、800ZR、Open ROADM。第 4 阶段相干技术:OIF(光互联网论坛)上启动的 1600ZR 与1600ZR 工作,1600ZR 优先选择单载波(240Gbaud),1600ZR 优先选择数字双子载波(250GBaud),以实现功率、性能和成本目标,针对路由器部署的小型插拔式光缆,预计运行速率为 240-272 Gbaud,信道网格为 300GHz。拟议标准:1600ZR、1600ZR 。2.2.2 关键技术关键技术1.帧结构与编码ZR/ZR 信号的帧格式参考了 ITU-T OTN 标准,使用了 FlexO 帧进行信号的封装。具体在不同速率,不同传输距离和应用场景上,ZR/ZR 和传统 OTN 的光接口在业务映射和开销使用上有具体的区别。(1)400G ZR 技术OIF 400 ZR 标准的提出首次在业界引入了 ZR 相干光接口与 ZR光模块的概念以及相应的技术方案。其涉及到业务映射,帧结构封装,光信号编码调制等多个方面。业务映射方面,400 ZR 以 400G 以太网为唯一的目标业务,沿用了 ITU-T 面向超 100G OTN 使用的灵活 OTN(FlexO)接口的帧结构,同时大幅简化了业务映射到该帧载荷区域的方式。400ZR 将 400G 以太网信号直接通过 257b 码块,使用通用映射流程(GMP)映射将其直接映射到了 FlexO 帧的载荷区域。相比经典的 OTN 业务数据流程,减少了 ODU 与 ODUCn 等多个业务层次,也因此更加适合点对点的传输场景,缺少了复杂网络汇聚与交叉的运行和维护能力。简化的业务映射带来的另一个特点是接口信号的基准比特速率可以得到优化降低。帧结构封装方面,400ZR沿用了OTN标准的FlexO帧结构。FlexO帧以 100G 帧实例为基础,随着业务速率的提升可以对多个 100G 帧实例进行交织形成信号帧。400ZR 的帧结构由 4 个 100G FlexO 帧实例经过 128 比特交织形成。400ZR 对于 FlexO 标准的开销进行了较多的简化,使用了利于相干信号的帧对齐编码和点对点场景下的告警信号开销。FlexO 加密、电再生等 ITU-T 中为原 FlexO 帧定义的开销,在 ZR 中则不进行支持。光信号编码调制方面,400ZR 使用 14.8%开销比例的 CFEC 进行编码。CFEC 是一种将阶梯码(Staircase)与汉明码级联形成的 FEC编码方案。也因此得名级联 FEC(Concatenated FEC,CFEC)。该 FEC的净编码增益大约 10.8dB,低于骨干网络中常用的各种 20%以上开销比例的软判决 FEC 编码,但是明显高于强度调制信号所使用的硬判 决 FEC。400ZR 相 干 信 号 调 制 使 用 典 型 的 DP-16QAM(Dual-Polarization 16-QuadratureAmplitude Modulation)编码。OIF 标准本身并未限制 ZR 模块实现的具体封装形式,仅要求使用可插拔光模块封装。根据市场的实际需求和发展,QSFP-DD 成为400ZR 最常见的光模块封装形式。(2)400G ZR 技术典型的 ZR 光模块应用于 80 公里到 120 公里的相对短距的以太网互联场景。对于更长距离的场景,400G ZR 光模块和光接口也逐步进入了市场。400G ZR 在业务映射和帧结构与开销方面与 400ZR 保持了一致。为了满足更强的传输性能,扩展光接口和光模块的传输距离的需求,400G ZR 会使用开销约 15.3%,净编码增益 11.6dB 的开放 FEC(OpenFEC,OFEC)。调制格式方面,早期的 400G 信号使用 DP-16QAM 调制,传输距离可达数百公里。近年来,伴随着芯片与器件技术发展,信号带宽与波特率进一步提升,400G 信号已经可以支持 DP-QPSK(Dual-Polarization Quadrature Phase Shift Keying,双偏振正交相移键控)调制,传输距离超过一千公里。(3)800ZR 技术800ZR 技术标准同样由 OIF(光互联论坛)制定,目标应用场景仍为 80 公里 DCI(数据中心互联)。该标准在业务映射与帧结构封装层面沿用了 400ZR 的方案思路:使用 ITU-T 定义的 FlexO 帧结构,将以太网业务直接映射以承载用户数据,适配合适的 FEC 编码,最后进行相干光信号的相位调制。在业务数据流程方面,以太网业务流经由 257 比特码块的 GMP映射适配至 FlexO 帧的载荷区域。800ZR 所使用的 800G FlexO 帧由8 个 100G FlexO 帧实例通过 128 比特交织方式构成。在编码和调制方面,800ZR 信号采用 OFEC 编码以及 DP-16QAM调制。(4)800G ZR 技术与 400G ZR 和 400ZR 的关系类似,在 800G 相干光信号传输的应用中,为了扩展应用范围,传输距离更远的 800G ZR 接口应运而生。在 800ZR 的基础上,800G ZR 为了提升传输距离,使用了概率星座整形(PCS)技术,因此,800G ZR 的信号调制格式为DP-PCS16QAM。800G ZR 使用的 PCS 基于查找表(LUT)实现,额外的开销为 11%。在结合了 PCS 与 OFEC 编码以后,800G ZR 的传输距离可以达到数百公里。2.调制技术ZR/ZR 相干光技术的光相位调制与相干接收技术与典型的相干光通信目前并无本质区别。针对 ZR 相对较短距离和大容量的需求,一般使用 DP-16QAM 的调制格式,以及开销比例和编码增益性能适中的软判决前向纠错码(FEC)。而 ZR 或者更长距离的光接口,则根据需求会进一步使用 DP-QPSK 调制或者星座概率整形(PCS)。下面对几种主流的调制技术进行介绍。(1)DP-QPSKDP-QPSK(Dual-Polarization Quadrature Phase Shift Keying,双偏振正交相移键控)是光通信领域中一种兼顾传输效率与抗干扰能力的调制技术,通过结合双偏振复用与四进制相位调制,在有限带宽内实现高速、稳定的数据传输,广泛应用于长距离骨干网和城域核心网。QPSK(正交相移键控)是一种相位调制技术,通过对光载波的相位进行四进制编码来传递信息。在 QPSK 中,信号被映射为 4 个离散的相位状态(通常为 0、90、180、270),每个相位状态对应 2 比特二进制数据(因 2=4),单个符号周期内可传输 2 比特信息,理论频谱效率为 2b/s/Hz。DP-QPSK 的“DP”核心在于引入光的偏振维度 利用光信号的两个正交偏振态(如水平偏振H 和垂直偏振 V)作为独立传输通道。在发送端,输入数据被分为两路,每路分别经过 QPSK 调制生成独立的偏振态信号,第一路数据经 QPSK 调制后加载到水平偏振载波;第二路数据经 QPSK 调制后加载到垂直偏振载波,两路信号通过偏振合波器整合到同一根光纤中传输,实现“单光纤双信道”的并行传输。这一设计使传输容量在 QPSK 基础上翻倍:单偏振 QPSK 在100GHz 信道间隔下可传输 100Gbit/s,而 DP-QPSK 则能实现200Gbit/s 传输,且无需额外占用频谱资源,大幅提升了光纤的带宽利用率。目前,DP-QPSK 已成为 100G/400G 光传输系统的主流技术,是骨干网承载大容量数据业务(如云计算、高清视频)的重要支撑。(2)DP-16QAMDP-16QAM 是一种在光纤通信中实现单波长超高容量传输的调制技术,通过同时利用光的偏振态和相位/振幅维度,显著提升频谱效率。DP-16QAM 可以实现单波速率 400G,无中继传输距离 600KM。DP-16QAM 相比 DP-QPSK,的核心机制的更新是在相位调制的基础上引入了幅度调制和更多的相位点。一个 16QAM 符号包含不同相位与幅度的 16 个星座点,可以编码 4 比特(因因 24=16)二进制数据。在此基础上继续使用偏振复用技术将容量翻倍以后,DP-16QAM的传输容量相比 DP-QKSP 可以增加一倍。例如 100GHz 通道间隔下,DP-QKSK 信号通常传输 200Gbit/s,DP-16QAM 则可以传输 400Gbit/s,对应了 400ZR 的标准速率。(3)PCS-64QAM64QAM 是 64 进制正交幅度调制的简称,作为 QAM 技术的高阶形式,它通过同时调制载波的幅度和相位,在一个符号周期内携带更多比特信息。在 64QAM 中,信号被映射到由 64 个离散“星座点”组成的二维坐标系统(I 路为同相分量,Q 路为正交分量),每个星座点对应 6 比特二进制数据(因 2=64)。PCS-64QAM 通过智能调整星座点出现概率,突破传统均匀调制的物理极限,实现更高频谱效率与更强的抗噪能力。PCS-64QAM 的概率星座整形“PCS”核心在于不同的星座点编码数据的概率不同。对于内层低幅度的星座点编码概率更高,外层高幅度的星座点编码概率更低,理想的概率分布应符合麦克斯韦-玻尔兹曼分布以使调制符号的信息量逼近香浓极限。通过实际概率分布的进一步调节,PCS 技术可以实现每个符号承载二进制数据量的灵活调节,例如 PCS-64QAM 的每个符号承载数据可以为 2 到 6 比特。PCS-64QAM 相比等概率的 64QAM 通常具备更远的传输距离,以降低容量的代价克服高阶相位调制的传输性能瓶颈。PCS-64QAM 的出现为单波 1.6T 及未来光网络铺平道路。3.硬件的封装与集成(1)CFP 系列:100G/200G 时代的过渡方案2010 年前后,CFP(Centum Form-factor Pluggable)系列模块开始商用,主要用于 100G/200G 长距离传输,如骨干网和城域网。最早的 CFP 模块尺寸较大(8214413.6 mm),功耗高达约 24W,采用模拟相干技术和外置 DSP 芯片。CFP 集成 DSP 成为数字相干模块以后,功耗进一步提升至 30W 以上。CFP 模块典型电接口为 1010G(CAUI-10),对应 100G 速率。随后推出的 CFP2 将体积缩小 50%,广泛支持数字相干(CFP2-DCO),电接口升级至 425G(CAUI-4)或 825G(200GAUI-8),功耗降至 15W 左右,同时兼容 100GDP-QPSK 和 200G 16-QAM 调制。后续 400G DP-16QAM 调制格式以及 850G(400GAUI-8)电接口也可以通过 CFP2 模块实现。而后续的 CFP4 封装模块虽然进一步减小了尺寸,但由于市场更倾向于高性能的 CFP2 和小体积的 QSFP-DD 标准,最终未能广泛普及。(2)QSFP-DD/OSFP:400G 及更高速率的新一代标准2018 年后,数据中心互连(DCI)对高密度、低功耗的需求催生了新一代光模块QSFP-DD(双密度四通道小型可插拔)和 OSFP(八通道小型可插拔)。其中,QSFP-DD 沿用 QSFP28 的外形(18.3589.48.5 mm),支持850G电通道(400G),功耗优化至1214W,并能向后兼容现有交换机端口。但其散热能力有限,尤其在 64-QAM等高阶调制下需要额外的冷却措施。此外,400G-ZR 标准虽采用QSFP-DD封装,但传输距离通常仅80公里左右。OSFP专为800G/1.6T设计,尺寸稍大(22.58100.413 mm),提供更高的功率预算和更好的散热结构,适用于 AI 集群互联等高性能场景,已被谷歌、Meta等超大规模数据中心采用。封装技术对比如下:参数CFP2QSFP-DDOSFP尺寸(mm)41.5107.518.3589.422.58100.4参数CFP2QSFP-DDOSFP12.48.513典型功耗(W)15W(100G)1214W(400G)16W(800G)电接口425G NRZ850G PAM48112G PAM4典型速率100G/200G400G800G/1.6T主要用途电信骨干网数据中心互连超算/AI 集群2.3 IP 光融合技术光融合技术IP 光融合将 IP(互联网协议)层与光传输技术深度融合,实现高效、灵活、大容量的数据传输,并使用标准化的 400G ZR/ZR 可插拔光模块直接从路由器端口传输相干波长。使用相干热插拔光模块可以直接从路由器端口提供密集波分复用(DWDM)功能,这有助于简化网络传输,节省资本支出,减少对网络中的转发器和光传输设备的需求,有助于简化并加速网络规划、运维和故障排除,同时 IP 光融合技术通过使用相干热插拔光模块不仅能将网络容量扩展到800G,还能将 400G 网络的传输距离扩展到数千公里。2.3.1 技术概述技术概述IP 光通过深度融合 IP 层与光层,可减少网络转接层级、显著降低建维成本并提升承载效率;经济灵活的 IP 网络与高效安全的光网络融合将驱动承载技术、设备形态和应用方案的多维度融合创新;当前集成电路的能力提升、硅光及光电合封等关键技术的日趋成熟、设备 SDN 南向接口的融合统一,为网络融合和大规模部署提供了坚实支撑,成为面向未来高效承载网络的重要演进方向。IP 光的融合包括管控融合、协议融合、硬件融合三个维度。在管控融合维度,通过 SDN 统一控制器实现 IP 层与光层的联合资源调度和智能运维,打破传统分离式管理模式;在协议融合层面,通过Netconf 等技术实现协议栈的语义互通,解决 IP 与光协议间的语义鸿沟;在硬件融合层面,通过可插拔相干光模块、共封装光学(CPO)等技术创新,实现设备层面的深度集成,降低传输时延和功耗。2.3.2 关键技术关键技术1.管控融合将光网络和电网络进行统一管理与控制,实现对光层和电层的流量调度、路径计算等功能,提升网络的灵活性与可扩展性的设计方案陆续产生。管控融合的技术路线呈现从协议互通到智能融合的演进脉络,核心技术包括协议协同、分层控制、统一模型与 AI 赋能。未来,随着800G/1.6T 光模块、量子通信与 AI 技术的成熟,管控融合将进一步向自优化、自治化方向发展,成为支撑算力网络、元宇宙等新兴业务的关键基础设施。企业与运营商需根据自身需求选择技术路线:基础互联阶段适合业务稳定的场景;动态协同阶段适用于广域骨干网;智能融合阶段则需提前布局 AI 与量子技术储备。Juniper TungstenFabric 属于动态协同阶段,重点解决边缘计算场景的分布式控制与安全需求。OpenDaylight 属于协议驱动的跨层协同阶段,强调多协议兼容性与分布式控制。华为等 SDN 控制器属于智能融合阶段,探索量子通信与 SDN 的深度集成。在当前网络管控融合的实践中,业界主流采用两种方式:第一种是光电融合路由器的双 SBI 管理方式,其主要特点是将光电融合路由器的管理权限在 IP SDN 控制器和光 SDN 控制器之间进行共享。这种方式要求明确划分两种控制器的权限边界及互通规则,以避免出现数据库不一致等问题。第二种是光电融合路由器的单 SBI 管理方式,该方式假定 IPSDN 控制器是唯一直接与光电融合路由器对接的接口,并由其全权负责所有管理功能的实现。此外,在 IPv6 环境的应用场景下,统一控制器还需要提供切片、确定性等功能的分配服务。2.协议融合在“IP 光”融合架构中,协议驱动的跨层协同是实现光层与 IP 层动态联动的核心机制。通过标准化的协议体系,IP 层不仅能够实时感知光网络状态,还可直接调动底层光资源,构建灵活、智能、自动化的网络控制平面。GMPLS(Generalized Multi-Protocol Label Switching)是在 MPLS的基础上扩展而来,最初设计目的是将 MPLS 的标签机制从电层延伸至光层,标记包括 TDM 时隙、波长、波长组、光纤端口等资源,从而实现业务在多种传输介质之间的统一调度与快速故障恢复。理论上具备跨域、跨层调度能力,是一种典型的光电协同协议。它支持 LMP、RSVP-TE 等多种信令机制,可实现链路资源发现、光层路径计算、保护倒换等功能,曾在早期 IPoDWDM 架构中被多家厂商作为标准方案采用。然而,随着网络规模扩大与业务多样化,GMPLS 逐渐暴露出一系列现实问题:1.协议复杂,配置维护成本高;2.占用大量控制带宽,效率低;3.控制与转发紧耦合,灵活性弱;4.不适配现代 SDN 解耦架构,扩展性差。因此,尽管 GMPLS 在技术设计上具有一定前瞻性,但其实际部署效果未达预期,网络可操作性和运维效率难以满足当前需求,在商用化路径上逐渐式微。其他的典型协议还包括:BGP-LS PCEP:IP 控制器通过 BGP-LS 发布链路状态信息,光控制器响应 PCEP 路由计算请求,实现路径规划与资源动态调度。例如,当 IP 层检测到链路拥塞,可触发 PCEP 请求新增波长以实现流量分担。OpenFlow:Openflow 由原来交换机延伸到光设备,用于部分光设备的精细控制,扩展光转发逻辑能力,具备一定可编程性,但适用范围有限。NETCONF YANG:成为现代网络自动化的主流组合。YANG定义数据模型、NETCONF 实现配置交互,两者结合可支持跨厂商设备的统一配置和状态同步,替代传统 CLI/SNMP,实现从“人工脚本”向“结构化交互”的转型。如今,业界更多转向以 PCEP BGP-LS、NETCONF YANG 等更轻量、模块化、可编程的协议体系,来实现 IP 与光层的有效联动与自动化编排。3.硬件层融合在底层网络中,报文转发方式历经多个阶段性技术迭代,体现出从光电分离走向光电融合的演进趋势,尤其在硬件层面上,体现为模块形态、接口模式、能效设计与可运维性的持续优化。以下是从硬件层融合角度出发的五个主要发展阶段:(1)IP over WDM(19992009 年)该阶段以 10G 彩光模块 DWDM 盒子为主要技术形态,IP 设备通过标准 300PIN 接口插入 DWDM 彩光模块,实现点对点的 WDM传输,是最早的“IPoDWDM”实践雏形。然而,随着业务流量爆发性增长,该方案逐渐暴露出光层管理能力薄弱、扩展性差等问题,加之 100G OTN 商用后成本优势显现,该方案被逐步淘汰。(2)IP over OTN(20102015 年)即 OTN 设备用作 DCI;具体网络结构是 IP 骨干网 波分 OTN。特点如下:1)丰富的业务开发能力,要求运维人员更专业化,依赖厂商技术支持,技术封闭。2)强大的 OAM 能力,标准不统一,跨网络对接困难更加独立,无用的功能也对 DCI 网络带来了更多的传输运营成本。3)不同颗粒的调度能力,使得业务封装帧结构更为复杂,嵌套字节更多。4)长距离的线路容错能力,使得 FEC 的算法复杂,消耗的开销更大和处理时间更长5)OTN 设备 48V-DC 的供电模式,和大部分数据中心所使用的标准 19 英寸 220V-AD(或者 240V-DC)机柜不同,安装复杂且需要机房电力改造;6)传统 OTN 设备机框大,不适合标准机柜安装,且容量密度不高,后期扩展麻烦且要机柜腾挪或改造新加。7)OTN 扩容周期落后于 ICP 的需求;(3)IP over Disaggregated OTN(2015生命周期不确定)即开放解耦的盒式 OTN 设备用作 DCI。开放解耦 OTN 将传统OTN 设备的光层和电层设备解耦,实现光层平台和光模块的直采,电层平台实现多厂商兼容。设备形态上为 1U-2U 的盒式设备,供电方式更灵活,设备可堆叠,模块化设计,风道符合数据中心的前进风后出风规范。主要针对围绕不需要电交叉的大颗粒传输场景。网络模型由 Yang 模型统一管理,由于仍然有 OTN 技术的保留,管理还是会相对复杂。(4)IP over Disaggregated DWDM(北美 2021)全解耦的 DCI/彩光 SDN,以 IPoDWDM 作为主要载体。DCI 传输网络光层可以是配合 ROADM 南北向接口构成的 SDN 技术,对波道进行任意开通、调度和回收,系统里面多家厂商的电层器件混合使用,甚至 IPoDWDM 光接口和 OTN 光接口混合在同一套光系统上使用的情况,都将成为可能,届时系统扩容、变更等方面的工作效率将大大提升,光电层面也将更方便进行区分,网络逻辑管理更清晰,成本将大大降低。IPoDWDM技术结合了IP网络的灵活性和DWDM的高带宽能力,使得单个光纤能够同时传输多个波长(相干彩光)的光信号,每个波长可以承载不同的数据流。即 IP 设备直插彩光模块形成 DWDM 组网应用,按产品分为交换机插彩光和路由器插彩光两种。彩光光模块直插 IP 设备,加上系统光盒子构成彩光光系统。优点:1)省了一对灰光模块。降低少量成本和两次光电转换的延时。2)彩光模块直插 IP 设备,节省了波分设备的空间和功耗;降低整体功耗和占地面积。3)解耦后的光层面,在建设初期单独投资,不受未来多厂商共用一套光层系统的限制,并且结合光层的北向接口,配合 SDN 技术,进行光层面的波道资源进行方向调度;提升业务灵活性。4)网络设备直接通过数据结构,与 ICP/CSP 自有的网管平台对接,节省管理平台开发投入,同时免去厂商提供的 NMS 软件,提升数据采集效率和网络管理效率。缺点:1)需要路由器/交换机自己构建光系统,设计 OA/合分波等;2)需要很强大的 IP 光协同能力;3)如需小颗粒业务承载或多业务承载则需要开发切片或比特透明传输策略;(5)光电融合确定性(2024 年)随着确定性网络技术的发展,融合以太网的低成本与光层的高性能,光电融合正在进入一个以时延可控、抖动可预测、路径可编排为目标的新时代。在该架构下:1)彩光模块直接插入白盒路由器;2)光与电的功能协同于一个设备中实现;3)支持带宽切片、路径按需调度;4)丢包率低于 10、微秒级抖动控制,传输效率超 90%;在硬件层面,实现了更进一步的光电统一平台。系统具备开源操作系统、SDN 北向控制接口及确定性编排能力,支持国产化、白盒化,适配于未来工业互联网、低时延 AI 集群等场景,代表光电融合从“功能叠加”走向“性能协同”的质变阶段。确定性技术是在以太网的基础上为多种业务提供端到端确定性服务与质量保障的一种新的网络技术,它可以实现路径确定性、资源确定性、时间确定性,尤其在时间确定性技术上,可以实现微秒级别的抖动。光电融合确定性技术融合了光电融合技术与确定性技术的性能优势,在路由器上插入彩光模块,突破传统网络架构中的光电信号分离,高成本、高能耗、低效率等瓶颈,实现丢包率小于十万分之一、微秒级抖动,传输效率大于 90的高质量网络传输能力,同时可以支持带宽分片保障、路径按需调度等功能。光电融合确定性技术由江苏未来网络集团联合紫金山实验室等单位提出,基于白盒设备形态实现操作系统集成,通过统一控制器实现业务统一承载,已在全国多个城市的网络中得到了试验与验证。三、三、光电融合网络技术发展趋势光电融合网络技术发展趋势随着数字经济的蓬勃发展,数据流量呈现指数级增长,对网络带宽、传输效率、智能化管理等方面提出了更高要求。光电融合网络作为支撑未来信息基础设施的核心技术,正朝着高速化、协同化、智能化的方向加速演进。本章将从相干光技术的演进、IP 与光的解耦及融合趋势,以及光电协同的 SDN 控制与 AI 运维三个维度,深入剖析光电融合网络技术的发展脉络与未来走向。3.1 相干光技术演进方向相干光技术演进方向3.1.1 速率演进速率演进相干光技术作为长距离、大容量光传输的核心支撑技术,其演进直接决定了光电融合网络的传输能力上限。在 21 世纪初期,波分复用(WDM)技术和掺铒光纤放大器(EDFA)的广泛应用推动了光通信速率的显著提升,10Gbps 成为主流速率。然而,传统的强度调制/直接检测(IM/DD)技术在长距离传输中面临色散和非线性效应的严重制约,亟须新的解决方案。2010 年前后,随着数字相干技术的引入彻底改变了光通信的面貌。通过偏振复用(PDM)和正交相移键控(QPSK)调制,结合先进的数字信号处理(DSP)算法,实现了100Gbps 的商业化部署,通过 DSP 技术能够有效补偿信道损伤,如色散和偏振模色散,大幅提升了系统的可靠性与传输距离。而目前成熟的商用技术处在 400G 代际,这一代际的技术突破集中体现在调制格式的升级与频谱效率的跃升上。为了在有限的光纤带宽内承载更高速率,400G 系统普遍采用 16 阶正交幅度调制(16QAM),同时激光器的集成化演进成为核心发展方向,例如通过将多个可调谐激光器集成在单一芯片上,实现 C 波段 6 THz 谱宽(C6T)与 L 波段 6THz谱宽(L6T)的连续波长可调,使得单纤传输容量突破 50Tbps,完美适配骨干网和城域网的大容量传输需求。而随着 AI、数据中心的高速发展,数据中心内的互联速率也快速倍增。随着 AI、数据中心的高速发展,数据中心内的互联速率快速倍增,800G 已实现商用,1.6T 也即将投入使用,二者在技术演进上呈现出紧密的承接性,共同推动光通信向更高速率、更宽场景延伸。800G 作为当前数据中心互联的主力,其技术突破聚焦于能耗比与密度提升,采用双偏振正交幅度调制(PDM-64QAM)。未来 1 到 3 年内,相干光信号的波特率将从当前的 120GBaud 左右提高到 200GBaud 甚至 240Gbaud 左右,以支持下一代 1.6Tbit/s 和更高速率的光信号传输。在 1 到 2 年的时间内,200GBaud 技术的相干光会在部分场景应用,满足早期 800G 长距和 1.6T 信号的传输需求。3.1.2 封装技术演进封装技术演进相干光模块的封装技术演进是推动其广泛应用与性能提升的关键因素,这一演进过程紧密围绕小型化、低功耗以及适应不同应用场景需求展开。如今,光模块正朝着更高密度、更低功耗的方向发展,以满足云计算、AI 和大规模数据中心的爆发式需求,同时也面临着散热管理和信号完整性的新挑战。QSFP-DD 相较于 OSFP 有着更紧凑的封装尺寸,但同尺寸下设备可承载更高密度的端口,QSFP-DD 还有利于向下兼容,满足客户平滑升级的需求。但与此同时高密度带来的散热压力和内部芯片封装难度还需全产业链共同努力。随着数据传输速率的不断提高,特别是 400G 及以上高速光通信的需求激增,CPO(Co-Packaged Optics)封装技术逐渐被重视。它通过将光学器件与电子芯片集成在同一封装体内,显著缩短了信号传输的路径,降低了信号损失并提高了带宽,能够满足超高速、高容量网络的需求。此外,CPO 封装还能有效减少功耗,提升系统稳定性,适应数据中心和下一代通信网络对高性能和高密度设备的要求。然而,这种技术也面临着散热管理、制造成本高以及与现有系统兼容等挑战。3.1.3 调制器材料技术演进调制器材料技术演进在相干光模块的技术体系中,光调制器作为核心器件,其材料特性与性能表现直接决定了系统的传输能力与成本结构。当前主流的调制器材料体系在带宽潜力、线性度、功耗及集成化水平上呈现显著分化:磷化铟(InP)凭借优异的高频响应成为长距传输的传统选择,硅基光子依托 CMOS 兼容工艺在低成本集成场景占据优势,而薄膜铌酸锂(TFLN)则通过材料革新实现了高性能与集成化的平衡。这些差异直接映射到相干系统的传输距离(如长距干线与数据中心互联的场景分化)、频谱效率(高阶调制下的线性度需求)及商业化成本(大规模集成带来的单位带宽成本下降),构成了技术路线选择的核心考量维度。在相干光技术的演进脉络中,提升信号波特率与单波传输速率是贯穿始终的核心目标,而调制器的带宽极限正是这一进程的关键约束。当前商用系统的波特率已稳定在 120GBaud 级别,支撑起 800Gbit/s相干信号的传输;行业预测,未来 1-3 年内,波特率将向 200GBaud乃至 240GBaud 突破,为 1.6Tbit/s 及更高速率信号提供底层支撑。从应用节奏看,200GBaud 技术将在 1-2 年内率先在特定场景落地,满足长距 800G 升级与 1.6T 预研的需求,但受限于标准化进程 各标准组织(如 OIF、IEEE)普遍选择跳过 200GBaud 等级,直接推进 240GBaud 的接口规范制定 其供应链成熟度与跨厂商互通性将受到制约,更多作为过渡性技术存在。目前三条主流技术路线的性能边界已逐渐清晰:磷化铟(InP):凭借直接带隙材料的高频特性,其调制带宽可支持至 260GBaud,但受限于材料本身的光学特性,仅能在 C/L 波段工作,难以满足未来多波段复用的需求;硅基光子:依托微环谐振或马赫-曾德尔结构实现调制,但其载流子迁移率限制导致带宽难以突破 200GBaud,且在高阶调制下的线性度不足,更适用于中短距场景;薄膜铌酸锂(TFLN):通过离子切片技术将铌酸锂薄膜与硅基衬底异质集成,既保留了传统铌酸锂的高线性度(支持 DP-64QAM 等高阶调制),又将带宽潜力提升至 300GBaud 以上,且覆盖 EL 多波段,成为支撑长距 800G/1.6T 演进的核心技术选项(如图 3 所示的波段可用性与波特率对比)。图 3.三种材料的光波段频谱可用性与信号波特率对比3.1.4 调制技术演进调制技术演进在现代光通信系统中,调制技术决定了信号的传输效率和质量。随着数据传输速率从 100G 向 400G、800G 乃至 1.6T 演进,各种先进调制格式不断涌现,在频谱效率、抗噪性能和适应性之间寻求最优平衡。QPSK 作为数字相干时代的基石,通过利用四个相位状态(0、90、180、270)在每个符号周期携带 2 比特信息,实现了频谱效率与抗噪声能力的良好折中,因此成为 100G/200G 以及当下长距离 400G 系统的首选调制方式。其核心原理是通过对光载波的相位进行精确控制,配合偏振复用技术使单波长容量翻倍。当需要进一步提升速率时,高阶 QAM 开始发挥关键作用。例如,16-QAM 通过在幅度和相位上组合出 16 个状态(每符号 4 比特),可将频谱效率提高至 QPSK 的两倍,但代价是对光信噪比的要求显著增加。更激进的 64-QAM 则被用于 800G/1.2T 系统,但其对链路线性的苛刻限制使其目前仅适用于短距离场景。为了克服高阶调制的固有缺陷,概率整形(Probabilistic Shaping,PCS)技术应运而生。它通过动态调整不同符号的出现概率,使信号分布更贴合信道特性,从而在相同 OSNR 下提升传输距离或容量。这种“智能压缩”策略尤其适用于跨洋光缆等复杂环境。另一项重要进展是 OFDM(正交频分复用)及其衍生技术(如 FlexGrid)。与传统固定栅格系统不同,OFDM 将信号分割为多个正交子载波,允许灵活分配频谱资源以适应异构业务需求。例如,在城域网中,运营商可通过动态关闭闲置子载波降低功耗;而在骨干网中,则可集中带宽优先保障高优先级流量。伴随着信号速率和带宽的不断扩展,信号调制从单载波向多载波的演进成为 1.6Tbit/s 及以上速率信号着重考虑的方向。目前比较热门的多载波实现方案是通过数字信号处理的方式实现数字子载波(DSC)调制。DSC 技术可以沿用单载波的器件架构,虽然对于器件带宽的要求没有变化,但是可以使用一套收发器件实现多个子载波的调制与解调。数字子载波调制的信号在高速与高带宽场景下,相比单载波在减少均衡增强相位噪声(EEPN)方面有明显优势,可以避免随着波特率提高持续提升对激光器线宽性能的要求。在信号调制中,PCS 技术也将持续应用于未来的相干光通信中。不同的技术方案包括 800G ZR 使用的简单查找表,预计将在1600ZR 中使用的判决树结合查找表,以及私有算法中可能使用的更加复杂、性能更加强大的分布匹配器实现 PCS。PCS 技术在业界已经应用多年,但是直到 800G ZR 开始才逐步定义标准化的 PCS 方案。考虑到互通性的要求,目前纳入标准的 PCS 方案是实现比较简单,性能较低的方案。高性能高灵活度的 PCS 技术仍属于部分芯片厂商的关键技术,作为互通标准公开的可能性较低。3.1.5 纠错编码技术演进纠错编码技术演进在纠错编码方面,早期的光通信系统主要采用 Reed-Solomon(RS)码,RS 码在 10G/40G 时代发挥了重要作用。RS 码通过在数据块中添加校验字节(通常约 7%的开销)来实现错误纠正,但其纠错能力相对有限,只能达到10-12量级的纠后误码率(400ZR标准中要求10-15量级的纠后误码)。随着100G DP-QPSK的出现,硬判决FEC(HD-FEC)以及阶梯码 staircase 成为新的标准(如 ITU-TG.709、G.709.2)。HD-FEC 通过对接收到的二进制信号进行“非黑即白”的判断来纠正错误,虽然提高了纠错能力,但在面对高阶调制带来的复杂噪声环境时仍显不足。真正的转折点出现在软判决 FEC(SD-FEC)技术的应用上。这类算法包括低密度奇偶校验码(LDPC)和 Turbo 码等,它们最大的特点是利用了接收信号的“置信度”信息(即不仅判断 0 或 1,还考虑其可信程度)。通过这种方式,SD-FEC 可以实现超过 11dB 的净编码增益,这相当于将传输距离延长数倍。特别是迭代解码技术的运用,让解码器能够通过多次反馈循环逐步逼近香农理论极限。例如,在400G 系统中,SD-FEC 使得 16QAM 等高阶调制得以实用化,尽管这会带来 15 %的开销,但相比其带来的性能提升而言是值得的代价。随着光通信速率向 800G/1.6T 迈进,开放前向纠错(OFEC)技术逐渐成为研究热点。它的重点在于灵活性和开放性,允许多种不同的纠错算法和结构来适应不同的应用场景。SD-FEC 一般采用软判决技术以提升纠错性能,而 OFEC 的重点则在于提供开放标准,使得不同供应商和设备可以更容易地互操作,并且通过开放的标准和协议优化系统性能。如今 FEC 技术正朝着更加智能化和专业化的方向发展。AI 驱动的自适应 FEC 系统可以实时监测链路质量,动态调整编码策略和开销比例,在保证可靠性的同时最大化有效吞吐量。更具颠覆性的是量子 FEC 的研究,这类算法专门针对量子通信中的特殊噪声特征设计,可能采用全新的拓扑量子码等方案。不过,这些新技术也带来了新的挑战:SD-FEC 的解码复杂度呈指数级增长,需要专用 ASIC 来处理;而自适应 FEC 的系统设计和测试方法也需要重新定义。在纠错编码技术不断演进的同时,反向信道技术作为一种辅助增强手段也日益受到关注。在 ZR 等相干接口的方案中,信号映射的DSP 帧结构会插入预留的符号。目前业界正在讨论利用这些预留符号建立一个信道,将相干光模块接收端的一些关键损伤数据,例如 IQskew,反向传输至发射端,以供发射端进行预补偿等功能。利用 DSP帧传输的信息不受 FEC 保护,因此需要进行多次发送并检验一致性。这个技术暂时被称为反向信道,如果未来进一步扩展预留符号建立信道的功能,很有可能为该信道取一个更加准确严谨的名称。反向信道技术与 FEC 技术形成互补,通过将接收端的实时损伤信息反馈给发射端,使发射端能够提前进行针对性的预补偿,从而减少信号在传输过程中产生的错误,降低了对 FEC 纠错能力的依赖,二者协同作用进一步提升了相干光通信系统的传输性能和可靠性。如何在性能、复杂度和成本之间找到平衡点,将是下一代 FEC 技术发展的关键课题。3.2 光电融合网络的解耦和融合趋势光电融合网络的解耦和融合趋势光电融合网络的核心目标在于打破传统 IP 层与光层之间的“竖井”壁垒,实现资源的高效协同与灵活调度。在这一进程中,“解耦”与“融合”看似矛盾,实则相辅相成:解耦是实现深度融合的基础和前提。解耦的核心在于打破传统封闭、一体化的设备形态和管控体系,为不同层面的技术创新、灵活组网和统一管控创造条件。融合则是在解耦的基础上,通过统一的控制平面(如 SDN)、开放的接口和智能的协同机制,实现 IP 与光资源的全局最优调度和业务端到端敏捷发放。3.2.1 解耦趋势解耦趋势1.波分复用层解耦:传统模式下,WDM 系统通常是“黑盒”式的一体化设备,包含光线路终端、光放大器、色散补偿、ROADM(可重构光分插复用器)、光监控信道等所有功能,由单一厂商提供封闭的软硬件解决方案。波长资源分配、路由和性能监控高度依赖厂商私有系统,这在一定程度上限制了网络的发展。开放光网络技术和模块化技术的发展正深刻改变着这一局面。开放解耦在网络系统和设备硬件方面,呈现出白盒化与模块化的特点,基于模块化能力推动封闭的线路系统开放化,将 WDM 平台分解为标准的、可互操作的“白盒”硬件模块。开放式 ROADM 支持多厂商波长选择开关、光放大器、合分波器等光器件通过标准接口(如 OpenROADM MSA 定义的接口)互联,允许运营商混合搭配不同厂商的最佳光组件。可插拔相干光模块是一项推动波分复用系统解耦的革命性技术,它将传统固定在WDM 板卡上的相干 DSP 和光收发器封装为标准化的可插拔模块(如 400G ZR,ZR ,OpenZR ),这些模块可以插入路由器、交换机或开放式的 WDM 终端设备中,模糊了 IP 设备与光设备在电层处理上的界限。此外,开放光放大器、监控单元提供标准化的管理和控制接口,便于集成到第三方网管或控制器。在控制与管理解耦方面,通过 SDN 控制器和开放 API(如OpenConfig,T-API,OpenROADM Yang Models)实现对开放式线路系统的统一管控。控制器负责波长的路径计算、资源分配、性能监控和故障管理,不再依赖单一厂商的网管系统。这种解耦模式带来了诸多价值,不仅打破了厂商锁定,降低了采购成本,增加了运营商的议价能力;还能实现最佳组件组合,让运营商在不同功能模块上选择性能最优或成本最优的供应商;同时加速了技术创新,模块化开放架构便于新功能、新技术(如新波段、新调制格式)快速引入;简化了运维工作,通过统一 SDN 控制器管理多厂商环境,也为跨地域、跨厂商的光波长资源池化和灵活调度奠定了基础。2.客户侧接入层(OTN 设备)解耦:传统的 OTN 设备通常是软硬件紧耦合的封闭系统,提供从客户业务接入(如 Ethernet,SDH,FC)、业务汇聚、ODUk/OTN 电层交叉、到线路侧 WDM 接口的全套功能,设备形态和功能由单一厂商定义。如今,解耦趋势在客户侧接入层(OTN 设备)愈发明显。在硬件形态解耦上,出现了基于通用硬件(如 x86/ARM CPU、NPU、可编程交换芯片)的“白盒”平台,运行独立的网络操作系统软件(NOS),且支持安装不同厂商的 NOS。同时,分解式设备架构将传统 OTN 设备的接入、汇聚功能与核心电交叉功能分离,边缘接入设备部署在靠近用户侧(如基站、企业接入点、数据中心入口),专注于低速率、多类型业务的接入、适配和简单的本地交换、汇聚,形态更小巧、低功耗;核心电交叉设备部署在核心、汇聚节点,专注于大容量的 ODUk/OTUCn 电层交叉连接,实现核心交叉资源的集中化和池化;也有部分方案弱化或取消了传统的 OTN 电交叉硬件。软件解耦方面,OTN NOS 与硬件解耦,使得 OTN 控制和管理软件可在不同厂商的“白盒”硬件上运行。并且通过 SDN 控制器和开放 API 实现 OTN 业务的端到端配置、带宽调整、保护倒换等,替代或补充传统的网元管理系统,同时采用标准化的数据模型进行配置和状态管理。客户侧接入层解耦的价值显著,实现了灵活部署,边缘接入设备轻量化、低功耗,适合广泛分布式部署,核心交叉设备集中化,提高了资源利用率;降低了成本,边缘设备成本显著降低,“白盒”模式也降低了硬件成本;提升了业务敏捷性,SDN 控制实现 OTN 专线(如 OSU 灵活管道)业务的快速开通和调整;还促进了开放生态的形成,推动多厂商 OTN NOS 和硬件供应商的竞争与合作。3.线路侧传输层(Line-Side Transmission)解耦:传统模式下,线路侧传输(主要指长距离、大容量的光纤传输)通常与 WDM 系统紧密绑定,传输性能(如 OSNR、非线性容限、传输距离)高度依赖于 WDM 设备厂商专有的光器件、FEC 算法和系统设计,不同厂商设备之间的线路侧互操作性差。目前,线路侧传输层解耦趋势主要体现在开放光接口标准和光层参数开放与协同上。在开放光接口标准方面,400G/800G ZR,ZR ,OpenZR 等可插拔相干模块标准定义了模块的尺寸、功耗、光接口参数(如发射功率、接收灵敏度)、调制格式、FEC 等,使得符合标准的模块可以插入不同厂商的路由器、交换机或开放式 WDM 终端设备中,并在标准的光纤链路(可能包含第三方的 EDFA、DCM 等)上进行互操作,这是线路侧解耦最核心的体现。同时,推动使用标准化的 FEC 算法(如 OpenZR 采用的 OFEC),实现不同厂商设备互联,并降低互通的性能损失。在光层参数开放与协同方面,通过 SDN 控制器和开放 API,获取并协调不同厂商设备的光层性能参数(如 OSNR、光功率、Q 因子),实现端到端光路径的优化和保障,同时推动光性能监测信息的标准化和开放,便于跨域、跨厂商的性能分析和故障定位。线路侧传输层解耦的价值重大,实现了真正的多厂商互操作,路由器可直接通过标准光模块连接到开放光线路系统,实现“IP overOpen Line”,极大简化网络架构;降低了长距传输成本,利用标准化的低成本、低功耗可插拔模块替代传统昂贵的专用长距板卡和专用WDM 终端;提升了组网灵活性,在网络边缘或城域范围内,无需部署专用 WDM 设备即可实现中短距离的波长级互联(DCI 是典型应用);也推动了技术创新,模块厂商专注于提升模块性能和降低成本,光系统厂商专注于优化线路设计和光层管理。3.2.2 融合趋势融合趋势在网络发展历程中,IP 层负责数据的寻址与转发,光层则承担大容量、长距离的传输任务。早期,IP 设备与光设备相互独立,各自为政,网络部署与运维极为复杂。随着数据流量的迅猛增长,传统模式弊端尽显,IP 与光的融合需求愈发迫切。与此同时,技术的进步也为二者的深度融合创造了条件。从融合的意义来看,一方面,减少网络转接层级效果显著。以往,IP 数据在光网络中传输,需多次经过光电转换与协议适配,这不仅耗费时间,还降低了传输效率。实现融合后,转接次数大幅减少,数据传输更为顺畅。例如,在大型数据中心互联场景中,传统方式可能涉及 3-5 次转接,融合后可减少至 1-2 次。另一方面,建维成本大幅降低。融合使得设备数量减少,空间占用和能源消耗随之降低。据相关统计,采用融合架构后,网络建设成本可降低 20%-30%,运维成本降低 15%-25%。再者,承载效率得以提升,网络资源能够得到更合理地调配与利用,有效避免了资源闲置或过度紧张的情况。集成电路能力的提升是关键支撑。如今,芯片制程不断缩小,从早期的微米级发展到如今的纳米级,这使得芯片的处理能力和集成度大幅提高,能够更好地满足 IP 与光融合设备对高性能计算的需求。硅光及光电合封技术也已走向成熟。硅光技术将光器件与硅基芯片集成,降低了成本,提高了集成度。光电合封技术则将光模块与电芯片封装在一起,缩短了信号传输距离,减少了信号损耗。从管控层面架构上看,过去,IP 设备由一套管控系统管理,光层设备又由另一套系统管理,两者之间缺乏有效的沟通与协调。当网络出现故障时,定位和解决问题往往耗时费力。如今,通过统一管控平台,能够实时掌握 IP 层与光层设备的运行状态。例如,当光层链路出现异常时,管控平台可立即通知 IP 层设备调整路由,实现业务的快速恢复,确保业务连续性。在网络层面融合上,业务接口参数标准化,使得不同设备之间的对接更加顺畅。以往,不同厂家的 IP 设备与光设备接口参数各异,对接时需要大量的适配工作。如今,统一的接口参数标准出台,大大提高了设备的兼容性。标准化互通光模块及光调度器件的采用,使得网络中的光信号传输更加稳定、高效,提升了网络的整体性能。3.3 光电协同的光电协同的 SDN 控制与控制与 AI 运维运维在传统传输网络中,IP 层与传输设备的运维分离及资源、控制平面不协同的问题突出,为此,光电协同的 SDN 控制器通过“完全集中管控”和“集中式管控 分层代理”两种架构实现跨层资源统筹调度,且这两种方式已在海内外得到广泛试点与应用;同时,面对 5G、云计算带来的网络业务激增及光电融合运维的复杂性,AI技术推动光电协同运维向智能自治升级,形成了包括智能知识引擎、业务智能下发、智能运维及数据侦察在内的四大发展方向。3.3.1 光电协同的光电协同的 SDN 控制控制在传统的传输网络架构中,IP 层运维和传输设备运维通常由两个团队使用两套运维系统独立运维。并且在大型复杂 MESH 组网中,由于 IP 层路由资源和传输路由资源互不拉通,并且传统 IP 与光网络的控制平面相互独立,两者难以实现协同决策。通过光电协同的SDN 控制器更智能的协同机制实现整体效能最大化,解决跨层资源的统筹调度问题。光电协同的 SDN 控制器架构如图 4 所示:图 4.光电协同的 SDN 控制器架构(1)应用层:应用层主要包括第三方应用、运营商自身的BSS/OSS 系统,以及网络与业务规划工具。(2)网络控制管理层:网络控制管理层主要由超级控制器 IP 光统一编排融合调度层,IP 层域控制器和光层控制器三个组件组成,支持跨层网络发现、拓扑收集、业务发放、网络运维和策略管理等功能。网络控制管理层北向通过 API 接口对接应用层。IMT-2020 推进组在5G 承载网络架构和技术方案中推荐采用基于 YANG 的数据模型,定义统一开放的基于 Restful 协议的承载网北向接口,实现网络的开放和可编程能力。网络控制管理层南向支持感知网络拓扑的实时变化,基于网络实时拓扑计算业务转发路径,实现对 IP 网络和传送网络的实时智能控制。NOXOnix、Floodlight 等都是基于 OpenFlow 控制协议的开源控制器。作为一个开放的协议,OpenFlow 突破了传统网络设备厂商各自为政形成的设备能力接口壁垒。(3)网络层:网络层具体可以分为两个子网络:IP 子网络和光传送子网络。IP 子网络主要由路由器组成,承担当前业务的承载功能。光传送子网络主要由 OA、ROADM、基础光传输组成,具备基本的传输能力 OTN 设备等组成,网络设备与网络管理系统通过Netconf/Telemetry/PCEP/BGP-LS 等交互。3.3.2AI 运维运维5G、云计算等技术推动网络业务激增,光层(大容量传输)与电层(灵活调度)融合成主流架构,但跨层协同复杂、故障隐蔽,传统分域运维难以应对。面对光电混合场景海量数据,存在响应慢、定位不准、调度低效等问题,难以满足业务实时性需求。同时,AI 技术的成熟为突破这些瓶颈提供了可能。大模型的自然语言理解、跨域知识关联能力,以及机器学习的异常检测、自主决策能力,与光电融合网络的运维需求高度契合,推动运维模式从被动响应向主动预防、从人工操作向智能自治升级,最终催生了光电协同 AI 运维的发展。具体体现为以下四大方向:1.光电协同智能知识引擎:在光电协同的复杂运维场景中,网络架构融合了光传输与电信号处理的双重特性,运维难度显著提升。智能知识引擎作为光电协同运维体系的核心支撑,如同一位深耕光电领域的资深专家,能够提供精准适配光电混合环境的秒级响应咨询服务,全方位助力运维效率提升。其核心优势体现在以下方面:(1)光电场景的快速智能交互:支持自然语言多轮对话,更能精准捕捉光电运维中的专业术语与场景化需求。针对光电协同运维中“光层故障可能引发电层连锁反应”的紧急性,引擎优化了问题解析逻辑,目前可在毫秒级内完成“光衰耗参数电信号误码率关联设备告警”的跨层知识检索,结合实时运维数据生成解决方案,实现从问题提交到答案输出的秒级响应,为快速恢复光电链路通畅争取宝贵时间。(2)覆盖光电全链路的专业知识库:依托横跨光电领域的多源权威数据构建核心能力:涵盖光传输设备(如 OTN、EDFA)与网络设备(路由器、交换机)的厂商技术手册、光电协同协议标准;整合运维专家针对光电接口兼容性、光信号劣化对电性能影响等特殊场景的经验总结;纳入企业内部光电混合组网的历史故障案例、跨层联动运维工单等独家数据;通过实时同步行业最新光电协同技术白皮书、权威论坛的疑难问题解决方案,经严格清洗标注后动态更新,确保解答既专业全面,又贴合实际运维场景。2.光电协同业务智能下发:在光电融合网络中,业务智能下发功能以 AI 算法为核心,构建从业务意图解析到跨层资源调度的全自动化流程,实现光层与电层业务的无缝协同部署。面对多样化的业务需求,系统首先通过自然语言处理技术解析用户意图,将“低时延传输”“高可靠带宽”等抽象需求转化为光层波长资源、电层路由协议等具体技术参数。在路径规划环节,智能算法会同步分析光传输链路的衰减特性与电层网络的拓扑结构,生成跨光电层的最优转发路径。通过融合光模块性能数据与交换机端口状态,系统能精准避开光衰超标路段与电层拥塞节点。借助“大模型 智能体”的技术架构,业务智能发放功能打破了光层与电层的技术壁垒,实现了跨厂商设备的协同调度与资源的精准预留、动态调整,将原本需要人工耗时数天的复杂业务部署流程缩短至分钟级,大幅提升了光电协同网络的运维效率与业务可靠性。3.光电协同智能运维:光电协同的 AI 智能运维中,智能业务检查通过同步采集光层与电层全链路数据,借助 AI 模型实现跨域异常检测、趋势预测与根因分析,取代传统人工决策模式;智能资源调度则基于光层与电层实时资源状态,由 AI 模型动态优化分配策略,通过双向协同调度机制提升整体网络资源利用率。(1)智能业务检查:通过同步收集光层(光功率、波长衰减、色散值等)与电层(带宽利用率、数据包转发效率、协议状态等)的全链路数据(日志、指标、traces 等),利用 AI 模型进行跨域异常检测、趋势预测与根因分析,替代传统依赖人工经验的决策模式。(2)智能资源调度:基于光层与电层的实时资源状态(如光层空闲波长资源、电层服务器算力),AI 模型可动态优化资源分配策略。例如,当电层某区域带宽需求激增时,系统自动调度空闲光波长建立高速通道,实现电层业务向光层的负载分流;反之,当光层某段链路负载过高时,通过电层的多路径路由技术均衡流量,避免光层单点压力过大。这种双向协同调度机制,能充分发挥光层大容量、低时延与电层灵活调度的优势,提升整体网络资源利用率。4.光电协同数据侦察:在复杂的光电协同网络运维场景中,数据侦察能力是保障网络稳定运行的核心驱动力,通过打通光层与电层的数据壁垒,实现对网络全域的精准洞察与智能把控。(1)网络数据洞察:运维人员只需用自然语言描述对网络数据的查询需求,大模型就能自动将其转化为精准的 SQL 语句,快速从海量的光层与电层融合数据中提取关键信息 既包括光传输设备的波长占用率、光放大器增益、光纤损耗等光层运行数据,也涵盖路由器路由表、交换机端口流量、服务器 CPU 利用率等电层设备日志与性能指标。这种全域数据查询能力,无需运维人员手动区分光/电数据来源,大幅降低跨域数据洞察的门槛。(2)业务数据关联侦察:基于 Text2SQL 功能深化网络与业务的联动,尤其聚焦光电协同对业务的支撑逻辑。例如,当查询“某视频业务卡顿是否与光层相关”时,系统会自动关联业务服务器的电层响应时延数据、承载业务的光链路信噪比数据及历史业务流量与光波长带宽的匹配记录,通过多维度数据交叉分析,定位卡顿根源是光层信号劣化还是电层服务器处理瓶颈。此外,还能实时挖掘业务高峰期的光/电资源消耗特征(如高清视频业务对特定波长带宽的占用规律),为资源调度提供数据依据。(3)异常数据溯源侦察:针对光电协同场景中跨域异常的隐蔽性,系统具备全链路数据溯源能力。当发现电层业务丢包时,会自动触发光层数据回溯,检查对应时间段内的光信号误码率、光路切换记录等;若光层某段光纤损耗突增,则同步关联电层该链路承载的业务类型与受影响范围。通过构建“光层物理特性-电层协议交互-业务表现”的溯源链条,实现异常数据的精准定位。四、四、光电融合网络技术相关标准光电融合网络技术相关标准4.1 相关国际标准及进展相关国际标准及进展4.1.1 相关国际标准及现状相关国际标准及现状光电融合网络作为下一代通信基础设施的核心架构,其标准化体系呈现出高度复杂的多层级结构,涵盖光层传输、业务接口适配、控制面调度、设备模块集成等多个技术维度。这一体系不仅需要解决光信号(如波分复用 WDM、光子集成电路 PIC)与电信号(如以太网、无线协议)的异构兼容问题,还需协调不同技术层级间的协同优化,以实现带宽、时延、能耗等关键性能指标的全局最优。在此背景下,国际与国内标准组织基于各自的职责分工和技术优势,形成了互补性与协同性并存的标准制定格局。标准组织主要职责主要职责标准特点标准特点标准标准层级层级参与参与主体主体示例标示例标准准与其他标准协同与其他标准协同关系关系IETF定义互联网协议及网络控制体系,如IP、MPLS、ACTN、GMPLS 等控制面、路由、抽象网络层、TE机制软件/协议层网络工程师、厂商RFC8453、RFC4206与ONF TAPI接口模型深度配合;ACTN为ITU-T、OpenROADM提供路径抽象基础ONF推进 SDN、开源网络控制架构,如TAPI、OpenFlow控制接口建模(YANG)、开放 API软件接口层云厂商、电信运营商、控制器厂商TAPIv2.4、OpenFlowTAPI可 作 为IETF ACTN的南向接口;适配OpenROADM/YANG 控制模型OIF制定相干光模块和接口标准(ZR/ZR /CEI)硬件接口、电口/光口、模块封装规范硬件/模块层芯片厂、模块商、设备商400ZR,800ZR,CEI-112GOIF 接口标准被IEEE 和ITU-T(如 FlexO)采纳;OpenZR 直接继承 OIF 接口规范IEEE标准化以太网等广义通信物理层/链路层协议LAN/WAN 接口、电气层/物理层规范接口/传输协议层学术界、芯片商、设备商802.3 系列(如802.3dj)参考 OIF 接口标准(如 400ZR)封装为以太网接口;与 FlexO 协同实现兼容ITU-T国际电信标准制定机构,统筹光网系统、OTN、DWDM 等通信系统结构、光层协议、互通格式网络系统层国家成员、电信运营商G.709(OTN)G.698.2(DWDM)吸收 OIF 接口规 范 与 调 制/FEC;G.709FlexO 与IEEE接口标准衔接;ACTN 提供协同机制OpenROADMROADM设备标准接口、OFEC 编码SDN ROADM 网络接口标准化光层设备接口层美 国电 信运 营商(如OpenROADMMSA6.0、控 制 接 口 与ONF TAPI、IETFACTN架 构 兼容;光口参数参AT&T)、设备商OpenROADMYANGmodels考ITU-T与OIF 标准OpenZR MSA综 合 OIF 和OpenROADM 的 ZR 规范光模块互操作标准光模块/接口协同层相 干模 块厂商、系 统商、电信 运营商OpenZR MSAv3.0与 OIF 完全接口兼容,光参数继承OpenROADM,业 务 映 射 参 考ITU-T FlexO以下表格梳理了光电融合领域具有代表性的接口标准、控制架构标准与模块互通标准,涵盖了当前主流组织发布的现行标准与正在制定的重要规范,便于全面掌握光电融合网络标准体系的现状与发展路径。标准名称标准名称发布组发布组织织主要内容主要内容当前状态当前状态G.709/G.709.x 系列ITU-TFlexO 帧结构、OTN 帧格式与业务映射现行中,G.709.b1t 修订中(支持超 1T)G.698.2ITU-T相干 DWDM 系统接口,支持 C L 波段、多跨段应用重启修订,预计 2026 年前完成IEEE 802.3cw/802.3djIEEE400ZR/800G/1.6T 以太网接口标准dj 进入 D2.0 草案,预计2026 年发布400ZR/800ZR/1.6TZROIF标准化相干光模块与接口(80120km DCI场景)400ZR 已定稿,800ZR 已完成,1.6T 制定中TAPI v2.4ONF光网络拓扑、连接、路径计算 API 接口,YANG 建模最新稳定版,广泛用于SDN 控制器RFC8453IETF抽象网络控制架构,实现正 式 标 准,广 泛 与(ACTN)多域 TE 网络的路径编排与协调TAPI/SDN控制器协同使用OpenROADMMSA v6.0多 供 应商联盟ROADM设备开放接口标准、OFEC/FlexO 光信号参数定义现行版本,计划支持 C L波段扩展OpenZR MSA v3.0MSA 联盟相干光模块互通标准,兼容OIF电 接 口、OpenROADM 光参数多厂商支持,完成 400G互操作性测试在光电融合网络标准体系的构建过程中,国内厂商正日益成为国际与国内标准制定的重要参与者和推动力量。光迅科技作为OpenZR MSA 的创始成员之一,积极参与了 400G 相干模块互通性标准的制定与测试,并在 OIF 中深度参与相干光模块关键器件(如 COSA、ICR、CDM)规范的讨论,同时也是国内 CCSA 模块接口标准的重要起草单位,致力于推动模块国产化与系统解耦标准的落地。华为则长期主导 ITU-T G.709 系列和 G.698.2 的修订工作,在 OIF 的 1.6T ZR/ZR 标准项目中提出关键技术路线建议,并在 OpenROADM 标准体系中推动 FlexO 和 C L 波段等能力的引入,其标准立场强调系统、模块与控制器的深度协同和性能优化。烽火通信在 ITU-T 最近的超 1TOTN 标准讨论中积极发挥作用,为下一代 OTN 协议框架制定打下基础,同时也聚焦于超长距 WDM 系统标准的制定与应用验证,在 OIF和国内标准中积极推动 ZR 接口在接入与城域网络中的轻量化部署,强调模块与系统间的配置灵活性与 FEC 适配能力。800G 以太网中长距标准主要由 IEEE 802.3 和 OIF 制定。面向 20km40km 城域内智算互联场景,IEEE802.3dj 制定了 800GE ER1-20(20km)和 800GE ER1(40km)标准。其中 800G 以太网 20km 标准立项由中国移动专家在IEEE 802.3 工作组牵头完成,是中国公司主导在 IEEE 的首个以太网基础标准立项;同时主导 20km 和 40km 标准技术框架被工作组采纳。OIF 面向 40km120km 区域城市群互联场景,制定了 800ZR 标准并已于 2024 年底完成发布。IEEE802.3 800GE ER1-20、ER1 标准与 OIF800ZR 标准采用相同技术路线,实现了 800G 以太网 20120km 技术标准路线统一。4.1.2 相关国际相关国际标准体系标准体系的未来演进的未来演进当前,面向光电融合网络演进的新一代标准体系正在国际范围内持续完善与前瞻布局,覆盖从超高速接口、频谱拓展,到智能控制与新型光纤等多个关键方向。超 1T 接口方面,ITU-T 正在修订 G.709.b1t 标准,拟支持 FlexO结构下的 1.6T 接口,而 OIF 推进中的 1.6T ZR/ZR /CR 系列则面向骨干与 DCI 传输中的轻量化相干需求,并支持 C L 波段扩展;IEEE则通过 802.3dj 同步推动基于IMDD与相干的800G/1.6T以太网接口标准。与此同时,频谱层面也在积极扩展,ITU-T G.698.2 正引入 C L各 4.8THz 频段甚至 C L 各 6THz 频段适配相干 DWDM 系统,OpenROADM 也计划在新版本中支持更广频谱与 AI 链路评估模块,CCSA 则在同步研究 S C L 三波段方案以支撑 1.6T 及以上的容量演进。器件层面,光电合封(CPO)相关标准也加速推进,CCSAWG4正在制定外置激光器模块标准,IPEC 则组织多厂商联合制定器件级可靠性测试规范,而 OIF 与 COBO 在国际上牵头的 CPO 接口规范也为电光共封装的未来演进奠定基础。在智能控制方面,ITU-T 的FG-AI4NDN 与 ETSI 的 ENI 提出了面向未来网络的 AI 控制模型,有望影响光层 FEC 优化、自愈调度等标准设计;CCSA 也已启动 AI 增强型 FEC 算法研究课题,探索 AI 与传输物理层的融合路径。同时,统一调度与开放控制接口标准也在加强互通与兼容性,如 IETF TEAS工作组扩展了 ACTN 与 Segment Routing/切片模型的集成机制,ONF的 TAPI 与 OpenConfig 的 YANG 建模也正在向光网络多厂商可编排管控能力演进。围绕未来基础设施的标准创新也同步展开,ITU-T 与 CCSA 相继启动空芯光纤标准预研,并关注空分复用(SDM)技术在多芯、多模光纤方向的接口定义,未来将重构当前 WDM 系统的容量极限与拓扑弹性。整体来看,光电融合相关国际标准正在迈入“接口高速化、频谱多维化、控制智能化、架构异构化”的新阶段。4.2 相关国内标准及进展相关国内标准及进展国内光电融合网络标准体系正逐步完善,重点围绕高速 DWDM系统、相干光模块、光电合封器件以及基于 SDN 的控制接口等核心领域开展标准化工作。中国通信标准化协会 TC6 下属的 WG1 和 WG4工作组相继发布YD/T 4298-2023 YD/T 4299-2023等关键标准,推动 WDM 系统的开放解耦与控制器层间接口统一,同时在 800G 及以上高速系统、TAP-PD 等关键器件、CPO 外置光源模块等方向加快标准制定进程。这些标准为构建可编程、可演进、国产化可控的光电融合网络奠定了统一规范基础。在硬件接口层面,CCSA WG4 聚焦高性能相干光模块及 CPO(Co-Packaged Optics)器件接口标准,推动国内光模块国产化和模组解耦。当前,CCSA 已发布多项模块接口规范,涵盖 400G 及以上速率,支持多波段、多跨段应用,并同步制定外置激光器及高速互连接口的可靠性测试标准。网络控制与管理层面,CCSA 积极对接国际 SDN 与网络控制标准(如 IETF ACTN、ONF TAPI),推动基于 YANG 模型的统一调度接口标准化,支持多域多层次的光电融合网络资源协调与智能调度。同时,面向 AI 驱动的网络运维,CCSA 启动 AI 增强型 FEC 算法及自愈机制标准的预研,促进智能控制能力在国产设备中的应用。当前的主要标准和状态如下表:标准名称标准名称发布组织发布组织主要内容主要内容当前状态当前状态YD/T4298-2023开放与解耦的波分复用(WDM)系统技术要求中国通信标准化协会(CCSA)TC6WG4明确 WDM 系统中各层级接口(如模块、子架、系统)间的解耦要求,支持多厂商设备互操作已发布,面向运营商部署实践广泛采纳YD/T4299-2023基于流量工程网络抽象与控制(ACTN)的软件定 义 光 传 送 网(SDOTN)控制器层间接口要求中国通信标准化协会(CCSA)TC6WG4基于 IETF ACTN架 构,定 义SD-OTN 控 制 器之间的标准化南北向接口,支持跨域协同调度已发布,部分系统厂商已开始对接实施N400G 光波分复用系统技术中国通信标准化协会(CCSA)TC6针 对 超400GDWDM 系统设计草案完成要求WG1规范、传输性能指标与信号质量要求 城 域N 800Gbit/sWDM系统技术要求中国通信标准化协会(CCSA)TC6WG1面向 800G 及以上容 量 城 域 WDM系统的结构设计、接口协议及调制格式适配规范起草阶段,重点支持 C L 波段应用场景 WDM/TAP-PD光电混合光组件技术规范中国通信标准化协会(CCSA)TC6WG4规定 WDM 系统中用于相干检测的 TAP-PD 器 件的结构、参数及测试要求标准草案,计划纳入相干模块关键器件规范系列光电合封用外置光源模块技术要求中国通信标准化协会(CCSA)TC6WG4面向 CPO 架构中的外置激光器模块(ELS),规范其接口、尺寸、电光特性与可靠性测试已完成行业征求意见稿路由器用超长距(ZR/ZR )彩光接口直连场景的管控技术要求中国通信标准化协会(CCSA)TC3WG2规定了路由器利用 ZR、ZR 彩光接口进行长距离直连场景下对彩光接口进行配置与 管 理 及 其YANG 模型技术要求,包括 ZR、ZR 彩光接口配置 模 型 和 ZR、ZR 彩光接口查询模型。已完成行业征求意见稿我国光电融合网络标准正从系统化布局走向技术深耕,展现出鲜明的差异化优势与前瞻引领能力。在 128GBd 以上 QPSK 长距相干传输标准方面率先突破,建立了国际先发优势;800G/1.6T 高速光通信则成为我国与 ITU-T、OIF 等国际组织竞争与合作的前沿焦点。CCSATC6 WG4 近两年密集推进 800G 强度调制与相位调制两大技术路径标准制定,基本完成系列标准体系建设,并同步启动 1.6T 光模块、C L 波段一体化器件等关键方向的标准预研。新型调制格式、OTN映射优化、频谱拓展、AI 增强型 FEC 等关键技术群,正构成我国光电融合网络标准演进的核心攻关领域,为构建高带宽、自主可控、智能协同的新型通信基础设施提供坚实支撑。五、五、光电融合网络相关产品与解决方案光电融合网络相关产品与解决方案5.1 ZRx 相干光模块相干光模块相干光模块(Coherent Optical Module)通常用于 100G 及以上远距离(DCI/长距/城域/骨干)通信场景,其核心构成包括:模块组成部分模块组成部分主要功能说明主要功能说明相干 DSP 芯片执行高速调制/解调、前向纠错(FEC)、功率均衡、PM-QPSK/16QAM 等算法。相干光收发器件包括 ICR(集成相干接收器)与 CDM(相干驱动调制器),以及集成相干光收发器(COSA/TROSA),完成光信号收发。ICR集成偏振分束、光电探测、偏振控制等组件。可以实现双偏振相干光信号的內差探测。CDM集成驱动放大器,MZM 相位调制器,SOA 光放大器等组件。可以实现高速信号的相位调制。ITLA(可调谐激光器组件)基于外腔激光器(ECL)或者分布布拉格反馈(DBR)结构的窄线宽可调谐激光器,可以覆盖 C 波段 6THz 和 L波段 6THz 的调谐范围。光引擎封装结构模块化封装、热管理、低功耗设计等(如 CFP2-DCO、QSFP-DD、OSFP)。控制与接口电路包括 I2C、SPI、MDIO 接口,实现与系统主控交互。自从 2011 年首个 MSA(Multi-SourceAgreement)标准接口 100G光模块发布,相干模块至今已发展了四代,具体如下:代代际际最大速率最大速率调制方式调制方式波特率波特率速率速率适用场景适用场景第一代100G100GQPSK34GBd不可调调制模式只有 100GQPSK 一种,适用于各种距离传输,如长途干线、城域网等场景。第二代200G200GPM-16QAM/100GQPSK45GBd可调调制模式主要为 200GPM-16QAM,适用于短距离传输,如数据中心互联、城域网等场景。第三代400G/600G200GQPSK/400GPM-16QAM64GBd可调调制模式主要为 200GQPSK,适用于长距离传输,如长途干线、海底光缆等场景。第四代800G/1.2T400GQPSK/400GPS-16QAM/800GPM-16QAM96GBd/130GBd可调调制模式主要为 400GQPSK,适用于长距离、大容量传输场景,如长途干线;此外,800G速率主要用于超大型数据中心互联以及有高带宽需求的场景。当前全球主要光模块厂商在 ZR/ZR 及相干模块领域布局广泛,封装类型与 DSP 选型呈现多样化趋势,体现出不同厂商在技术能力、市场定位与演进策略上的差异。从封装角度来看,QSFP-DD 和 OSFP成为主流趋势,其中 QSFP-DD 在端口密度和兼容性方面有优势,而OSFP 则在散热性能方面具备优势。美国厂商如 Acacia(Cisco)、Ciena、Infinera 多采用自研或高性能商用 DSP(如 Jannu、WL5/WL6 系列),主攻 800G 及更高性能场景;而中国厂商如华为海思、光迅科技、新易盛则在自研 DSP 与模块封装上形成多点突破。整体来看,美系厂商聚焦高性能高可靠应用场景,自研 DSP 领先;中系厂商则在封装灵活性与速率覆盖广度方面持续发力,正加速向核心技术自研与高速率领域迈进,全球相干模块市场格局正在逐步多元化与本地化。主流相干光模块厂家对比厂商厂商国家国家/地区地区封装类型封装类型DSP 类型类型典型速率典型速率Acacia(Cisco)美国CFP2-DCO,QSFP-DDJannu,Denali100G/400G/800GInfinera美国Custom module自研 DSP800GCiena美国QSFP-DD,CFP2-DCOWL5Nano/Extreme800G烽火中国CFP2-DCO/QSFP-DD/OSFP自研400G/800G光迅科技中国CFP2-DCO/OSFP/QSFP-DDMarvell/自研400G/800G新易盛中国QSFP-DD,OSFPMarvell400G思特威美国/中国CFP2/OSFP第三方100G/400GLumentum美国CFP2-DCO,QSFP-DD与 Acacia 合作100G/400G目前,相干光模块的研发正处于 800G/1.2T 技术演进期,这一阶段标志着高速率、低功耗、集成化成为研发主旋律。800G 相干模块已逐步商用化,适用于数据中心互联(DCI)、骨干传输与算力网络等场景;1.2T 模块则作为下一代高阶产品,正在进行技术验证与初步部署,主要依赖更高符号率(如 140GBd 以上)、更复杂的调制技术(如 64QAM)和先进的 DSP 能力以提升频谱效率。向下一步发展,1.6T 相干光模块被视为未来核心目标,将采用更高速 DAC/ADC 器件、更高性能的硅光平台、更低功耗的 7nm 及以下 DSP 工艺,并有望实现 C L 波段覆盖、AI 增强 FEC 等关键技术集成。与此同时,封装形态也将进一步演进,以支撑 1.6T 在超长距传输和超大带宽集群互联中的广泛应用。QSFP-DD 和 OSFP 作为面向未来演进的两种主流封装,在结构设计、功能支持及部署场景方面均展现出各自的优势与局限。QSFP-DD(Quad Small Form Factor Pluggable-Double Density)封装是一种高密度光模块设计,其主要优势在于能在传统 QSFP 和QSFP28 的面板尺寸基础上增加更多电气通道,从而支持 400G 及更高速率的传输。这种紧凑设计不仅提供了较高的端口密度,非常适合数据中心对空间高效利用的需求,还确保了较强的向下兼容性,便于企业在进行网络升级时无需大规模更换现有硬件。随着散热技术的完善,QSFP-DD 封装能够支持 400G ZR 模块的稳定运行,已成为数据中心等场景的主流选择。尽管如此,QSFP-DD 的封装体积较小,导致其在 800G 及以上速率的模块中散热能力受限,需要更好的散热设计或其他辅助散热方案。此外,较为紧凑的内部空间也限制了高级功能模块(如复杂 DSP 和 FEC)的集成,未来在更高速率的演进中需要集成度更高的方案。OSFP(Octal Small Form Factor Pluggable)封装相比 QSFP-DD体积更大,专为支持 800G 及以上速率的模块开发,注重高带宽、高功耗环境下的热管理与功能集成能力。OSFP 设计的优势在于其优秀的散热性能,由于提供了更大的物理空间,能够容纳更大面积的散热片或采用更复杂的热管理结构,从而有效降低模块的温度,保障其在高负载下的长期稳定运行。此外,OSFP 还具备很强的功能扩展潜力,较大的内部空间能够支持更复杂的 DSP 芯片、CDM 结构以及 FEC模块,为未来更高速率模块的升级提供硬件基础。然而,OSFP 也有一些劣势,主要体现在其较低的端口密度,因封装尺寸较大,每个面板支持的模块数量较少,降低了设备的端口总容量。此外,更大的封装尺寸也意味着其材料和生产成本较高,可能导致在大规模部署时面临更高的成本压力。行业普遍认为,QSFP-DD 与 OSFP 将在未来 35 年内长期共存,两种封装将作为互补技术路线并行发展,共同支撑光电融合网络的持续升级与演进。5.2 光电融合网络设备光电融合网络设备光电融合网络设备是指将 IP(Internet Protocol)层和光层(通常是 DWDM,即密集波分复用技术)深度集成或协同工作的设备。这类设备通过融合 IP 和光层的功能,优化了网络架构,使得网络传输更加高效、灵活,并能够支持大容量的数据流动。传统的通信网络通常将 IP 和光层分开,各自负责不同的传输任务,而光电融合设备则实现了两者的深度耦合,能够提供高带宽、低延迟、低成本的传输解决方案。光电融合设备的核心在于其能够通过相干光模块,如 ZR/ZR 模块,将数据直接从 IP 路由器端口进行传输,这有助于简化网络传输,节省资本支出,减少对网络中的转发器和光传输设备的需求,从而实现简化网络架构、降低资本支出、提升网络灵活性和可扩展性。在光电融合网络设备的初期阶段,光电解耦式部署是主要的技术架构。在这种方案中,IP 层和光层的功能被独立部署,即路由器仅负责处理传统的 IP 层数据转发功能,通过路由器支持可插拔彩光模块来进行光信号传输,而光层的功能则通过独立的光层平台实现,通常使用 DWDM 等光层技术来进行波分复用和光信号放大。路由器和光层平台之间通过标准化协议接口(如 NETCONF、RESTCONF 等)进行协同工作。这种部署方式的优势在于可以根据需要灵活扩展每一层,IP 层和光层可以独立演进,且能支持复杂的网络架构需求。这种架构虽然在一定程度上降低了初期的复杂性,但是从光电协同及两套设备的运维上,仍然复杂度较高。随着技术的不断发展,光电融合设备正在向一体化集成设备演进,这一阶段的设备开始将 IP 层与光层功能深度集成。这种集成化设备不仅支持常规的 ZR/ZR 相干光模块,还能将光层调度功能(如ROADM)和光放大功能(如 EDFA)集成到同一个设备中。通过集成EDFA和ROADM,设备不仅能够提升光层传输的稳定性和灵活性,还能增强网络中的带宽管理和调度能力。相较于光电解耦式部署,这种集成化设备能有效减少网络中的设备数量和复杂度,提升网络的可靠性和操作简便性。设备通过将光电功能和 IP 路由功能结合,适应了需要高带宽、低延迟的数据中心互联(DCI)、骨干网以及城域网等场景的需求。随着网络向更智能和灵活的方向发展,光电融合设备不仅仅从硬件形态上逐渐完成融合,未来也将逐步进入全可编程白盒设备阶段,这标志着设备架构的重大变革。全可编程白盒设备不仅支持 IP 层和光层的统一调度,还提供了极高的灵活性和可编程性。通过 SDN(软件定义网络)控制协议和开放接口,这些设备可以动态调整 IP 和光层资源的配置,使网络更具弹性,能够快速响应变化的需求。全可编程白盒设备能够支持复杂的网络自动化运维,并且非常适合用于下一代的智能化网络,例如面向边缘计算、AI 驱动的自动化运维以及云计算的网络架构。通过支持网络切片、虚拟化等技术,这些设备可以提供更高效的资源利用,并能够通过高度集成的管理和编程接口,满足大规模、高效且智能化的网络部署要求。这种设备形态的核心在于开放性和可定制化,支持运营商和企业根据不同业务需求进行精细化的网络资源配置,推动了开放网络架构的逐步普及。2024 年由紫金山实验室和江苏未来网络集团牵头,联合业界多家厂商,基于 CENI 现网环境,开创性地将“IP 光”光路由技术与确定性网络技术、支持 ZR 的路由器技术整合,探索出一个自主可控的、确定性增强的、光数合一的未来网络光电融合广域确定性网络方案。该方案在 CENI 生产网中对光电融合确定性路由器做了严格测试验证,通过中国信息通信研究院的权威测试,实现了超 2000 公里的无电中继无损传输和 400G 速率 5 微秒抖动的确定性传输两项重大突破。未来网络试验设施(CENI)是全球首个实现 2000 公里以上“IP 光”广域无损承载和“400G 速率 5 微秒抖动”确定性承载的光电融合广域确定性网络,具有高效率、高可靠、低成本、低能耗等特点,处于国际领先地位,为“东数西算”算力网、城市区域算力网、数据要素高速承载网、运营商新型承载网等新型广域网建设提供了一个全新的技术路线,大幅降本增效提质。新华三(H3C)在光电融合领域提供了强大的解决方案,特别是CR19000-X、CR16000-F、CR16000-M 系列路由器。这些设备具有高密度接口(包括 FE/GE、10GE、25GE、40GE、50GE、100GE、400GE接口),并且在单槽位性能上支持灵活扩展,未来也可升级到 800GE和 1.6TGE 接口,具备广泛的光电融合应用场景。CR19000-X 系列:主要面向核心层设备,支持最高 400GE 接口,能够满足大规模网络运营商对高性能核心设备的需求,且具备未来的技术演进能力。图 6.CR19000-X 系列路由器CR16000-F 系列:具备多种应用场景,涵盖核心、汇聚、接入等多层次的部署需求,支持 400GE、100GE、10GE 接口,并提供 IP 光融合功能,适用于多种不同规模的网络架构。图 7.CR16000-F 系列路由器CR16000-M 系列:适用于接入和汇聚层的设备,支持 100GE、10GE 接口,并同样具备 IP 光融合的能力,可以灵活应对不同层级的网络组网需求。图 8.CR16000-M 系列路由器H3C 的 OPN DW500E 光层平台为 IP 光融合方案提供了全面的光层支持。它采用模块化设计,提供多个业务槽位,可根据需求灵活配置,支持包括合分波器、光放大器、光保护、光交叉(WSS)等功能,为数据中心互联(DCI)、城域网、骨干网等多种场景提供强大的光电融合能力。DW500E 光层平台与 H3C 的路由器系列无缝对接,具备支持 100G、400G、800G 等 ZR/ZR 彩光模块的对接能力,并通过 SDN(NETCONF/RESTCONF)接口,支持灵活开放的管理方式,进一步增强了网络的可编程性和自动化运维能力。5.3 光电融合管控系统光电融合管控系统光电融合网络的核心在于实现 IP 层与光层的深度协同,统一控制器作为这一体系的“大脑”,其智能化、开放性和跨层能力成为推动网络自动化、智能化演进的关键。以下将从架构、控制能力、运维能力、开放性、业务能力五大维度,系统分析各类光电融合网络管控系统。1.架构维度在架构设计中,灵活性和扩展性至关重要,因此统一控制器通常采用集中式与分布式架构相结合的方式,以适应不同网络规划和不同网络域资源协调和业务编排的需求。控制层不仅承载传统 IP 网络与光传送网络的控制功能,还需支持。为了增强系统的开放性和互操作性,统一控制器还必须具备强大的开放 API 能力,可以与 OSS/BSS系统对接,并支持与第三方设备、厂商的系统进行无缝对接。这些技术能力确保了网络运营商可以在不断变化的市场需求下,快速应对不同的业务挑战。随着 AI 技术的发展,AI 能力开始被应用于故障诊断、路径优化和容量预测等领域,帮助网络运营商实现高效、智能的网络管理。典型的方案包括:华为的方案是通过超级控制器或者协同器将 IP 层和光层的独立控制器进行融合控制与调度。思科与 Juniper:利用标准化接口和高效的网络数据建模能力,实现了智能化的网络控制和业务调度。未来网络团队:通过统一融合的大网操作系统实现 IP 层和光层的统一管控,结合 AI 的能力,实现光电业务协同的能力。2.控制能力维度:IP 层 光层 跨层控制能力光电融合网络中的控制能力要求 IP 层、光层以及跨层控制之间的深度协同。IP 层控制能力包括 SR/MPLS、FlexAlgo、SR Policy、VPN、L2/L3 组播等,主要解决数据包的路由、流量优化和网络管理问题。光层控制能力则涵盖了波分复用的合分波调度、光信号放大的均衡等。跨层控制能力则涉及到更为复杂的跨层协调,例如光层与 IP层的互联和协同,确保两者之间的资源能够高效利用,从而实现更为灵活的网络资源调度。例如,跨层链路发现、光层路径与 IP 层路径之间的约束协同控制等。差异化对比方面,部分厂商通常更倾向于将 IP 与光层深度联动,通过 SR Policy 等技术实现自动化的路径关联与资源优化;而一些厂商则更强调光层自治,通过标准化接口进行光层与 IP 层的协同,达到较高的灵活性和可扩展性。未来,随着光电融合的深度发展,跨层协同能力将成为关键的竞争优势。3.运维能力维度:智能化运维与知识图谱应用光电融合网络的运维能力是确保网络长期稳定运行的关键。智能化运维主要体现在全程监控、故障预测与根因分析等方面。在全程监控能力方面,统一控制器需要实时监测从物理端口到业务通道的每一层状态,确保每个环节都在可控范围内。根因分析则通过构建知识图谱,关联链路、设备、业务与告警,实现故障源的快速定位与处理。此外,AI 辅助运维则进一步提高了故障诊断的准确性与响应速度,通过大数据分析和机器学习模型,提前预测潜在的网络问题,并提出合理的优化建议。例如,中国电信通过融合图谱平台与大模型,实施跨域故障分析,不仅提高了故障定位的速度,还降低了人为干预的需求;AT&T 则通过推出网络数字孪生技术,模拟网络行为和故障,提前进行运维仿真,进一步降低了网络故障的风险。未来网络团队则通过将图谱系统与大模型结合,推动了跨层的知识问答,增强了运维人员对网络故障的诊断与处理能力,往高阶网络自动化持续演进。4.开放性与兼容性维度:生态适配能力在光电融合网络中,统一控制器的开放性与兼容性是决定其市场适应能力的关键因素。随着不同厂商和技术的不断涌现,统一控制器必须具备支持多厂商设备、多技术路径、开放平台的适配能力。为了实现这一目标,控制器需要具备灵活的南向接口适配能力,包括对NetConf、BGP-LS、PCEP、CLI 等协议的支持,确保能够与不同厂商的设备进行无缝对接。在模型开放性方面,统一控制器需要支持OpenConfig、ONF-TAPI 等主流建模协议,这样可以促进行业标准的形成,并确保与各种设备和系统的兼容性。在白盒设备方面,控制器是否支持开放可编程平台也成为一个重要考量点。Juniper 与思科等厂商通过支持基于 OpenConfig 和 YANG模型的开放性,推动了行业的标准化进程;烽火在逐步开放其控制平台,推动第三方模块和 OTN 设备的接入,提升了系统的可扩展性与适应性。未来网络团队通过基于大网控制器以及以 P4、SONIC 为基础的白盒设备,不断提升可编程能力,实现了异构环境的业务协同和运维管理。5.业务能力维度:业务部署与服务编排能力光电融合网络中的业务能力不仅体现在多业务建模上,还包括业务的全生命周期管理、服务自动化与端到端 SLA 保障。在多业务建模方面,统一控制器必须能够支持 L2/L3VPN、EVPN、MPLS-TE 等多种业务类型,确保网络资源的高效分配与业务的稳定运行。跨层路径计算与部署则是光电融合网络的亮点之一,它能够实现 IP 段与光路径的一体化部署,从而提高网络的资源利用率和运营效率。在服务自动化方面,统一控制器通过对开通、变更、下线等操作的全生命周期管理,能够实现服务的自动化与智能化。随着运营商对网络自动化的需求不断提升,意图驱动的网络配置成为未来的主流,运营商通过高层的业务策略来自动生成网络配置,极大地减少了人工干预,提升了部署的效率与准确性。国内主流厂商在这方面已实现了从业务开通到光波长调度的全流程自动化,能够有效降低运营成本,并提升业务响应速度。在光电融合网络的业界趋势中,统一平台的主导权问题成为一个焦点。部分观点倾向于构建自有的统一平台,避免被单一厂商锁定,并加强自主创新与控制权;而另一部分观点则更倾向于采用多控制器联邦式架构,通过模块化部署实现灵活性和可扩展性。在这一背景下,跨厂商、跨设备的互操作性成为未来网络演进的关键要求。AI 与图谱技术在提升运维效率方面的价值依然存在分歧。部分运营商认为,AI 与图谱技术是提升运维效率的关键工具,通过深度学习与智能分析,能够有效减少故障发生率,提升网络的可用性;然而,也有运营商认为,过度依赖建模带来的成本过高,且维护复杂,投资回报率并不显著。此外,白盒与软硬解耦的趋势愈加明显,运营商对电信级白盒的依赖逐步增强,要求控制器具备更强的开放能力,并支持更多种类的开放可编程平台,推动了 OIF 与 ONF 等组织推动的标准化接口,促进了融合控制的可移植性和兼容性。六、六、光电融合网络产业应用场景与案例光电融合网络产业应用场景与案例6.1 应用场景应用场景光电融合网络作为新一代基础设施形态,其在带宽、能效、灵活性与智能管控方面具备显著优势,已逐步在多种关键场景中展开部署与验证。典型应用主要聚焦于数据流密集、时延敏感或架构解耦诉求突出的领域。首先,在算力网络互联方面,光电融合方案可实现大型数据中心、AI 集群之间的高密度、高可靠、低功耗互连,支撑智算调度、模型训练与推理等对带宽与延迟敏感的算力业务。其采用相干光模块直插路由器/交换机,简化中间层设备,实现低成本、可编程的传输链路。如“东数西算”工程推动东西部算力枢纽的广域互联,要求网络具备超大带宽、低功耗、强弹性等能力。光电融合网络以相干光模块直插 分层管控 波道智能调度为核心特征,实现大颗粒数据流(如 AI 模型、训练数据)的高效搬运。通过 IP 与光的深度协同,支持算力在东西部之间的敏捷调度和数据快速回传,是智算枢纽间互联的理想架构。其次,在运营商骨干与城域网络中,光电融合能够通过 IP 与光层的协同调度,提升光层资源利用率、降低业务开通时延,增强网络扩展能力与多业务承载效率,适配 5G/5G-A 回传、企业专线与 DCI等需求。同时,在工业互联网、车联网、智慧城市等确定性场景中,融合确定性技术的光电网络具备路径可控、微秒级抖动保障的能力,满足高清视频、智能制造、自动驾驶等超低延迟、高可靠业务需求。此外,面向未来的 AI 原生业务与元宇宙场景将催生大带宽、低延迟、高并发、多路径协同的网络需求。光电融合网络基于统一架构、分层解耦、智能管控的设计原则,可为大规模并行计算、多终端内容分发、三维互动体验等提供高质量承载平台。配合确定性切片与 AI辅助调度能力,有望成为“智能业务即网络”的技术底座。6.2 应用案例应用案例1.基于 CENI 现网的光电融合网络超长距验证紫金山实验室和江苏未来网络集团联合攻关,融合“光电融合ZR 技术”“400G 确定性网络技术”“光电融合一体调度技术”三大关键技术,在 CENI 现网上实测验证实现长三角超 2000 公里远距传输、400G 零丢包无损传输、时延和带宽全颗粒切片按需传输。三大关键技术在 CENI 现网实现的高速、高效、灵活、低成本确定性传输能力极大优化 AI 算力网络的建设和运营成本及效率,建设成本降低至少 50%以上。通过 CENI 现网资源,南京上海 2000KM 现网测试(400GZR QPSK)图 9.测试组网图(1)引入新的设备散热和供电技术,以及系统软件优化,率先支持 400G ZR (QPSK 模式),内部完成方案可靠性、风险点释放等全面验证;(2)完成 400G ZR (QPSK 模式)下光路由 2000KM 现网单光纤、无电中继的超远传输距离验证,验证 400G、800G 带宽下的高性能转发以及长时间可靠性测试。(3)基于大网控制器,利用彩光通道 SRv6 切片 信道化子接口三级调度架构,实现:1)业务级硬切片隔离,时延保障精度达50ns;2)基于 SRv6 信道化子接口的跨域通道快速重构,业务开通时间缩短分钟级;3)构建端到端智能运维体系,集成 Telemetry 实时监测与数字孪生仿真系统。2.中国电信光电融合测试(400G ZR)针对三个厂商(诺基亚、思科、国内某厂商)支持 400ZR 接口的设备进行测试:(1)均支持彩光/白光、400G/100G 接口自适应;(2)均支持 50km 光纤传输,且配合光放传输距离可达 100km;(3)均支持 L2VPN/L3VPN 业务承载,以及 OAM 功能。诺基亚诺基亚思科思科国内某厂商国内某厂商接口自适应彩光/白光自适应支持支持支持400G/100G 自适应支持支持支持波长配置可按频率/索引值/波长配置,配置范围191.3THz-196.1THz,颗粒度 100MHz按频率/通道配置,配置范围191.7THz-196.1THz,颗粒度 1MHz可按频率配置,配置范围191.3THz-196.1THz,颗粒度 100MHz默认波长1552.524 nm1552.524nm1547.72 nm25km 场景支持支持支持50km 场景支持支持支持75km 光放场景支持支持支持100km 光放场景支持支持支持VPN 业务承载(L2VPN/L3VPN)支持支持支持OAM支持 802.1ag 和802.3ah 功能支持 802.1ag 和802.3ah 功能支持 802.1ag 和802.3ah 功能3.未来网络团队基于光电融合网络的存算拉远测试在 AI 大模型训练与推理加速的需求驱动下,传统存算一体模式因算力中心与存储中心物理分离导致的带宽瓶颈、延迟抖动等问题日益凸显。光电融合网络通过彩光直连 智能调度的创新架构,为 AI 存算拉远场景提供了高性能、低时延、高可靠的解决方案(如图 10 所示)。图 10.测试组网图算力中心与企业侧:部署可编程路由器作为入算锚点,支持 RDMA 流自动识别,实现不同业务流的精准分流。CENI 网络骨干层:采用 120KM 彩光 400G ZR 彩光模块构建超长距传输链路,通过光层智能调度,实现多租户业务的资源隔离与优化。智能管控体系:基于 SDN 控制器的全局流量感知能力,动态调整网络资源,支持算力网关、CPE 等设备按需接入,保障训练任务的高效执行。为验证光电融合网络在 AI 存算拉远场景的实际价值,未来网络团队开展了对比测试,结果显示:(1)模型训练时间显著缩短传统训练方式:受限于本地存储与算力的物理绑定,训练需频繁跨节点调用数据,耗时 7.8 天;拉远训练方式:通过光电融合网络的广域流量负载分担调度算法,结合国产软硬件平台的可编程特性,实现算力中心与存储中心的内存直连,训练时间降至 4.1 天,效率提升 47%。(2)带宽资源利用率翻倍传统训练方式:因网络调度粗放,线路带宽仅利用 51%;拉远训练方式:依托智能全局流量感知与动态负载分担技术,100%释放线路带宽潜力,带宽利用率提升至 98%,资源浪费降低 48%。光电融合网络在 AI 存算拉远场景中的应用,通过彩光直连降低传输时延、智能调度提升资源效率、可编程架构适配多元需求三大核心能力,解决了传统存算一体模式的痛点:算力释放:内存直连存储中心样本数据,避免跨节点数据拷贝,充分发挥硬件算力;成本优化:带宽利用率提升近一倍,降低网络扩容与运维成本;扩展性增强:基于 SDN 的全局管控能力,支持多企业模型的灵活接入与动态调整。该方案已通过实际测试验证,为 AI 大模型训练、自动驾驶仿真等高性能计算场景提供了可复制的光电融合网络范式,推动算力网络向泛在、智能、绿色方向演进。4.中国移动基于光电融合网络的智网协同训练试验2025年7月中国移动完成业界首次800G以太网智算协同训练的现网技术试验。本次试验采用 IP 与光融合 GSE-DCI 方案,实现支持多个 800G 波长通道的彩光以太组网(Nx800G)。相较传统“网络设备 传输设备”方案,新技术降低 40%单比特成本、35%功耗及 20%节点时延。在跨智算中心 700 亿参数大模型训练中,采用流水线并行(PP)方式,实现高达 98%以上的等效算力效率,是探索跨智算中心互联的新架构和新技术的重要突破。七、七、光电融合网络行业发展建议光电融合网络行业发展建议7.1 发展面临的挑战发展面临的挑战尽管光电融合网络技术已在多个领域实现初步部署,但在规模化推广与深入应用过程中,仍面临诸多挑战:技术集成复杂性高技术集成复杂性高:光电协同涉及多层协议堆叠、多维资源抽象与统一调度,现有网络架构中难以快速对接,特别是在跨域、跨厂家设备管理方面缺乏标准化适配能力。国产化基础仍不牢固国产化基础仍不牢固:关键元器件(如 DSP 芯片、相干激光器)仍依赖进口,自主研发进展虽快但生态尚未成熟,严重制约光电融合装备的“可控可用”。运营成本控制难度大运营成本控制难度大:在多厂商设备混合组网下,管控割裂、接口不统一、网络状态不可视,运维人员负担重,整体网络效能无法最大化释放。标准规范缺失或不统一:标准规范缺失或不统一:光电融合的开放接口、建模语言(如YANG)、资源表达与切片等核心规范尚处于探索阶段,生态协同缺乏“公约数”。商业市场仍待培育商业市场仍待培育:光电融合的价值需与 AI 原生、确定性网络、算力调度等场景强绑定,但市场仍在验证阶段,商业闭环尚未成熟。7.2 发展阶段划分发展阶段划分光电融合网络的发展历程呈现出从设备解耦到协同控制、再到智能融合的技术演进路径。根据网络功能集成度、设备协同深度与管控智能化水平,可将其划分为以下三个阶段:初始互联、协同演进、智能融合。从当前行业发展现状来看,光电融合网络正处于从第二阶段(协同演进)向第三阶段(智能融合)加速演进的关键转折期控制协同已相对成熟(如多厂商设备的开放接口互通、跨层联合调度算法验证),而设备一体化的硬件集成(如光电融合路由器的商用落地)与 AI 智能调度的深度应用(如基于大模型的网络自治)正成为突破重点,推动网络向更高阶的“自主感知-智能决策-精准执行”全闭环智能化方向发展。(1)初始互联阶段:光电分层,接口有限)初始互联阶段:光电分层,接口有限该阶段以“光为管道、电为核心”为主导,光层与 IP 层物理解耦,分别部署。以灰光模块连接 IP 设备与传统波分系统为主,通常借助光传输设备进行封装、调度与 OAM 管理。IP 设备通过静态配置或有线接口与光网联动,运维依赖人工干预。关键特征:光电功能物理独立,缺乏实时联动;网络自动化程度低,设备封闭、配置复杂;控制面未实现互通,需依赖网管平台人工协调。典型应用场景:中小数据中心互联、城域业务承载。(2)协同演进阶段:控制协同,接口开放)协同演进阶段:控制协同,接口开放随着相干光模块的发展和 SDN 理念的落地,光电融合逐步进入控制协同阶段。IP 设备可直接插入彩光模块,实现光电融合组网。同时,光层控制器支持 PCEP、BGP-LS 等接口,与 IP 控制器实现路径协商与资源共享,逐步建立起多层联动机制。光网设备也由传统封闭转向 YANG 建模、NETCONF 配置等开放体系。关键特征:相干彩光模块广泛应用,支持多厂商互联;控制面打通,实现光电路径协同调度;网络模型逐步标准化,支持编排器/控制器南北向对接;DCI 与“东数西算”等场景逐渐落地。典型应用场景:大型数据中心 DCI 互联、“东数西算”枢纽间互联。(3)智能融合阶段:设备一体、)智能融合阶段:设备一体、AI 自调度自调度该阶段以“光电一体设备 智能控制”为核心,具备真正意义上的融合架构。典型形态如白盒路由器集成彩光模块、其他微光学模块(如 WDM、EDFA 等),控制平面集成 AI 预测、路径智能选择与业务意图识别能力,支持切片、确定性调度、服务质量动态保障等高级特性。设备管理接口统一,光电网络实现“即插即用、即调即通”。关键特征:光电同构设备普及,资源池化与服务化;控制器具备 AI 能力,具备路径预测与业务编排;网络具备确定性(低抖动、微秒级延迟)保障能力;强适配信创环境,支持国产操作系统与硬件平台;网络配置自动化、运维“零接触”。典型应用场景:金融专网、工业互联网、智算中心互联、边缘云网络、确定性业务承载等。7.3 发展对策建议发展对策建议7.3.1 技术层面技术层面:强化自主与开放能力强化自主与开放能力面对算力泛在化、连接确定性的新时代需求,光电融合网络在技术层面,需在芯片自主、架构解耦、协议开放、智能协同四大维度实现系统性突破。核心芯片自主突破:核心芯片自主突破:加大对 DSP、相干光引擎、低功耗ADC/DAC 等核心芯片研发投入,构建稳定可靠的本土技术体系。设备解耦与模块化设计设备解耦与模块化设计:推动光层与电层的物理分离与接口标准化,支持多厂商模块级集成,降低网络建设与演进门槛。统一建模语言与开放协议统一建模语言与开放协议:基于 YANG NETCONF 构建设备建模与配置标准,兼容多种北向 API,提升编排与自动化能力。确定性与确定性与 AI 协同创新:协同创新:将确定性、路径预测、业务感知等能力与光电融合架构结合,推动低时延、高可靠新型服务保障能力落地。7.3.2 产业层面产业层面:打造生态与标准共识打造生态与标准共识光电融合网络的规模化发展亟须打破产业壁垒,以标准为牵引、测试为基石、协同为引擎,构建多主体深度参与的开放生态。通过凝聚设备商、运营商、芯片商及科研机构合力,打通“技术研发标准制定商用落地”全链条,为产业高质量发展注入持续动能。以下核心举措将加速生态成熟:构建行业标准体系构建行业标准体系:鼓励产业联盟(如 ODCC、AIIA、TIP、ONF)联合设备商、运营商和科研机构制定涵盖接口、控制、测量、安全等方向的标准。推动开放测试验证平台建设:推动开放测试验证平台建设:依托国家/行业测试中心,建立典型光电融合场景测试床,支撑设备互通、协议兼容与新技术验证。加强产业链协同合作加强产业链协同合作:打通芯片、模块、设备、系统、软件、运营多个环节,加快形成“光电融合 算力互联”融合生态。7.3.3 政策层面:政策层面:强化引导与示范推广强化引导与示范推广光电融合网络的规模化部署与产业升级,亟须发挥政策引导、支撑、规范三位一体的杠杆作用。通过重大工程牵引、创新生态培育、标准体系完善三大抓手,打通从技术研发到商业落地的关键路径,为产业高质量发展注入制度动能。以下核心举措将强化政策协同效能:推动重大工程与试点落地推动重大工程与试点落地:结合 CENI、“东数西算”等国家工程,在骨干网、专网等重点领域先行示范。支持关键技术研发与产业孵化支持关键技术研发与产业孵化:鼓励地方政府设立专项资金,支持光电融合技术创新企业、实验室和孵化平台。完善标准与监管机制完善标准与监管机制:加快国内标准体系建设进度,增强企业参与国际标准制定能力,同时制定光电融合网络安全与质量评估指标体系。八、八、光电融合网络未来展望光电融合网络未来展望未来,光电融合网络将成为支撑新型信息基础设施的关键底座,逐步从技术集成走向智能自治,实现从“能连”到“优连”、再到“慧连”的演进。随着 800G/1.6T 相干模块、AI 原生调度、确定性网络与量子通信等技术的加速成熟,光电融合网络将具备更强的服务感知能力、自主优化能力和跨域协同能力,广泛支撑智算中心互联、工业控制、车路协同、泛在算力调度等未来业务场景,推动网络架构从通用性向多样性转型,构建面向“智联万物、绿色低碳、安全可控”的新一代网络体系。附录 A:术语与缩略语中文名称中文名称英文英文缩写缩写英文全称英文全称人工智能AIArtificial Intelligence人工智能物联网AIoTArtificial Intelligence of Things自动化流量工程网络抽象与控制ACTNAbstraction and Control of TENetworks未来网络试验设施CENIChina Environment for NetworkInnovations光模块标准化联盟COBOCloud and Carrier Optical ModuleOwners光电共封装技术CPOCo-Packaged Optics数据中心互联DCIData Center Interconnect双偏振技术DPDual Polarization数字信号处理DSPDigital Signal Processing掺铒光纤放大器EDFAErbium-Doped FiberAmplifier灵活栅格技术FlexGridFlexible Grid中文名称中文名称英文英文缩写缩写英文全称英文全称灵活光接口FlexOFlexible Optical前向纠错编码FECForward Error Correction广义多协议标签交换GMPLSGeneralized Multi-Protocol LabelSwitching互联网工程任务组IETFInternet Engineering Task Force电气与电子工程师协会IEEEInstitute of Electrical and ElectronicsEngineers磷化铟InPIndium Phosphide国际电信联盟电信标准部门ITU-TInternational TelecommunicationUnion-TelecommunicationStandardization Sector第二层/第三层虚拟私有网络L2VPN/L3VPNLayer 2/3 Virtual Private Network多源协议MSAMulti-SourceAgreement中文名称中文名称英文英文缩写缩写英文全称英文全称网络处理单元NPUNetwork Processing Unit光通道数据单元ODUOptical Channel Data Unit开放前向纠错编码OFECOpen FEC光互联网论坛OIFOptical Internationale Federation开放网络基金会ONFOpen Networking Foundation开放 ROADM 多源协议OpenROADMOpen ROADM Multi-SourceAgreement八通道小型可插拔模块OSFPOctal Small Form Factor Pluggable光传送网OTNOptical Transport Network操作、管理和维护功能OAMOperations,Administration,andMaintenance概率星座整形PCSProbabilistic Constellation Shaping可编程协议无关P4Programming Protocol-Independent中文名称中文名称英文英文缩写缩写英文全称英文全称的数据平面语言Packet Processors路径计算元素通信协议PCEPPath Computation ElementCommunication Protocol正交相移键控QPSKQuadrature Phase Shift Keying四通道小型可插拔双密度模块QSFP-DDQuad Small Form Factor PluggableDouble Density可重构光分插复用器ROADMReconfigurable OpticalAdd-DropMultiplexer远程直接内存访问RDMARemote Direct MemoryAccess交换抽象接口SAISwitchAbstraction Interface软件定义网络SDNSoftware-Defined Networking白盒交换机开源操作系统SONICSwitch Operating System for OpenNetworking分段路由SRSegment Routing基于 IPv6 的分段SRv6Segment Routing over IPv6中文名称中文名称英文英文缩写缩写英文全称英文全称路由电信基础设施项目 APITAPITelecom Infra ProjectAPI流量工程TETraffic Engineering波分复用技术WDMWavelength Division Multiplexing远距离光模块接口标准ZRZeRo Dispersion Reach开放式相干光模块标准OpenZR Open ZeRo Dispersion Reach plus参考文献1 Steven J.Hand,et al.(2023).Anew operational paradigm forIPoDWDM networks.2 Paul Silverstein(2023).COMMUNICATIONS MARKETOVERVIEW.3 Samuel Liu(2023).Orion:ATipping Point for Optical Networks4 Simon Sherrington(2023).Scaling to 800G in operator metro core,backbone and DCI networks.5 苏林,CFA(2024).聚焦光模块;AI 持续赋能行业增长.6 Alexander Bakharevskiy(2013).Innovation for Converged IP andTransport.https:/.7 OpenROADM(2023).Multi-Source Agreement for OpenROADM.https:/www.openroadm.org.8 ITU-T G.709(2023).Optical transport networks(OTN)Architecture and general aspects.https:/www.itu.int/rec/T-REC-G.709.9 IEEE 802.3dj(2024).IEEE Standard for Ethernet Amendment:400Gb/s and 800 Gb/s Physical Layer Specifications.https:/standards.ieee.org.10ITU-T.G.709/Y.1331:Optical Transport Network(OTN),International Telecommunication Union(ITU),Online.https:/www.itu.int/rec/T-REC-G.709.11ITU-T.G.698.2:Optical interfaces for interworking betweenSDH and DWDM systems,International Telecommunication Union(ITU).https:/www.itu.int/rec/T-REC-G.698.2.12IEEE(2021).IEEE 802.3cw:IEEE Standard for Ethernet-400GBASE-LR8,400GBASE-DR4,and 400GBASE-SR8.13IEEE(2022).IEEE 802.3dj:IEEE Standard for Ethernet-800GBASE-LR16,800GBASE-DR8,and 800GBASE-SR16.14OIF.OIF-400ZR Implementation Agreement.https:/.15OIF.OIF-800ZR Implementation Agreement.https:/.16OIF.OIF-1.6T ZR Implementation Agreement.https:/.17Open Networking Foundation.TAPI v2.4-Transport API Specification.https:/www.opennetworking.org.18P.H.Chia,et al(2018).RFC 8453:Architecture for Controland Management of Transport Networks(ACTN).https:/tools.ietf.org/html/rfc8453.19OpenZR MSA.OpenZR MSA v3.0-OpenZR Multi-Source Agreement.https:/www.openzr.org.

    发布时间2025-08-22 95页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • Telenor IoT:2025物联网连接技术指南(15页).pdf

    本报告由Telenor IoT与Analysys Mason联合制作2025版物联网连接技术指南所有图表的著作权均归Telenor IoT和Analysys Mason 2025所有。保留所有权利。TELENOR IoT|物联网连接技术|21摘要32序言43蜂窝物联网技术概览54蜂窝物联网技术的全球部署现状74.12G/3G网络关闭74.24G的主导地位与生命周期84.35G RedCap的兴起与未来部署展望94.4非地面网络技术在物联网中的应用115不同蜂窝物联网技术的典型应用场景126Telenor IoT的洞察与建议14目录TELENOR IoT|物联网连接技术|3选择合适的连接技术对于公司业务的长期平稳发展至关重要。如今,随着物联网技术不断迭代创新,其复杂性也随之提高。为您的业务场景匹配最适合的连接技术可能并非易事。本指南既适用于已经部署物联网解决方案的企业,也适用于正在规划或评估新物联网项目的公司。在物流、制造、公用事业和交通运输等领域,稳定的网络连接尤为关键,因为即使是短时间断网也可能带来严重后果。随着全球范围内2G和3G网络逐步淘汰以及新技术迅速涌现,着眼当前需求和未来发展做出明智的决策比以往任何时候都更为重要。在接下来的章节中,我们将为您简要介绍当今最重要的蜂窝物联网技术,涵盖成熟和新兴的技术,包括2G、3G、4G、5G以及非地面网络(NTN)。我们使用来自Analysys Mason和Telenor IoT的数据,将从覆盖范围、时延、能效和全球部署现状四个维度对每种技术进行评估,帮助您做出明智的选择。要点概述如下:4G网络的可靠性和生命周期:4G是当前应用最广泛且在全球范围内可接入的物联网连接方案,并有望在未来十年内继续保持这一地位,为多种物联网应用场合提供稳定的性能和覆盖保障。对5G RedCap(精简版5G)的审慎预期:5G RedCap填补了低功耗与高性能物联网应用场景之间的空白,但其普及程度取决于5G SA(独立组网)网络的部署进度,而当前该网络建设仍处于早期阶段。5G RedCap的更广泛部署可能要在2030年前后才能实现。对非地面网络持谨慎乐观态度:基于卫星的物联网技术可通过卫星直接连接设备,将覆盖范围扩展至偏远地区。部分解决方案通过运营商合作复用4G频谱,另一些则是在专用卫星频段上使用NB-loT技术。然而,受监管审批、频谱资源分配以及技术成熟度等因素影响,该技术的推广应用将呈现分阶段、渐进式的特点。通过阅读本文,企业将能清楚了解当前及未来的物联网技术选择,从而制定与市场实际发展趋势相契合的战略投资决策。例如,目前正部署或升级物联网解决方案的企业可采用已被验证的成熟技术(如LTE Cat-1和LTE-M),而预先在方案中规划5G RedCap与非地面网络,则有助于确保其物联网战略的未来适应性。1.摘要TELENOR IoT|物联网连接技术|4本指南在Telenor IoT 2023版 连接技术报告 的基础上全面更新,主要针对企业在物联网应用中面临的以下三种情况:2G和3G网络逐步淘汰;优化或扩展现有的4G物联网项目;为新的物联网项目部署评估连接技术方案。上述每一种情况都可能伴随着服务中断、集成复杂性和潜在成本超支等风险。在接下来的章节,我们将:概述蜂窝物联网的关键技术类型;展示各项技术的全球部署现状;分析常见物联网应用场景的适用技术;提供规划和部署解决方案的实用建议。我们希望为您提供必要的背景信息和具体细节,以帮助您做出明智的决策,从而规避和降低物联网项目实施过程中的潜在风险。物联网连接生态系统已迅速演变,从最初以消费者为中心的形态,经历围绕低功耗广域网(LPWA)技术的大力宣传,发展到如今成熟且多元化的格局。企业不仅依靠物联网来实现系统功能扩展,更将其视为提升效率、突显竞争优势和保障整体业务运营连续性的关键驱动力。2.序言TELENOR IoT|物联网连接技术|51来源:AnalysysMason2LTE-M的增强覆盖模式通过重复传输提升信号穿透能力,但相较于标准LTE,可能需以更高时延为代价。NB-IoT专为低数据量、低功耗物联网应用而设计,适用于需要室内深度覆盖或偏远地区的应用场景。其数据传输速率可达数十Kbps,并且能够在数秒钟内从休眠状态中唤醒,使得设备能够依靠单块电池运行多年。NB-IoT可以部署在现有的2G、4G LTE或5G SA网络上(只需稍作调整),目前也正在被适配用于卫星直连设备(D2D)的应用场景。另一种LPWA物联网连接技术LTE-M(Cat-M1)兼顾更高速度与更广覆盖。其吞吐量可达数百Kbps,时延与4G LTE相当2,支持设备在不同运营商网络之间无缝漫游,无需额外配置。LTE-M基于标准的4G基础设施构建,仅需进行网络配置更新即可启用,目前已在欧洲、北美、日本、韩国和澳大利亚等地广泛部署。蜂窝物联网技术方案在覆盖范围、传输速度、时延、电池寿命和全球覆盖能力上存在差异。权衡这些性能参数有助于您为具体应用场景选择最合适的解决方案(全球部署现状将在下一章节详细讨论)。图1:蜂窝物联网技术对比1技术覆盖范围吞吐量时延能效全球部署现状NB-IoT优(室内深度覆盖)20 Kbps高高在大多数地区可用,但其应用主要集中在中国LTE-M 优200 Kbps 低高覆盖大多数欧盟国家、美国和澳大利亚LTE Cat-1/Cat-1 bis良3 Mbps 低较高几乎普遍可用LTE Cat-4/4 良100 Mbps 低低几乎普遍可用5G NSA 良300 Mbps 非常低低覆盖大多数成熟市场5G SA 良300 Mbps 非常低低亚太地区及美国的主要运营商已实现规模化部署5G RedCap良10 Mbps 非常低高在美国、中国、科威特、(以及eRedCap)菲律宾处于早期发展阶段卫星(非地面网络)在偏远的户外区域10 Kbps-1 Mbps 高取决于解决方案仅限于试点市场网络覆盖良好注:以上列出的吞吐量和时延均为典型性能指标,而非峰值性能。3.蜂窝物联网技术概览TELENOR IoT|物联网连接技术|63 出于简化考虑,本文后续将使用Cat-1来统一指代常规Cat-1及其衍生版本Cat-1 bis。从网络角度来看,只要支持4G,就同时支持Cat-1和Cat-1 bis。Cat-1 bis与Cat-1的差异仅体现在设备侧。LTE Cat-1(及其衍生版本Cat-1 bis)可提供数兆比特每秒的吞吐量,兼具优异的时延性能,同时保持LTE级别的覆盖能力与可靠性。当应用场景需要比NB-loT或LTE-M更大带宽时,Cat-1可谓稳健之选。尽管其功耗相对较高,但Cat-1 bis通过使用单接收天线(而非LTE使用的双天线)降低了设备复杂度和能耗。此外,由于采用标准4G频段和成熟的漫游方案,Cat-1几乎在全球主要市场都普遍可用。LTE Cat-4/Cat-4 是标准的4G LTE连接,提供高达100 Mbps或更高(Cat-4 可超过300 Mbps)的数据吞吐量。该技术非常适合视频监控、批量遥测等数据密集型物联网应用场景,但其能耗高于LTE Cat-1及其他LPWA技术,在主要市场中几乎普遍可用。5G NSA(非独立组网)通过将5G无线接入网络与现有的4G核心网结合,实现了高吞吐量(300 Mbps以上)和低时延,并在许多成熟市场广泛支持漫游功能。而5G SA则需要部署全新的5G核心网,以支持原生5G功能。尽管已有超过150家运营商启动了5G SA部署,但除亚太地区和美国的主要运营商网络外,5G SA仍处于早期部署阶段。5G RedCap专为中等速率物联网场景量身定制,在吞吐量、时延和能效之间实现了良好平衡。eRedCap相较RedCap进一步降低了峰值速率和功耗,并降低了设备成本。但需要注意的是,RedCap与eRedCap的可用性完全依赖于5G SA的部署,而如前所述,目前5G SA的覆盖范围仍较为有限。非地面网络通过低轨(LEO)或地球同步轨道(GEO)卫星,在全球范围为海洋、航空和极地地区提供物联网覆盖。其吞吐量从数十千比特每秒(基于移动卫星频谱的NB-IoT技术)到数兆比特每秒(基于LTE直连设备技术)不等。时延范围则从数百毫秒(LEO)到超过一秒(GEO)。目前,早期的商用非地面网络服务正处于试用和概念验证阶段,预计在2025年之后,随着卫星星座建设、法规完善以及设备支持的成熟,将实现全面部署。4来源:Telenor IoTTELENOR IoT|物联网连接技术|7图2:2025年2G/3G网络关闭进程概览4即使在同一市场中,各运营商也有各自的关停计划。例如,在德国,沃达丰和德国电信分别计划在2030年底前和2028年中关闭2G网络,而O2尚未明确具体关停时间。因此,企业应积极关注各运营商具体的网络关闭时间表,而不是仅依赖于区域或国家层面的信息。网络关闭的实际过程通常是在多年内分阶段进行,而非一次性突然发生。高频段频谱会率先被重新利用,而低频段则会保留更长时间以保障基础的网络连接。尽管多模通信模块可以在主网络关闭时自动切换到其他网络层(例如从2G切换到4G),但实际应用中,固件限制或信号微弱可能导致连接问题,有时需要手动或远程重置设备,以便在备用网络上重新建立稳定连接。企业在规划物联网项目时,需要清晰了解2G/3G退网以及新兴连接技术的部署时间表。物联网设备通常会使用多年,中途更换成本高昂,因此了解网络关闭时间、当前覆盖范围以及未来的部署计划,有助于避免意外状况并实现平稳过渡。4.1 2G/3G网络关闭全球运营商正在逐步关闭2G和3G网络,以释放频谱资源用于4G和5G。如下方地图所示,不同地区的网络关闭时间表存在显著差异。2G与3G网络完全关闭3G完全关闭,2G仍可用或仅部分关闭2G完全关闭,3G仍可用或仅部分关闭2G与3G网络仍可用或仅部分关闭4.蜂窝物联网技术的全球部署现状TELENOR IoT|物联网连接技术|8为确保顺利过渡,建议企业持续关注运营商的时间安排,在备用网络上测试设备,并制定分阶段迁移计划,设定明确的阶段节点。包括Telenor IoT在内的一些运营商提供测试实验室,可用于验证迁移场景下设备的表现。4.2 4G的主导地位与生命周期自2017年推出以来,3GPP5标准定义的LPWA技术(即NB-IoT和LTE-M)实现了长足发展,但其在全球范围内的普及度并不均衡。中国在NB-IoT部署方面处于领先地位6,欧洲和北美则同时支持两种技术,少数市场仅提供LTE-M服务。由于漫游覆盖存在缺口,以及部分运营商退出NB-IoT服务(例如AT&T和NTT DoCoMo),目前NB-IoT和LTE-M尚未实现真正的全球覆盖。因此,计划在全球范围内采用上述LPWA技术部署物联网解决方案的企业,可能需要面对采用双模调制解调器、SIM配置文件和漫游管理等问题。在此背景下,LTE Cat-1成为低带宽物联网应用的通用选择。对于大多数测控应用场景而言,LTE Cat-1提供了足够的吞吐量和较低的时延。它还支持语音功能,并可在标准4G网络上实现无缝漫游。由于Cat-1无需特殊的网络配置,因此Cat-1设备几乎可在所有提供4G服务的市场上运行,并能轻松集成到全球设备群中。随着市场份额的增长和LTE Cat-1生态系统逐步成熟,高性价比将使其成为替代退役2G/3G设备的理想方案,帮助企业减少集成工作量,并提升网络覆盖一致性。展望2030年以后,大多数市场在2035年前全面关闭4G网络的可能性较低。在领先市场中,部分运营商可能会将中高频段频谱重新用于扩展5G及未来的6G服务,但低频段频谱(如900MHz)很可能会继续用于4G,为4G(包括Cat-1)设备提供广域和室内深度覆盖。2G网络在运营30多年后逐步关闭的例子已表明,频谱的再分配是一个渐进过程,网络关闭也历经多年、分阶段有序推进。我们预计4G也将遵循类似路径,在网络容量上逐步缩减,但在2035年之前,4G仍将是绝大多数企业物联网应用的骨干网络8。5 3GPP指第三代合作伙伴计划(Third Generation Partnership Project),该组织在蜂窝技术(涵盖2G、3G、4G和5G)的开发与标准化方面起着关键作用。6 NB-IoT在不同地区发展不均衡有多个原因。与LTE-M和5G RedCap不同,NB-IoT需要专用的180200kHz频谱,无法与其他业务共享(尽管可以部署在保护频段中以避免与其他业务冲突)。在中国,对NB-IoT芯片组的补贴推动了其广泛部署,而在西方市场,其商业价值不够突出。7 来源:Analysys Mason8需注意:即使某些运营商已经完成从4G核心网向5G SA核心网的迁移,只要4G无线网络仍在运行,5G核心网仍然可以处理NB-IoT、LTE-M和Cat-1的连接。图3:截至2025年4G和低功耗广域网技术的全球部署7两种低功耗广域网技术(NB-IoT与LTE-M)均已实现商用部署仅支持LTE-M仅支持NB-IoT暂无商用低功耗广域网服务,但LTE Cat-1或其他4G方案仍然可用无4G服务(注:上方所列其他市场均支持LTE Cat-1和Cat-4)TELENOR IoT|物联网连接技术|99来源:Analysys Mason10澳大利亚、巴林、捷克、芬兰、德国、印度、科威特、马来西亚、沙特阿拉伯、新加坡、韩国、西班牙、泰国、土耳其、阿联酋、英国、美国11来源:GS如图4所示,至2030年,使用LTE Cat-1和LTE Cat-4/4 技术的物联网连接数将持续增长,而2G/3G连接数则持续下降。NB-IoT和LTE-M的市场份额正在上升,但整体规模仍相对有限;5G(包括5G NSA、SA和RedCap)则在2025年后才开始大规模部署。这一预测清晰地表明,尽管LPWA技术正在获得越来越多的市场认可,且5G将在未来4-5年间推动这一趋势,但包括LTE Cat-1在内的4G技术仍将在未来一段时间内在物联网连接领域占据主导地位。4.3 5G RedCap的兴起与未来部署展望3GPP Release 17中定义的5G RedCap提供中等数据速率(数十Mbps),相较于LPWA时延降低,与完整功能5G设备相比复杂度降低。Release 18中定义的增强型RedCap(eRedCap)进一步降低了功耗和设备成本,使其非常适合无需峰值性能的可穿戴设备、传感器和智能表计等场景。截至2025年4月,T-Mobile美国、科威特STC、菲律宾Ditto以及多家中国运营商均已推出商用5G RedCap服务。此外,全球17个国家约20家运营商正在开展相关试验10。然而,即便在5G已覆盖的地区,RedCap的可用性仍然有限,因其依赖于5G SA核心网。目前大部分5G部署采用NSA模式,截至2024年年底,在已投资5G的620家运营商中,仅有约150家开始部署SA核心网。11图4:按技术类型统计的物联网连接数(不包括中国)9TELENOR IoT|物联网连接技术|1012 来源:Analysys Mason部署SA核心网较为复杂且资金投入大,因此这一过程将循序渐进。基于运营商的投资计划和频谱持有情况,我们预计:到2030年,在西欧、北美和东亚的高收入市场上将完成SA网络建设,为RedCap服务落地铺平道路;到2030年,印度和东南亚可能仅实现有限的RedCap覆盖,而5G SA部署进程较慢的市场,特别是非洲和中东的部分地区,可能要在2032年之后才会提供商用RedCap服务;到2035年,主要经济体和大多数新兴市场可能会至少提供部分RedCap服务,但具体覆盖水平将因运营商而异。数据漫游是全球物联网项目的另一个关键因素。大多数早期的SA部署缺乏运营商间漫游协议,因此RedCap设备在其归属网络之外可能会面临服务中断的风险。在SA漫游协议就绪之前,企业应根据各地区的RedCap可用性制定自身部署计划。例如:自2025年起,先进的资产追踪或远程视频监控等高价值应用可在北美和中国率先使用RedCap技术;在RedCap部署进展缓慢的地区,或需要国际漫游的情况下,Cat-1至Cat-4或LTE-M可能在2030年之前仍是最可靠的选择。图5:2025年5G NSA和SA部署情况及RedCap可用性12持续关注运营商的SA核心网升级路线图非常重要,从而确保您的物联网战略与实际的RedCap可用性相契合,并且在条件成熟时能立即采用新兴5G功能。已推出商用5G RedCap服务的市场区域已完成或正在进行5G SA部署的市场区域已推出5G但尚未部署5G SA的市场区域尚未推出任何5G服务的市场区域TELENOR IoT|物联网连接技术|1113来源:Analysys Mason4.4非地面网络技术在物联网中的应用基于卫星的物联网(非地面网络)突破了传统地面基站的限制,利用低轨(LEO)和地球同步轨道(GEO)卫星扩大了覆盖范围。过去,移动卫星服务提供商使用专用频谱和专业无线电设备,这些设备的成本过高且能耗过大,难以作为通用的物联网设备。随着3GPP Release 17和18的发布,得益于成熟、低成本、低功耗的NB-loT芯片组生态系统,实现了在使用MSS频谱的非地面网络上部署NB-loT应用。例如:Skylo已在北美和欧洲提供紧急短信和窄带遥测服务;Sateliot计划在2025年底前通过四颗低轨卫星提供商用NB-loT服务;铱星公司“星尘计划”的目标是到2026年为其低轨卫星星座增加NB-loT支持。与此同时,卫星直连蜂窝运营商(如AST SpaceMobile、Lynk、Starlink)正与移动运营商合作,提供基于标准2G/4G频段的直连设备通信服务。理论上,未经改装的2G/4G设备可以连接至卫星“基站”。而在实践中,需要对设备进行一些调整:Lynk的2G回落功能尚未进行大规模验证,AST SpaceMobile仍在完善其星载LTE无线电系统。由于监管和集成障碍较小,同时伴随着新卫星和网关陆续上线,基于移动卫星服务的物联网覆盖将在2025至2030年间稳步扩展。卫星直连蜂窝服务落地取决于与移动运营商的频谱共享协议、监管审批和设备认证。此类服务可能将首先在北美和东亚地区推出。西欧、拉丁美洲、非洲部分地区和东南亚等更大范围的部署可能将在2028至2030年间实施。到2035年,大多数主要经济体的企业有望至少接入一家服务提供商的商用非地面网络13。企业需考虑的关键因素:将非地面网络视为地面网络的补充,用于在偏远地区或紧急情况下的覆盖扩展或自动故障切换 选择同时支持地面和卫星连接的物联网设备 验证与卫星通讯运营商签订的漫游和服务等级协议 编制更高的设备和通信服务预算随着卫星星座规模扩大、认证流程简化以及定价更具竞争力,非地面网络生态系统日趋成熟,服务成本将降低,集成更加简便。卫星物联网将成为关键应用场景实现真正全球不间断连接的实用之选。14来源:Analysys Mason,Telenor IoTTELENOR IoT|物联网连接技术|12不同的物联网应用场景对连接技术的要求不尽相同。下表展示了适合各场景的蜂窝物联网技术。智能计量和环境感知场景要求设备能够依靠单块电池运行多年,同时能从室内深处或偏远地点可靠地传输少量数据。在NB-IoT可用的地区,其超窄带设计可实现极低的功耗和更强的信号穿透能力。在NB-IoT覆盖有限或漫游情况复杂的地区,LTE-M可作为有效的替代方案,以稍高的功耗换取更广泛的可用性和更简单的全球部署。在某些情况下,企业还可将LTE Cat-1作为备用选项,因为其成熟的漫游基础设施可在LPWA网络不可用时,确保服务不中断。资产追踪解决方案既需要广泛的地理覆盖范围,又需要适中的吞吐量,以处理位置更新、传感器读数和偶尔的控制指令。虽然NB-IoT支持城市地区静止或低移动性的追踪设备,但其较高的时延和有限的上行能力使表6:适用于不同使用场景的物联网连接技术14智能计量资产追踪工业自动化联网车辆视频监控智慧农业可穿戴设备应急响应应用场景卫星(非地面网络)5.不同蜂窝物联网技术的典型应用场景TELENOR IoT|物联网连接技术|13没有哪一种技术能适配所有场景。根据每个应用场景的功耗和覆盖要求、吞吐量需求以及时延限制,确定NB-IoT、LTE-M、Cat-1、Cat-4/4 、5G RedCap及卫星(非地面网络)等技术的恰当组合,企业当下即可部署稳定可靠的物联网解决方案,又能在未来无缝衔接技术创新,实现平滑演进。其不太适合实时移动追踪。LTE-M或LTE Cat-1则提供了更均衡的性能,具备更高的数据速率、更低的时延以及跨蜂窝网络的无缝切换能力,成为目前资产追踪解决方案普遍采用的技术。随着运营商部署5G SA核心网,5G RedCap将成为另一个可行之选,为新一代追踪设备提供中等带宽和更低时延。在偏远地区或海上航线,非地面网络可作为补充,确保高价值资产即使在地面基站信号覆盖范围之外也保持可见。工业自动化对网络时延、抖动(数据包传输时间的波动)和可靠性等参数要求苛刻。LTE Cat-4/4 和5G NSA具备高吞吐量和低时延的特性,适用于工厂车间和生产线的实时控制。随着5G SA网络逐渐成熟,在技术上进一步降低时延,并支持网络切片和边缘计算等高级功能,将显著提升网络性能,满足对可靠性要求极高的应用场景的需求。联网车辆的连接方案呈现多元化需求。基础的车载信息服务,如车辆健康监测、地理围栏和OTA更新,采用LTE-M或Cat-1即可实现。而要求高带宽、低时延的应用场景,如高清地图下载、高级驾驶辅助系统(ADAS)和实时视频,则需依赖LTE Cat-4/4 、5G NSA/SA网络或5G RedCap技术。非地面网络能在地面网络覆盖中断时实现无缝故障切换,确保偏远地区或跨境场景下的持续连接。视频监控系统要求网络具备稳定的吞吐量和最小抖动的特性,以支持连续摄像流和边缘分析。LTE Cat-1可处理标准清晰度的视频流,而Cat-4/4 和5G NSA/SA网络则可轻松支持高清或多摄像头部署。随着5G RedCap部署的扩展,它将满足中等带宽需求并降低设备复杂性,实现视频监控系统在室内外环境中的灵活扩展。智慧农业应用场景需要设备电池长效运行以及在广袤农田、茂密植被和偏远农场中的广泛网络覆盖。NB-IoT和LTE-M在此方面表现优异,为土壤湿度探头、气象站和牲畜追踪器提供出色的室内穿透能力和超低功耗。在地面网络覆盖不到的区域,非地面网络可用于填补覆盖空白,确保精准农业应用场景的连续数据流。个人健康监测仪、员工安全标签等可穿戴设备要求低功耗运行且能周期性传输数据。LTE-M和Cat-1提供了广泛的漫游支持和强大的室内覆盖能力,使设备在家中、办公室和工厂等场景中都能保持连接。随着5G RedCap的部署,它将成为可穿戴设备的理想选择,这类设备既需要适度的带宽和简化的设计,同时又应保持长久续航。自然灾害或野火等场景中的应急响应需要网络在任何条件下保持不间断连接。LTE Cat-4/4 、5G NSA/SA以及5G RedCap提供了实时态势感知、视频直播和数据共享所需的高吞吐量和低时延。当地面基础设施受损或不可用时,非地面网络能在极端恶劣环境下为应急救援人员和指挥中心提供通信保障,打通应急救援“生命线”。TELENOR IoT|物联网连接技术|14大规模部署和管理物联网解决方案需要在创新与现实条件之间取得平衡。基于Telenor IoT丰富的行业经验,本文提出了一条务实的实施路径:从现有网络起步:优先采用已在目标市场部署并经过验证的技术。例如,现在采用LTE Cat-1或LTE-M技术,可确保可靠的覆盖范围,无需等待新一代技术在未来普及。按实际需求匹配技术:明确应用场景的核心需求(如深度室内穿透、低时延、高带宽或全球连续性),选择满足这些需求的最简单的技术方案。避免在5G RedCap或非地面网络等新技术尚未普及且成本效益不足的情况下贸然推进。应对2G/3G退网:核查使用2G/3G的现有设备,确认各运营商的退网时间表,并制定分阶段迁移计划。多模设备虽可简化过渡过程,但仍可能需固件更新或人工干预来重置设备。灵活满足未来需求:在可行的情况下,采用硬件与SIM管理的模块化设计,以便支持OTA配置文件更新或技术回落,从而应对意外的网络退网或区域性技术迭代。小规模着手并逐步扩展:在受控环境中试用新技术,以验证性能和集成复杂度,然后再进行大规模部署。利用实践经验来优化连接方案组合,为确保大规模运营顺利进行做充分准备。建议企业根据实际业务需求选择连接方案,重点关注现有可用技术,避免刻意求新,构建稳健、面向未来的物联网解决方案。若您有意探讨哪种技术最适合您的使用场景和实际情况,欢迎访问我们的网站或联系我们:。6.Telenor IoT的洞察与建议TELENOR IoT|物联网连接技术|15关于Telenor IoTTelenor IoT是全球知名电信运营商Telenor集团旗下的物联网业务品牌,提供物联网综合解决方案。作为全球领先的物联网解决方案提供商之一,20多年来,Telenor为各种规模的企业提供全球物联网连接服务、云服务和专业支持。Telenor IoT在约200个国家为客户管理逾2,500万台联网设备,服务于沃尔沃、斯堪尼亚、日立、Verisure Securitas Direct和富世华等全球化企业。我们在北欧经由Telenor在当地的机构提供物联网解决方案,在全球其他地区则由Telenor Connexion为需要定制产品和服务以及专业支持的大型跨国企业提供物联网解决方案。关于Analysys MasonAnalysys Mason是一家全球性的科技、媒体与电信管理咨询公司。我们提供定制化战略、交易、转型、监管及政策咨询服务,并结合备受认可的专业分析师团队的研究和洞察,支持客户实现增长目标,塑造未来格局。

    发布时间2025-08-22 15页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 未来网络发展大会:2025基于确定性网络的智能体可信数据空间白皮书(99页).pdf

    未来网络白皮书系列基于确定性网络的智能体可信数据空间第九届未来网络发展大会组委会2025年8月 版权声明版权声明 本白皮书版权属于紫金山实验室及其合作单位所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:紫金山实验室等来源:紫金山实验室等”。否则将可能违反中国有关知识产权的相关法律和法规,对此紫金山实验室有权追究侵权者的相关法律责任。编写说明编写说明 主要编写单位:主要编写单位:江苏未来网络集团有限公司、清雁科技(北京)有限公司、润泽集团河北省算力产业技术研究院、菲尼克斯电气(中国)投资有限公司、紫金山实验室、南京新一代人工智能研究院有限公司。主要编写人员:主要编写人员:叶迎春、陈刚、钱锐、华强、葛宇、邵静兴、王俊颉、张英伟、林杨、王远、张秀芳、胡华、梁恩泉、方毅然、李政隆、张萌。I 前 言(一)数字经济发展对可信数据空间的需求(一)数字经济发展对可信数据空间的需求 当前,全球已进入以数据为核心驱动力的数字经济时代。2023 年我国数字经济核心产业增加值占 GDP 比重达 10%,数据总产量达32.85 泽字节(ZB),同比增长 22.44%。然而,数据要素的价值释放仍面临严峻挑战:仅有 2.9%的数据被有效保存,企业超过一年未使用的数据占比近 40%,数据资源“沉睡化”现象突出。这一矛盾的核心在于数据要素市场化循环体系的梗阻传统数据流通模式难以平衡“安全可控”与“高效利用”的双重需求,具体表现为三大困境:1.数据流通的“信任困境”数据作为新型生产要素,其价值释放依赖跨主体、跨域的高效流通。但企业间因商业机密保护、权属界定模糊、合规风险高等顾虑,形成“不敢共享、不愿开放”的僵局。全国人大代表柳江在 2025 年全国两会中指出:“多方数据跨界融合需求明确,但大规模数据流通利用场景仍在探索”。尤其在 AI 驱动的智能体协同场景中,数据需在算法模型间高频交互,传统点对点交易模式无法满足实时性、高并发需求,亟须构建基于共识规则的可信环境。2.数据应用的“效能困境”现有数据基础设施存在“三低”短板:互通效率低:政务、金融、工业三大重点领域数据空间占比超 52.5%,但平台间因技术标准不统一难以互联互通;II 场景适配低:实体企业数字化转型进入“数据流通赋能”第三阶段,但医疗、能源等行业因数据格式异构、协议差异导致协同效率低下;价值转化率低:据调研,数据流动量每增加 10%可带动 GDP增长 0.2%,但对各行业利润的平均促进率仅 10%左右,需通过可信机制提升数据要素的乘数效应。3.数据安全的“合规困境”数据跨境流动、隐私泄漏风险加剧监管复杂性。例如,欧盟通过GAIA-X 计划构建行业数据空间核心平台,美国科技企业推出数据空间沙盒环境,均以技术主权争夺为导向。我国虽出台中华人民共和国数据安全法中华人民共和国个人信息保护法,但在执行层面仍面临两难:技术层面:隐私计算、区块链等核心技术的自主可控性不足,数据脱敏与可用性难以兼顾(如医疗数据共享需动态脱敏但可能失真);机制层面:数据权属划分、收益分配规则缺失,导致企业间协作动力不足 4.可信数据空间:破解困局的中国方案 为应对上述挑战,可信数据空间(Trusted Data Space,TDS)应运而生。其本质是以共识规则为基石、技术赋能为支撑、生态协同为目标的下一代数据基础设施,核心价值在于:构建信任基座:通过区块链存证、智能合约、数字身份认证 III 实现数据“权属清晰、用权可控、维权可溯”,降低流通信任成本;激活要素效能:依托确定性网络技术(如 SRv6 可编程路由、意图驱动网络)绑定 SLA 服务质量,确保工业质检等场景端到端时延10ms、算力可用性99.9%,支撑实时决策;驱动生态革新:分企业、行业、城市、个人、跨境五类场景推进,如长虹供应链金融平台整合应付账款数据赋能中小微企业信用增值,济南财金集团通过城市数据空间实现全流程风控。国家数据局可信数据空间发展行动计划(20242028 年)明确提出:到 2028 年建成 100 个以上可信数据空间,培育数据产业集群,激活万亿级市场潜能。这一战略部署标志着我国数据要素市场化改革从“概念验证”迈入“规模落地”新阶段,为智能体协同、产业数字化转型提供关键基础设施支撑。(二)确定性网络与智能体技术的融合价值(二)确定性网络与智能体技术的融合价值 在数字经济迈向纵深发展的关键阶段,确定性网络与智能体技术的深度融合,正成为破解数据要素流通“效能安全信任”三角难题的核心引擎。这一融合不仅重构了数据价值的释放路径,更推动了从“数据互联”到“智能协同”的范式跃迁,其价值主要体现在三大维度:1.技术协同:构建智能体实时决策的“神经中枢”智能体的核心能力在于感知环境、规划任务并自主执行,其决策 IV 效率高度依赖数据的实时性与可靠性。传统“尽力而为”网络难以满足毫秒级响应的工业控制、金融交易等场景需求,而确定性网络通过时延上限保障(端到端10ms)、微秒级抖动控制(5s)及超高可靠性(丢包率0.001%)三大核心特性,为智能体提供了可量化、可验证的底层支撑:强确定性保障:在工业质检场景中,基于 TSN(时间敏感网络)的确定性调度机制,将机械臂控制指令的端到端时延压缩至 1ms 内,使智能体响应速度提升 20 倍,误操作率趋近于零;资源动态适配:通过意图驱动网络(IDN)技术,智能体可基于任务需求(如大模型训练需高带宽、自动驾驶需低时延)自动生成网络切片策略,实现“任务资源质量”的强一致性匹配;算网一体调度:光电融合确定性网络支持 2000 公里无电中继无损传输,使分布式的“东数西算”资源池化为智能体提供“一跳入算、一键调算”的全局算力供给,算力利用率提升40%以上。2.应用赋能:激活垂直行业的“智能生产力”融合技术正从实验室走向产业核心场景,重构生产流程与商业模式:工业制造:海上油田钻井平台 PLC 控制智能体通过确定性网络绑定云化 PLC SLA,PLC 升级效率提升 20 倍,大大减少 V 现场施工作业人数,实现无人化 PLC 远程升级维护;金融科技:基于可信数据空间的跨机构风控智能体,依托 TEE(可信执行环境)与确定性切片技术,在保障原始数据“可用不可见”的前提下,实现征信查询时延15ms,欺诈识别效率提升 35%;城市治理:铁路 IP 通信网采用 K 级物理切片技术,在列车定位、调度、监控多业务融合承载中,将发车间隔缩短至 2分钟,定位精度控制在 15 米内,客运效率提升 50%;医疗健康:远程手术智能体依赖确定性网络实现 4K 影像传输与机械臂控制的同步,端到端时延5ms,为跨地域精准医疗提供技术基座。3.生态重构:奠定可信数据空间的“规则底座”融合技术通过“技术标准化 权属契约化”双路径,构建数据要素市场化流通的信任基石:SLA 驱动的可信契约:在清雁科技“可信智能体空间”中,智能体操作权限与数据使用权通过智能合约确权,并绑定确定性网络 SLA 参数(如时延、带宽、可靠性),任何违例行为自动触发链上清算与惩罚机制,实现“权责可追溯、违约可仲裁”;跨域协同的信任传递:依托 MCP(模型上下文协议),异构智能体可在统一框架下调用不同平台的数据与工具,而确定性网络为跨域交互提供时延与丢包率承诺,确保协同任务(如 VI 供应链多智能体联合排产)的确定性执行;价值闭环的经济模型:智能体通过加工数据生成新知识(如优化算法、决策模型),经算力验证后反馈至数据空间,形成“数据增值算力消耗智能体进化”的闭环生态,并通过分布式清算体系实现微服务交易的实时结算。4.迈向“确定性智能”的新范式 确定性网络与智能体技术的融合,标志着数据基础设施从“连通能力”向“数智能力”的质变:短期(20252026),聚焦工业互联网、智慧金融等高价值场景,以 SLA 绑定机制实现 95%以上的任务确定性保障;中期(20272028),构建空间互联的算力调度网,支撑智能体“一点接入、全局协同”的泛在化应用;长期(2028 ),形成与数字生产力匹配的算网生产关系,为星地协同、元宇宙等泛在场景提供“零信任 强确定”的双重保障。(三)白皮书目标与核心愿景(三)白皮书目标与核心愿景 本白皮书以确定性网络技术为核心引擎,以智能体可信数据空间为载体,旨在构建支撑国家数字竞争力与驱动产业质效跃升的战略性基础设施。其核心目标体系围绕三大维度展开:1、在支撑国家战略层面 白皮书聚焦破解“东数西算”工程中跨域算力协同的确定性瓶颈。传统广域网络因时延抖动与丢包问题,导致 2000 公里级算力传输带 VII 宽利用率不足 20%,严重制约多模态大模型训练、科学装置数据的实时处理效率。确定性网络通过微秒级抖动控制与零丢包保障,将跨域无损传输效率提升至 88%,为 FA 射电望远镜(日数据量 2000TB)、散裂中子源(日数据量 600TB)等大科学装置提供协同分析基础。同时,通过自主研发广域确定性大网操作系统(CNOS)及异厂商设备互联互通技术(如华为与新华三异构组网),推动中国主导的 DetNet、FlexE 标准成为全球广域网核心规范,奠定技术主权与标准话语权。2、在推动产业升级层面 白皮书重点赋能三大高价值场景:工业制造领域:依托确定性内网(TSN:时间敏感网络) 确定性外网技术实现机械臂控制指令端到端时延1ms,误操作率趋近于零,使汽车生产线良品率提升 15%、设备协同效率提高 20%。医疗健康领域:确定性网络支撑跨域手术机器人精准操控,端到端时延压缩至 56ms,时延抖动20s,使青岛大学附属医院远程肾脏切除手术成功率与现场操作持平,推动优质医疗资源全域共享。智慧交通领域:基于K级物理切片技术承载车路协同数据流,实现车辆定位精度 15 米、发车间隔缩至 2 分钟,综合提升路网通行效率 16%,事故率下降 25%。3、在技术架构层面,白皮书提出“三层融合”体系:资源层 VIII 整合 FlexE 硬切片(100G400GE)、5G 确定性网络(99.9999%可靠性)、TSN 微秒级整形等关键技术,打通“有线 无线”“局域 广域”的多维保障通道;控制层 构建意图驱动网络(IDN)操作系统,将业务语义(如“AI 训练需高带宽”“远程控制需低时延”)自动转化为网络切片策略,资源匹配效率提升 40%;应用层 开放智能体即服务(AaaS)接口,通过联邦学习、TEE 可信执行环境实现数据“可用不可见”,激活跨域协同价值。1 4、面向未来,白皮书规划三阶段愿景蓝图:近期(20252026):建成 10 个区域级智能体可信数据空间枢纽,在高端制造、远程医疗领域实现 95%的任务与确定性网络 SLA 绑定,拉动产业规模超千亿;中期(20272028):基于确定性网络技术,形成高速数据网互联的可信数据空间,并实现算网协同调度,高速数据网覆盖 80%核心产业集群,支撑智能体“端-边-云”全局协同,数据流通效率提升 50%;远期(2028 ):构建与数字文明匹配的算、网、智生产关系,赋能星地协同、元宇宙等泛在智能场景,最终实现“数据要素零壁垒、智能协作无时滞”的数字中国终极目标。X 目 录 前 言.I 目 录.X 一、基于确定性网络的智能体可信数据空间概述.1 1.1 概念定义.1 1.2 核心挑战.4 1.3 确定性网络的赋能作用.5 1.4 国内外趋势与实践.8 二、技术基石(一):确定性网络体系.11 2.1 概念定义.11 2.2 关键能力指标.17 2.3 标准化进展.21 三、技术基石(二):智能体可信数据空间体系.23 3.1 概念定义.23 3.2 关键能力指标.24 3.3 标准化进展.25 四、基于确定性网络的智能体可信数据空间架构设计.26 4.1 系统框架.26 4.2 核心机制.28 4.3 数网协同模型.31 五、典型应用场景与需求.34 XI 5.1 智能制造可信协同.34 5.2 能源电力数据互联.37 5.3 公共数据可信交互.41 5.4 智慧城市智能体交互.43 5.5 车联网可信生态.46 5.6 元宇宙在线教育.50 六、关键技术实现路径.52 6.1 确定性网络部署.52 6.2 算力协同部署.54 6.3 数据空间可信引擎.56 6.4 智能体协同协议.57 七、产业实践案例.59 7.1“江宁政企通 2.0”.59 7.2 菲尼克斯云化 PLC 智能体.62 7.3 杭州市“城市大脑”公共数据智能体应用项目.65 八、发展建议与展望.66 8.1 产业生态构建.66 8.2 标准体系推进.68 8.3 未来方向.69 附录 A:术语与缩略语.70 1 一、基于确定性网络的智能体可信数据空间概述一、基于确定性网络的智能体可信数据空间概述 1.1 概念定义概念定义 1.1.1 智能体可信数据空间的内涵与特征智能体可信数据空间的内涵与特征 智能体是指能够感知环境并采取行动以实现特定目标的代理体。它可以是软件、硬件或一个系统,具备自主性、适应性和交互能力。本白皮书中指的智能体是在可信数据空间中的应用。智能体可信数据空间是一个逻辑空间,它以智能体为核心,围绕智能体相关的数据、智能体本身以及智能体运行所需的算力资源进行组织和管理。其内涵包括以下几个方面:一是数据的安全存储与可信共享,确保数据在智能体之间的流通不会泄露或被篡改;二是对智能体的严格管控,防止恶意智能体进入数据空间造成破坏;三是智能体之间高效协同的机制,促进不同智能体之间无缝协作。1.1.2 智能体流通利用的核心技术、特点、特征智能体流通利用的核心技术、特点、特征 其特征主要体现在三个维度:安全维度,通过加密技术、身份认证和访问控制等手段构建全方位安全防护体系;可控维度,实现对智能体行为的精准管控以及数据流通的有序调度;协同维度,设计智能体之间的交互协议和协同工作模式,打破智能体之间的沟通壁垒。2 1.1.3 智能体可信数据空间与传统数据空间体系的差异智能体可信数据空间与传统数据空间体系的差异 与传统数据空间体系相比,智能体可信数据空间有显著差异。传统数据空间更多关注数据的存储和静态管理,而智能体可信数据空间聚焦于智能体全生命周期动态管理,涵盖智能体的创建、运行、交互和消亡等各个环节。例如在工业自动化场景中,传统数据空间只是存储生产流程数据,智能体可信数据空间则会将参与生产的智能机器人、自动化控制系统等智能体纳入管理,实时监控智能体运行状态,动态调整智能体工作参数,优化生产流程。1.1.4 基于确定性网络技术的智能体可信数据空间准确定义基于确定性网络技术的智能体可信数据空间准确定义 基于确定性网络技术的智能体可信数据空间,是一种以确定性网络为基础设施支撑,以智能体为核心流通载体,融合算网协同调度、区块链、隐私计算等技术的新型数据基础设施。它通过构建“技术规则生态”三位一体的可信体系,实现智能体全生命周期管理与跨行业、跨域协同价值释放,是数字经济时代打通“数据算力网络智能应用”的闭环的关键载体。从技术架构看,其核心特征体现为“三基融合”:以确定性网络提供端到端时延10ms、抖动5s、丢包率0.001%的基础设施能力基座,确保智能体实时交互的确定性;以区块链存证与智能合约构建信任基石,实现智能体身份认证、数据权属界定、操作行为溯源的全流程可信;以多级算力协同(如“东数西算”场景中“1-5-20”算力 3 网协同调度)支撑智能体动态算力需求,形成“数据跟着任务调度走、网络随着数据传输开”的资源适配机制。从功能目标看,基于确定性网络技术的智能体可信数据空间聚焦三大核心价值:一是破解智能体跨域协同的信任壁垒,通过数字身份统一认证、数据“可用不可见”(如联邦学习、TEE 可信执行环境)等机制,打破“数据孤岛”与“协作壁垒”;二是提升数据要素流通效能,依托确定性网络 SLA 绑定(如工业场景算力可用性99.9%)与动态切片技术,实现医疗、工业等垂直领域的高并发、低延迟数据交互;三是构建可持续生态,通过智能合约自动执行收益分配、分布式清算体系实时结算,形成“数据增值算力消耗智能体进化”的价值闭环。与传统数据空间相比,其创新性在于:将网络确定性从“尽力而为”升级为“可量化承诺”,使智能体实时决策具备技术保障;将管理对象从“静态数据”拓展至“动态智能体”,实现从数据存储向全流程协同的范式跃迁;将安全机制从“被动防护”进化为“内生可信”,通过技术手段与规则体系的深度融合,平衡数据安全与高效利用的双重需求。4 1.2 核心挑战核心挑战 1.2.1 智能体跨域流通的信任壁垒智能体跨域流通的信任壁垒 智能体跨域流通的信任壁垒主要体现在身份认证、数据可信交换和智能体行为规范等方面。在身份认证环节,不同域采用的认证技术标准各异,如生物特征识别、数字证书等,导致智能体跨域时身份难以快速准确核验。在数据可信交换上,跨域数据格式不统一、数据语义不一致,使得智能体难以准确理解来自其他域的数据,影响数据流通的可靠性。1.2.2 智能体实时交互业务的确定性需求智能体实时交互业务的确定性需求 智能体实时交互业务在时延、抖动和带宽保障层面呈现显著约束。时延方面,跨域场景下的实时响应要求端到端时延控制在毫秒级阈值内。例如工业控制智能体的指令交互,若时延超过 50ms 可能引发设备协同失误,而自动驾驶领域的紧急避障交互更需将时延压缩至10ms 以内,否则会导致决策滞后风险。抖动控制同样关键,不同域网络环境的动态波动会引发时延抖动,当抖动幅度超过平均时延的 20%时,智能体的动作协同将出现相位偏移,如远程手术机器人的操作精度会因抖动超出 0.5ms 而显著下降。带宽保障需满足双向动态适配,既要支撑高清环境数据的实时传输,又要在多智能体并发交互时保障带宽分配的确定性,避免因带宽争抢导致关键指令丢包率超过 0.1%的临界值。5 1.2.3 异构算力系统兼容性问题异构算力系统兼容性问题 智能体业务依赖底层算力,而目前各个算力中心存在算力异构的问题,主要体现在架构适配、指令集互通和资源调度协同等方面。在架构适配环节,不同算力系统采用的底层架构存在差异,如 CP 的 x86 架构与 ARM 架构、GPU 的 CUDA 架构与 OpenCL 架构,导致跨系统部署的程序难以高效运行。在指令集互通上,各类算力单元的指令集标准不统一,如专用 ASIC 芯片的定制化指令与通用处理器指令无法直接兼容,使得数据处理流程出现中断。而在资源调度层面,不同系统的调度算法和接口协议存在差异,导致多算力协同时出现资源分配冲突,影响整体计算效率。1.3 确定性网络的赋能作用确定性网络的赋能作用 1.3.1 未来网络相关算网基础情况未来网络相关算网基础情况(1)网络设施情况)网络设施情况 CENI 作为我国在通信与信息工程领域的唯一的国家重大科技基础设施,其建设将覆盖包括国内 40 个主要城市,包含 88 个主干网络节点、133 个边缘网络试验节点,以及 4 大云数据中心,目标为建设成一个先进的、开放的、灵活的、可持续发展的大规模通用试验设施,满足“十三五”和“十四五”期间国家关于下一代互联网、网络空间安全、天地一体化网络等重大科技项目的试验验证需求,获得超前于产业 510 年的创新成果。CENI 的建设对于我国未来网络领域具有 6 重大意义,从学术界角度,可提供一个大规模虚拟化网络环境,作为高校、研究院所科研人员的网络技术创新验证平台,显著增强创新成果的国际认可度;从产业界角度,可为运营商的新型网络服务部署、设备商新设备的大规模测试、互联网公司的新型网络业务提供测试平台和应用基础环境。CENI 的整体架构分为主干网、边缘网,以及云数据中心。CENI的光传输网络已建成 80 波、单波 100G 传输系统,且可以通过更换电层板卡平滑升级到 400G 系统。CENI 数通网络包括 SDN、可编程路由器、确定性三个平面,三平面的架构能够为业务提供高冗余、高可靠的保障。CENI 可以根据业务的不同需求,进行定制化的路由规划和网络优化,提供从 3 个 9 到 5 个 9 不同等级的业务可用率保障。CENI 主干网连接了全国 40 个主要城市。CENI 中的各个域的网络,都将通过网络操作系统 CNOS(China Network Operating System)进行集中式的管理,以及跨域的协同编排与调度。在此基础上,CENI 试验服务平台与管理系统将作为 CNOS 的关键应用,向试验用户提供自助式的一站式试验服务,可为 L0-L7 层的全层次、多场景的网络与网络安全的创新技术与应用,提供先进、开放、灵活、高速、可靠的试验环境。(2)基于)基于 CENI 的全国多元异构算力直连网的全国多元异构算力直连网 2023 年 7 月,未来网络集团启动基于 CENI 的全国多元异构算力直连网项目建设。按照“以网补芯”策略,该项目以 CENI 网络为大动脉,连接全国八大算力枢纽节点,形成建设技术上国际领先、安 7 全上自主可控、产业上协同创新的高速算力直连网,力图破解数据中心异构、异属、异域带来的协同难题,提供超大算力、超大带宽、低时延、低抖动、按需定制、分钟开通的个性化算网服务。同时构建算网调度中心协同东西部算力、网络调度,统筹应用、任务的跨区域分发,支撑数据、内容的高可靠流动,在全国范围内有序疏导智能应用“西训东推”、温冷数据“东数西存”,满足工业互联网、远程医疗、虚拟现实/增强现实、车联网等一线/近一线、高频/实时交互型的业务需求,加速集聚算力产业上、中、下游不同环节产业集群,为区域经济高质量发展提供新质生产力。1.3.2 提供“可信可靠、高速互联、泛在连接、高度弹性、灵活计费”提供“可信可靠、高速互联、泛在连接、高度弹性、灵活计费”的数据传输基座的数据传输基座 未来网络开发的数据传输基座以“可信可靠”为核心基石,采用加密技术与多节点备份机制,确保数据在传输全链路中不泄露、不丢失,为金融交易、医疗档案等敏感信息提供坚实安全屏障。“高速互联”是核心优势,依托全光网络架构与智能路由算法,实现跨区域数据传输延迟低至毫秒级,大文件传输效率提升 300%,满足实时交互场景需求。“泛在连接”特性打破设备与场景壁垒,支持物联网终端、云端服务器、边缘节点等多类型设备无缝接入,构建全域覆盖的数据交互网络。“高度弹性”能力可根据业务负载智能扩容,峰值时段自动提升 8 带宽资源,低谷期灵活收缩,避免资源浪费。创新的“灵活计费”模式按实际用量精准结算,提供按需付费、套餐包、阶梯定价等多元选择,大幅降低企业运营成本。1.4 国内外趋势与实践国内外趋势与实践 1.4.1 国外数据空间发展趋势国外数据空间发展趋势 在国际上,数据空间的发展已经成为数字经济发展的重要驱动力。欧美等发达国家纷纷制定战略和政策,推动数据空间的建设和发展。例如,欧盟提出了“欧洲数据空间”计划,旨在建立一个统一、安全、可信的数据共享框架,促进成员国之间的数据流通和协同。美国则通过“联邦数据战略”,加强对政府数据的管理和利用,推动数据的开放共享,以促进创新和经济增长。此外,国际组织如 G20 和 OECD 也在积极推动全球数据治理框架的构建,以应对数据跨境流动、数据隐私保护等全球性挑战。1.4.2 国外数据空间应用情况国外数据空间应用情况 国外的数据空间应用已经涵盖了多个关键领域。在医疗领域,数据空间的应用促进了电子健康记录的共享和远程医疗服务的发展,提高了医疗服务的可及性和效率。金融行业则利用数据空间增强风险管理和反欺诈能力,同时提供更加个性化的金融服务。工业制造领域通过数据空间实现供应链的优化和生产过程的智能化,提升了整体生产 9 效率和竞争力。此外,智能城市项目中,数据空间的应用使得城市管理者能够整合和分析来自不同部门的数据,实现城市资源的精细化管理和高效利用。1.4.3 国内数据空间发展趋势国内数据空间发展趋势 国内的数据空间发展同样呈现出快速发展的态势。中国政府高度重视数据作为关键生产要素的作用,出台了一系列政策和法规以推动数据要素市场的建设。例如,“东数西算”工程的启动,旨在优化数据中心的布局,提升算力资源的利用效率,促进数据的跨区域流通和协同处理。与此同时,要素市场化配置综合改革试点总体方案的发布,进一步明确了数据要素市场化配置的改革方向,为数据空间的发展提供了政策支持和制度保障。1.4.4 国内数据空间应用情况国内数据空间应用情况 在国内,数据空间的应用实践也在多个领域取得了显著进展。在政务服务领域,各地政府通过建设数据共享交换平台,实现了政务数据的整合和共享,提高了政务服务的效率和透明度。例如,“江宁政企通 2.0”平台就是通过整合政府和企业的数据资源,为企业提供一站式的政策服务和精准的政策推送。在工业领域,工业企业利用数据空间实现生产设备的远程监控和故障诊断,提升生产效率和设备利用率。此外,城市大脑项目中,数据空间的应用使得交通、环境、安防等多个领域的数据得以融合分析,为城市的智能化管理提供了有力支 10 持。同时,在金融、医疗、教育等行业,数据空间的应用也在不断拓展和深化,推动了行业的数字化转型和创新发展。11 二、技术基石(一):确定性网络体系二、技术基石(一):确定性网络体系 2.1 概念定义概念定义 2.1.1 基于基于 CENI 的确定性网络的确定性网络 确定性共享服务网络及控制平台,具备数据流通管控、数据流通枢纽、数据流通传输等功能。支持采用先进传输技术进行高速数据传输,通过传输协议优化,1Gbps-400Gbps 带宽场景下,实现 90%以上的传输带宽利用率,包含算网基础设施建设及共享服务网络建设。数据共享服务网络的业务核心是解决数据流通利用中的数据流通管控、数据流通枢纽、数据流通传输等数据高效、安全传输问题。数据共享服务网络的使用者包括数据提供方和数据需求方,如政府、企业或数商等,也包括数据交易平台、数据交易所等数据交易机构。主要构建思路如下:普适接入:实现随时随地的网络资源获取,支持多种接入方式,并提供灵活的计费模式。弹性伸缩:根据数据传输需求动态调整网络资源,实现资源的弹性使用。按需保障:允许客户灵活构建、管理和拆除虚拟专网,实现按需的网络连接和策略保障。确定传输:提供低延迟、低抖动、大带宽、高稳定性,支持端到 12 端的高通量数据传输。互联互通:利用已有的网络资源实现单服务商或跨服务商的网络接入。数据共享服务网络系统架构图如下图所示:基于未来网络数据共享服务网络基础设施等技术,通过 SRv6 分段路由、资源预留、时频同步、周期映射、门控队列调度、流量过滤和整形、路径规划、SDN 网络态势感知、SDN 智能编排等网络技术保障数据流通参与者大带宽、低时延、低抖动、高可靠等确定性能力需求指标;并通过数据共享服务网络接入层技术,结合数据流通参与者接入需求,通过一张物理网络可以为每个数据流通参与者提供个性化的确定性专网服务,满足不同数据流通参与者对网络的不同诉求。为满足不同用户业务的差异化 SLA 资源隔离、灵活定制拓扑和智能切片管理的需求,同时利用 FlexE 技术、子接口切片技术和 Slice ID 等切片技术来实现在物理网络上划分逻辑网络的功能。13 2.1.2 骨干层骨干层 骨干层作为确定性网络体系的核心脊梁,肩负着实现国家数据基础设施试点城市底座互联互通的重任。它构建起了城市间数据流通的高速通道,将各个分散的试点城市数据基础设施紧密相连。在这一层次中,采用了先进的网络技术和架构设计,以保障跨城市数据传输的高效性、稳定性与安全性。通过在骨干层部署高性能的网络设备,具备光电融合能力的核心路由器、高速率的光传输设备等,能够满足海量数据在城市间快速传输的需求。同时,运用软件定义网络(SDN)和网络功能虚拟化(NFV)等新型技术理念,实现对骨干网络资源的灵活调配与智能管控。当某两个试点城市之间的数据流量突发增长时,SDN 控制器能够根据实时的网络状态信息,动态调整网络路由,将数据流量合理地分配到其他空闲链路,确保数据传输的顺畅,避免网络拥塞的发生。此外,骨干层还通过建立安全可靠的连接机制,采用加密隧道技术对传输的数据进行加密处理,防止数据在传输过程中被窃取或篡改,为国家数据基础设施试点城市底座互联互通提供坚实的安全保障。基于 CENI 及其全国多元异构算力直连网,新建跨域确定性骨干网,并基于南京城市算力网现有资源,构建城市内(城域)确定性骨干网。其中,跨域部分,构建 1G-100G 弹性带宽的高速数据网络切片方式与国家数据基础设施试点城市如北京、苏州、杭州、温州、天津、福州、赣州广域高速互联骨干网;城域部分,主要利用南京城市算力 14 网现有资源,以 1*100G 方式在现有 8 个确定性网络接入 POP 点(未来网络 CENI 大厦、麒麟中国科学院、晨光科技园、鼓楼、江北新区、江宁格力基地、烽火祥云、六合化工园)基础上将市内各数据基础设施、数据参与主体就近接入,形成高速互联互通的骨干网。2.1.3 接入网接入网 接入网是确定性网络体系深入到试点城市内部的神经末梢,负责实现试点城市内各个数据基础设施、连接器之间的互联。它如同城市 15 交通中的毛细血管,将城市内的各种数据节点紧密编织在一起,形成一个有机的数据流通网络。接入网的建设需要充分考虑不同数据基础设施和连接器的接入需求与特点,采用多样化的接入技术。对于一些对网络带宽和实时性要求极高的数据中心等基础设施,可采用光纤直连的方式,提供万兆甚至更高带宽的接入能力,保障数据的高速稳定传输。而对于分布较为分散、数据流量相对较小的连接器等设备,可利用 Internet 或者专线方式接入基于 CENI 的确定性数据共享服务网络,完成数据流通利用的数据流量传输需求。南京市接入网络骨干层面构建 10Gbps 硬隔离的专网平面,满足南京市本地的数据流通利用用户的网络传输需求,并根据数据流通利用基础设施用户行业开设 N 个软隔离的网络切片,共享 10Gbps 的网络传输资源。基于用户的接入连接器物理形态和部署方案,接入网方案可以分类为:16 1、软件形式 SAAS 云化部署:接入连接器统一部署在“政务云”中,各企事业单位通过 Internet 或者“云”专线的方式与接入连接器实现互通。数据交易双方的接入连接器通过“基于 CENI 的确定性数据共享服务网络”实现数据的流通和交易。2、硬件形式 属地化部署:接入连接器统一部署在企事业本地,通过部署“SD-WAN 确定性网关”设备,采用 Internet 或者专线形式实现与“基于 CENI 的确定性数据共享服务网络”互联互通,最终实现数据交易双方的数据流通和交易。3、数据交易的参与方采用不同的部署方式:一方采用 SaaS 云化部署,另一方采用属地化部署。为了实现双方的互联互通和数据流通,云化部署用户通过 Internet 或“云”专线接入“政务云”,并利用“基于 CENI 的确定性数据共享服务网络”实现数据交易双方的高效数据流通和交易。2.1.4 算力网算力网 算力网在确定性网络体系中扮演着连接各城市算力中心与数据基础设施、连接器的重要角色,是实现算力与数据高效协同的关键纽带。在当今数字化时代,数据处理与计算需求日益增长,算力网能够将城市中的算力资源进行整合与优化配置,使其与数据的产生、存储和流通环节紧密结合。依托试点城市算力网平台,实现对异构、异属、异域城市算力的统筹纳管。基于CENI确定性网络能力,可为千行百业打造安全可信、17 灵活可控、质量确定、高性价比的传输网络,支撑数据汇聚和数据流通。通过算力网,数据基础设施和连接器产生的数据可以快速传输到相应的算力中心进行处理,而算力中心处理后的结果也能及时反馈回数据基础设施和连接器,实现数据与算力的无缝对接。例如,在人工智能模型训练场景中,数据基础设施收集到的大量训练数据通过算力网迅速传输到算力中心,利用算力中心强大的计算能力进行模型训练,训练完成后的模型参数又通过算力网传回到数据基础设施,为后续的应用提供支持。同时,引入了算力感知的路由算法,能够根据各算力中心的负载情况和网络状态,智能地选择最优的路径传输数据,提高算力资源的利用效率,保障数据处理任务的高效执行。2.2 关键能力指标关键能力指标 2.2.1 时延分级模型(时延分级模型(Level-1 至至 Level-5)时延分级模型将网络时延划分为五个级别,从Level-1 到 Level-5,时延要求逐渐降低,以满足不同快速响应场景的需求。Level-1:这是对时延要求最为苛刻的级别,主要应用于如远程手术、工业自动化中的高精度实时控制等场景。在远程手术中,医生的操作指令需要实时、准确地传输到手术器械端,任何微小的时延都可能导致手术操作的偏差,危及患者生命安全。因此,Level-1 要求网络时延能够控制在亚毫秒级,确保指令的瞬间传递,实现手术操作的精准同步。18 Level-2:适用于自动驾驶等场景。在自动驾驶过程中,车辆需要实时感知周围环境信息,如其他车辆的位置、速度等,并迅速做出决策。网络时延如果过大,车辆可能无法及时响应突发情况,引发交通事故。所以,Level-2 要求时延在 1-5 毫秒之间,保障车辆对环境变化的快速响应,确保行驶安全。Level-3:常见于高清视频实时互动、云游戏等场景。在高清视频实时互动中,如远程视频会议、在线教育直播等,参与者希望看到的画面和听到的声音能够实时同步,没有明显的延迟,以保证沟通的顺畅性和体验的沉浸感。云游戏则需要将玩家的操作指令快速传输到云端服务器,同时将服务器处理后的游戏画面及时反馈给玩家,Level-3 的时延控制在5-10毫秒,基本能够满足这类场景对实时性的要求。Level-4:对于一些对实时性有一定要求,但相对宽容的场景,如智能家居设备的远程控制等适用。用户通过手机APP控制家中的智能灯光、窗帘等设备时,虽然希望设备能够快速响应,但短时间的延迟并不会对使用体验造成严重影响。Level-4 的时延范围在 10-20 毫秒,能够较好地平衡网络成本与用户体验。Level-5:适用于一般性的数据查询、文件下载等对实时性要求较低的场景。在这些场景中,用户可以接受一定程度的等待时间,Level-5 的时延在 20 毫秒以上,能够在保证基本服务质量的前提下,更高效地利用网络资源。19 2.2.2 抖动控制边界(抖动控制边界(s 级精度)级精度)在工业控制场景中,抖动控制边界达到s级精度至关重要。工业控制系统通常需要对生产过程进行精确控制,如在汽车制造的自动化生产线上,机械臂的运动轨迹需要严格按照预设程序执行,任何微小的抖动都可能导致产品质量问题。确定性网络通过一系列技术手段实现s级精度的抖动控制。一方面,在网络设备的硬件设计上,采用高性能的时钟同步芯片,确保各个网络节点的时钟精度达到纳秒级,减少因时钟不同步导致的抖动。例如,利用精确时间协议(PTP),通过网络传输精确的时间信息,使网络中的所有设备能够同步到同一时间基准,从而保证数据传输的定时准确性。另一方面,在网络流量调度方面,采用先进的队列管理算法和流量整形技术。当网络中存在多种不同类型的流量时,通过对不同流量进行分类,并为每种流量分配专门的队列和带宽资源,严格按照预定的速率和时间间隔发送数据,避免因流量突发或争抢资源导致的抖动。例如,对于工业控制中的关键指令数据,给予最高优先级,确保其在传输过程中不会受到其他非关键流量的干扰,从而将抖动控制在极小的范围内,满足工业控制场景对高精度、稳定网络传输的要求。2.2.3 安全隔离度(硬切片安全隔离度(硬切片/软隔离)软隔离)在可信场景中,安全隔离度通过硬切片和软隔离两种方式来保障 20 数据的安全与可信。硬切片:硬切片是一种基于物理资源划分的隔离方式,如同在一条高速公路上划分出不同的专用车道。在网络中,通过专门的硬件设备和网络拓扑设计,为不同的业务或用户组分配独立的网络资源,包括独立的链路、网络设备端口、IP地址段等。例如,在金融领域,银行的核心业务系统与其他一般性业务系统之间采用硬切片技术进行隔离。核心业务系统涉及大量敏感的客户金融信息和资金交易数据,通过独立的物理网络链路和设备进行数据传输与处理,与其他业务系统完全隔离,确保核心业务数据的安全性和完整性,防止外部非法网络访问和恶意攻击对核心业务造成影响。软隔离:软隔离则是基于软件技术实现的逻辑隔离方式。利用虚拟网络技术、访问控制列表(ACL)等手段,在共享的网络基础设施上为不同的业务或用户创建虚拟的隔离空间。以企业内部网络为例,企业的研发部门和销售部门可能使用同一套网络设备,但通过虚拟局域网(VLAN)技术将两个部门划分到不同的虚拟网络中,不同VLAN之间的通信受到严格的访问控制策略限制。只有经过授权的特定数据流量才能在不同VLAN之间进行传输,从而实现部门之间数据的软隔离,既保障了不同部门数据的安全性,又能在一定程度上实现资源共享,提高网络资源的利用效率。在一些对安全性和灵活性要求较高的可信数据共享场景中,软隔离与硬切片技术也可以结合使用,进一步提升安全隔离度,为数据的可信流通提供全方位的保障。21 2.3 标准化进展标准化进展 在确定性网络领域,IEEE和ITU-T等国际标准化组织积极推动相关标准化工作,取得了一系列重要进展。同时,未来网络与紫金山实验室在其中发挥了关键作用。IEEE方面:IEEE在时间敏感网络(TSN)、确定性WiFi(DetWiFi)等技术标准制定上成果显著。未来网络试验设施(CENI)依托紫金山实验室的科研力量,为IEEE相关标准的实践验证提供了重要平台。TSN作为解决二层网络确定性保障问题的关键技术,IEEE制定了一系列相关标准。例如,IEEE 802.1ASrev精确时间同步协议,通过在CENI网络中的部署测试,确保网络中所有设备实现高精度的时间同步,为数据的确定性传输提供时间基准,其在实际网络环境中的运行效果反馈,助力IEEE对该标准不断优化完善。在IEEE 802.1Qbv标准定义的门控流量调度机制方面,紫金山实验室联合相关科研团队,基于CENI 网络进行了大量实验,验证了该机制通过精确控制数据帧的发送时机,避免网络拥塞,实现零拥塞丢包传输的有效性,为该标准在实际应用中的推广提供了有力支撑。对于DetWiFi,IEEE正在制定相关标准以实现无线局域网中的确定性传输。紫金山实验室凭借在无线通信领域的深厚研究积累,参与到DetWiFi标准制定的研讨中,其提出的通过时钟同步、流量调度、帧抢占等技术手段保障WiFi网络在工业互联网、智能办公等场景下确定性服务质量的方案,被纳入IEEE相关标准制定的参考范畴,目前相关标准在不断完善与推进阶段,CENI网络也将持 22 续为其提供试验环境,加速标准的落地应用。ITU-T方面:ITU-T在确定性网络标准制定上也发挥着重要作用。紫金山实验室积极参与ITU-T的标准化工作,与全球科研机构和企业协同合作。例如,由北京科技大学牵头,联合中国联通集团、之江实验室等多方共同制定的ITU-T国际标准Y.3126“IMT2020 及演进系统中支持局域确定性通信的互操作能力和服务质量要求及框架”,紫金山实验室在其中贡献了自身在网络架构、性能优化等方面的研究成果,推动该标准针对异构网络间协同支持确定性通信服务,明确相关的服务质量要求及框架,为工业互联网领域的网络技术发展提供重要规范,助力确定性网络在工业场景中的应用。此外,ITU-T持续开展面向未来网络的确定性网络技术标准研究,涵盖网络架构、性能指标、安全机制等多个方面。紫金山实验室凭借在未来网络技术研究上的前瞻性,参与到多项ITU-T标准研究项目中,如在网络架构标准研究中,其提出的新型网络架构理念,强调融合光网络与IP网络优势,实现高效的数据传输与资源调度,为构建全面、系统的确定性网络国际标准体系提供新思路,促进全球范围内确定性网络技术的统一与互联互通。随着这些标准化工作的不断推进,确定性网络技术将在全球范围内得到更广泛的应用与推广,为智能体可信数据空间等新兴应用提供坚实的标准支撑。23 三、技术基石(二):智能体可信数据空间体系三、技术基石(二):智能体可信数据空间体系 3.1 概念定义概念定义 智能体可信数据空间技术是支撑基于确定性网络技术的智能体可信数据空间实现其核心功能与价值的一系列技术集合,是构建该数据空间的底层技术框架与支撑体系。它以确定性网络技术为核心骨架,深度融合区块链、隐私计算、算网协同调度等多元技术,通过技术间的协同联动,为智能体在数据空间内的交互、数据的流通以及跨域协同提供全方位的技术保障。从技术构成来看,该技术体系涵盖网络传输、信任构建、算力支撑、数据安全等多个维度。其中,确定性网络技术作为底层支撑,为智能体及数据的实时、稳定传输奠定基础;区块链技术通过分布式账本和智能合约,保障数据的不可篡改性和操作的可追溯性,构建起数据空间内的信任机制;隐私计算技术如联邦学习、TEE可信执行环境等,确保数据在“可用不可见”的前提下进行流通与共享,保护数据隐私;算网协同调度技术则实现算力与网络的协同分配,满足智能体在不同场景下的动态算力与网络需求。这些技术相互作用、相互补充,共同构成了智能体可信数据空间高效、安全、可信运行的技术基石。24 3.2 关键能力指标关键能力指标 智能体可信数据空间技术的关键能力指标是衡量其技术性能与应用效果的重要标准,主要包括以下几个方面:网络传输能力:端到端时延需10ms,以保障智能体实时交互的及时性;抖动5s,确保网络传输的稳定性;丢包率0.001%,减少数据传输过程中的丢失,保证数据的完整性。同时,具备动态切片技术,能够根据智能体和数据的不同需求,灵活分配网络资源,适应高并发的数据交互场景。信任保障能力:基于区块链技术,实现智能体身份认证的准确率达到 100%,确保接入数据空间的智能体身份真实可靠;数据权属界定的准确率99.9%,明确数据的归属,避免权属纠纷;操作行为溯源的完整性达到 100%,任何对数据的操作都能被完整记录和追溯,为责任认定提供依据。隐私保护能力:采用隐私计算技术时,数据处理的准确率99%,在保护数据隐私的同时,不影响数据的有效利用;数据泄漏风险趋近于 0,通过严格的技术手段,防止数据在流通和共享过程中被非法获取和泄露。算网协同调度能力:算力资源的分配响应时间1s,快速满足智能体的动态算力需求;算力可用性在工业等关键场景下99.9%,保障智能体持续稳定运行;算力利用率80%,提高算力资源的使用效率,降低成本。25 3.3 标准化进展标准化进展 智能体可信数据空间技术的标准化工作对于推动其规范化发展和广泛应用具有重要意义,目前在多个领域和组织的推动下取得了一定进展:网络传输方面:在确定性网络技术领域,相关国际标准化组织如IEEE正在推进TSN(时间敏感网络)系列标准的完善,针对网络传输的时延、抖动、丢包率等关键指标制定了明确的规范,为智能体可信数据空间的网络传输提供了相关的技术标准参考。同时,IETF在 SRv6(分段路由IPv6)技术标准化方面也持续发力,致力于提升广域网网络的可编程性和灵活性,以适应智能体可信数据空间动态网络资源分配的需求。信任与安全方面:区块链技术的标准化工作较为活跃,多个国际标准化组织和行业联盟如ISO、ITU-T以及Hyperledger等都在积极制定区块链相关标准,涉及分布式账本架构、智能合约规范、安全防护要求等内容,为智能体可信数据空间中信任机制的构建提供了标准依据。隐私计算领域,也有不少行业组织和研究机构在推动联邦学习、TEE等技术的标准化,明确技术应用的接口、流程和安全要求,促进隐私计算技术在数据空间中的合规应用。跨域协同方面:针对智能体可信数据空间的跨域协同需求,一些行业联盟和标准化组织正在开展数据空间互联互通标准的研究与制定。例如,在工业领域,相关组织致力于制定统一的数据格式、接口 26 协议和交互规范,以实现不同企业和部门的智能体可信数据空间之间的顺畅协同。同时,在数据权属、收益分配等方面的标准也在探讨中,为数据空间的可持续生态构建提供标准支撑。然而,由于智能体可信数据空间技术涉及多个学科和领域,技术复杂且应用场景多样,目前标准化工作仍面临一些挑战,如不同技术领域之间的标准协调难度较大、新兴技术的快速发展使得标准制定难以跟上技术迭代速度等。未来,需要进一步加强跨组织、跨领域的合作与交流,加快标准的制定与更新,推动智能体可信数据空间技术的标准化体系不断完善。四、基于确定性网络的智能体可信数据空间架构设计四、基于确定性网络的智能体可信数据空间架构设计 4.1 系统框架系统框架 基于确定性网络的智能体可信数据空间旨在构建一个安全、可信、高效的数据交互与智能体服务环境,实现私域数据的安全利用和智能 27 体之间的协同服务,促进通用领域大模型、私域大模型等数据资源的高效流转与应用,满足不同用户对于数据处理和智能服务的需求。4.1.1 数据层数据层 数据层负责智能体相关数据的存储与区块链存证。一方面,采用分布式存储技术,将智能体数据分散存储在多个节点上,确保数据的高可用性和容灾能力;另一方面,利用区块链技术对数据的产生、流转、使用等过程进行存证,保证数据的不可篡改和可追溯性。4.1.2 控制层控制层 控制层涵盖可信数据空间相关的策略引擎、智能合约等层次。策略引擎根据预设规则对智能体行为、数据访问等进行动态管控,例如,基于智能体身份和数据敏感度制定差异化访问权限策略;智能合约则实现智能体之间约定事项的自动执行,当智能体达成数据交易或协同任务共识时,智能合约自动触发相应操作,提升智能体协作效率。4.1.3 算力层算力层 算力层为智能体运行提供所需的算力资源。依据智能体类型和任务负载,在云端、边缘端合理配置算力资源。对于需要处理海量数据和复杂计算的智能体,如人工智能训练智能体,分配强大云端算力资源;对于实时性要求高、靠近数据源的智能体,如物联网边缘智能体,就近提供边缘算力支持。28 4.1.4 网络层网络层 网络层实现确定性控制、传输管道功能。引入确定性网络技术,确保智能体数据传输具备低时延、低抖动、高带宽等特性,满足智能体实时交互业务需求。例如,在工业自动化生产线场景中,网络层为控制智能体与执行智能体之间的数据传输打造确定性传输管道,保障生产指令的精准下达和执行反馈的及时上传。4.2 核心机制核心机制 4.2.1 智能体智能体可信认证可信认证:智能体可信认证基于数字身份的访问控制,为每个智能体创建唯一数字身份,该身份包含智能体基本信息、权限属性等内容,并采用加密技术对数字身份进行保护。当智能体请求访问数据或与其他智能体协同工作时,通过对数字身份的认证来判定其访问合法性。4.2.2 智能体智能体数据确权数据确权:智能体相关数据的权属标识与溯源追踪:智能体相关数据的权属标识与溯源追踪 智能体数据确权是对智能体相关数据的权属标识与溯源追踪。明确数据的归属主体,是数据拥有者还是数据生成者等,并记录数据的生成、流转、使用等全生命周期信息,以便在数据纠纷或安全事件发生时能够快速溯源。29 4.2.3 智能体确权:智能体本身的权属标识与溯源追踪智能体确权:智能体本身的权属标识与溯源追踪 智能体确权聚焦于智能体本身的权属标识与溯源追踪,确定智能体的开发者、所有者以及运营者等权属关系,并对智能体的开发、部署、运行等环节进行溯源,确保智能体的合法性和可控性。4.2.4 算网协同:数据、智能体确权后,算网资源的协同算网协同:数据、智能体确权后,算网资源的协同 智能体可信数据空间中的算网协同是指在数据权属与智能体操作权限双重确权(基于区块链存证与智能合约实现权属清晰化、操作可控化及维权可溯化)的基础上,通过计算资源(云/边/端异构算力)与网络资源(5G/6G、SRv6 可编程路由)的深度融合调度机制,以任务需求(如 AI 训练、实时决策)为驱动核心,依托算网大脑(集成DRL 强化学习引擎)动态适配最优算力节点与网络路径(实现“算随需动、网随算变”),并融合意图驱动网络(IDN)将业务语义转化为资源策略(如工业质检任务毫秒级响应需优先调度边缘 GPU 算力与低延时切片),同时在安全维度采用隐私计算(联邦学习/TEE)、数据沙箱保障原始数据“可用不可见”,通过网络切片与服务功能链(SFC)实现高敏感任务资源隔离与 SLA 合规性,最终构建“计算网络数据智能体”四维一体的可信环境,形成数据增值算力消耗智能体进化价值反馈(经分布式清算体系实时结算)的闭环生态,以技术重构信任机制,在确权与安全双约束下最大化资源效能,实现“数据流动不失控、智能协作不失序”的数字生态愿景。30 4.2.5 QoS 保障保障:可信认知、确权过程中确定性网络:可信认知、确权过程中确定性网络 SLA 绑定绑定 在智能体可信数据空间内,QoS(服务质量)保障是指通过确定性网络 SLA(服务水平协议)绑定机制,在数据与智能体完成可信认知(基于区块链存证与智能合约实现身份认证与行为审计)及双重确权(数据持有权与使用权分离)的前提下,将网络性能指标(如时延、带宽、可靠性)与算力调度策略(如边缘节点响应速度、GPU 算力分配)转化为可量化、可监测、可仲裁的 SLA 合约条款,并依托意图驱动网络(IDN)动态生成网络切片策略与服务功能链(SFC),实现“任务资源质量”的强一致性匹配:具体而言,在智能体执行协同任务(如联邦学习、实时决策)过程中,SLA 条款明确约束数据传输路径的端到端时延上限(如工业质检任务需10ms)、算力节点可用性(如99.9%)、数据流安全隔离等级(如金融风控场景需独占切片)等关键参数,并通过动态信任评估模型实时交叉验证云端与客户端监测数据(如时延抖动、丢包率),结合隐私计算(TEE/联邦学习)保障原始数据“可用不可见”的同时,对 SLA 违例事件(如算力超时、带宽不足)触发自动清算与惩罚机制(如智能合约扣减信用积分或执行经济赔偿),最终形成“确权驱动 SLA 生成、SLA 绑定资源调度、动态验证闭环反馈”的 QoS 保障体系,确保智能体协作任务在安全可信、性能可预期、权责可追溯的框架内高效执行。31 4.3 数网数网协同模型协同模型 4.3.1 云边端三级算力调度云边端三级算力调度 云边端三级算力调度方案通过构建云端统筹、边缘协同、终端执行的一体化算力网络,实现算力资源的精准匹配与高效利用,为智能体应用提供弹性可靠的算力支撑。该方式打破传统算力孤岛格局,让算力像水电一样随需调配,满足不同场景的算力需求。云端作为全局算力调度中心,负责全域算力资源的监控、分析与决策。边缘节点分布在园区、厂房、学校等靠近终端的位置,形成分布式算力集群,承担本地化数据处理与实时响应任务。终端设备布置在智能体应用现场,如政务大厅等,形成层次分明的算力梯队。核心功能方面,方案具备智能感知、动态调度、协同计算三大能力。智能感知系统通过实时监测各节点的算力负载、网络带宽、能耗状态等关键指标,精准识别算力供需缺口。动态调度机制基于 AI 预测模型,在毫秒级时间内完成算力资源的最优分配,当边缘节点负载过高时自动向云端或邻近节点请求算力支援,终端设备则根据任务复杂度自适应调用本地或边缘算力。通过优化的粒子群优化算法,实现全局算力分配的最优解,调度延迟控制在 50 毫秒以内。边缘计算框架支持容器化部署与微服务架构,可快速部署 AI 推理、数据过滤等本地化服务。云边协同协议采用轻量化设计,在任何网络环境下都能保持 99.9%的通信可靠性。32 4.3.2 高速数据高速数据网络网络 高速数据网络指面向数据流通利用场景,依托网络虚拟化、软件定义网络等技术,提供弹性带宽、安全可靠、传输高效的数据传输服务,具有高带宽、低延迟、高可靠性、高安全性、可扩展性、灵活性等特点。高速数据网管理系统可集中配置私网地址映射规则,将可信数据空间中的连接器公网暴露 IP 转为内网私有地址。通过动态 NAT 技术,所有对外通信经网关公网接口中转,隐藏后端连接器真实 IP,规避公网扫描风险。同时系统支持一键部署地址转换策略,简化配置流程,在保障安全隔离的同时,确保数据流通链路的稳定性。4.3.3 数算网协同数算网协同 数算网协同以算力精准调度为核心、高速数据传输为纽带,构建“算力驱动网络支撑安全保障”的一体化运行体系,实现算力资 33 源与数据流通的动态适配。算力网的三级调度架构依赖高速数据网络提供底层支撑。云边端三级算力节点的实时感知数据,需通过高速数据网络的高带宽通道传输至云端调度中心,使云端能基于全域算力负载、能耗状态等动态指标制定分配策略。云端的算力调度平台,需依托高速数据网络的低延迟特性,确保边缘节点负载过高时,算力支援请求与资源调配指令能即时传递,保障协同计算的时效性。高速数据网络的安全机制为算力交互筑牢屏障。其动态 NAT 技术与私网地址映射规则,将边缘节点、终端设备的真实 IP 隐藏,通过网关中转实现算力节点间的匿名通信,规避公网扫描风险。这与算力网中跨节点数据交互需求深度适配,既保障云端对边缘、终端算力的远程调度安全,又确保本地化数据处理时的隐私隔离。两者通过协议与技术协同提升整体效能。算力网的云边协同协议与高速数据网络的弹性带宽特性形成互补,在算力密集型任务执行时,网络自动扩容带宽,满足 AI 推理、数据过滤等服务的高频数据传输需求;而高速数据网络的一键部署策略,简化了算力节点接入流程,使边缘集群能快速融入全局算力网络。这种“算力调度数据传输安全防护”的闭环协同,最终实现算力像水电般随需调配,为智能体应用提供全场景数算支撑。34 五、典型应用场景与需求五、典型应用场景与需求 5.1 智能制造智能制造可信协同可信协同 5.1.1 痛点需求痛点需求 在当前全球工业发展的背景下,智能制造逐渐成为推动工业转型升级的重要动力。随着新一轮科技革命和产业变革的深入推进,智能制造不仅体现在机械设备的智能化、信息化,更在于整体产业链与供应链的深度融合和协同。但是,传统制造业在数据治理、数据共享和数据利用方面仍然面临诸多挑战,严重制约了智能制造的全面实施。首先,数据安全与商业机密保护挑战大。智能制造过程中,企业的生产工艺参数、设备运行数据、客户订单信息、供应链数据等均属于核心商业机密。这些数据在企业内部各部门流转以及与上下游合作伙伴交互时,存在被窃取、泄露的风险。同时,随着工业互联网的发展,大量设备接入网络,网络攻击手段愈发复杂,传统的安全防护措施难以抵御针对智能制造系统的高级别攻击,数据安全面临严峻挑战。其次,产业链数据孤岛制约协同效率。智能制造产业链涵盖原材料供应商、零部件生产商、整机制造商、分销商、服务商等多个环节。各环节企业的数据系统独立运行,数据格式、标准不统一,导致数据难以实现跨企业、跨环节的流通与共享。产业链数据孤岛使得整个产业链的协同效率低下,无法快速响应市场需求变化。35 再次,数据权属与利益分配机制不明。智能制造数据的产生涉及设备制造商、生产企业、操作人员、软件服务商等多个主体,数据的权属界定十分复杂。例如,智能生产设备在运行过程中产生的设备状态数据,是属于设备制造商、使用企业还是两者共有,目前缺乏明确的界定标准。数据权属不清导致在数据共享和应用过程中,各方的利益难以得到有效保障,容易引发纠纷。此外,数据应用产生的收益如何在各参与主体之间进行合理分配,也缺乏相应的机制,影响了企业参与数据共享的积极性。最后,数据质量与一致性难以保证。智能制造数据来源广泛,包括生产设备、传感器、ERP 系统、MES 系统等,数据类型多样,有结构化数据、非结构化数据等。由于不同设备的精度、传感器的灵敏度存在差异,以及数据采集过程中的环境干扰等因素,导致数据质量参差不齐,存在数据不准确、不完整、不一致等问题。例如,在产品质量检测环节,不同检测设备对同一产品的检测数据可能存在偏差,影响对产品质量的准确判断。低质量的数据无法为智能制造的决策优化提供可靠依据,制约了智能制造水平的提升。5.1.2 解决方案解决方案 为了提升制造业的竞争力,企业需要构建开放、共享、可信的数据空间,以支持各环节之间的信息交互和协同决策,提升生产效率、降低运营成本,进而提升整体竞争力。可信数据空间强化了数据的安全性与隐私保护,保障企业核心利 36 益。可信数据空间采用加密技术、访问控制、安全审计等多种安全机制,构建全方位的数据安全防护体系。对智能制造中的敏感数据进行加密处理,确保数据在传输和存储过程中的安全性;通过严格的访问控制策略,限制未经授权的用户访问数据,防止数据泄露;利用安全审计技术,对数据的操作行为进行全程记录,以便及时发现和追溯安全事件。这些措施能够有效防范数据安全风险,保护企业的核心商业机密和数据资产,保障企业的核心利益。可信数据空间能够有效打破数据孤岛,促进各参与方之间的数据共享与交互,提升产业链协同水平。可信数据空间建立统一的数据标准和接口规范,推动产业链各环节企业的数据互联互通。通过构建数据共享平台,实现原材料供应、生产制造、物流运输、销售服务等环节数据的实时共享与协同。例如,原材料供应商可以通过可信数据空间将原材料的供应信息实时共享给制造商,制造商根据这些信息及时调整生产计划;制造商也可以将产品的生产进度和库存信息共享给分销商,分销商据此优化库存管理和销售策略。产业链数据的高效流通,能够显著提升整个产业链的协同效率和快速响应能力。可信数据空间有助于明确数据权属与利益分配,激发数据价值。可信数据空间通过建立完善的数据权属界定机制和利益分配规则,明确各主体在数据产生、使用、共享过程中的权利和义务。利用区块链等技术对数据的权属进行确认和记录,确保数据权属的清晰可追溯。同时,根据各主体在数据价值创造过程中的贡献,制定合理的利益分配方案,保障各主体的合法权益。这将有效解决数据权属纠纷问题,37 提高企业参与数据共享和应用的积极性,充分激发数据的价值。可信数据空间通过提升数据质量,赋能企业智能决策。可信数据空间构建数据治理体系,对智能制造数据进行清洗、校验、整合和标准化处理,提高数据的准确性、完整性和一致性。通过建立数据质量评估模型和监控机制,实时监测数据质量,及时发现和纠正数据问题。高质量的数据能够为智能制造的生产优化、质量控制、供应链管理等提供可靠的决策支持。例如,基于准确的生产设备运行数据,企业可以预测设备故障,提前进行维护保养,减少生产停机时间;利用高质量的市场需求数据,能够更精准地进行生产计划制定,提高生产效率。总而言之,建设可信数据空间不仅是智能制造转型的重要保障,更是实现产业链与供应链高效协同的核心。可信数据空间提升了整个智能制造生态系统的透明度与韧性,各方不仅可以实时监督生产与供应链状态,还能更快速地做出调整与决策,从而有效减少风险,提高市场适应能力,进一步提升产业的整体竞争力。5.2 能源电力能源电力数据数据互联互联 5.2.1 痛点需求痛点需求 能源电力行业关系国计民生,正经历着向“绿色、低碳、安全、高质量”转型的关键时期,这就要求能源电力行业内部的各企业主体之间实现数据的广泛互联,横向快速汇聚能源生产、消费、市场等数据,纵向深度融合电源、电网、储能、用户等数据,赋能新型能源业务,38 加快实现能源产业数字化转型与深层次变革。但能源电力领域涵盖众多行业主体,涉及数据类型多种多样,长期存在数据分散标准不统一、企业间数据壁垒明显、数据供需难匹配难等问题,严重阻碍了能源电力企业之间的数据连接。数据分散性与标准不统一,数据难以“讲同一种语言”。能源电力行业环节多,涵盖发电、输电、配电、用电、调度、交易等全产业链;主体多,包括发电集团、电网公司、售电公司、用户、设备厂商等;数据类型杂,包括结构化数据(SCADA/EMS 实时数据、电表读数、设备台账、生产报表、交易结算数据)、半结构化数据(日志文件、XML/JSON 配置文件)、非结构化数据(设备图像/视频、巡检报告、设计图纸、合同文档、气象数据、卫星遥感数据)等;由于各环节数据语义不统一、接口规范不一致、数据质量参差不齐,直接导致“数据烟囱”林立,严重制约了数据价值的挖掘。企业间数据壁垒坚固,协同效率低下。能源电力行业的市场化改革尚未完全到位,企业间的竞争关系与数据安全顾虑形成了坚固的数据壁垒,阻碍了跨主体协同。行业内部,发电企业的成本数据(如煤耗、运维费用)属于核心商业机密,不愿向电网公司完全开放;电网公司的实时负荷预测数据因涉及电网安全,也仅向发电企业开放有限维度;工业用户担心用电数据泄露会暴露生产规模、开工率等商业信息等。跨行业数据壁垒更显著。能源企业与气象部门的气象数据、与交通部门的物流数据、与环保部门的排放数据缺乏共享机制。这些壁垒导致能源生态协同受限。39 数据供需匹配失衡,价值转化通道不畅。能源电力行业的数据供需存在“显性短缺”与“隐性过剩”并存的矛盾,供需两端的信息不对称导致数据资源浪费。数据需求方(如新能源场站需要气象数据做功率预测,售电公司需要用户负荷数据做套餐设计)有时难以精准描述所需数据的范围、格式、时效性等具体要求;数据提供方(如气象局、电网公司)的响应流程可能冗长,审批复杂,难以满足灵活、快速、按需的数据获取需求。5.2.2 解决方案解决方案 可信数据空间以统一的技术平台为底座,基于统一的标准规范,实现数据供需撮合对接,为能源电力企业之间的数据互联提供了最优解决方案。聚焦“能源流-数据流-价值流”的深度融合,建设包括可信数据空间底座、数据资源服务、接入连接器、运营管理平台等层的能源电力行业可信数据空间,各层设计中嵌入行业专属的技术特征与业务逻辑。可信数据空间的技术底座层整合区块链、隐私保护计算、数据沙箱、40 使用控制技术等促进数据合规使用的技术产品;数据资源服务层包括分时分区电碳因子库、电工装备碳足迹背景库、电网负荷与调控数据集、电力供需预测数据集、电力企业征信数据集等经过可信认证和合规认证的电力行业高质量数据集和行业数据;运营管理平台通过提供参与方入驻、目录展示、数据定价和资产评估等功能,是能源电力行业可信数据空间生态建设的核心。可信数据空间有助于解决能源电力数据跨主体融合中存在的数据标准各异的问题。一是可以基于统一的能源行业数据标准和技术规范,实现数据高效查询和按需获取,降低沟通和运营成本;二是可以实现其他企业数据与自有数据有效关联融合,为场景化应用建立基础;三是基于统一的标准规范,能够快捷实现跨空间互联互通,享受多个数据空间带来的数据流通红利,快速融入更广泛的数据生态。可信数据空间有助于打破企业间的数据壁垒,促进系统和数据互联互通。可信数据空间提供了一套“通用”的技术平台,一是利用多主体互联的确定性网络,快速实现能源电力企业主体的“入网”,缩短主体连接的响应周期;二是利用数据空间构建的确定性网络,可以快速建立数据交换通道,无需针对每一个数据需求开发接口;三是提供了语义转换等技术服务,为不同主体在数据合作意向范围内开展数据共享交换建立统一渠道,实现不同主体间数据的快速集成和高效交互。可信数据空间有助于强化供需精准对接,大幅降低找数取数成本。能源电力企业基于可信数据空间,一是可以便捷查询空间内的能源数 41 据,准确识别和对齐供需双方需求,快速达成合作;二是能够以空间运营方为“桥梁”,撮合供需双方建立有效联系,助力合作关系的形成;三是可以在数据空间内自行发布个性化需求,由数据提供方主动响应需求,从而实现供需双方的高度精准匹配对接,确保能源数据需求“找得到、发得出、对得齐”。5.3 公共数据可信交互公共数据可信交互 公共数据可信交互在多个领域展现出巨大的应用潜力。例如,在社会治理方面,不同部门如公安、交通、应急等需要共享数据以实现跨部门的协同治理。公共数据可信交互通过建立统一的数据共享平台,确保不同部门数据的无缝对接和整合,同时保障数据的安全性和隐私性,防止数据泄露和滥用。这种机制能够提高城市安全的实时监控和应急响应能力,为社会治理提供科学决策依据。在公共服务领域,公共数据可信交互能够优化资源配置,提升服务质量。以医疗为例,医疗数据的可信共享可以促进远程医疗和分级诊疗,提高医疗服务的可及性。通过建立数据互操作性标准,不同医疗机构之间的数据可以实现互通共享,同时在共享过程中严格保护患者的个人隐私,确保数据的匿名化和脱敏处理。此外,强大的数据处理和分析能力能够支持复杂的医疗诊断和决策,为患者提供更精准的医疗服务。在城市规划与管理中,多源数据的融合分析有助于实现城市资源的优化配置和精细化管理。城市规划部门可以利用地理信息数据、人 42 口数据、经济数据等进行综合分析,制定更加科学合理的城市发展规划。公共数据可信交互确保这些数据的动态更新和实时性,反映城市发展的最新状况。结合大数据和人工智能技术,它还能提供智能决策支持,提升城市规划和管理的科学性,助力打造智慧城市。在环境监测与保护领域,公共数据可信交互对于实现环境保护和污染治理至关重要。环保部门、气象部门、水利部门等需要共享数据,以实现对空气质量、水质、土壤等环境要素的实时监测和综合分析。通过建立实时监测系统,公共数据可信交互能够确保环境数据的准确性和可靠性,及时发现和预警环境问题,并支持科学的环境决策。同时,它还促进了不同部门之间的跨部门协同,实现数据共享和联合行动,共同应对环境挑战。在公共资源配置方面,公共数据可信交互可以确保资源分配的公平性、透明性和效率。以公共资源交易平台为例,通过共享和分析公共资源交易数据,该机制能够优化资源配置,提高公共资源的利用效率。它保证了公共资源交易数据的透明性,接受社会监督,并利用大数据和人工智能技术实现资源与需求的智能匹配和推荐。此外,公共数据可信交互还建立了防欺诈机制,确保公共资源交易的公正性和合法性,从而提升公共资源的管理效能。43 5.4 智慧城市智能体交互智慧城市智能体交互 5.4.1 痛点需求痛点需求 在新型智慧城市建设中,交通、气象等领域的智能体交互是实现城市精细化治理的核心支撑。当前跨领域智能体协同仍面临多重挑战,制约了智慧城市整体效能的发挥。跨域数据安全与隐私保护风险突出。智慧城市智能体交互涉及海量敏感数据,包括交通卡口的车辆轨迹、气象监测的地理信息、市民出行的个人行为数据等。这些数据在交通信号控制智能体、气象预警智能体、应急指挥智能体等跨领域流转时,存在数据泄露、滥用的风险。同时,各类智能体接入网络的接口安全防护不足,易遭受恶意攻击,威胁城市运行安全。领域数据孤岛阻碍协同响应。交通、气象、城管、应急等部门的智能体系统独立建设,数据标准、接口协议、存储格式存在差异。例如,交通智能体的路况数据与气象智能体的降水预警数据格式不兼容,导致暴雨天气下无法快速联动调整交通信号配时;城管智能体的占道施工信息未能实时同步至导航智能体,造成市民出行规划偏差。数据孤岛使得城市级突发事件难以实现多智能体协同处置。数据权属模糊与利益分配失衡。智慧城市数据产生主体多元,交通数据可能来自交管部门、网约车企业、车载终端等,气象数据涉及气象局、科研机构、监测设备厂商等。数据权属界定缺乏统一标准,例如交通流量数据的所有权归属采集部门还是城市管理主体,气象预 44 测数据的收益如何在数据提供方与应用方之间分配,这些问题导致各主体对数据共享持谨慎态度,影响智能体交互的深度。数据质量参差影响决策精度。智能体交互依赖高质量数据支撑,但其数据来源广泛且采集条件复杂。交通摄像头因光线、遮挡导致数据失真,气象传感器因维护不当出现监测偏差,不同部门数据更新频率不一致造成时间维度错位。例如,交通智能体基于滞后的车流量数据调整信号时长,可能加剧拥堵;气象智能体使用低精度降水数据触发预警,易引发市民恐慌或应急资源浪费。5.4.2 解决方案解决方案 构建智慧城市可信数据空间,是破解跨领域智能体交互难题、实现交通与气象等应用协同增效的关键路径,能够为城市治理提供安全、高效、可信的支撑体系。可信数据空间筑牢跨域数据安全防线,保障智能体交互隐私。通 45 过部署数据加密、访问控制、安全沙箱等技术,对交通轨迹、气象敏感数据等进行全生命周期安全防护。建立基于角色的权限管理机制,严格限制智能体数据访问范围,例如气象智能体仅能获取交通智能体的匿名路况数据,无法追溯具体车辆信息。利用安全审计系统对智能体数据交互行为全程记录,实现异常操作实时预警与追溯,确保数据使用合规可控。可信数据空间打破领域壁垒,提升智能体协同响应效率。统一交通、气象等领域的数据标准与接口规范,构建跨部门数据共享平台。通过标准化处理,实现交通流量、降水强度、道路施工等数据的互联互通,支持智能体实时调取所需信息。例如,暴雨天气时,气象智能体可通过可信数据空间将预警信息推送至交通智能体,触发信号灯动态调整、积水路段限行等联动策略;应急指挥智能体能够同步调用交通疏散路径数据与气象灾害扩散模型,制定科学救援方案。可信数据空间明确权属与利益分配,激发协同动力。建立数据权属登记机制,利用区块链技术记录交通、气象等数据的产生主体、采集过程与使用权限,实现权属可追溯。制定差异化利益分配规则,根据数据贡献度确定收益分成比例,例如网约车企业提供的实时路况数据可按使用频次获得收益,气象部门的预测数据在商业导航应用中产生的价值可按约定比例返还。清晰的权责与利益机制,提升各主体参与智能体数据共享的积极性。可信数据空间提升数据质量,强化智能体决策精度。构建全流程数据治理体系,对交通、气象等数据进行清洗、校验、融合与标准化 46 处理。建立数据质量评估模型,实时监测数据完整性、准确性、时效性,对异常数据自动标记并触发补采机制。例如,通过算法修正交通摄像头的遮挡数据,校准气象传感器的漂移误差,统一各部门数据更新频率。高质量数据支撑下,交通智能体可精准预测车流高峰,气象智能体可提高灾害预警精度,实现多智能体协同决策的科学性与有效性。可信数据空间为智慧城市智能体交互提供了安全可信的“数据底座”,通过打通交通与气象等领域的协同壁垒,提升了城市治理的精细化水平与应急响应能力,推动智慧城市从“各自为战”向“协同共治”转型升级。5.5 车联网可信生态车联网可信生态 5.5.1 痛点需求痛点需求 随着汽车产业进入以智能网联汽车为标志的下半场竞争,数据的价值愈发凸显。车辆通过车载感知设备和电气化,能产生包括自车状态数据、环境感知数据、事件类数据等大量数据,同时,随着车路云一体化的建设进程,路侧的智能化改造使得路侧能收集如信号灯态、道路事件、车辆轨迹、道路目标物等数据,海量的数据蕴含有大量价值亟待开发。然而,智能网联汽车在数据的收集、管理、分析和应用方面也面临着新的挑战。首先,数据安全与隐私保护风险突出。车联网场景下,车辆传感 47 器、定位系统、车载终端等会产生海量数据,其中包含大量敏感信息,如车主身份信息、车辆实时位置、行驶轨迹、驾驶习惯等。这些数据一旦泄露或被恶意利用,可能导致严重后果。其次,数据孤岛现象阻碍协同发展。车联网生态涉及车企、零部件供应商、交通管理部门、云服务提供商、保险公司等众多参与者,各主体出于商业利益、数据安全等因素考虑,往往将数据视为核心资产进行封闭管理,形成“数据孤岛”,数据孤岛使得车联网各环节无法实现高效协同,限制了车联网服务的创新和行业整体发展。再次,数据质量与可信度不足。车联网数据来源广泛,包括不同品牌、型号的车辆,不同类型的传感器和设备,数据质量参差不齐。部分数据存在噪声、误差、缺失等问题,影响数据的可用性。同时,由于缺乏有效的数据校验和溯源机制,难以判断数据的真实性和可信度。低质量、不可信的数据无法为车联网应用提供有效支撑,阻碍了车联网技术的迭代升级。最后,网络传输不确定性影响业务可靠性。车联网业务对网络传输的实时性、确定性要求极高。自动驾驶、车路协同等应用需要车辆与路侧设备、云端平台进行实时数据交互,毫秒级的延迟或数据丢失都可能引发安全事故。然而,现有网络存在带宽波动、传输延迟、丢包等不确定性问题,在车辆高速移动、复杂路况等场景下更为明显。网络传输的不确定性严重制约了车联网高级别应用的落地和普及。48 5.5.2 解决方案解决方案 通过构建一个基于确定性网络的高效的汽车行业可信数据空间,推动各企业、机构和消费者之间的数据互联,促进汽车行业从传统模式向智能化、高效化的转型,助力打造一个更加安全、可靠、互联的未来智能网联生态系统。保障数据安全与隐私,增强行业信任。可信数据空间通过采用加密技术、隐私计算、区块链等技术,构建多层次的数据安全防护体系。对敏感数据进行加密处理,确保数据在传输、存储和使用过程中的安全性;利用隐私计算技术实现“数据可用不可见”,在数据共享分析时保护原始数据不泄露;借助区块链的不可篡改特性,对数据流转全过程进行记录,实现数据溯源。这些措施有效降低了数据安全风险,保护了用户隐私,增强了消费者、行业参与者对车联网的信任,为行业健康发展奠定基础。打破数据孤岛,促进协同创新。可信数据空间建立统一的数据标 49 准和接口规范,推动各主体数据的互联互通。通过制定数据共享规则和权限管理机制,明确数据共享的范围、方式和责任,促进车企、交通管理部门、服务提供商等主体之间的数据流通。例如,车企与交通管理部门共享车辆行驶数据和路况信息,可共同优化智能交通系统;保险公司基于车辆驾驶行为数据制定个性化保险方案,实现精准定价。数据的高效共享打破了行业壁垒,促进了跨领域协同创新,催生了更多车联网新业态、新模式。提高数据质量,赋能行业升级。可信数据空间通过建立数据治理体系,对数据进行清洗、校验、标注等处理,提高数据质量。利用数据溯源技术,确保数据的真实性和可追溯性,为数据使用者提供可靠的数据来源。高质量的数据为车联网技术创新提供了有力支撑,例如,基于精准的车辆运行数据,车企可以优化车辆设计和制造工艺;利用海量的路况数据,交通管理部门可以制定更科学的交通规划方案。数据质量的提升推动了车联网行业向智能化、精细化方向发展,加速了行业的升级迭代。确定性网络提升网络传输确定性,保障业务可靠运行。可信数据空间依托确定性网络技术,如时间敏感网络(TSN)、网络切片等,为车联网业务提供稳定、可靠的网络传输环境。通过为不同业务类型分配专属的网络资源,保障关键业务的实时性和低延迟。例如,为自动驾驶业务分配高优先级网络切片,确保车辆与路侧设备、云端的实时数据交互不受其他业务干扰。网络传输确定性的提升,为自动驾驶、车路协同等高级别应用的落地提供了关键支撑,提高了车联网业务的 50 可靠性和安全性。5.6 元宇宙在线教育元宇宙在线教育 5.6.1 痛点需求痛点需求 在元宇宙沉浸式在线教育蓬勃发展的进程中,技术创新与教育模式变革深度融合,催生了全新的学习体验。在元宇宙教育环境中,数据不仅是教学过程的记录载体,更是驱动个性化学习、虚拟实验、教育资产化的核心生产要素,然而当前其流通利用面临多重瓶颈:首先,数据安全与隐私保护风险加剧。元宇宙教育涉及用户身份信息、学习行为数据、虚拟环境中的交互数据(如手势、表情识别信息)等敏感内容,这些数据若未妥善保护,可能被用于行为分析或商业滥用。传统安全防护手段难以应对元宇宙中多源异构数据的动态流转需求,亟须构建多层次的安全防护体系。其次,跨平台数据孤岛与互操作性壁垒。各元宇宙教育平台采用独立的数据标准与接口规范,导致教学资源、用户数据无法跨域共享,形成封闭的数据壁垒。例如,某高校开发的虚拟实验室数据无法与企业培训平台兼容,造成资源重复建设。数据孤岛不仅阻碍教育资源的优化配置,还限制了跨机构协作与个性化学习服务的拓展。再次,数据权属与知识产权保护机制缺失。元宇宙教育中,教学课件、虚拟场景、数字孪生模型等内容的版权归属复杂。例如,教师创作的虚拟教案与平台提供的基础框架之间的权属划分缺乏明确规 51 则。虚拟资产(如数字徽章、虚拟道具)的所有权确认与交易溯源问题突出,制约了元宇宙教育生态的价值循环。最后,网络传输不确定性影响沉浸体验。元宇宙教育对实时性与稳定性要求极高,如多人协作实验、虚拟课堂互动等场景需确保毫秒级响应。然而,现有网络环境下,带宽波动、延迟抖动等问题频发,导致虚拟场景卡顿、交互中断。例如,在 VR 远程实训中,网络延迟可能使学生操作与反馈不同步,影响实训效果。网络传输的不确定性已成为制约元宇宙教育规模化应用的关键瓶颈。5.6.2 解决方案解决方案 可信数据空间作为新型数据基础设施,通过“技术 规则”双轮驱动,以隐私计算筑底安全、区块链贯通孤岛、智能合约激活资产,彻底重构数据流通的信任基座,构建起安全可控的数据流通生态。构建全生命周期数据安全防护体系。可信数据空间通过加密技术(如国密算法 SM 系列)对传输与存储的数据进行高强度加密,确保用户隐私信息在交互过程中不可窃取。结合区块链技术,实现数据操作全程可追溯,任何对教学内容、用户行为的篡改均能被精准定位。通过隐私计算技术(如联邦学习)支持跨机构数据联合分析,在不泄露原始数据的前提下优化教学模型,实现“数据可用不可见”。破解数据孤岛与跨平台互操作性难题。可信数据空间通过制定统一数据标准,整合多源异构数据,实现教学资源、用户画像、虚拟资产的跨平台流通。例如,某高校与企业合作开发的虚拟实训平台,通 52 过标准化接口实现设备运行数据与教学管理系统的无缝对接,提升实训效率 30%以上。同时,智能合约技术自动执行数据共享规则,确保数据使用权限与收益分配透明化,激发各方参与数据协作的积极性。强化知识产权保护与价值流通。可信数据空间为元宇宙教育内容提供数字版权确权服务,通过 NFT(非同质化通证)技术为虚拟教案、数字模型等赋予唯一标识,明确创作者权益。此外,区块链的不可篡改特性为版权纠纷提供司法取证支持,降低维权成本。确定性网络传输保障教学沉浸体验。结合光电融合广域确定性网络技术、时间敏感网络(TSN)、网络切片等新兴网络技术,可信数据空间为元宇宙教育分配专属网络资源,确保实时交互场景(如虚拟课堂直播、多人协同编程)的端到端时延低于 20ms,网络可靠性达到 99.99%以上。例如,某 VR 语言学习平台通过网络切片技术隔离娱乐流量与教学数据,使语音交互延迟降低 60%,显著提升口语训练效果。六、关键技术实现路径六、关键技术实现路径 6.1 确定性网络部署确定性网络部署 基于“三大运营商资源和 CENI 确定性网络技术”构建数据要素承载网,具备高速传输、低延迟、高可靠性及安全性等特性。优化数据流通体系,提升数据传输效率与安全特性,确保“三统一”信息同 53 步,支持业务灵活流量调度,满足用户多样化接入和高性价比需求。1、骨干网:全域功能节点与区域业务/功能节点通过互联网/专线结合 SD-WAN 技术,接入数据要素承载网,实现平台节点间的高速、安全数据传输及“三统一”信息同步的增强服务,保障业务互联互通。2、接入网:基于运营商互联网基础能力与 SD-WAN 技术,打造“互联网 虚拟接入专网”服务方案,为接入主体提供灵活多样的数据传输方式。接入主体依据数据安全传输需求,通过区域业务节点平台选择“虚拟接入专网服务”并完成服务注册,即可快速实现安全、高效的数据交易组网与传输。54 基于“三大运营商资源和 CENI 确定性网络技术”构建数据要素承载网,具备高速传输、低延迟、高可靠性及安全性等特性。优化数据流通体系,提升数据传输效率与安全特性,确保“三统一”信息同步,支持业务灵活流量调度,满足用户多样化接入和高性价比需求。1、高效网络加速:专用网络与高效路径优化,实现网络传输加速,提升数据传输效率。2、数据加密传输:专网隔离与端到端加密,解决“公网”数据暴露风险,保障数据传输安全。3、智能故障定位:采用分层网络设计与智能监控诊断工具,快速定位并修复故障,降低对全局影响,提升网络可靠性与稳定性。4、使用成本效益:通过优化网络资源配置提供高效数据传输,降低使用成本,使接入主体在享受高性能与高可靠性服务的同时,实现更高性价比。6.2 算力协同部署算力协同部署 算力协同部署在南京市数据基础设施项目中,致力于整合城市内分散的算力资源,实现算力与数据的高效协同,提升城市整体的算力服务能力。算力资源整合:整合各类算力资源,涵盖高校科研计算资源、企业数据处理算力以及政府部门的政务数据统计分析算力等。通过数据基础设施的算力网络,将这些分散在不同机构、不同领域的算力资源进行统一管理与调度。例如,在某大型科研项目中,高校的科研计算 55 集群算力不足时,可通过数据基础设施的算力协同机制,调用企业闲置的云计算资源,实现算力资源的跨机构共享,避免了资源的浪费,提高了整个城市算力资源的利用率。同时,对不同类型的算力,如通用计算、智能计算、超级计算等进行分类整合,根据不同业务场景的需求,灵活调配相应的算力资源,提升算力服务的针对性与有效性。算力网络构建:构建专门的算力网络,连接城市中的算力中心与数据基础设施、连接器。基于光电融合技术,通过“IP 光”的融合路径,打造出低时延、低抖动、高通量、高可靠的网络链路。基于 IPv6 的扩展协议为每一个接入算力网的设备分配独立的 IP 地址,确保数据传输的准确性与高效性。结合软件定义网络(SDN)技术,对网络流量进行灵活调控,根据不同业务对算力和网络的需求优先级,合理分配网络带宽资源,保障关键业务数据的传输质量,为算力与数据的交互提供稳定、高速的网络通道,实现数据快速传输至算力中心处理,以及处理结果及时反馈回数据基础设施和连接器。协同机制建立:建立完善的算力协同机制,包括算力调度机制、资源分配机制以及收益分配机制等。在算力调度方面,引入算力感知的路由算法,能够根据各算力中心的负载情况和网络状态,智能地选择最优路径传输数据和调度算力,提高算力资源的利用效率。资源分配机制根据业务的实时需求,动态分配算力资源,确保紧急、重要的业务优先获得足够的算力支持。收益分配机制则鼓励各参与方积极贡献算力资源,通过合理的利益分配,调动高校、企业等机构参与算力协同的积极性,保障算力协同部署的持续推进与高效运行,推动南京 56 市数据基础设施项目在算力支撑下实现数据的深度挖掘与价值创造。6.3 数据空间可信引擎数据空间可信引擎 数据空间可信引擎作为智能体可信数据空间的核心技术支撑,其构建需要综合运用多种技术手段以实现数据的安全、可信与高效流通。首先,在可信计算与认证方面,通过建立可信根,利用可信执行环境(TEE)等技术,确保智能体身份的真实性和可靠性,为数据空间打造坚实的信任基础。同时,采用智能体身份认证与授权机制,精准控制智能体对数据的访问权限,防止未授权访问和数据泄漏风险。其次,数据加密与隐私保护至关重要。运用先进的加密算法对数据进行加密处理,确保数据在存储和传输过程中的机密性。结合密钥管理与分发技术,使授权智能体能够安全地解密和使用数据。此外,引入差分隐私与同态加密等前沿技术,在保护数据隐私的前提下,实现数据的可用性,满足不同场景下的数据共享需求。再者,智能合约与规则引擎的应用为数据空间的可信协作提供了有力支持。基于区块链的智能合约技术可以自动执行预设的规则和条件,实现数据共享、交易等操作的自动化和可信化。同时,规则引擎能够根据预先定义的策略和规则,对数据的访问、使用等行为进行实时监控和管理,确保数据的合规使用。最后,数据存证与溯源功能为数据空间提供了完整的数据生命周期管理。通过区块链等技术对数据进行存证,确保数据的不可篡改和可追溯性。当出现数据争议或需要审计时,可以利用溯源追踪机制,快速定位数据的来源和流向,为数据的安全和可信提供有力保障。57 6.4 智能体协同协议智能体协同协议 智能体协同协议是实现智能体之间高效、可信协作的关键技术。在数据交互层面,协议需要统一智能体之间的数据格式与语义,确保数据能够被准确理解和解析。通过制定标准化的数据表示形式,以及对数据语义进行清晰的定义和规范化,减少因数据不一致导致的误解和错误。同时,数据传输协议的设计要充分考虑基于确定性网络的特点,对数据包的时序进行严格控制,保障数据的可靠传输。采用诸如确定性网络(DetIP)等技术,确保数据在传输过程中的时延、抖动等关键指标满足业务要求,为智能体之间的实时交互提供稳定的数据传输通道。在智能体协作方面,不同的协作模式与流程需要被明确地定义和规范。智能体之间的协作任务需要进行合理的分解与分配,以充分发挥各个智能体的优势和能力。通过编排和管理协作流程,确保智能体之间的协作任务能够有序、高效地执行。任务调度与资源分配是智能体协同的关键环节。根据业务需求的动态变化,采用智能的任务调度策略,将任务合理分配给合适的智能体。同时,对算力资源和网络资源进行动态分配和优化配置,确保智能体在执行任务时能够获得足够的资源支持,提高整体协同效率。在安全与可信方面,智能体之间的身份认证与授权是保障协同安全的基础。采用基于属性的访问控制等机制,对智能体的访问权限进行细粒度的管理,确保只有经过授权的智能体能够参与协作。数据与通信安全是智能体协同的重要保障。通过加密与解密机制对数据进行保护,防止数据在传输过程中被窃取 58 或篡改。同时,加强通信过程的安全防护,采用安全审计与监控手段,及时发现和处理潜在的安全威胁,确保智能体协同过程的安全可靠。最后,在互操作性与扩展性方面,智能体协同协议需要考虑不同智能体之间的互操作性。制定统一的标准和接口适配机制,实现异构系统之间的无缝对接和数据的双向映射,确保智能体能够在不同的系统环境中协同工作。此外,协议的扩展性设计至关重要。随着技术的发展和业务需求的变化,协议需要能够平滑地引入新的功能和特性,同时保持向后兼容性,确保智能体协同系统能够持续演进和发展。智能体协同协议规范智能体之间的通信、交互和协同工作流程。在通信层面,定义智能体之间的数据传输格式、编码规则和通信协议栈,确保智能体之间能够准确无误地收发数据。例如,采用轻量级的消息队列遥测传输(MQTT)协议实现智能体之间的高效消息传递,在物联网场景下,传感器智能体通过 MQTT 协议将采集到的数据发送给数据处理智能体。在交互层面,设计智能体之间的交互模型和接口,包括请求响应模型、发布订阅模型等。在协同工作流程方面,明确智能体之间协同完成任务的步骤和规则。以智能物流系统为例,仓储智能体、运输智能体和配送智能体依据协同协议,首先由仓储智能体根据库存信息规划货物出库顺序并向运输智能体发送货物交接请求;运输智能体按照约定的交接时间和地点接收货物,并实时向配送智能体反馈运输状态;配送智能体依据运输智能体提供的信息规划最优配送路线,完成货物配送任务。59 七、产业实践案例七、产业实践案例 7.1“江宁政企通“江宁政企通 2.0”在数字化转型的浪潮中,AI 技术的快速迭代,使得中小企业面临诸多困境,严重制约其发展。算力资源获取成本高:中小企业普遍面临算力资源匮乏且成本高昂的难题。一方面,受限于资金和技术实力,企业难以独立构建大规模算力设施,导致在处理大模型训练等复杂任务时,算力严重不足,业务推进缓慢。另一方面,传统的算力租赁模式价格高昂,按使用量计费的方式使得中小企业在业务高峰时算力成本剧增。AI应用技术门槛高:市场上通用大模型难以满足企业个性化需求,而定制开发大模型成本高、周期长,超出中小企业承受范围。同时,大模型的部署和维护需要专业技术团队,中小企业技术人才短缺,难以有效管理和优化模型,无法充分发挥大模型的效能。如何利用自身数据与基础大模型匹配,形成本地知识库,是中小企业面临的技术难题。江宁政企通 2.0 打造算网智一体化数据基础设施,旨在助力中小企业突破数字化转型困境,针对算力资源获取成本高的问题,通过确定性网络整合市省/区域国家多级算力资源,借助算网协同调度平台,实现算力灵活调用,让中小企业能按需获取算力,降低获取成本与使用门槛,满足复杂任务的算力需求,加快业务推进速度。在应 60 对 AI 应用技术门槛高的挑战上,帮助企业进行基础大模型选型与适配,并与企业自身数据深度融合,形成本地知识库,为企业提供一站式 AI 智能体服务。整体架构如图,打造未来算网协同调度平台,通过确定性网络连接本地一体机资源和云端算力资源,各节点适配不同版本 DeepSeek R1 模型,形成云边一体化的算网智数据基础设施。通过底层算网资源整合与协同运作,企业应用并发量小时使用本地资源,并发量大时跳转云端算力。同时,通过整合企业的历史数据,构建本地 RAG 知识库,形成企业特色的 AI 智能体应用。通过未来网络基础设施及其多元异构算力直连网构建 1ms 时延的城市算力网、5ms 时延区域一体化网络、20ms 时延的国家“东数西算”新总线。该网络连接企业本地算力与市区域国家级算力,为 61 算力整合和调度奠定技术基础。通过确定性网络接入的算力资源,企业可在平台上查看不同算力中心的实时报价,点击算力购买可跳转到算网智一体化调度平台,根据企业自身通算、智算、超算的不同需求,进行详细定制。定制完毕后,该平台通过编策略自动排序算网资源,企业用户点击即可实现资源实时开通,降低算力资源部署难度。企业本地部署 DeepSeek 70B 版本大模型,满足日常应用需求,快速响应本地数据处理需求,云端部署 DeepSeek 671B 满血版,可实现复杂业务运算。62 同时,支持使用企业的历史数据打造本地 RAG 知识库,通过 TXT、PDF、DOCX 等多种格式原始文档导入识别,使用噪声清洗等技术剔除干扰信息,提供自动分块以及按分段标识分块技术,提高知识检索与应用的针对性,对分块文档进行向量化处理,打破传统基于关键词匹配的局限,实现基于语义的深度理解与检索。预留可信数据空间连接器,采用“数据不出域、可用不可见、可控可计量”的应用模式。方便企业快速接入行业可信数据空间获取数据资源,训练自身业务大模型,或发布流通自身脱敏数据,实现数据价值产业链打造。7.2 菲尼克斯云化菲尼克斯云化 PLC 智能体智能体 在工业自动化领域,传统 PLC(可编程逻辑控制器)虽然在控制逻辑、稳定性和可靠性方面有着显著优势,但随着智能制造和工业 4.0的发展,其系统封闭、扩展性差、灵活性不足、维护成本高等局限性和问题也逐渐显现,这些问题促使工业企业寻求更高效、灵活和智能 63 的解决方案。云化 PLC 作为工业控制系统的新兴形态,以其开放性、灵活性和智能化的特点,引领着智能制造的新潮流。云化 PLC 是将传统 PLC 的处理控制功能虚拟化后部署到云端,本地保留分布式控制单元和 I/O 端子,通过软硬解耦的方式增强 PLC 的兼容性与适配性,为工业自动化带来前所未有的灵活性和效率。在制造业领域,云化 PLC 的应用场景非常广泛。首先,云化 PLC可以实现生产线的实时监控与远程管理。通过传感器采集到的数据云化 PLC 可以实时监测设备的运行状态、产品的质量指标等,并将这些数据上传到云端,供管理人员随时查看和分析。同时,云化 PLC 还可以通过云端下发指令,实现对设备的远程控制和调节,提高了生产线的灵活性和可控性。确定性网络是云化 PLC 的“神经中枢”,满足工业控制对通信的实时性、可靠性和同步性的极致要求。传统网络的“尽力而为”传输无法满足毫秒级甚至微秒级时延需求,也难以控制抖动,会导致指令与设备动作不同步。确定性网络通过时间同步、流量调度和资源预留机制,确保控制数据在固定窗口传输;借助冗余机制、网络切片和双链路热备提升可靠性,避免中断或数据丢失;通过微秒级时间同步支持多设备协同作业。确定性网络为云化 PLC 构建了一条媲美本地总线的虚拟控制通道,不仅满足工业控制对网络性能的严苛要求,还推动工业自动化向柔性化、智能化演进,为智能制造提供底层支撑。菲尼克斯作为国内领先的 PLC 自动化厂商,与未来网络联合打造了基于确定性网络的云化 PLC 智能体解决方案,通过融合确定性网 64 络通信、PLC 虚拟化控制逻辑以及自主决策能力,构建“实时感知智能决策精准执行”的闭环,实现复杂场景下的高效协同与动态优化。该方案在某电子元器件产线部署落地。在车间产线上,部署工业质检相机,通过 AI 机器视觉质检实现电阻外观缺陷检测(如并环、端环、气泡等),并将检测结果数据通过确定性网络传输至云化 PLC 智能体,用于触发控制产线侧的高速气缸,实现不良品的自动剔除,形成“感知(视觉)决策(智能体)执行(PLC)”的闭环融合,确定性网络则是确保这一融合高效运转的“神经中枢”,最终实现工业系统从“被动控制”向“主动优化”的智能化升级。同时,云化 PLC 智能体可整合 AI 机器视觉的历史数据与实时检测结果,优化控制策略,实现“自适应质检 预测性控制”。另外,中心 AI 训练平台通过调用标注过的异常/错误样本数据对模型进行再训练和评估,以提高模型的准确性和泛化能力。然后将新模型通过确定性网络快速推送部署回边缘设备,更新推理模型,使得模型学习到的最新知识能够立刻应用于生产,实现 AI 模型“边用边学、常用常新”。65 云化 PLC 作为智能制造的关键技术之一,其发展不仅关乎企业的技术进步,更关系到国家工业的长远发展。确定性网络赋能的云化PLC 智能体,正推动制造业向“集中控制、无线柔性、AI 驱动”范式演进。其价值不仅体现为成本与安全的优化,更深层的是打破 OT 层封闭性,为工业互联网提供“一网到底、算控一体”的数字基座。未来,云化 PLC 智能体将朝着更加智能化、集成化、绿色化的方向发展,为制造业的高质量发展提供坚实的技术支撑。7.3 杭州市“城市大脑”公共数据智能体应用项目杭州市“城市大脑”公共数据智能体应用项目 杭州市“城市大脑”项目是公共数据智能体应用的典型案例。该项目构建了智能体可信数据空间,整合多领域公共数据,创建各类智能体实现城市精细化管理。案例背景:杭州市“城市大脑”项目旨在通过公共数据的开发利用,提升城市管理效率和市民生活质量。项目整合了交通、医疗、环保、城管等领域的公共数据,构建了一个智能体可信数据空间。智能体应用:数据治理智能体负责对各部门上报的原始公共数据进行清洗、分类和标注。例如,对交通摄像头采集的车辆通行数据去除重复记录,纠正车牌识别错误信息,将处理后的结构化数据存储于数据层。交通优化智能体实时获取道路车流、公交地铁运行等数据,运用机器学习算法预测交通流量变化,自动优化信号灯时长配置,提高车辆通行效率。医疗协同智能体对接医院挂号、就诊、检查检验等信息系统,实现医疗资源智能调度,缩短患者候诊时间。66 技术亮点:杭州市“城市大脑”项目采用可信认证,所有智能体均基于数字身份证书进行身份认证,确保通信双方身份合法性。利用区块链技术对数据和智能体进行确权,实现数据权属标识和溯源追踪,确保智能体的合法性和可控性。根据智能体任务需求,在云端和边缘端合理分配算力资源,实现智能体的高效运行。应用效果与价值:杭州市“城市大脑”项目打破了部门间数据壁垒,公共数据在智能体可信数据空间中得以安全流通和深度利用。数据价值充分释放,为城市数字经济创新发展提供了有力支撑。为城市公共数据开发利用打造了可信、可控、协同的环境,吸引了更多企业、科研机构等参与城市数据应用创新,形成了良性发展的数据生态。八、发展建议与展望八、发展建议与展望 8.1 产业生态构建产业生态构建 基于确定性网络的智能体可信数据空间的产业生态构建,将围绕“技术协同深化、场景价值释放、生态壁垒打破”三大主线,推动芯片、算力、网络、可信空间、密态计算等核心环节形成深度耦合的创新体系,为智能体跨域协同与数据要素流通提供全栈支撑。在芯片层面,专用化与异构化成为核心发展方向。面向确定性网络的低时延需求,将涌现融合时间敏感网络(TSN)协议加速引擎的边缘芯片,实现微秒级时钟同步与任务调度;针对可信数据空间的安 67 全需求,集成硬件级加解密模块、安全启动与远程证明功能的安全芯片将成为标配,支撑数据全生命周期的可信根基。同时,芯片设计将深度适配智能体场景,形成“云端高性能通用芯片 边缘轻量异构芯片 终端低功耗专用芯片”的三级架构,通过统一指令集与接口标准,实现算力资源的无缝调度。算力生态将向“智能调度 绿色集约”的模式升级。云边端三级算力网络与确定性网络的融合不断深化,基于 AI 的动态调度算法将实现算力需求与网络带宽的实时匹配,确保智能体高优先级任务的算力响应延迟控制在毫秒级以内。分布式算力集群将通过可信数据空间实现跨域协同,依托粒子群优化、联邦学习等技术,在保障数据隐私的前提下完成全局算力最优分配。同时,算力网络将融入绿色节能设计,通过智能功耗调节与资源虚拟化技术,提升单位能耗的算力产出,支撑“双碳”目标下的产业可持续发展。网络技术将迈向“确定性增强 安全内生”的新阶段。确定性网络将实现从“时延可控”到“全链路可预期”的突破,通过 6G 空口技术与光传送网的深度融合,构建端到端时延抖动小于 10 微秒的确定性通道;网络切片技术将与可信数据空间联动,为不同智能体场景定制“带宽时延安全”专属网络切片,例如工业智能体的高可靠切片、交通智能体的低时延切片。此外,网络安全将从“外挂防护”转向“内生免疫”,通过动态 NAT、零信任架构与可信计算技术的集成,实现网络节点身份可信、数据传输加密、行为操作可追溯的全程防护。可信空间将走向“标准化 开源化 跨域化”。行业级可信数据空 68 间标准体系将逐步完善,涵盖数据接口、安全协议、权属界定等关键环节,推动金融、制造、城市等领域的可信空间互联互通。开源社区将成为生态创新核心载体,提供标准化的可信空间中间件与开发工具,降低企业部署门槛。跨域可信联盟将广泛形成,通过区块链技术实现数据权属链上存证、利益分配智能合约自动执行,打破“数据孤岛”与“信任壁垒”,让智能体在医疗、交通等敏感场景实现安全高效的数据交互。密态计算技术将实现“全场景适配 易用性提升”。作为数据“可用不可见”的核心支撑,密态计算将与联邦学习、安全多方计算深度融合,形成覆盖数据采集、传输、存储、计算的全流程隐私保护方案。面向智能体实时交互需求,轻量级密态计算算法将突破性能瓶颈,在边缘节点实现毫秒级加密计算响应。同时,密态计算将与开发工具链深度集成,通过可视化编程界面与预制算法模板,降低企业应用门槛。未来,芯片的算力支撑、网络的确定性保障、可信空间的协同载体、密态计算的安全防护将形成“四位一体”的产业生态闭环。在政策引导与市场驱动下,产学研用将深度协同,培育出一批具备核心技术的领军企业、开源社区与行业联盟,推动基于确定性网络的智能体可信数据空间成为数字经济的核心基础设施,为千行百业的智能化转型注入强劲动能。8.2 标准体系推进标准体系推进 在智能体可信数据空间标准体系推进上,与信通院等相关机构紧 69 密合作。联合信通院制定智能体身份认证标准,规范智能体数字身份的创建、管理、认证流程和接口,确保不同厂商开发的智能体能够在统一的身份认证框架下实现互认。协同信通院构建智能体数据确权与溯源标准,明确数据确权的原则、方法和溯源的技术要求,为智能体数据的合法流通和使用提供标准依据。8.3 未来方向未来方向 基于确定性网络的智能体可信数据空间的未来发展,将深度融入国家战略与前沿技术创新浪潮,通过“东数西算”战略落地,构建更具韧性、安全与效率的数字基础设施,为智能体跨域协同与数据要素流通开辟全新路径。“东数西算”战略的推进将与确定性网络形成“算力调度网络支撑可信流通”的协同体系,推动智能体可信数据空间实现跨区域资源优化配置。确定性网络将成为“东数西算”的“算力高速公路”,通过端到端时延确定性保障与动态带宽调度能力,支撑东部实时算力需求向西部枢纽节点的弹性迁移。例如,东部智能制造场景的智能体可通过确定性网络,将非实时的数据分析任务调度至西部算力枢纽,而本地边缘节点依托低时延特性保障生产控制指令的实时执行,实现“东部算实时、西部算非实时”的高效分工。可信数据空间将为“东数西算”中的数据流通提供合规载体,通过统一的数据权属界定、安全审计与利益分配机制,破解跨区域数据共享的信任壁垒。在确定性网络支撑下,东部企业的敏感数据可在加 70 密状态下传输至西部算力中心进行计算,数据“可用不可见”的密态处理模式将广泛应用。同时,智能体将成为“东数西算”的“动态调度中枢”,通过感知东西部算力负载、网络状态与数据需求,基于 AI预测模型实现算力资源的跨区域最优分配,使东部数据要素与西部算力资源的匹配效率提升 30%以上,推动形成“算力跟着数据走、数据贴着需求流”的良性循环。未来,“东数西算”的资源优化,将推动基于确定性网络的智能体可信数据空间进入“全域协同、全域安全”的新阶段。这一融合创新不仅将夯实数字经济的基础设施底座,更将为千行百业的智能化转型提供“算力可调度、数据可流通、安全可信赖”的核心支撑,加速构建更具活力与韧性的数字生态。附录 A:术语与缩略语 中文名称中文名称 英文缩写英文缩写 英文全拼英文全拼 可编程逻辑控制器 PLC Programmable Logic Controller 时间敏感网络 TSN Time-Sensitive Networking 可信数据空间 TDS Trusted Data Space 软件定义网络 SDN Software-Defined Networking 网络功能虚拟化 NFV Network Function Virtualization 71 服务水平协议 SLA Service Level Agreement 意图驱动网络 IDN Intent-Driven Networking 未来网络基础设施 CENI Chinas Emerging Networking Infrastructure 弹性以太网 FlexE Flexible Ethernet IPv6 分段路由 SRv6 Segment Routing IPv6 可信执行环境 TEE Trusted Execution Environment 通用公共许可 GPL General Public License 全球移动通信系统 GSM Global System for Mobile Communications 增强型数据速率 GSM 演进技术 EDGE Enhanced Data Rates for GSM Evolution 长期演进 LTE Long Term Evolution 5G 增强技术 5G-Advanced 5G Advanced 第六代移动通信技术 6G 6th Generation Mobile Communication Technology 多协议标签交换 MPLS Multi-Protocol Label Switching 网络地址转换 NAT Network Address Translation 用户驻地CPE Customer Premises Equipment 72 设备 虚拟专用网 VPN Virtual Private Network 域名系统 DNS Domain Name System 动态主机配置协议 DHCP Dynamic Host Configuration Protocol 简单网络管理协议 SNMP Simple Network Management Protocol 光传送网 OTN Optical Transport Network 同步数字体系 SDH Synchronous Digital Hierarchy 密集波分复用 DWDM Dense Wavelength Division Multiplexing 粗波分复用 CWDM Coarse Wavelength Division Multiplexing 互联网协议 IP Internet Protocol 传输控制协议 TCP Transmission Control Protocol 用户数据报协议 UDP User Datagram Protocol 地址解析协议 ARP Address Resolution Protocol 反向地址解析协议 RARP Reverse Address Resolution Protocol 网际控制报文协议 ICMP Internet Control Message Protocol 边界网关协议 BGP Border Gateway Protocol 开放最短路径优先 OSPF Open Shortest Path First 73 路由信息协议 RIP Routing Information Protocol 虚拟路由冗余协议 VRRP Virtual Router Redundancy Protocol 链路聚合控制协议 LACP Link Aggregation Control Protocol 生成树协议 STP Spanning Tree Protocol 快速生成树协议 RSTP Rapid Spanning Tree Protocol 多生成树协议 MSTP Multiple Spanning Tree Protocol 认证授权计费 AAA Authentication,Authorization and Accounting 动态主机配置协议 DHCP Dynamic Host Configuration Protocol 简单邮件传输协议 SMTP Simple Mail Transfer Protocol 邮局协议版本 3 POP3 Post Office Protocol-Version 3 互联网消息访问协议版本 4 IMAP4 Internet Message Access Protocol-Version 4 超文本传输协议 HTTP Hypertext Transfer Protocol 超文本传输安全协议 HTTPS Hypertext Transfer Protocol Secure 文件传输协议 FTP File Transfer Protocol 安全文件SFTP Secure File Transfer Protocol 74 传输协议 远程登录协议 Telnet Telecommunication Network 安全外壳协议 SSH Secure Shell 网络时间协议 NTP Network Time Protocol 精确时间协议 PTP Precision Time Protocol 用户数据报协议 UDP User Datagram Protocol 实时传输协议 RTP Real-time Transport Protocol 实时控制协议 RTCP Real-time Control Protocol 流媒体协议 RTSP Real Time Streaming Protocol 移动边缘计算 MEC Mobile Edge Computing 雾计算 FC Fog Computing 云计算 CC Cloud Computing 边缘计算 EC Edge Computing 人工智能 AI Artificial Intelligence 机器学习 ML Machine Learning 深度学习 DL Deep Learning 联邦学习 FL Federated Learning 强化学习 RL Reinforcement Learning 自然语言处理 NLP Natural Language Processing 计算机视觉 CV Computer Vision 75 机器人流程自动化 RPA Robotic Process Automation 数字孪生 DT Digital Twin 物联网 IoT Internet of Things 工业互联网 IIoT Industrial Internet of Things 车联网 V2X Vehicle to Everything 元宇宙 Metaverse Metaverse 区块链 BC Blockchain 智能合约 SC Smart Contract 非同质化代币 NFT Non-Fungible Token 分布式账本技术 DLT Distributed Ledger Technology 哈希算法 Hash Hash Algorithm 对称加密 Symmetric Encryption Symmetric Encryption 非对称加密 Asymmetric Encryption Asymmetric Encryption 数字签名 Digital Signature Digital Signature 数字证书 Digital Certificate Digital Certificate 公钥基础设施 PKI Public Key Infrastructure 零信任网络架构 ZTNA Zero Trust Network Architecture 网络安全 Network Security Network Security 信息安全 Information Security Information Security 数据安全 Data Security Data Security 隐私计算 Privacy Computing Privacy Computing 差分隐私 DP Differential Privacy 同态加密 HE Homomorphic Encryption 安全多方SMPC Secure Multi-Party 76 计算 Computation 数据脱敏 Data Desensitization Data Desensitization 数据加密 Data Encryption Data Encryption 数据备份 Data Backup Data Backup 数据恢复 Data Recovery Data Recovery 数据治理 Data Governance Data Governance 数据质量管理 DQM Data Quality Management 数据生命周期管理 DLM Data Lifecycle Management 数据仓库 DW Data Warehouse 数据湖 Data Lake Data Lake 数据集市 Data Mart Data Mart 大数据 Big Data Big Data 实时数据处理 Real-time Data Processing Real-time Data Processing 批处理 Batch Processing Batch Processing 流处理 Stream Processing Stream Processing 数据挖掘 Data Mining Data Mining 数据可视化 Data Visualization Data Visualization 应用程序编程接口 API Application Programming Interface 微服务 Microservice Microservice 容器化 Containerization Containerization Kubernetes K8s Kubernetes Docker Docker Docker 服务网格 Service Mesh Service Mesh 持续集成/持续部署 CI/CD Continuous Integration/Continuous Deployment DevOps DevOps Development and Operations 77 云计算平台即服务 PaaS Platform as a Service 基础设施即服务 IaaS Infrastructure as a Service 软件即服务 SaaS Software as a Service 函数即服务 FaaS Function as a Service 存储即服务 STaaS Storage as a Service 数据库即服务 DBaaS Database as a Service 网络即服务 NaaS Network as a Service 安全即服务 SECaaS Security as a Service 人工智能即服务 AIaaS Artificial Intelligence as a Service 机器人即服务 RaaS Robot as a Service 边缘即服务 EaaS Edge as a Service 区块链即服务 BaaS Blockchain as a Service 灾备即服务 DRaaS Disaster Recovery as a Service 桌面即服务 DaaS Desktop as a Service 通信即服务 CaaS Communication as a Service 监控即服MaaS Monitoring as a Service 78 务 测试即服务 TaaS Testing as a Service 知识即服务 KaaS Knowledge as a Service 统一资源定位符 URL Uniform Resource Locator 统一资源标识符 URI Uniform Resource Identifier 可扩展标记语言 XML eXtensible Markup Language JavaScript 对象简谱 JSON JavaScript Object Notation 简单对象访问协议 SOAP Simple Object Access Protocol 表征状态转移 REST Representational State Transfer 移动应用 Mobile App Mobile Application 网页应用 Web App Web Application 原生应用 Native App Native Application 混合应用 Hybrid App Hybrid Application 渐进式网页应用 PWA Progressive Web App 前端开发 Front-end Development Front-end Development 后端开发 Back-end Development Back-end Development 全栈开发 Full-stack Development Full-stack Development 数据结构 Data Structure Data Structure 算法 Algorithm Algorithm 数据库 Database Database 关系型数据库 Relational Database Relational Database 79 非关系型数据库 NoSQL Database Not Only SQL Database 结构化查询语言 SQL Structured Query Language 分布式数据库 Distributed Database Distributed Database 云数据库 Cloud Database Cloud Database 数据中心 Data Center Data Center 服务器 Server Server 存储设备 Storage Device Storage Device 网络设备 Network Device Network Device 终端设备 Terminal Device Terminal Device 传感器 Sensor Sensor 执行器 Actuator Actuator 嵌入式系统 Embedded System Embedded System 操作系统 OS Operating System Linux 操作系统 Linux Linux Windows 操作系统 Windows Windows macOS 操作系统 macOS macOS Android 操作系统 Android Android iOS 操作系统 iOS iOS 鸿蒙操作系统 HarmonyOS HarmonyOS 麒麟操作系统 Kylin OS Kylin Operating System 80 欧拉操作系统 openEuler openEuler 龙蜥操作系统 Anolis OS Anolis Operating System 深度操作系统 Deepin Deepin 红旗操作系统 Red Flag Linux Red Flag Linux 中兴新支点操作系统 NewStart OS NewStart Operating System 中标麒麟操作系统 NeoKylin NeoKylin Operating System 银河麒麟操作系统 Kylin Galaxy Kylin Galaxy Operating System 统信操作系统 UOS Union Operating System 处理器 CPU Central Processing Unit 图形处理器 GPU Graphics Processing Unit 张量处理器 TPU Tensor Processing Unit 神经网络处理器 NPU Neural Processing Unit 现场可编程门阵列 FPGA Field-Programmable Gate Array 专用集成电路 ASIC Application-Specific Integrated Circuit 内存 Memory Memory 随机存取存储器 RAM Random Access Memory 81 只读存储器 ROM Read-Only Memory 高速缓冲存储器 Cache Cache 硬盘驱动器 HDD Hard Disk Drive 固态硬盘 SSD Solid State Drive 光盘驱动器 ODD Optical Disc Drive 通用串行总线 USB Universal Serial Bus 高清多媒体接口 HDMI High-Definition Multimedia Interface 显示端口 DP DisplayPort 以太网 Ethernet Ethernet 无线保真 WiFi Wireless Fidelity 蓝牙 Bluetooth Bluetooth ZigBee 协议 ZigBee ZigBee LoRa 技术 LoRa Long Range 5G 技术 5G 5th Generation Mobile Communication Technology 4G 技术 4G 4th Generation Mobile Communication Technology 3G 技术 3G 3rd Generation Mobile Communication Technology 2G 技术 2G 2nd Generation Mobile Communication Technology 1G 技术 1G 1st Generation Mobile Communication Technology 卫星通信 Satellite Communication Satellite Communication 82 光纤通信 Optical Fiber Communication Optical Fiber Communication 微波通信 Microwave Communication Microwave Communication 毫米波通信 Millimeter Wave Communication Millimeter Wave Communication 太赫兹通信 Terahertz Communication Terahertz Communication 量子通信 Quantum Communication Quantum Communication 可见光通信 VLC Visible Light Communication 电力线通信 PLC Power Line Communication 无线传感器网络 WSN Wireless Sensor Network 无线自组织网络 Ad Hoc Network Ad Hoc Network 移动自组织网络 MANET Mobile Ad Hoc Network 无线网状网络 WMN Wireless Mesh Network 认知无线电网络 CRN Cognitive Radio Network 软件定义无线电 SDR Software Defined Radio 物联网网关 IoT Gateway IoT Gateway 工业以太网 Industrial Ethernet Industrial Ethernet 现场总线 Fieldbus Fieldbus Profibus Profibus Process Field Bus 83 协议 Modbus 协议 Modbus Modbus CAN 总线 CAN Controller Area Network LonWorks 协议 LonWorks Local Operating Network Works DeviceNet 协议 DeviceNet DeviceNet EtherCAT 协议 EtherCAT Ethernet for Control Automation Technology PROFINET 协议 PROFINET Process Field Net Sercos 协议 Sercos Serial Real-time Communication System CC-Link 协议 CC-Link Control&Communication Link 自动化金字塔 Automation Pyramid Automation Pyramid 企业资源计划 ERP Enterprise Resource Planning 制造执行系统 MES Manufacturing Execution System Supervisory Control And Data Acquisition SCADA Supervisory Control And Data Acquisition 可编程自动化控制器 PAC Programmable Automation Controller 分布式控制系统 DCS Distributed Control System 机器视觉 Machine Vision Machine Vision 84 运动控制 Motion Control Motion Control 机器人学 Robotics Robotics 工业机器人 Industrial Robot Industrial Robot 服务机器人 Service Robot Service Robot 特种机器人 Special Robot Special Robot 协作机器人 Collaborative Robot Collaborative Robot 智能制造 Intelligent Manufacturing Intelligent Manufacturing 工业 4.0 Industry 4.0 Industry 4.0 工业互联网平台 Industrial Internet Platform Industrial Internet Platform 数字工厂 Digital Factory Digital Factory 智能工厂 Smart Factory Smart Factory 黑灯工厂 Dark Factory Dark Factory 柔性制造 Flexible Manufacturing Flexible Manufacturing 精益生产 Lean Production Lean Production 敏捷制造 Agile Manufacturing Agile Manufacturing 绿色制造 Green Manufacturing Green Manufacturing 可持续制造 Sustainable Manufacturing Sustainable Manufacturing 增材制造 Additive Manufacturing Additive Manufacturing 3D 打印 3D Printing 3D Printing 工业大数据 Industrial Big Data Industrial Big Data 工业人工智能 Industrial AI Industrial Artificial Intelligence 工业数字Industrial Digital Twin Industrial Digital Twin 85 孪生 工业区块链 Industrial Blockchain Industrial Blockchain 工业信息安全 Industrial Information Security Industrial Information Security 工业网络安全 Industrial Network Security Industrial Network Security 工业控制系统安全 Industrial Control System Security Industrial Control System Security 工业物联网安全 Industrial IoT Security Industrial Internet of Things Security 工业机器人安全 Industrial Robot Security Industrial Robot Security 智能制造标准 Intelligent Manufacturing Standard Intelligent Manufacturing Standard 工业 4.0 标准 Industry 4.0 Standard Industry 4.0 Standard 工业互联网标准 Industrial Internet Standard Industrial Internet Standard 数字工厂标准 Digital Factory Standard Digital Factory Standard 智能工厂标准 Smart Factory Standard Smart Factory Standard 柔性制造标准 Flexible Manufacturing Standard Flexible Manufacturing Standard 精益生产标准 Lean Production Standard Lean Production Standard 敏捷制造标准 Agile Manufacturing Standard Agile Manufacturing Standard 绿色制造标准 Green Manufacturing Standard Green Manufacturing Standard 86 可持续制造标准 Sustainable Manufacturing Standard Sustainable Manufacturing Standard 增材制造标准 Additive Manufacturing Standard Additive Manufacturing Standard 3D 打印标准 3D Printing Standard 3D Printing Standard 工业大数据标准 Industrial Big Data Standard Industrial Big Data Standard 工业人工智能标准 Industrial AI Standard Industrial Artificial Intelligence Standard 工业数字孪生标准 Industrial Digital Twin Standard Industrial Digital Twin Standard 工业区块链标准 Industrial Blockchain Standard Industrial Blockchain Standard 工业信息安全标准 Industrial Information Security Standard Industrial Information Security Standard 工业网络安全标准 Industrial Network Security Standard Industrial Network Security Standard 工业控制系统安全标准 Industrial Control System Security Standard Industrial Control System Security Standard 工业物联网安全标准 Industrial IoT Security Standard Industrial Internet of Things Security Standard 工业机器人安全标准 Industrial Robot Security Standard Industrial Robot Security Standard

    发布时间2025-08-22 99页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 华为:智能融合生产网建设指南(77页).pdf

    ?1?.1?1.1?.1?1.2?.2?2?.4?2.1?.4?2.2?.6?3?.10?3.1?.10?3.1.1?.10?3.1.2?.11?3.1.2.1 VLAN?.11?3.1.2.2 IP.

    发布时间2025-08-21 77页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 艾瑞咨询:2025年H1中国手机银行APP流量监测报告(12页).pdf

    2025 iResearch Inc.2025年H1中国手机银行APP流量监测报告部门:TMT金融组22025.8 iResearch I来源:Usertracker多平台网民行为监测数据库(桌面及智.

    发布时间2025-08-21 12页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 华为:高品质医院网络建设指南V2.0(133页).pdf

    i 版权声明 版权声明版权声明 本建设指南著作权属于本书编写委员会单位共同所有。转载、摘编或以其他任何方式使用本建设指南的全部或部分内容的,应注明来源,违反上述声明者,著作权方将追究其相关法律责任。.

    发布时间2025-08-21 133页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 湖南大学&中国联通研究院&北邮:2025智算中心光电协同交换网络全栈技术白皮书(53页).pdf

    湖南大学 中国联通研究院中国联通软件研究院 北京邮电大学 上海交通大学2025 年 8 月智算中心光电协同交换网络智算中心光电协同交换网络全栈技术白皮书全栈技术白皮书编写说明编写说明编写单位:编写单位.

    发布时间2025-08-21 53页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 赛迪译丛:2025海湾合作委员会经济体的数字化转型报告(32页).pdf

    -1-2025 年年 8 月月 4 日第日第32期总第期总第 707 期期海湾合作委员会经济体的数字化转型报告海湾合作委员会经济体的数字化转型报告【译者按】【译者按】2025 年 5 月,国际货币基金.

    发布时间2025-08-20 32页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
5295条  共265
前往
客服
商务合作
小程序
服务号
折叠