1、1全调度以太网技术架构白皮书全调度以太网技术架构白皮书TheThe TechnicalTechnical FrameworkFramework WhiteWhite PaperPaper ofofGlobalGlobal SchedulSchedulinging EthernetEthernet(20232023 年)年)中国移动通信研究院中国移动通信研究院前前言言本白皮书面向未来智算中心规模建设和 AI 大模型发展及部署需求,联合产业合作伙伴共同提出全调度以太网(GSE)技术架构,旨在突破智算中心网络性能瓶颈,打造无阻塞、高带宽及超低时延的新型智算中心网络,助力 AIGC 等高性能业务快速发
2、展。本白皮书的版权归中国移动研究院所有,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明来源。目录前言.2缩略语列表.41.背景与需求.52.GSE 网络架构介绍.62.1 总体设计目标.62.2 整体架构概况.62.2.1 GSE 整体架构.62.2.2 GSE 架构设备.72.2.3 GSE 架构特性.82.3 关键技术特征.82.3.1 兼容以太网技术.82.3.2 无阻塞网络.92.3.3 提高有效带宽.92.3.4 优化长尾时延技术.103.GSE 网络核心技术.103.1PKTC 机制.113.1.1 PKTC 概念.113.1.2 PKTC 开销.123.
3、1.3 GSE Header 位置.123.2 基于 PKTC 的负载均衡技术.133.2.1 动态负载信息构建.133.2.2 动态路径切换技术.143.2.3 流量排序机制.153.3 基于 PKTC 的 DGSQ 调度技术.153.3.1 基于全局的转发技术.163.3.2 基于 DGSQ 的调度技术.173.4 精细的反压机制.183.5 无感知自愈机制.183.6 低时延转发技术.193.7 全调度以太网操作系统.194.组网应用展望.21缩略语列表缩略语缩略语英文全名英文全名中文解释中文解释AIArtificial Intelligence人工智能AIGCAI-Generated
4、Content人工智能生产内容CPUCentral Processing Unit中央处理器DPUData Processing Unit数据处理单元ECMPEqual Cost Multi Path等价多路径路由ECNExplicit Congestion Notification显式拥塞通告FCFibre Channel光纤通道GPUGraphics Processing Unit图形处理器GSFGlobal Scheduling Fabirc全调度交换网络GSOSGlobal Scheduling Operating System全调度操作系统GSPGlobal Scheduling P
5、rocessor全调度网络处理节点HoLHead-of-line blocking队首阻塞JCTJob Completion Time任务完成时间MLMachine Learning机器学习PFCPriority-based Flow Control基于优先级的流量控制PHYPhysical端口物理层PKTCPacket Container报文容器RDMARemote Direct Memory Access远程直接内存访问RoCERDMA over Converged Ethernet融合以太网承载RDMAVOQVirtual Output Queue虚拟输出队列DGSQDynamic Gl
6、obal Scheduling Queue动态全局调度队列1.背景与需求背景与需求目前,AIGC(AI-Generated Content,人工智能生产内容)发展迅猛,迭代速度呈现指数级增长,全球范围内经济价值预计将达到数万亿美元。在中国市场,AIGC 的应用规模有望在 2025 年突破 2000 亿元,这一巨大的潜力吸引着业内领军企业竞相推出千亿、万亿级参数量的大模型,底层 GPU 算力部署规模也达到万卡级别。以 GPT3.5 为例,参数规模达 1750 亿,作为训练数据集的互联网文本量也超过 45TB,其训练过程依赖于微软专门建设的 AI 超算系统,以及由 1万颗 V100 GPU 组成的