1、开放统一智算网络架构和协议创新中移(苏州)软件技术有限公司 徐小虎01 智算网络的构成02 Scale-out 智算网络03 Scale-up 智算网络04 开放统一智算网络目录智算网络的构成01 智算网络的构成02 Scale-out 智算网络03 Scale-up 智算网络04 开放统一智算网络目录超大规模:万卡成为万亿参数LLM标配超高可靠:丢包严重影响吞吐超高吞吐:400G成为主流GPU接入速率超低延迟:延迟严重制约GPU利用率Scale-out智算网络的需求Scale-out智算网络协议从封闭走向开放 性能卓越:自适应路由(AR)负载均衡效率高;基于信用的流控,确保无损网络,曾是AI
2、/HPC集群的主流网络技术选择。生态封闭:产业被国外个别寡头垄断。使用成本高:建设成本是以太网的23倍,运维经验缺乏,严重依赖厂商支撑。InfiniBand(IB)生态开放:产业生态开放,特别是国内以太网产业基础较好,具备国产化替代的条件。使用成本低:多厂商供应,采购成本较低,运维人员和工具也非常丰富。性能不足:传统以太网负载均衡效率低,流控机制在大规模网络负面影响较大。RoCE(以太网RDMA)传统以太网负载均衡机制与集合通信流量模型不匹配传统以太网流控机制在大规模网络中应用效果不佳 集合通信流量特征:流数量少(Few entropy),大象流(Elephant flow),高并发(Burs
3、tness);传统以太网基于五元组哈希进行多路径负载均衡(Static ECMP),针对集合通行流量模型,容易导致多路径上流量分担不均,进而导致延迟增大甚至丢包。Leaf上行拥塞Spine下行拥塞拥塞拥塞 传统RoCE基于PFC和ECN实现拥塞控制和流控。PFC在多级网络中容易产生PFC风暴和队头阻塞现象,ECN对拥塞程度指示精度不高,此外PFC和ECN参数调优对网络运维挑战大。交换机A交换机A100GE 1100GE 2报文转发方向Priority 0Priority 7PEC反压帧100G以太链路交换机A的100GE1出接口队列交换机B的100GE2入接口队列反压门限反压停止门限Prior
4、ity 0Priority 7传统以太网存在技术改进空间 中国移动主导、联合产业上下游伙伴提交IETF国际标准草案FARE。完全兼容以太网技术,产业生态繁荣。开放技术标准端网一体协同 基于DDP(数据直接放置)技术,实现高效的包乱序重排。避免占用网卡内存进行包乱序重排,经济高效。精准拥塞控制 基于RTT-CC轻量化拥塞控制机制调节数据包发送速率。消除DCQCN参数调优的工作负担以及PFC的负面影响。自适应路由 基于动态路由协议扩展实时感知端到端路径带宽容量变化。逐包粒度全局负载均衡,确保带宽利用率达95%以上,是静态ECMP的1.6倍。精细化拥塞控制逐包粒度全局负载均衡基于BGP/ISIS路由
5、协议扩展高效同步链路带宽变化信息123123.GPU高效包乱序重排多轨道+多平面接入无阻塞网络231GPUGPUGPUGPU移动云:FARE(全自适应路由以太网)端网协同自适应路由,支撑百万卡集群高速互联IETF标准草案:https:/tools.ietf.org/html/draft-xu-idr-fare https:/tools.ietf.org/html/draft-xu-lsr-fareRoute to Server-2 via Spine-1,weight:200Route to Server-2 via Spine-2,weight:100Leaf-1移动云:FARE(全自适应路
6、由以太网)-示例 软硬件解耦,多厂商供应白盒硬件,光模块独立采购,极大降低建网成本。基于开放网络操作系统SONIC,支撑网络协议创新、软件快速迭代。开放智算交换机广泛适用性 不仅适用于万卡甚至百万卡集群的Scale-out网络。同样适用于几十卡甚至上千卡超节点的Scale-up网络。开放网络控制器 基于SONIC的Restful API实现对白盒交换机统一纳管。消除黑盒交换机方案中不同厂商设备只适配各自控制器带来的网络运维复杂性。多芯片适配 交换芯片作为设备的主要芯片,实现多厂商芯片适配,降低芯片供应链风险。通过SAI最大化屏蔽不同厂商芯片之间差异。基于SONiC的网络操作系统Restfulg