1、面向面向新型新型智算中心智算中心的的以太以太网弹性通道网弹性通道(FlexLane)技术白皮书技术白皮书(2025 年)年)发布单位:中国移动通信有限公司研究院发布单位:中国移动通信有限公司研究院前言随着以 ChatGPT、Deepseek 为代表的 AI 大模型崛起,算力需求呈指数级增长,全球正加速建设智算中心以应对这一挑战。智算中心内部或智算中心间海量的数据交换,对网络链路的可靠性提出了前所未有的要求。任何链路闪断或中断都可能导致 AI 训练任务失败,造成巨大的时间和资源浪费。然而,光模块的成本与可靠性瓶颈以及大规模集群中链路数量的激增,使得已有技术难以满足新型智算中心 AI 业务对可靠性
2、的需求。本白皮书面向新型智算中心逐渐以承载 AI 业务为主的演进诉求,提出FlexLane 链路高可靠技术构想。该技术基于高速接口多通道架构的现状,打破原有固定组合,引入灵活多通道架构,通过降速运行实时有效的规避任何通道发生的故障,将链路可靠性提升万倍以上(助力 AI 网络互联可靠性超越 5 个 9),保障 AI 训练和推理业务不受影响。FlexLane 技术支持在现有设备上通过软件升级快速部署,或升级硬件实现更优的性能,同时可支持主动降速,在链路轻载和空闲期间动态节能,为智算中心提供灵活、经济、高效的可靠性保障。本白皮书旨在提出中国移动及产业合作伙伴对以太网链路高可靠 FlexLane技术的
3、愿景、架构设计和能力要求。希望能够为产业在规划设计智算中心网络、网络互联高可靠相关技术、产品和解决方案时提供参考和指引。本白皮书由中国移动通信有限公司研究院中国移动通信有限公司研究院主编,中国信息通信研究院中国信息通信研究院、清华清华大学、北京邮电大学大学、北京邮电大学、华为技术有限公司、中兴通讯有限公司、上海橙科微电华为技术有限公司、中兴通讯有限公司、上海橙科微电子科技有限公司、新华三技术有限公司、锐捷网络股份有限公司、苏州盛科通子科技有限公司、新华三技术有限公司、锐捷网络股份有限公司、苏州盛科通信股份有限公司、朗美通通讯技术(深圳)有限公司、武汉光迅科技股份有限信股份有限公司、朗美通通讯技
4、术(深圳)有限公司、武汉光迅科技股份有限公司公司、思博伦通信科技思博伦通信科技(北京有限公司北京有限公司)、集益威半导体集益威半导体(上海上海)有限公司有限公司、成成都新易盛通信技术股份有限公司、索尔思光电、武汉华工正源光子技术有限公都新易盛通信技术股份有限公司、索尔思光电、武汉华工正源光子技术有限公司、上海云脉芯联科技有限公司司、上海云脉芯联科技有限公司联合编撰。本白皮书不包含我国科技发展战略、方针、政策、计划等敏感信息。不包含涉密项目的背景、研制目标、路线和过程,敏感领域资源、数据,关键技术诀窍、参数和工艺信息。本白皮书的版权归中国移动所有,未经授权,任何单位或个人不得复制或拷贝本建议之部
5、分或全部内容。目目录录1 背景与需求.12FlexLane 技术架构.62.1 技术目标.62.2 设计原则.62.2.1 兼容性原则.62.2.2 一致性原则.62.3 技术架构.63FlexLane 关键技术.83.1 故障隔离.83.1.1 软件升级.93.1.2 硬件演进.103.1.3 技术效果.133.2 故障预防.143.3 动态节能.154 应用场景.164.1 智算中心.164.2 智算中心互联.175 总结与展望.19缩略语列表.20参考文献.21中国移动面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025)11 1 背景与需求背景与需求近年来,人工智能
6、(AI)技术取得了突破性进展,特别是以 ChatGPT、Deepseek为代表的大语言模型(LLM)的兴起,标志着 AI 进入了一个全新的发展阶段。大模型通常拥有数千亿甚至万亿的参数,中小模型通常也有十亿参数以上,需要海量的算力进行训练和推理。为满足庞大的算力需求,智算中心作为 AI 发展的新型基础设施底座,正加速在全球范围内建设和部署。图 1-1 传统数据中心与新型智算中心流量模型对比传统数据中心主要承载企业级应用,提供云服务,如 Web 应用、数据库、存储等。如图 1-1 所示,这些应用的流量模式以南北向通讯为主,网络的主要任务是保证客户能够及时可靠访问服务器,以及服务器能够快速可靠响应客