中国移动:AIGC时代智算中心网络协议演进与思考(18页).pdf

编号:608489 PDF 18页 5.80MB 下载积分:VIP专享
下载报告请您先登录!

中国移动:AIGC时代智算中心网络协议演进与思考(18页).pdf

1、AIGC时代智算中心网络协议演进与思考中国移动 秦凤伟2023.112AI需求激增推动建设计算和网络基础设施随着算力需求的快速增长,AI基础设施建设不断布局,算与网成为AI算力的两大重要基础设施ChatGPT引爆AI,智算算力需求激增,参数量呈指数级迭代增长推动计算与网络基础设施建设不断布局算力需求激增,GPU是重中之重AI芯片市场规模不断扩大,较2022年,2026年AI芯片规模提升4倍,GPU市场已是红海智能计算需求持续激增算网基础设施不断布局来源:IDC,2022AI基础设施算为核心网为根基GPU市场规模提升,对网络设备需求激增,网络发展前景极为明朗来源:Frost&Sullivan,中

2、商产业研究院.来源:中商产业研究院,安信证券研究中心我国智算增长迅速,较2019年,2023年算力规模提升14倍,预测未来仍会大幅度的增长ChatGPT驱动AI大模型训练进入爆发期,参数量指数级增长,AI智能算力增速远超摩尔定律3面向大模型训练,网络成为AI算力瓶颈AI大模型以GPU集群分布式训练为基础,带来大量节点间通信消耗,网络成为AI算力“瓶颈”当前业界主流智算中心网络技术被国外厂商垄断,网络芯片存在代际差距,网络可能成为我国AI发展的“新卡点”网络性能决定GPU集群算力加速比集群有效算力GPU单卡算力*总卡数*线性加速比*有效运行时网络可用性决定GPU集群稳定性2%的丢包就会使RDMA

3、吞吐率下降为0GPU集群性能 单GPU性能*N网络设备能力决定GPU集群组网规模芯片容量提升2倍,组网规模提高4倍随着GPU单卡算力进一步受限,获得同等算力的难度持续增加,以网强算是支撑为未来大模型训练的关键4传统DC与智算中心流量模型区别单个流量:数量多、带宽小、异步累积流量:抖动幅度较小,具有随机性单个流量:数量少、带宽大、同步累积流量:波峰、波谷效应明显,具有周期性单个流量累积流量单个流量累积流量传统DC流量模型智算中心大模型(All-to-all)流量模型GPU停工等待其他GPU完成工作5IB与RoCE是目前业界主流高性能网络协议InfiniBand与RoCE是由IBTA提出的两种主流

4、面向RDMA提供高性能交换能力的传输协议,前者从硬件级别保证网络低时延、高吞吐,后者是将RDMA应用到以太网,依赖PFC等协议实现无损,两者在路由机制、转发机制、算网能力等方面存在差异IB 传输层IB 网络层IB 链路层IB 传输层IB 网络层以太链路层IB 传输层网络层以太链路层UDPInfinibandRoCE v1RoCE v2RDMA软件栈Infiniband:1999年IBTA提出,第一代RDMA技术,交换机、网卡、光模块、光纤都是专用产品,专用无损网络,全球独家,和以太网不能互通,采购及维护成本高RoCE:2010年IBTA提出,本质为网卡侧封装技术,不涉及网络侧技术,网络无损能力

5、依赖网络设备与网卡实现,产业开放,组网规模和转发性能较差 存储转发,缓存时延大 需借助PFC、DCQCN协议实现端到端流控 直通转发,静态时延低 协议本身支持端到端流控管控机制不同,路由算法存在差异 个体算路相互独立 只看最短路径,易出现端口拥塞,故障触发倒换转发机制不同,网络性能存在差异 集中算路统一下发 结合端口拥塞+SPF,选择最优路径vsIBvsRoCE查表转发IB缓存校验查表RoCE6当前RoCE网络存在诸多问题,不适应大AI模型部署有效通信带宽网卡/交换机组网物理带宽任务同步产生“多打一”流量,拥塞导致时延、抖动增加方向:对每条流的多个数据包逐个进行负载分担,实现单流在全路径“喷洒

6、”,提升有效带宽,更好应对突发流量 问题:传统以太网源端发流不关注网络情况及目的端接受能力,直接向网络“推”流,AI训练过程存在多打一流量,导致网络产生拥塞或丢包;通知源端降速或重传,导致GPUGPU空闲,算力损失 问题:AI训练的流特征是流数量少但单流带宽大,传统流级负载均衡极易造成多个流哈希到同一条链路,造成部分链路拥塞,部分空闲,网络利用率低,无法应对突发的网络流量现有以太网协议基础转发和调度机制,在AI模型训练场景存在天然缺陷,单纯优化上层网络协议无法解决,需对底层转发和调度机制进行革新,并推动网络芯片底层逻辑架构支持,突破无损以太性能瓶颈In-cast流量方向:源端向目的端“请求”发

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(中国移动:AIGC时代智算中心网络协议演进与思考(18页).pdf)为本站 (AG) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠