李虎_百度AI网络的架构创新与优化之路.pdf

编号:627146 PDF 22页 3.18MB 下载积分:VIP专享
下载报告请您先登录!

李虎_百度AI网络的架构创新与优化之路.pdf

1、李虎目录xAI-10万卡 2024.7 META-2.4万卡*2 2024.4 2025-2026 国内十万卡2023.3.16文心一言发布,万卡-ROCE集群2024交付10万卡+单集群最大3.2万2021年底交付 万卡-IB集群演进方向超大规模超大算力超大带宽ChatGpt-1万卡 2022.11 集群规模 3.2T超高带宽接入(8*400G)单集群支持10万卡+支持跨AZ RDMA训练性能 自适应路由,全局无损网络,零拥塞 多导轨架构稳定性 交换机PingMesh,获取AI集群的真实网络质量 超高精度Telemetry,10ms采集精度LELE123nGPULELELELELELESPS

2、PSPSP123nGPU6464拓扑1:LE层分导轨方案拓扑2:双平面方案拓扑3:分POD方案POD-1-4096卡POD-n-4096卡LELE1234GPULELELELELELESPSPSPSP1234GPU6464单集群最大规模:10万卡+多导轨方案512卡,同号卡单跳通信4096卡,AlltoAll通信控制2层网络内,适用MOE场景全自研交换机(12.8T/25.6T/51.2T)H800,单端口400G交换机128*400G2025102T交换机上线128*800G极致性能超高稳定性秒级监控/1分钟故障止损64*400G64*400G25.6T25.6T25.6T25.6T64*4

3、00G64*400G51.2T2024Q18K*400G 规模25.6T51.2T640台192台32,768400G光模块16,384400G光模块64*100G64*100G12.8T102T2025年H2新一代芯片红利 成本 电力/机柜 性能128*400G64*800G同一任务优先调度至相同UnitID的节点任务内各节点按照UnitID进行排序HPN网络架构感知GPU服务器节点所在的UnitID感知网络拓扑/调度原则:同TOR-同POD-同集群N1123NflowPkt1Pkt2Pkt3Pkt4N1123NGPUGPUGPUGPUN1123NGPUGPUECMP方案,传统方案 可基于E

4、CMP hash因子做优化逐包转发,依赖网卡AR能力逐流信元转发,交换机重装N1123NGPUGPU逐流转发,hash到某一条链路ECMPAdaptive RoutingDDCDisaggregated Distributed Chassis控制器方案Adaptive Routing相比于ECMP-8QP最大提升20%百度厂内2023年已默认部署all_reduceall_gatherbroadcastreducereduce_scatterAR和ECMP对比ARECMP 1QPECMP 8QP传统ECMP方案拥塞问题难以解决N1123NECMPflowPkt1Pkt2Pkt3Pkt4N112

5、3NAdaptive RoutingGPU1GPU2GPU1GPU2逐流转发,hash到某一条链路逐包hash,将某一条流,各个包hash到不同的链路,网卡侧做乱序重组乱序开启AR前开启AR后项目背景:网卡不支持AR功能解决HPN无法部署AR时,网络hash 冲突问题项目收益:集群训练性能提升2%-5%摆脱网卡AR技术绑定,引入低成本网卡512卡 llamma测试,ECN明显减少业务千卡训练优化5.3%交换机支持1s监控 多项采集数据 流量/队列/PFC/ECN/丢包/缓存等250ms监控10ms监控 端侧支持10ms 监控 自研交换机PingMesh能力,覆盖网络全部路径 将传统的服务器Pi

6、ngMesh能力,移植到交换机上 实现了100%可信(无噪点)、秒级感知、1分钟定位(网络质量完成自证)丢包1/10万实验局组网完整模型训练训练:长距仅承载DP流量Minibatch size=16开启DP overlap在增大BUFFSIZE下,100km的性能损失可以降低至3.12%.GAJL实验局组网:GPU服务器DCN TH5交换机DCI J2C+大buffer交换机城域DWDM光传输系统10-100km距离可切换光纤10km空芯光纤(提升30%NCCL性能)空芯光纤空芯光纤普通光纤普通光纤性能优化NCCL

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(李虎_百度AI网络的架构创新与优化之路.pdf)为本站 (山海) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠