报告预览

李虎_百度AI网络的架构创新与优化之路.pdf

编号：627146

PDF 22页 3.18MB 下载积分：VIP专享

下载报告请您先登录！

李虎_百度AI网络的架构创新与优化之路.pdf

1、李虎目录xAI-10万卡 2024.7 META-2.4万卡*2 2024.4 2025-2026 国内十万卡2023.3.16文心一言发布，万卡-ROCE集群2024交付10万卡+单集群最大3.2万2021年底交付万卡-IB集群演进方向超大规模超大算力超大带宽ChatGpt-1万卡 2022.11 集群规模 3.2T超高带宽接入（8*400G）单集群支持10万卡+支持跨AZ RDMA训练性能自适应路由，全局无损网络，零拥塞多导轨架构稳定性交换机PingMesh，获取AI集群的真实网络质量超高精度Telemetry，10ms采集精度LELE123nGPULELELELELELESPS

2、PSPSP123nGPU6464拓扑1：LE层分导轨方案拓扑2：双平面方案拓扑3：分POD方案POD-1-4096卡POD-n-4096卡LELE1234GPULELELELELELESPSPSPSP1234GPU6464单集群最大规模：10万卡+多导轨方案512卡，同号卡单跳通信4096卡，AlltoAll通信控制2层网络内，适用MOE场景全自研交换机（12.8T/25.6T/51.2T）H800，单端口400G交换机128*400G2025102T交换机上线128*800G极致性能超高稳定性秒级监控/1分钟故障止损64*400G64*400G25.6T25.6T25.6T25.6T64*4

3、00G64*400G51.2T2024Q18K*400G 规模25.6T51.2T640台192台32,768400G光模块16,384400G光模块64*100G64*100G12.8T102T2025年H2新一代芯片红利成本电力/机柜性能128*400G64*800G同一任务优先调度至相同UnitID的节点任务内各节点按照UnitID进行排序HPN网络架构感知GPU服务器节点所在的UnitID感知网络拓扑/调度原则：同TOR-同POD-同集群N1123NflowPkt1Pkt2Pkt3Pkt4N1123NGPUGPUGPUGPUN1123NGPUGPUECMP方案，传统方案可基于E

4、CMP hash因子做优化逐包转发，依赖网卡AR能力逐流信元转发，交换机重装N1123NGPUGPU逐流转发，hash到某一条链路ECMPAdaptive RoutingDDCDisaggregated Distributed Chassis控制器方案Adaptive Routing相比于ECMP-8QP最大提升20%百度厂内2023年已默认部署all_reduceall_gatherbroadcastreducereduce_scatterAR和ECMP对比ARECMP 1QPECMP 8QP传统ECMP方案拥塞问题难以解决N1123NECMPflowPkt1Pkt2Pkt3Pkt4N112

5、3NAdaptive RoutingGPU1GPU2GPU1GPU2逐流转发，hash到某一条链路逐包hash，将某一条流，各个包hash到不同的链路，网卡侧做乱序重组乱序开启AR前开启AR后项目背景：网卡不支持AR功能解决HPN无法部署AR时，网络hash 冲突问题项目收益：集群训练性能提升2%-5%摆脱网卡AR技术绑定，引入低成本网卡512卡 llamma测试，ECN明显减少业务千卡训练优化5.3%交换机支持1s监控多项采集数据流量/队列/PFC/ECN/丢包/缓存等250ms监控10ms监控端侧支持10ms 监控自研交换机PingMesh能力，覆盖网络全部路径将传统的服务器Pi

6、ngMesh能力，移植到交换机上实现了100%可信(无噪点)、秒级感知、1分钟定位（网络质量完成自证）丢包1/10万实验局组网完整模型训练训练：长距仅承载DP流量Minibatch size=16开启DP overlap在增大BUFFSIZE下，100km的性能损失可以降低至3.12%.GAJL实验局组网：GPU服务器DCN TH5交换机DCI J2C+大buffer交换机城域DWDM光传输系统10-100km距离可切换光纤10km空芯光纤（提升30%NCCL性能）空芯光纤空芯光纤普通光纤普通光纤性能优化NCCL

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（李虎_百度AI网络的架构创新与优化之路.pdf）为本站（山海）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。