1、李虎目录xAI-10万卡 2024.7 META-2.4万卡*2 2024.4 2025-2026 国内十万卡2023.3.16文心一言发布,万卡-ROCE集群2024交付10万卡+单集群最大3.2万2021年底交付 万卡-IB集群演进方向超大规模超大算力超大带宽ChatGpt-1万卡 2022.11 集群规模 3.2T超高带宽接入(8*400G)单集群支持10万卡+支持跨AZ RDMA训练性能 自适应路由,全局无损网络,零拥塞 多导轨架构稳定性 交换机PingMesh,获取AI集群的真实网络质量 超高精度Telemetry,10ms采集精度LELE123nGPULELELELELELESPS
2、PSPSP123nGPU6464拓扑1:LE层分导轨方案拓扑2:双平面方案拓扑3:分POD方案POD-1-4096卡POD-n-4096卡LELE1234GPULELELELELELESPSPSPSP1234GPU6464单集群最大规模:10万卡+多导轨方案512卡,同号卡单跳通信4096卡,AlltoAll通信控制2层网络内,适用MOE场景全自研交换机(12.8T/25.6T/51.2T)H800,单端口400G交换机128*400G2025102T交换机上线128*800G极致性能超高稳定性秒级监控/1分钟故障止损64*400G64*400G25.6T25.6T25.6T25.6T64*4
3、00G64*400G51.2T2024Q18K*400G 规模25.6T51.2T640台192台32,768400G光模块16,384400G光模块64*100G64*100G12.8T102T2025年H2新一代芯片红利 成本 电力/机柜 性能128*400G64*800G同一任务优先调度至相同UnitID的节点任务内各节点按照UnitID进行排序HPN网络架构感知GPU服务器节点所在的UnitID感知网络拓扑/调度原则:同TOR-同POD-同集群N1123NflowPkt1Pkt2Pkt3Pkt4N1123NGPUGPUGPUGPUN1123NGPUGPUECMP方案,传统方案 可基于E
4、CMP hash因子做优化逐包转发,依赖网卡AR能力逐流信元转发,交换机重装N1123NGPUGPU逐流转发,hash到某一条链路ECMPAdaptive RoutingDDCDisaggregated Distributed Chassis控制器方案Adaptive Routing相比于ECMP-8QP最大提升20%百度厂内2023年已默认部署all_reduceall_gatherbroadcastreducereduce_scatterAR和ECMP对比ARECMP 1QPECMP 8QP传统ECMP方案拥塞问题难以解决N1123NECMPflowPkt1Pkt2Pkt3Pkt4N112
5、3NAdaptive RoutingGPU1GPU2GPU1GPU2逐流转发,hash到某一条链路逐包hash,将某一条流,各个包hash到不同的链路,网卡侧做乱序重组乱序开启AR前开启AR后项目背景:网卡不支持AR功能解决HPN无法部署AR时,网络hash 冲突问题项目收益:集群训练性能提升2%-5%摆脱网卡AR技术绑定,引入低成本网卡512卡 llamma测试,ECN明显减少业务千卡训练优化5.3%交换机支持1s监控 多项采集数据 流量/队列/PFC/ECN/丢包/缓存等250ms监控10ms监控 端侧支持10ms 监控 自研交换机PingMesh能力,覆盖网络全部路径 将传统的服务器Pi
6、ngMesh能力,移植到交换机上 实现了100%可信(无噪点)、秒级感知、1分钟定位(网络质量完成自证)丢包1/10万实验局组网完整模型训练训练:长距仅承载DP流量Minibatch size=16开启DP overlap在增大BUFFSIZE下,100km的性能损失可以降低至3.12%.GAJL实验局组网:GPU服务器DCN TH5交换机DCI J2C+大buffer交换机城域DWDM光传输系统10-100km距离可切换光纤10km空芯光纤(提升30%NCCL性能)空芯光纤空芯光纤普通光纤普通光纤性能优化NCCL