当前位置:首页 > 报告详情

AI织物流体工程和平衡方案分析.pdf

上传人: 明**** 编号:1011580 2025-12-21 20页 3.25MB

1、Analysis of Flow engineering and Load Balancing Options on AI FabricsKamini SanthanagopalanProduct Management,BroadcomDanny Hanson(CCIE#4482)Product Management,SupermicroAnalysis of Flow engineering and Load Balancing Options on AI FabricsDanny Hanson(CCIE#4482),Product Management,SupermicroKamini S

2、anthanagopalan,Product Management,BroadcomOCP SPECIAL FOCUS:ARTIFICIAL INTELLIGENCE(AI)AI Cluster Network AttachFocus for TodayUse Case:Backend GPU Fabrics for AI/ML workloadsTarget Deployments:Backend Fabric for AI ethernet fabrics Key BenefitsSolution:oAI training GPU clusters using TH4 or TH5 for

3、 scale-out fabricsFeatures:oROCEv2oECMP Enhancements(various hashing mechanisms,CLI configurability)oDynamic Load Balancing(DLB)oCut-thru switchingSimple and Cost effectiveoSimple 2 stage fabricsoSupports Any-rail architecture(Rail-only,Multi-rail,non-Rail)oNo proprietary technology,all EthernetoHig

4、h radix Merchant silicon switchesoODM/ODM hardware oNo vendor lock-inSpine-1Spine-32Leaf-1Leaf-8Leaf-56Leaf-64GPU ServerNetworking SwitchSoftwareThor 2400GTomahawk5Atlas Example Deployment:Building a 2048 GPU Cluster for AI TrainingWhat Makes AI Networking Unique?GPU to GPU Communication Drives High

5、 Bandwidth UtilizationHigh bandwidth flowsFewer flows,but Elephant flowsRDMA dominant trafficSynchronized and bursty trafficLink Saturation happens in micro-secondsTraining jobs run for long periods of timeTail Latency impacts JCTComputeSynchronizeCommunicateNon-Rail Optimized(for cabling optimizati

6、on)Network Flows:Topology Optimization Rail Optimized(for traffic optimization)Rail Only(for switch optimization)Typical 2 Tier and 3 Tier FabricsRack Optimized 2 TierRack Optimized 3 TierIn Traditional Data Center FabricLeaf-A1Leaf-B1Spine-S1Spine-S2Spine-S8Leaf-A2Leaf-B2H1H2Hn.HxH1H2Hn.HxA1D2D1W1A

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,全文主要分析了AI集群网络中的流量工程和负载均衡选项。以下是关键点: 1. **目标部署**:AI以太网后端 fabrics,用于AI/ML工作负载。 2. **关键特性**: - ROCEv2和ECMP增强(多种哈希机制,CLI可配置性)。 - 动态负载均衡(DLB)。 - Cut-thru switching。 - 简单且成本效益高。 - 支持2阶段 fabrics,任何-rail 架构(Rail-only,Multi-rail,non-Rail)。 - 无专有技术,全以太网。 - 高基数商用的硅芯片交换机。 - ODM/ODM 硬件,无供应商锁定。 3. **AI网络独特性**: - GPU到GPU通信驱动高带宽利用率。 - 需要更好的负载均衡。 4. **负载均衡**: - Broadcom的DLB/ARS使用路径质量指标选择最佳路径。 - 提供快速恢复,当任何链路失败时。 - 两种DLB模式:Packet spray和Flowlet。 5. **行业方向**: - 以太网用于扩展(ESUN)。 - 超以太网传输。 - 标准化工作,如ARS SAI规范和Ultra Ethernet Consortium活动。
如何优化带宽利用?** AI网络如何应对高流量?** 以太网升级之路在何方?**
客服
商务合作
小程序
服务号
折叠