当前位置:首页 > 报告详情

拥堵控制对教育部培训工作完成时间的影响的方法论和观察.pdf

上传人: 明**** 编号:1011860 2025-12-21 16页 2.58MB

1、1Methodology and Observation of Congestion Control Impact on MoE Training Job Completion TimeAlex BortokLead Product ManagerOCP Global Summit 20252AI Data Center Fabric Test MethodologyJob Completion Time Topologies Algorithms Data sizes RDMA message sizesPerformance Isolation Noisy neighbors Parall

2、el collectivesLoad Balancing ECMP hashing Traffic Engineering Q-Pair awareness Parallel Q-Pairs Dynamic Load BalancingCongestion Control PFC ECN/DCQCNKeysight,Issue 20243AI Training Job:2022-20233D Model PartitioningPipeline ParallelPipeline ParallelTensor ParallelAttentionFeed ForwardTensor Paralle

3、lAttentionFeed ForwardTensor ParallelAttentionFeed ForwardTensor ParallelAttentionFeed ForwardData ParallelAllReduce4AI Training Job:2024-2025Mixture of ExpertsPipeline ParallelPipeline ParallelTensor ParallelAttentionFeed ForwardTensor ParallelAttentionFeed ForwardTensor ParallelAttentionFeed Forwa

4、rdTensor ParallelAttentionFFN ExpertData ParallelAllReduceAlltoAll-vExpert 1Expert 25DP vs EP Collective Patterns DP:AllReduce One/two neighbors Small#of QPs Bandwidth per QP is concentratedEP:AlltoAll All neighbors Large#of QPs Bandwidth per QP is spread thinOpposites6Collective to QP MappingPer-QP

5、 Bandwidth0123456701234567AlltoAll BWAllReduce BWSource RanksDestination Ranks7Experiment SetupKAI Data Center Builder 4 x 12.8T switches 1 x 8x400GE AresONE 8 ranks x 400GE Fat Tree(Clos)1:1 PFC,ECN&DCQCN8Experiment 1.10 x AllReduceDCQCN=ONPFC Rx=0ECN-CE Rx=0FTC CDF9Experiment 2.10 x AlltoAllDCQCN=

6、ONPFC Rx=0ECN-CE Rx=80 to 800 per portFTC CDF10Experiment 3.10 x(AllReduce,AlltoAll)DCQCN=ONPFC Rx=0ECN-CE Rx=1K to 10K per portFTC CDFAllReduceAlltoAll11Experiment 3.10 x(AllReduce,AlltoAll)cont.DCQCN=ON12Options to improve performanceRemove congestion Rail-o

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,全文主要探讨了AI数据中心中网络拥塞对MoE训练作业完成时间的影响。以下是关键点: 1. **测试方法**:研究使用了多种拓扑、算法、数据大小和RDMA消息大小,以及性能隔离、负载均衡和拥塞控制技术。 2. **实验设置**:在KAI数据中心构建器上进行了实验,包括4个12.8T交换机和1个8x400GE AresONE交换机,使用Fat Tree拓扑,并启用了PFC、ECN和DCQCN。 3. **实验结果**: - 实验1和2展示了DCQCN开启时,不同实验条件下FTC CDF的变化。 - 实验3结合了AllReduce和AlltoAll,DCQCN开启时,FTC CDF在1K到10K per port范围内。 4. **性能优化**:提出了通过铁路优化、数据包喷洒、多路径、分离通信者、分离DSCP/流量类别、双斜率WRED和微调DCQCN等方法来提高性能。 5. **动态与静态ECN**:讨论了动态ECN的部署便利性和对网络动态的适应性,以及低ECN入口和NIC响应性。 6. **总结**:强调了需要行业标准的测试方法,并呼吁与Keysight合作定义这些标准。
"拓扑对AI训练速度有何影响?" "如何优化AI数据中心网络性能?" "动态ECN如何提升网络效率?"
客服
商务合作
小程序
服务号
折叠