1、跨集群训练(Region Scale AI)技术需求报告编号 ODCC-2024-05008跨集群训练跨集群训练(RegionRegion ScaleScale AIAI)技术需求报告技术需求报告2024.08 发布开放数据中心标准推进委员会跨集群训练(Region Scale AI)技术需求报告版权声明版权声明ODCC(开放数据中心委员会)发布的各项成果,受著作权法保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用 ODCC 成果中的文字或者观点的,应注明来源:“开放数据中心委员会 ODCC”。对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,O
2、DCC 及有关单位将追究其法律责任,感谢各单位的配合与支持。跨集群训练(Region Scale AI)技术需求报告编写组项目经理:项目经理:吕云屏华为技术有限公司工作组长:工作组长:郭亮中国信息通信研究院贡献专家:贡献专家:李映辉华为技术有限公司孙黎阳华为技术有限公司陈哲华为技术有限公司韩振兴华为技术有限公司吴美希中国信息通信研究院温小振中国信息通信研究院毛明旺北京三快在线科技有限公司方兴烽火通信科技股份有限公司邹素雯烽火通信科技股份有限公司陈进中科曙光李浩杰深圳恒扬数据股份有限公司何宗应博通蒋星思科科技(北京)有限公司李和松中兴通讯股份有限公司吕涛深圳云豹智能有限公司黄明达深圳大普微电子股
3、份有限公司王俊鹿深圳大普微电子股份有限公司成伟苏州盛科通信股份有限公司王俊杰苏州盛科通信股份有限公司董少杰中移动信息技术有限公司刘玲中移动信息技术有限公司跨集群训练(Region Scale AI)技术需求报告目录目录一、大模型发展迅猛,AI 集群规模日益扩大.1(一)ChatGPT 引发 AI 大模型浪潮.1(二)大模型需要大规模集群的支撑.3二、单集群训练在大模型时代面临挑战.4(一)单数据中心物理资源受限.4(二)单点算力资源碎片化.5三、Region ScaleAI 成为未来发展的新趋势.6(一)Region ScaleAI 的概念.6(二)业界研究给 Region ScaleAI 带
4、来启示.7四、Region ScaleAI 对计算与网络提出新的需求.11(一)从带宽无收敛组网到带宽有收敛组网.11(二)从短距离传输到长距离传输.121.传输时延的增加.132.网络拓扑变化带来负载均衡问题.133.拥塞管理机制的局限性.134.网络稳定性的挑战.14(三)从对称传输到不对称传输.141.训练卡数量的不均衡.152.训练卡能力的差异性.16五、Region ScaleAI 技术展望.17(一)基于算力感知的模型布放和算力调度.17跨集群训练(Region Scale AI)技术需求报告(二)跨域集合通信算子,完成数据并行过程.181.层次化集合通信,优化跨域通信.182.灵
5、活资源切片,恢复跨域传输对称性.193.异构集合通信,协同异构算力调度,提升集群线性度.19(三)高吞吐长距确定性传输.201.靶向流量控速,实现集合通信多流的平稳和同步.202.可靠拥塞检测,精准识别拥塞报文,从而做出正确的调整策略.213.快速拥塞感知,及时做出拥塞控制响应,避免拥塞导致性能下降.21六、总结.22跨集群训练(Region Scale AI)技术需求报告前言AI 模型的发展正在以惊人的速度推进,预计在未来五年内,其参数数量将达到数万亿级别。为了满足如此庞大的计算需求,AI 集群正在不断升级。然而,单一 AI 集群受到电力供应等物理因素的制约,无法实现无限扩展。同时,单一集群
6、在部署过程中面临碎片化问题,难以承载大规模的 AI 训练任务。为应对这些挑战,本文提出了Region ScaleAI 的概念。Region ScaleAI 指的是跨集群训练的模式,其目的是满足大规模AI 集群建设的需求,通过整合跨地理位置的计算资源(例如跨数据中心、跨可用区 AZ),将物理上分散的集群资源联合起来,形成一个虚拟的大规模计算集群,从而快速构建具有万卡乃至十万卡规模的训练能力。这种新的训练模式将成为未来 AI 训练的发展趋势。然而,Region ScaleAI 不仅仅是将多个集群网络连接起来那么简单。与单个集群训练相比,Region ScaleAI 面临着网络组网变化、传输距离变化