1、算网一体及其网络技术问题探索孙滔中国移动研究院2023.10目 录算力网络及算网一体01几个网络问题探索02智算DSN展望032常规内容页标题 微软雅黑 30号字算力网络迎接智算时代我国数据中心规模近五年年均增速达到近30%;截至2023年8月,我国在用标准机架超过760万架,算力总规模达197EFLOPS,位居全球第二(工信部 2023.10 世界5G大会)中国移动对外可用IDC机架47.8万架,累计投产算力服务器超80.4万台,算力规模达到9.4EFlops(半年报2023.8)2022年2月,“东数西算”工程正式全面启动,8个国家算力枢纽节点,规划10个国家数据中心集群算力网络从未来网络
2、的技术名词成为产业发展的旗帜,3端侧算力20ms骨干时延圈枢纽算力省级/区域算力城市边缘算力枢纽算力5m省域时延圈1ms地市时延圈打造“1-5-20ms”三级算力时延圈连续两年财报公布算力规模中国移动呼和浩特智算中心,总能力将达到5.8EFLOPS,万片级AI加速芯片单位/EFLOPS2022年报2023半年报89.4建设亚洲最大单体智算中心哪些“东数”要“西算”?4是否存在一个量化的指标,来指导“东数西算”仍然是待研究的问题数据传输时延不敏感 短视频、电子游戏、网络即时通信等时延敏感应用,异地计算无法保障用户体验。数据交互不频繁西部东部 HPC天气预报等计算过程中不需要频繁交互的应用,可以异
3、地计算。当前,大模型训练往往是同一数据中心内跨框跨机架训练,不会涉及跨数据中心联合训练大模型训练方式大模型训练通信需求 训练过程中的数据同步延迟可能导致整体训练流程停滞 模型规模扩大造成通信量剧烈增长,需提供充足的网络带宽例如,在100Gbps网络下,在16 GPU之间执行128MB AllReduce需要至少消耗5ms;数据量进一步增加,理论传输时间会等比例上升。中电联中国电力行业年度发展报告2023报告显示2022年全国电力传输线损率4.82%量化指标 东数西算协同调度,需要考虑多种因素,如业务需求、时延、成本、能效等。F=A1Delay+A2Cost+A3Energy+.张量并行:将单个
4、数学运算拆分到不同的 GPU 上运行 流水线并行:在不同 GPU 上运行模型的不同层 数据并行:在不同 GPU 上运行不同的 batch data1 Jaeyong Song,Jinkyu Yim,Jaewon Jung,Hongsun Jang,Hyung-Jin Kim,Youngsok Kim,Jinho Lee,2023,Optimus-CC:Efficient Large NLP Model Training with 3D Parallelism Aware Communication Compression,https:/arxiv.org/pdf/2301.09830.pdf端
5、、边、云协同主要包括资源层面和服务层面的协同,不同协同模式在实际应用时均会面临挑战端边云协同是工程领域的难题5协同调度需要获取端、边、云的状态信息,跨域、跨主体信息获取难度大需找到开销和性能提升的平衡点,目标场景仍需明确协同带来了性能提升的同时也引入了额外的开销等,需进一步量化分析开销,寻求性能提升和开销的均衡点需仔细论证现有研究假设,如端侧、边侧资源不足需要协同或云侧提供服务无法满足时延需求等问题在现网中的实际情况,避免“为了协同而协同”,需继续明确协同场景服务协同需要改动已有服务支持服务分解,但服务改动驱动力不足对网络提出了新的需求,网络需增强服务能力同一个服务分散部署在端、边、云不同位置
6、的服务流量特点不同,需提供差异化的网络服务协同拉长了服务提供环节,任一个环节的状态变化都需要网络灵活反应,对网、端、边、云的融合与协同提出新需求,保障服务一致性和稳定性;且有隐私性和安全性问题协同将单个服务分解为多个子服务分散部署,对服务提出新需求缺乏协同对服务性能提升的有效量化机制,服务侧改动现有机制的驱动力不足需均衡考虑协同各参与方的目标诉求,在提升性能的同时均衡各方诉求,以驱动服务协同端、边、云分属不同信息域,信息域内存在不同资源供给主体打破不同信息域的信息边界缺乏需求驱动,缺乏实际机制屏蔽差异性统一获取状态信息如即便在云计算信息域内,存在多家大中型云计算提供商,且信息不互通,难以实现跨