1、中国移动中国移动智算中心网络技术实践与思考智算中心网络技术实践与思考姓名:姓名:王瑞雪王瑞雪中国移动中国移动目录目录一、一、中国移动中国移动NICCNICC技术体系技术体系二、智算中心网络二、智算中心网络面临的挑战面临的挑战三、智算中心网络创新实践三、智算中心网络创新实践四、总结与展望四、总结与展望智算中心背景与需求智算中心背景与需求AIGCAIGC(AI-Generated Content,人工智能生产内容)发展迅猛,迭代速度呈现指数级增长指数级增长,全球范围内经济价值预计将达到数万亿美元,智能算力将成为未来智能算力将成为未来主流主流算力算力国内市场规模国内市场规模20002000亿元亿元(
2、2025年)大模型参数量大模型参数量千亿、万亿级千亿、万亿级GPUGPU算力规模算力规模10000+10000+卡卡 新型智算中心以高性能GPU、AI加速卡为中心,以高速互联智算集群为目标,形成集约化建设的E级超大规模算力基础设施,具备软硬件AI全栈环境,支撑AI大模型的高效训练和推理NICCNICC新型智算中心技术体系新型智算中心技术体系中国移动中国移动NICCNICC技术体系从技术体系从新互联、新算效、新存储、新平台、新节能新互联、新算效、新存储、新平台、新节能等五大方面进行系统性重构,等五大方面进行系统性重构,加快发展智能算力,构建标准统一、技术领先、软硬协同、兼容开放的加快发展智能算力
3、,构建标准统一、技术领先、软硬协同、兼容开放的新型智算中心技术体系新型智算中心技术体系新平台新平台-算力原生算力原生“芯合”算力原生平台,使能应用一次开发,跨架构迁移新互联新互联-高速互联计算总线高速互联计算总线构建智算芯片快速互联标准体系,提升卡间互联性能新存储新存储-内存池内存池构建统一内存池,实现一致性内存语义和空间寻址新互联新互联-全调度以太网全调度以太网GSEGSE无阻塞、高带宽、低时延网络,提升节点间的传输性能新算效新算效-DPUDPU与计算、网络、存储深度协同,助力算效提升。新节能新节能-冷板式液冷冷板式液冷聚焦液冷服务器和机柜的接口标准,优化运维管理能力NICCNICC新型智算
4、中心技术体系新型智算中心技术体系布局攻关创新技术推动智算发展布局攻关创新技术推动智算发展基础设施基础设施智算平台智算平台ROCmROCmCUDACUDACANNCANNTesnsorFlowTesnsorFlowPyTorchPyTorchPaddlePaddlePaddlePaddleDeepDeepSpeedSpeed文件文件对象对象块块GPUGPURoCERoCEGSEGSE液冷液冷高效供电高效供电机房配套机房配套冷却水系统冷却水系统应用使能应用使能.智智算算运运营营跨架构编译器跨架构编译器算力抽象运行时算力抽象运行时算力原生算力原生智智算算运运维维裸金属实例裸金属实例虚拟机实例虚拟机实
5、例容器实例容器实例DPUDPU 高速互联计算总线高速互联计算总线内存池内存池融合存储融合存储全局统一存储全局统一存储Hypervisor+Hypervisor+AIAI开发框架开发框架AI DSAAI DSA互联互联计算计算网络网络存储存储存储存储算算效效节能节能平台平台AIAI参数面通信特征参数面通信特征大模大模型的参数量呈指数增长态势,型的参数量呈指数增长态势,“大模型大模型”正走向正走向“超大模型超大模型”,基于数据并行、模型并行的基于数据并行、模型并行的分布式训练成为处理超大模型和超大数据集的有效手段分布式训练成为处理超大模型和超大数据集的有效手段服务器内Tensor并行(机内总线通信
6、)一组服务器内Pipeline并行(网络同轨通信)服务器间数据并行(网络同轨通信)GPU1 GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stage0GPU1 GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stage1GPU1 GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stageXData Parallel Rank0GPU1 GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stage0GPU1 GPU0GPU2GPU3GPU5GPU4GPU6GPU7Pipeline stage1