1、AI 数据中心网络建网参考报告编号 ODCC-2024-05009AIAI 数据中心网络建网数据中心网络建网参考报告参考报告2024.08 发布开放数据中心标准推进委员会AI 数据中心网络建网参考报告版权声明版权声明ODCC(开放数据中心委员会)发布的各项成果,受著作权法保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用 ODCC 成果中的文字或者观点的,应注明来源:“开放数据中心委员会 ODCC”。对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC 及有关单位将追究其法律责任,感谢各单位的配合与支持。AI 数据中心网络建网参考报告编写组项
2、目经理:项目经理:胡秀丽华为技术有限公司工作组长:工作组长:郭亮中国信息通信研究院贡献专家:贡献专家:侯延祥华为技术有限公司黄宏毅华为技术有限公司杨泽生华为技术有限公司王少鹏中国信息通信研究院温小振中国信息通信研究院李志勇中国移动集团有限公司李和松中兴通讯股份有限公司刘军篆芯半导体苏州有限公司成伟苏州盛科通信股份有限公司王俊杰苏州盛科通信股份有限公司刘利平中科驭数(北京)科技有限公司刘虹中移动信息技术有限公司冯汀中移动信息技术有限公司AI 数据中心网络建网参考报告目录目录一、AI 发展背景.1二、AI 发展对网络挑战.3(一)AI 大模型并行计算模式,催生超大容量网络.4(二)AI 处理器成本
3、高昂,要求减少网络时间,提升有效算力5(三)AI 大模型训练周期长,需要高可用健壮网络降低 MTBF7三、AI 数据中心网络建网.8(一)AI 网络总体架构.91.逻辑架构.92.物理架构.10(二)参数面网络.121.组网规模.122.通信效率.143.高可用性.17(三)样本面网络.18(四)业务面网络.19(五)管理面网络.20四、案例分享.21(一)互联网行业.21(二)运营商行业.22(三)金融行业.23AI 数据中心网络建网参考报告1AIAI 数据中心网络建网参考报告数据中心网络建网参考报告一、一、AIAI 发展背景发展背景随着 ChatGPT 引爆国内人工智能(AI,artifi
4、cial intelligence)市场,行业进入了生成式人工智能时代,将人工智能深度学习这波高潮推向了顶峰。当前,AI 训练模型正在从万千小模型走向百模千态的大模型时代,AI 技术在千行百业中呈现出百模千态的繁荣局面,同时也对网络提出了新的需求。在科技发展的浪潮中,AI 的发展由算法、算力和数据三个核心要素决定,算法可以看成是人工智能这艘巨舰的“舵”,而算力和数据则分别是推动人工智能发展的“发动机”和“石油”。算法:迈入万亿参数大模型时代,开启通用人工智能的大门算法:迈入万亿参数大模型时代,开启通用人工智能的大门过去 6 年里,AI 大语言模型参数量从 Transformer 的 6500
5、万,增长到 GPT4 的 1.8 万亿,模型规模增长超 2 万倍,如下图所示。图 1 大语言模型参数规模演进根据 AI 大模型的扩展定律(Scaling law),增大模型的参数规模、AI 数据中心网络建网参考报告2训练数据集,投入更多的算力,就能持续提升大模型性能。正是扩展定律和涌现能力,驱动着 AI 大模型规模的持续增大。随着 GPT4、盘古等万亿模型的发布,也正式标志着,AI 大模型进入了万亿模型时代。目前文本、音频、图像等单模态大语言模型已经相对成熟,大模型正加速朝着多模态模型的方向发展。从 Vision Transformer 的提出,再到 GPT4 的图文处理能力,多模态模型取得了
6、明显的进步。算力:单卡算力算力:单卡算力 2-3 年翻倍,算力集群规模从千卡走向万卡年翻倍,算力集群规模从千卡走向万卡AI 模型参数量的持续增大带来算力需求的指数级增长,2012 年至 2019 年 AI 训练算力平均每 100 天翻倍。而 GPU 的单卡算力则需要 2-3 年增长一倍,由此可见,单卡算力的发展速度远远落后于模型发展的算力需求。近年来,随着各行各业都投入到 AI 大模型的研发中来,AI 智算的算力规模增长迅猛。据 IDC(International Data Corporation)预测,到 2023 年中国的智能算力规模将达到 427.0EFLOPS,超过通用算力规模,预计到