1、请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告|2022024 4年年5 5月月5 5日日新型智算中心改造系列报告新型智算中心改造系列报告一:一:网络成大模型训练瓶颈,节点内外多方案网络成大模型训练瓶颈,节点内外多方案并存并存行业行业研究研究 行业专题行业专题 计算机计算机 人工智能人工智能投资评级:投资评级:超配(维持评级)超配(维持评级)证券分析师:熊莉021-S0980519030002联系人:艾宪0755-请务必阅读正文之后的免责声明及其项下所有内容摘要摘要AIAI大模型训练和推理拉动智能算力需求快速增长。大模型训练和推理拉动智能算力需求快速增长。a a)模型迭代
2、和数量增长拉动)模型迭代和数量增长拉动AIAI算力需求增长:算力需求增长:从单个模型来看,模型能力持续提升依赖于更大的训练数据量和模型参数量,对应更高的算力需求;从模型的数量来看,模型种类多样化(文生图、文生视频)和各厂商自主模型的研发,均推动算力需求的增长。b b)未来)未来AIAI应用爆发,推理侧算力需求快速增长:应用爆发,推理侧算力需求快速增长:各厂商基于AI大模型开发各类AI应用,随着AI应用用户数量爆发,对应推理侧算力需求快速增长。智算中心从集群走向超级池化智算中心从集群走向超级池化。智算中心是以GPU、AI加速卡等智能算力为核心,集约化建设的新型数据中心;随着大模型普遍进入万亿规模
3、,算力、显存、互联需求再次升级,高速互联的百卡“超级服务器”可能成为新的设备形态,智算中心将走向超级池化阶段,对设备形态、互联方案、存储、平台、散热等维度提出新的要求。网络互联:节点内外多方案并存网络互联:节点内外多方案并存。1 1)节点内)节点内:私有方案以英伟达NVLink为代表,NVLink已经发展至第五代产品,同时支持576个GPU之间的无缝高速通信;开放技术方案以OAM和UBB为主,OCP组织定义了业内通用的AI扣卡模组形态(OAM)-基板拓扑结构(UBB)设计规范。2 2)节点间)节点间:主要方案为Infiniband和RoCEv2;Infiniband网络主要包括InfiniBa
4、nd网卡、InfiniBand交换机、Subnet Management(SM)、连接件组成;RoCEv2网络是一个纯分布式的网络,由支持RoCEv2的网卡和交换机、连接件、流控机制组成。InfiniBand在网络性能、集群规模、运维等方面具备显著优势。投资建议投资建议:AI大模型的参数量和训练数据量的快速增长,对数据中心的计算、存储、网络等提出新的要求,新型智算中心是产业发展趋势;AI大模型需要部署在高速互联的多个AI芯片上,数据样本和模型结构被切分到多张卡或者节点上,卡间或节点间不仅有训练数据通信,还有模型梯度的频繁传递,对智算中心的网络互联提出新的要求,建议关注宝信软件。风险提示风险提示
5、:宏观经济波动、下游需求不及预期、AI伦理风险等。9WbUbZbZfYaVaYbZ6McM7NtRpPpNrNeRoOqNkPqQzR8OmMzQxNtQmPwMnQmM请务必阅读正文之后的免责声明及其项下所有内容智算中心:从集群走向超级池化0101网络互联:节点内外多方案并存0202目录目录投资建议及风险提示0303请务必阅读正文之后的免责声明及其项下所有内容智能算力需求:训练数据量智能算力需求:训练数据量+参数量大幅提升,模型能力参数量大幅提升,模型能力“涌现涌现”训练数据量训练数据量+参数量大幅提升,模型能力参数量大幅提升,模型能力“涌现涌现”。根据2022年谷歌、斯坦福大学和Deepm
6、ind联合发表的Emergent Abilities of Large Language Models,很多新能力在中小模型上线性放大都得不到线性的增长,模型规模必须呈指数级增长并超过某个临界点,新技能才会突飞猛进。同时,模型的参数量和数据量在一定程度下是正相关的,因为:a)在小规模数据上训练模型时,若模型参数量过大,可能出现过拟合情况;b)在大规模数据上训练模型时,若不增加模型参数量,可能造成新的知识无法存放的情况。图1:训练数据大幅提升后,模型能力“涌现”资料来源:Jason Wei等著-Emergent Abilities of Large Language Models-Transac