1、百度AI大底座大模型研发基础设施方案目录!#!#$%$%&()*+,-&()*+,-././*0$%!12)!#34*+,-56.7.7!#3489:;.!#?ABCD=.E.EFGHIJ=K.L.L算力是大模型核心驱动力,推进AI基础设施新范式演进Jared,et al.2020.ELMo(90M)!#$%&()*#+,-./(%.()*GPT-2(1.5B)#+,-0/(%&()*$1%.!*$234567+89%.:!*GPT-3(175B)ERNIE 3.0(10B)ERNIE 3.0 Titan(260B);4$%?887%./0!*CogView(4B)ERNIE-VILG(10B
2、)Plato-XL(11B)0.050.55505002017/8/142018/9/182019/10/232020/11/262021/12/31模型大小(十亿参数)(蓝色:语言模型;绿色:中文语言模型;橘色:多模态模型;黄色:视觉模型)模型参数演进Scaling Law三要素计算规模大GPT-3:314 ZFLOPS单卡A100训练需要32年模型参数大GPT-3:175B 参数350G+存储空间成本投入大GPT-3:数以亿计的训练和推理成本分布式架构us时代的万卡互联计算精度整体向低精度迁移,混合精度是常态存储瓶颈训练显存,推理服务,芯片存算比模型参数演进Scaling Law三要素以G
3、PT-3为例,1750亿参数模型、3000亿词语,计算量314ZFLOPS新摩尔定律大模型训练的核心需求关注点训练加速优化智算集群构建高性价比易用性异构算力万卡集群高速互联分布式训练高性能算子显存优化集群加速比算法收敛速度利用率提升多级存储弹性按需弹性容错一站式平台最佳实践百度AI大底座全景图百度AI大底座全景图!#$%&()*+,-./012,-34567#$89):;!#$%&()*+,-./0+,1234-.-56.789:97;9?34ABCDEFGHIJ#$34-.-56K:BD7D7LMN?OPGQRST?)FGUVW()*AXY-.78D7DOB7EZ6Y-34=(_-.abcd
4、efgh-.ijdeOYklmn-.ijdeoBpqXkrstuvwtu-.xyzRde百度AI大底座由AI IaaS层(百舸AI异构计算平台)、AI PaaS层(AI中台)两大部分组成?Suvw|vw|目录!#$%&()*+,+,-.-.&!/01!#23-456789:!/01!#23-456789:+;+;!#23?78+!#ABCDEF78+G+GHIJKL8M+N+N百度AI大底座-AI基础设施解决方案全景图最适合跑大模型的大规模、高性能AI基础设施最优的训练推理性能稳定性万卡模型训练不中断稳定收敛易用性一键跑通千亿大模型训练推理云原生AI套件云原生平台基础设施高性能计算(A100、
5、A800、昆仑)高性能存储(PFS、BOS、RapidFS)高速互联 网络(IB、RoCE)CCE(公有云)CCE-Stack(私有云)异构调度数据加速训练加速服务部署推理加速GPU架构感知Tor 架构感知Binpack调度Gang调度公共数据集公共模型库模型/数据预热高性能存储BF16 优化参数推荐CostModel通信overlap故障感知算力容错网络容错任务容错多卡部署灰度发布流量控制动态伸缩动态batch张量并行模型轻量化模型稀疏化百舸控制面计算产品配置存储产品配置网络产品配置云原生AI套件配置容器平台配置容错训练目录!#$%&()*+,+,-.&!/01!#23-45678+9+9!
6、#23:;?!#23:;?+!#ABCDEF?+G+GHIJKL?M+N+N大模型训练物理服务器介绍实例名称实例规格ehc.lgn5.c128m1024.8a800.8re.4dCPU:Intel Xeon Gold 8350C/32C 2.6GHz 240W*2内存:DDR4-3200 64G RDIMM*16磁盘:SATA-SSD 480G*1+NVMe-SSD 4T*4网卡:100G CX6 双口*4+100G 双口智能网卡*1其他:NVIDIA A800 80G NVLinkSW*8ehc.lgn5.c128m1024.8a100.8ib.4dCPU:Intel Xeon Gold 8