当前位置:首页 > 报告详情

程稳-基于之江天目的大模型分布式并行训练软硬件协同优化技术介绍.pdf

上传人: 张** 编号:155742 2024-02-15 40页 9.59MB

1、基于之江天目的大模型分布式并行训练软硬件协同优化技术程稳2023年11月03日中国Lustre用户峰会(China LUG 2023),2023年11月3日,北京目录n背景及动机n构建之江天目面临挑战及关键技术n之江天目应用实践n总结2一、背景与动机4应用需求与现状627147635726598988413701182310845251973370155947412050001000015000200002016201720182019202020212022Training in Data CenterInference in Data CenterIDC的芯片市场规模预测(单位:亿美元)我

2、国每年的芯片进口已经超过了3000亿美元2021年英伟达GPU芯片占据国内人工智能服务器约95%的市场份额2022年英伟达GPU芯片占据国内人工智能服务器约85%的市场份额、华为市占率为10%,百度市占率为2%、寒武纪和燧原科技均为1%应用需求5能源需求模型训练的能源消耗和碳排放参数(单位/百万)能量消耗(千万时)碳足迹(二氧化碳当量/磅)云计算费用(美金/元)Transformer(1)65272641-140Transformer(2)213201192289-981ELMo-275262433-1,472BERT1101,5071,4383,751-12571Transformer+NA

3、S213656,347626,155942,973-3,201,722GPT-21,500-12,902-43,008训练一个大型人工智能模型所需的计算能力产生超过60万磅的二氧化碳排放,相当于普通汽车寿命周期排放量的五倍中国数据中心耗电量占全社会用电量比重(单位:亿千瓦时,%)82910001108125015001763203556393 5693359710636256940472852751101.50%1.80%1.90%2.00%2.20%2.42%2.71%0.00%0.50%1.00%1.50%2.00%2.50%3.00%010000200003000040000500006

4、000070000800002014201520162017201820192020数据中心耗电量全社会用电量数据中心耗电占比随着人工智能算力的逐步提升,数据中心的耗电量占全社会用电量比重不断攀升数据中心为训练AI模型产生的能耗将为常规云工作的三倍(Digital Information World)6能耗问题Amirali Boroumand,Saugata Ghose,Youngsok Kim,RachataAusavarungnirun,Eric Shiu,Rahul Thakur,Daehyun Kim,Aki Kuusela,Allan Knies,Parthasarathy Ran

5、ganathan,and OnurMutlu,Google Workloads for Consumer Devices:Mitigating Data Movement BottlenecksProceedings of the 23rd International Conference on Architectural Support for Programming Languages and Operating Systems(ASPLOS),Williamsburg,VA,USA,March 2018.62.7%of the total system energy is spent o

6、n data movement40%40%10%5%5%传统风冷数据中心用电分布IT EquipmentCoolingUPSLightningOthers自然冷源换热效率气流组织制程工艺持续优化,性能功耗比不断提升,但核心数量翻倍式增长带来功耗快速上涨内存带宽不断增长匹配算力增长需求,带来系统功耗进一步提升(内存通道:6812)(内存频率:32004800)7性能需求人工智能模型参数量增长情况ELMo(94M)BERT-Large(340M)GPT-2(1.5B)Megatron-LM(8.3B)T5(11B)Turing-NLG(17.2B)GPT-3(175B)Switch Transfo

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了之江天目的大模型分布式并行训练软硬件协同优化技术。之江天目面临的主要挑战包括高能效、千卡规模线性加速比和生态建设。为解决这些问题,之江天目采用了软硬件“全栈”协同优化的方法,包括芯片、网络拓扑及分布式规约算法的协同设计,高速互联架构,以及模型训练的优化。 之江天目支持了多种大模型,如Bert-Large、GPT2、ESM源1.0等,并实现了线性度可达0.95+的高速互联架构。此外,之江天目还实现了面向前向传播的offloading技术,显著提升了GPU与CPU的计算资源与存储资源的协同利用率。 之江天目还支持了多种AI框架,如PyTorch、TensorFlow和天枢框架,以及多种模型并行和流水并行方法。此外,之江天目还实现了内存优化、混精支持和算子支持。 之江天目还采用了液冷技术,包括冷板液冷和高速互联架构,以提高能效和线性加速比。 总的来说,之江天目通过软硬件协同优化,实现了高能效、高线性度、多租户低PUE的分布式并行加速,支持了大规模语言模型架构,如Megatron、DeepSpeed和FairScale,以及多种AI框架和模型训练优化方法。
之江天目如何实现高能效? 之江天目如何支持大模型训练? 之江天目如何实现软硬件协同优化?
客服
商务合作
小程序
服务号
折叠