1、腾讯Angel助力生成式大模型高效落地混元大模型推理负责人刘凯2019-至今2013 2016 电磁场GPU加速2017 2019 深度学习通用推理引擎2016 2017 Angel-HCF&Angel-SNIP首个工业落地的INT4&稀疏化混元大模型推理方向负责人 PowerPC系统软件开发目录生成式AI技术之部署挑战解析Angel-HCF助力生成式AI部署优化Angel-SNIP助力生成式AI无损压缩Angel助力混元大模型大规模落地应用生成式AI技术之部署挑战解析快速增长的模型规模快速增长的模型规模缓慢增长的设备能力缓慢增长的设备能力 模型规模快速增长,12年提升1 1个量级个量级 随着
2、MoE结构的提出,模型整体参数量突破万亿突破万亿 23年开始模型窗口长度不断加大,各大公司逐步开放至百百KMKM级别级别3232404080808080808080809696V100V100A100-40GA100-40G A100-80GA100-80GA800A800H100H100H800H800H20H20训练训练GPUGPU显存容量(显存容量(GBGB)125125312312312312312312990990990990148148V100V100A100-40GA100-40G A100-80GA100-80GA800A800H100H100H800H800H20H20训练训
3、练GPUGPU计算能力(计算能力(TFLOPSTFLOPS)900900152015202039203920392039343034303430343040964096V100V100A100-40GA100-40G A100-80GA100-80GA800A800H100H100H800H800H20H20训练训练GPUGPU显存带宽(显存带宽(GBGB)161624242424484848484848T4T4A10A10A30A30L20L20L40L40L40SL40S推理推理GPUGPU显存容量(显存容量(GBGB)6565125125165165120120181181362362T
4、4T4A10A10A30A30L20L20L40L40L40SL40S推理推理GPUGPU计算能力(计算能力(TFLOPSTFLOPS)300300600600933933864864864864864864T4T4A10A10A30A30L20L20L40L40L40SL40S推理推理GPUGPU显存带宽(显存带宽(GBGB)越发严格的禁令越发严格的禁令 GPU显存增长缓慢,停滞停滞在100G以下 GPU计算能力1代增长3 3倍左右倍左右 显存带宽1代增长0.510.51倍倍 训练卡:A100、H100、A800、H800全面禁售全面禁售 推理卡:L40S、L40、A30全面禁售全面禁售 中
5、国特供:H20、L20算力大幅削减,仅保留大幅削减,仅保留2030%2030%如何使用更差的卡来优化大模型的训练和推理效率 在现有卡的基础上设计怎样的模型结构能在同等参数规模下获得更好的训练和推理性能 如何充分发挥国产芯片能力来打造国产大模型周期周期体量体量收益收益模型训练模型训练13月千级别学术、社会正收益经济负收益模型推理模型推理半年数年千万级别学术、社会正收益经济正收益支撑太极Angel研发模型压缩组件压缩组件SNIP+SNIP+推理部署加速组件推理部署加速组件HCFHCF,保障腾讯混元大模型高便捷、高性能、低成本的落地应用 太极太极Angel-HCF 太极太极Angel-SNIP An
6、gel-HCF之显存优化 Angel-HCF之计算优化 Angel-HCF之通信优化 Angel-HCF之调度优化Angel-HCF助力生成式AI部署优化 模型权重:固定大小,模型参数量*数据类型 激活空间:动态大小,输入规模*隐层规模GPU显存占用拆分 大模型热+禁令影响下,如何在更小的卡上部署大模型 大模型走向生产阶段,降低显存提升并发能有效降低成本 超长文火热的当下,如何缓解激活空间显存的凸显 KV-Cache:动态大小,输入输出规模*隐层规模*层数腾讯混元的解法分布式存储PrefillPagedAttention一阶段优化一阶段优化二阶段优化二阶段优化升级Buffer全共享量化压缩权重