《AICon北京2025-清程极智汤雄超-多平台大模型量化推理.pdf》由会员分享,可在线阅读,更多相关《AICon北京2025-清程极智汤雄超-多平台大模型量化推理.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、面向多种算力平台的面向多种算力平台的大模型量化推理优化技术大模型量化推理优化技术演讲人:汤雄超 博士演讲人简介汤雄超汤雄超 博士博士本科和博士毕业于清华大学计算机科学与技术系。长期在工业界从事研发工作,目前担任清程极智公司首席执行官。主要研究领域为并行计算的性能优化,例如高性能的大模型训练和推理部署软件等。发表ASPLOS、SC、PPoPP、TPDS等CCF-A类论文十余篇,申请发明专利20余项,获得ACM中国SIGHPC优博奖,ACM戈登贝尔入围奖、深圳市高层次专业人才等荣誉。关于清程极智公司关于清程极智公司源自清华大学计算机系,2023年成立,致力于实现高效、普惠的人工智能。业务聚焦于智能
2、算力基础设施,主要产品包括爱评 AI Ping大模型服务评测与API调用平台、赤兔 Chitu大模型推理部署解决方案、八卦炉 Bagualu智能计算软件栈等。持续服务芯片企业、智算中心、大模型企业、AI应用企业等人工智能领域客户。目录目录01020304低精度算力正在成为AI算力主流好的量化算法可以保持模型能力高速量化推理需要贴合硬件架构异构算力平台量化推理解决方案01大部分大部分AIAI算力都将是低精度算力算力都将是低精度算力为什么需要低精度数据类型和低精度算力为什么需要低精度数据类型和低精度算力图片来源:NVIDIA 网站随着摩尔定律失速,芯片设计依赖低精度算力提高性能和降低功耗随着大模型
3、体积增长,模型推理依赖低精度数据类型加速访存和计算,缩短推理时间低精度浮点数与低精度整数的取舍低精度浮点数与低精度整数的取舍图片来源:https:/arxiv.org/pdf/2510.25602,Mengzhao Chen等行业研究显示,低精度浮点数在大多数情况下能够比低精度整数更好地近似大模型的权重参数与此同时,整数计算比浮点数计算更易实现,功耗也更低低精度浮点数算力正在获得主导地位低精度浮点数算力正在获得主导地位01234567A100H100B200B300不同精度的相对算力(以BF16为基准)BF16FP8FP4INT8INT402好的量化算法可以保持模型能力好的量化算法可以保持模型
4、能力低精度类型算得快,但可能损害模型能力低精度类型算得快,但可能损害模型能力资料来源:https:/arxiv.org/html/2505.02390v1,Enbo Zhao 等0.90.90.920.920.940.940.960.960.980.981 1AIME2024AIME2024MATH500MATH500GPQAGPQALiveCodeBenchLiveCodeBenchMMLUMMLUDeepSeekDeepSeek-R1 R1 能力测试得分(以官方版为基准)能力测试得分(以官方版为基准)FP8(reported)FP8(reported)INT4(Q4_K_M)INT4(Q4
5、_K_M)退一步海阔天空?退一步海阔天空?WxAy WxAy 的纠结的纠结 模型量化将张量从高精度数值表示转换为低精度数值表示,减少比特位数 模型量化分类仅权重量化仅权重量化(W4A16、W4A8):减少模型体积,使用高精度计算单元(访存加速、保持模型能力)(访存加速、保持模型能力)权重权重-激活联合量化激活联合量化(W8A8、W4A4):充分利用高吞吐的低精度计算单元(访存和计算都加速、模型能力受损)(访存和计算都加速、模型能力受损)0.01.20.00.40.7-1.9-1.6-0.42.4-1.2-2.80.00.4模型权重(BF16)缩放因子(FP32)=03012-5-4-16-3-
6、70量化权重(INT4)混合精度量化,简单的想法与复杂的现实混合精度量化,简单的想法与复杂的现实优势优势几乎没有精度损失节省显存用量(模型大小减少两倍)不足不足实现高效的混合精度算子面临挑战混合精度推理库:Bitsandbytes出现出现 1%1%高精度计算会导致高精度计算会导致 70%70%的性能下降的性能下降48163264128256512102420480100200300400500混精计算混精计算 准确率准确率=99%INT8 计算计算 准确率准确率=60%1%的高精度计算的高精度计算性能下降性能下降70%!395 TFLOPs233 TFLOPsTFLOPs批处理大小 FP16