当前位置:首页 > 报告详情

刘松伟-AIGC模型的量化和稀疏优化.pdf

上传人: 哆哆 编号:630899 2025-04-19 41页 13.46MB

1、刘松伟 字节跳动ByteNN团队高级工程师硕士毕业于浙江大学,研究领域聚焦深度学习算法的全栈优化,涵盖模型优化和N卡推理优化。在字节跳动ByteNN团队先后负责服务端稀疏加速/LLM推理优化能力建设,支持豆包视觉多模态大模型项目的推理优化。目前在ByteNN团队负责模型优化,致力于通过推理引擎和模型层面的协同优化,降低LLM/SD模型的云端推理成本,进一步推动AIGC模型的端侧落地。演讲主题:AIGC模型的量化和稀疏优化 AIGC端侧落地实践稀疏和量化优化刘松伟 字节跳动 ByteNN 高性能计算专家稀疏和量化优化AIGC优化介绍未来展望团队介绍ByteNN业务业务应用算法方向硬件落地产品.特

2、效视觉直播广告企业办公音乐游戏计算机视觉语音自然语言处理广告推荐操作系统多模态AndroidIOSMACWinLinuxARMX86NPU DSPMali/Adreno/PowerVR GPUIntel/AMD GPUNvidia GPUApple A Series GPUWebGPU移动端PC端服务端AIGC时代AIInfra挑战-有限的算力无限的需求大模型=大算力+大数据,AIGC模型相比传统CV/NLP模型,参数量由M级提升至B级,并仍在持续上升结结构构收收敛敛,规规模模膨膨胀胀,门门槛槛提提高高训训推推成成本本飙飙升升,端端侧侧落落地地困困难难端端云云算算力力增增长长滞滞后后需需求求增

3、增长长cited form Information is Beautiful全链路优化-系统性破解大模型算力问题算法训练模型优化多端推理优化 LLM模型优化全链路优化-系统性破解大模型算力问题 SD模型优化 LLM推理优化 SD推理优化量化稀疏缓存投机量化稀疏结构蒸馏步数蒸馏量化稀疏并行算子优化量化稀疏并行算子优化LLM访存密集型SD 计算密集型轻量化预训练模型-VAEPixelFilter 策略Replay Buffer 稳定训练Latent degradation 数据增强颜色蒙版降质渐进式剪枝训练策略优化结构优化Conv替代TransformerBlock轻量化预训练模型-VAE 端云分

4、级模模型型(Decoder)参参数数量量(M)计计算算量量(GMACs)FID速速度度(ms)加加速速SD1.549.490212403.597186.58-Small27.856983.416135.58 27.33%TAESD1.2270.676.80222.0988.17%Tiny1.2270.674.80222.0988.17%主观效果 速度收益模模型型(Decoder)参参数数量量(M)计计算算量量(GMACs)FID速速度度(ms)加加速速SDXL49.490212403.597801.73-Small27.856983.416611.78 23.7%TAESD1.22282.76

5、.39961.0792.38%Tiny1.22282.74.71061.0792.38%SDXL-VAE:https:/huggingface.co/cqyan/hybrid-sd-small-vae-xlSD1.5 VAE:https:/huggingface.co/cqyan/hybrid-sd-small-vae轻量化预训练模型-SD 训练策略优化 结构优化 数据工程模模型型(Decoder)参参数数量量(B)速速度度(ms)显显存存占占用用SDXL2.65146.8213SSD-1B1.2892.008KOLOA-1B1.16171.307Vega74062.335ByteNN-1B-

6、v1 1.2091.068ByteNN-1B-v21.16165.397ByteNN-700M78058.855 质量优于数量 美学评分初筛,人工辅筛 权衡不同Block的重要性多教师蒸馏RLHF轻量化预训练模型-SD 基模主观对比 下游任务对比AIGC单步超分,主观效果无损,推理速度提升2.4xSDXLSSDByteNN-1BSDXL vs SSD vs ByteNN-1B-v1SDXL vs KOLOA-1B vs ByteNN-1B-v2推理范式优化-HybridSD 核心观察 时空协同端云协同Hybrid SD:Edge-Cloud Collaborative Inference fo

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了字节跳动ByteNN团队高级工程师刘松伟在AIGC模型优化和推理加速方面的研究成果。刘松伟硕士毕业于浙江大学,研究领域聚焦深度学习算法的全栈优化,涵盖模型优化和N卡推理优化。他在ByteNN团队负责模型优化,通过推理引擎和模型层面的协同优化,降低LLM/SD模型的云端推理成本,推动AIGC模型的端侧落地。 关键点如下: 1. 刘松伟负责的服务端稀疏加速和LLM推理优化能力建设,支持豆包视觉多模态大模型项目的推理优化。 2. 他在ByteNN团队负责模型优化,致力于通过推理引擎和模型层面的协同优化,降低LLM/SD模型的云端推理成本。 3. 刘松伟提出了全链路优化方法,通过算法训练、模型优化和多端推理优化等手段,解决大模型算力问题。 4. 他研究了量化稀疏优化技术,通过量化稀疏结构蒸馏、并行算子优化等方法,提高AIGC模型的推理速度和效率。 5. 刘松伟还研究了稀疏加速技术,通过Self-Attention稀疏和GEMM稀疏等方法,缓解注意力计算的内存瓶颈,加速稀疏计算。 6. 他提出了ABQ-LLM任意位宽组合推理解决方案,基于BMMA重构量化矩阵乘,消除Decoding过程中的GEMV问题,实现高效计算流水和自动 kernel search。 7. 刘松伟的研究成果在多个领域取得了显著性能收益,如在EVA-VIT和FLUX模型上的稀疏加速实验,以及在LLM模型上的量化优化。 综上所述,刘松伟在AIGC模型优化和推理加速方面取得了重要研究成果,通过全链路优化、量化稀疏优化和稀疏加速等技术,有效降低了LLM/SD模型的云端推理成本,并推动了AIGC模型在端侧的落地。
"如何通过量化稀疏优化AIGC模型?" "AIGC模型量化和稀疏优化的未来展望是什么?" "在AIGC时代,如何解决有限的算力与无限需求之间的矛盾?"
客服
商务合作
小程序
服务号
折叠