刘松伟-AIGC模型的量化和稀疏优化.pdf-三个皮匠报告

1、刘松伟字节跳动ByteNN团队高级工程师硕士毕业于浙江大学，研究领域聚焦深度学习算法的全栈优化，涵盖模型优化和N卡推理优化。在字节跳动ByteNN团队先后负责服务端稀疏加速/LLM推理优化能力建设，支持豆包视觉多模态大模型项目的推理优化。目前在ByteNN团队负责模型优化，致力于通过推理引擎和模型层面的协同优化，降低LLM/SD模型的云端推理成本，进一步推动AIGC模型的端侧落地。演讲主题：AIGC模型的量化和稀疏优化 AIGC端侧落地实践稀疏和量化优化刘松伟字节跳动 ByteNN 高性能计算专家稀疏和量化优化AIGC优化介绍未来展望团队介绍ByteNN业务业务应用算法方向硬件落地产品.特

2、效视觉直播广告企业办公音乐游戏计算机视觉语音自然语言处理广告推荐操作系统多模态AndroidIOSMACWinLinuxARMX86NPU DSPMali/Adreno/PowerVR GPUIntel/AMD GPUNvidia GPUApple A Series GPUWebGPU移动端PC端服务端AIGC时代AIInfra挑战-有限的算力无限的需求大模型=大算力+大数据，AIGC模型相比传统CV/NLP模型，参数量由M级提升至B级，并仍在持续上升结结构构收收敛敛，规规模模膨膨胀胀，门门槛槛提提高高训训推推成成本本飙飙升升，端端侧侧落落地地困困难难端端云云算算力力增增长长滞滞后后需需求求增

3、增长长cited form Information is Beautiful全链路优化-系统性破解大模型算力问题算法训练模型优化多端推理优化 LLM模型优化全链路优化-系统性破解大模型算力问题 SD模型优化 LLM推理优化 SD推理优化量化稀疏缓存投机量化稀疏结构蒸馏步数蒸馏量化稀疏并行算子优化量化稀疏并行算子优化LLM访存密集型SD 计算密集型轻量化预训练模型-VAEPixelFilter 策略Replay Buffer 稳定训练Latent degradation 数据增强颜色蒙版降质渐进式剪枝训练策略优化结构优化Conv替代TransformerBlock轻量化预训练模型-VAE 端云分

4、级模模型型(Decoder)参参数数量量(M)计计算算量量(GMACs)FID速速度度(ms)加加速速SD1.549.490212403.597186.58-Small27.856983.416135.58 27.33%TAESD1.2270.676.80222.0988.17%Tiny1.2270.674.80222.0988.17%主观效果速度收益模模型型(Decoder)参参数数量量(M)计计算算量量(GMACs)FID速速度度(ms)加加速速SDXL49.490212403.597801.73-Small27.856983.416611.78 23.7%TAESD1.22282.76

5、.39961.0792.38%Tiny1.22282.74.71061.0792.38%SDXL-VAE:https:/huggingface.co/cqyan/hybrid-sd-small-vae-xlSD1.5 VAE:https:/huggingface.co/cqyan/hybrid-sd-small-vae轻量化预训练模型-SD 训练策略优化结构优化数据工程模模型型(Decoder)参参数数量量(B)速速度度(ms)显显存存占占用用SDXL2.65146.8213SSD-1B1.2892.008KOLOA-1B1.16171.307Vega74062.335ByteNN-1B-

6、v1 1.2091.068ByteNN-1B-v21.16165.397ByteNN-700M78058.855 质量优于数量美学评分初筛，人工辅筛权衡不同Block的重要性多教师蒸馏RLHF轻量化预训练模型-SD 基模主观对比下游任务对比AIGC单步超分，主观效果无损，推理速度提升2.4xSDXLSSDByteNN-1BSDXL vs SSD vs ByteNN-1B-v1SDXL vs KOLOA-1B vs ByteNN-1B-v2推理范式优化-HybridSD 核心观察时空协同端云协同Hybrid SD:Edge-Cloud Collaborative Inference fo

刘松伟-AIGC模型的量化和稀疏优化.pdf

相关报告