唐家声-实现多模态生成“极致”加速的算法与系统挑战.pdf

上传人： Fl****zo

编号：724336

2025-07-01

PDF 47页 6.73MB

《唐家声-实现多模态生成“极致”加速的算法与系统挑战.pdf》由会员分享，可在线阅读，更多相关《唐家声-实现多模态生成“极致”加速的算法与系统挑战.pdf（47页珍藏版）》请在三个皮匠报告上搜索。

1、演讲人：唐家声Diffusion Transformer(DiT)在视觉生成中因其卓越效果占主要地位DiT 在实际应用中面临推理效率低下的重要挑战 010203040506问题背景问题背景算法设计算法设计系统优化总结与展望01图源：https:/ Cache类步数蒸馏、一致性模型高效采样器模型剪枝Token压缩/合并低精度多卡并行高效Attention自适应的动态推理DyDiTRAPID302部分 timestep，大、小模型的去噪损失差别很小单一大网络存在结构上的冗余不同空间位置的生成难度不同网络在不同空间位置存在冗余计算 86B/12W 12B 18s 250W FLUXDyDiT:动态模

2、型方案RAPID3:基于 RL 的加速策略 ICLR-2025逐时间步动态网络宽度(Timestep-wise Dynamic Width)空间动态token跳过机制(Spatial-wise Dynamic Token)转化为二值掩码，用于离散决策方法-结构方法-训练结果-DiT 系列结果-可视化图像不同区域的动态计算分配不同时间步的动态网络宽度结果-DiT 系列DyDiT+与 Cache 类方法兼容支持 LoRA 训练DyDiT+DyFLUX 文生图自适应的动态推理DyDiTDyDiT IIRAPID303 用尽量少的开销，获得动态推理的能力方法-结构方法-训练评测模型输出（生成质量指标

3、）判别器输出（与静态原模型输出一致的 likelihood）衰减系数，鼓励更小的方法-训练结果-基于 SD3/FLUX，与单一加速策略比较更优的效率-质量trade-off结果-基于 FLUX，与动态模型比较结果-基于 FLUX，可视化不同图像、不同时间步的动态策略模型Forward扩散步数系统层面加速ABC Cache类步数蒸馏、一致性模型高效采样器模型剪枝Token压缩/合并低精度多卡并行高效AttentionTokenKernel模型单步计算系统层面扩散步数高效的Kernel设计FPS Attention04(2)(2)02,0004,0006,0008,00010,0000%20%4

4、0%60%80%100%281632TFLOPs占比Attention计算占比AttentionFLOPs STA+（Per Tensor）FP8FPS Attention直接结合FP8与稀疏化概览FPS Attention：硬件友好的粒度、对齐的训练，速度7x DequantFA Flash Attention（QK）粒度设计S=Joint quantization and sparsity error patterns across denoising stepsQK粒度与硬件友好V用Per Channel；P用Per Tensor量化基于FlexAttention，修改编译出来的Tri

5、ton Kernel 彩蛋：因为引入稀疏感知的训练，微调也可以加速30%General DyDiTtoken RAPID3RLscheduler、cache、sparse&FPS AttentionFlashAttention1.Zhao,W.,Han,Y.,Tang,J.,et al.(2024).Dynamic diffusion transformer.ICLR,2025.2.Zhao,W.,Han,Y.,Tang,J.,et al.DyDiT+:Dynamic Diffusion Transformers for Efficient Visual Generation.arXiv:2504.06803.3.Zhao,W.,Han,Y.,Tang,J.,et al.RAPID$3$:Tri-Level Reinforced Acceleration Policies for Diffusion Transformer.TBD4.FPSAttention:Training-Aware FP8 and Sparsity Co-Design for Fast Video Diffusion.arXiv:2506.04648.Codehttps:/ 带领团队在CVPR/ICCV/ECCV的竞赛多次获得第一名文章发表在多个顶级学术会

唐家声-实现多模态生成“极致”加速的算法与系统挑战.pdf

相关报告