唐家声-实现多模态生成“极致”加速的算法与系统挑战.pdf

编号:724336 PDF 47页 6.73MB 下载积分:VIP专享
下载报告请您先登录!

唐家声-实现多模态生成“极致”加速的算法与系统挑战.pdf

1、演讲人:唐家声Diffusion Transformer(DiT)在视觉生成中因其卓越效果占主要地位DiT 在实际应用中面临推理效率低下的重要挑战 010203040506问题背景问题背景算法设计算法设计系统优化总结与展望01图源:https:/ Cache类步数蒸馏、一致性模型高效采样器模型剪枝Token压缩/合并低精度多卡并行高效Attention自适应的动态推理DyDiTRAPID302部分 timestep,大、小模型的去噪损失差别很小单一大网络存在结构上的冗余不同空间位置的生成难度不同网络在不同空间位置存在冗余计算 86B/12W 12B 18s 250W FLUXDyDiT:动态模

2、型方案RAPID3:基于 RL 的加速策略 ICLR-2025逐时间步动态网络宽度(Timestep-wise Dynamic Width)空间动态token跳过机制(Spatial-wise Dynamic Token)转化为二值掩码,用于离散决策方法-结构 方法-训练结果-DiT 系列结果-可视化图像不同区域的动态计算分配不同时间步的动态网络宽度结果-DiT 系列DyDiT+与 Cache 类方法兼容支持 LoRA 训练DyDiT+DyFLUX 文生图自适应的动态推理DyDiTDyDiT IIRAPID303 用尽量少的开销,获得动态推理的能力方法-结构方法-训练评测模型输出(生成质量指标

3、)判别器输出(与静态原模型输出一致的 likelihood)衰减系数,鼓励更小的方法-训练结果-基于 SD3/FLUX,与单一加速策略比较 更优的效率-质量trade-off结果-基于 FLUX,与动态模型比较结果-基于 FLUX,可视化不同图像、不同时间步的动态策略模型Forward扩散步数系统层面加速ABC Cache类步数蒸馏、一致性模型高效采样器模型剪枝Token压缩/合并低精度多卡并行高效AttentionTokenKernel模型单步计算系统层面扩散步数高效的Kernel设计FPS Attention04(2)(2)02,0004,0006,0008,00010,0000%20%4

4、0%60%80%100%281632TFLOPs占比Attention计算占比AttentionFLOPs STA+(Per Tensor)FP8FPS Attention直接结合FP8与稀疏化概览FPS Attention:硬件友好的粒度、对齐的训练,速度7x DequantFA Flash Attention(QK)粒度设计S=Joint quantization and sparsity error patterns across denoising stepsQK粒度与硬件友好V用Per Channel;P用Per Tensor量化 基于FlexAttention,修改编译出来的Tri

5、ton Kernel 彩蛋:因为引入稀疏感知的训练,微调也可以加速30%General DyDiTtoken RAPID3RLscheduler、cache、sparse&FPS AttentionFlashAttention1.Zhao,W.,Han,Y.,Tang,J.,et al.(2024).Dynamic diffusion transformer.ICLR,2025.2.Zhao,W.,Han,Y.,Tang,J.,et al.DyDiT+:Dynamic Diffusion Transformers for Efficient Visual Generation.arXiv:2504.06803.3.Zhao,W.,Han,Y.,Tang,J.,et al.RAPID$3$:Tri-Level Reinforced Acceleration Policies for Diffusion Transformer.TBD4.FPSAttention:Training-Aware FP8 and Sparsity Co-Design for Fast Video Diffusion.arXiv:2506.04648.Codehttps:/ 带领团队在CVPR/ICCV/ECCV的竞赛多次获得第一名 文章发表在多个顶级学术会

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(唐家声-实现多模态生成“极致”加速的算法与系统挑战.pdf)为本站 (Flechazo) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠