《AICon北京2025-龚睿昊.pdf》由会员分享,可在线阅读,更多相关《AICon北京2025-龚睿昊.pdf(57页珍藏版)》请在三个皮匠报告上搜索。
1、大模型推理系统与压缩优化:大模型推理系统与压缩优化:从算法到工具的工程实践从算法到工具的工程实践演讲人:目录目录010203040506背景介绍多模态发展趋势概览统一框架工具LightLLM语言和多模态理解LightX2V图片和视频生成LightCompress统一压缩工具模态走向融合与统一4单模态理解与生成能力持续上升,多模态呈现融合趋势图文理解视觉生成模态走向融合与统一5各模态对应模型结构、存算需求、参数规模和计算模式存在差异结构各异大小各异自回归结构顺序解码,token by token扩散过程顺序去噪,step by stepViTDiTTransformer硬件规格多样6延迟、吞吐、
2、成本多重约束下,模型与硬件间需要架起技术桥梁多种模态模型高效压缩部署工具7覆盖多种模态理解生成、高效低成本的端到端压缩推理系统LightLLMLightX2VLightTTSLightCompressLightKernel文/图/音频-文文/图/音频-图/视频文本-音频理解生成QuantizationSparsificationToken Reduction视觉与语言理解:LightLLM 架构特性8多进程异步架构+进程间多模态数据通信-高吞吐视觉与语言理解:LightLLM 算法创新9TokenAttention+输出Token量预测技术瓶颈负载变化大创新点提出了基于过去未来的请求调度方法T
3、okenAttention保证精细管理,过去未来调度保证精准调控长度不固定-资源难管理ASPLOS 2025Gong et al.,Past-Future Scheduler for LLM Serving under SLA Guarantees,ASPLOS 2025视觉与语言理解:LightLLM 算法创新10效果:2-3倍的goodput 提升数据测试时间点:2023年12月Gong et al.,Past-Future Scheduler for LLM Serving under SLA Guarantees,ASPLOS 2025视觉与语言理解:LightLLM 算法创新11LR
4、1文法+确定性下推自动机实现高效结构化解码瓶颈 结构化输出效率低创新点提出基于确定性下推自动机的约束解码方法基于LR1文法+确定性下推自动机消除运行时开销依赖树形栈,计算开销高Chen et al.,Pre3:Enabling Deterministic Pushdown Automata for Faster Structured LLM Generation,ACL 2025 Outstanding Paper(前0.8%)视觉与语言理解:LightLLM 算法创新12效果:相对XGrammar取得了最大百分之40的提升Evaluate batch decoding efficiencyL
5、eft:Llama3-8B,Middle:Llama2-70B,Right:DeepSeek-V2-Lite-Chat.Chen et al.,Pre3:Enabling Deterministic Pushdown Automata for Faster Structured LLM Generation,ACL 2025 Outstanding Paper(前0.8%)视觉与语言理解:LightLLM 工程创新13高度异步化的并行设计GPU推理和CPU前后处理异步化调度和模型推理异步化visualLLMvisual进程1进程2进程3多模态数据元信息shm读取多模态数据Embedding注册
6、锁页DMA读写Visual模块和LLM 模块异步化和高效通信视觉与语言理解:LightLLM 工程创新14Qwen3-VL-235B H200 八卡Qwen3-VL-8B 4090单卡效果:在多模态模型上优于vllm/sglang最多30%vllm/sglang版本截止 2025.12.19,测试数据集为miner-U数据集,并发32。视觉与语言理解:LightLLM 工程创新15混合注意力模型cache管理优化Token-level kv 和 linear buffer隔离管理,统一寻址混合注意力前缀树视觉与语言理解:LightLLM 工程创新16效果:领先vllm/sglang 百分之33