张文涛-以存代算加速推理实践_终稿.pdf

上传人： bu****ng

编号：1188828

2026-03-31

PDF 35页 2.41MB

《张文涛-以存代算加速推理实践_终稿.pdf》由会员分享，可在线阅读，更多相关《张文涛-以存代算加速推理实践_终稿.pdf（35页珍藏版）》请在三个皮匠报告上搜索。

1、破解模型推理成本难题 YRCache 以存代算加速实践张涛焱融科技CTO录0102KVCache 技术背景和挑战YRCache 多级缓存案03针对推理业务的加速实践效果04总结和未来展望01KVCache 的技术背景和挑战推理优化的两个核向模型压缩1将模型权重和激活值的计算精度从FP32/FP16降低INT8乃INT4，来降低内存占，减少数据带宽和提升计算速度量化2剪枝：移除模型中冗余或不重要的权重、神经元或层剪枝4缓存注意机制中的Key和Value，避免在成每个新token时重复计算历史上下，减少计算量，提升系统总吞吐KVCache5使个型、快速的“草稿模型”预先成段token序列，再型“标

2、模型”次性验证，将模型零散的、受内存带宽限制的计算，转化为批处理式的计算模式，提升系统总吞吐投机解码执效率3个型“教师模型”来训练个精简的“学模型”，以更低的成本达到相近的性能蒸馏6将不同户的请求组合成批次进处理，并动态调整批次内的任务，最化GPU的利率，提升系统总吞吐连续批处理KVCache 的原理和价值避免重复计算，提升计算效率 Token 的注意仅取决于其前的 token，因此在每个成步骤中，我们都需要重新计算相同的先前 token 的注意，实际上我们只是想计算新 token 的注意 KVCache 的作就是通过缓存之前的 Key 向量和 Value向量，让我们可以专注于计算新 toke

3、n 的注意采 KVCache 缓存后，需要计算的矩阵就得多，从可以加快矩阵乘法的速度 KVCache 的缺点就是需要更多的 GPU 显存空间Source：https:/ Cache|优化 Prefill 阶段的计算效率Example 1:Shared system promptRequest AA chat between a curious user and an artificial intelligence assistant.The assistant gives helpful,detailed,and polite answers to the users questions.U

4、ser:HelloRequest BA chat between a curious user and an artificial intelligence assistant.The assistant gives helpful,detailed,and polite answers to the users questions.User:How are you?Example 2:Multi-round conversationPrompt(round 1)Human:Whats AI?LLM Result(round 1)LLM:AI is technology that simula

5、tes human intelligence,like Siri or Google Maps.Prompt(round 2)Human:Whats AI?LLM:AI is technology that simulates human intelligence,like Siri or Google Maps.Human:Cool,thanks!LLM Result(round 2)LLM:No problem!共享部分相同前缀请求的 KVCache 是完全相同的，没必要重新计算对于 Agent/tools，有 K 到 K 度的共享系统 prompt，没必要重新计算多轮对话，为了让模

6、型记住上下信息，需要保留历史对话，随着对话轮次变多，重复计算就越多，KVCache 被重的就越多，Prefix Cache的效果就越明显通过以存代算，能够节省量的计算资源，进提升整体推理能临的挑战有限的显存空间 vs 爆炸式增的容量GPU 显存空间中，只有 30%显存空间是来存放 KVCache！空间的不和数据的爆炸式增形成了鲜明对！进导致 KVCache 没办法被命中！该图展示了 LLaMa-65B 模型下 KVCache 缓存容量增情况。以 8 张 A100 每秒平均处理 15.2K tokens 为基准，每处理 2K tokens 会成 5GB 的 KVCache。随着时间推移，tok

张文涛-以存代算加速推理实践_终稿.pdf

相关报告