《张文涛-以存代算加速推理实践_终稿.pdf》由会员分享,可在线阅读,更多相关《张文涛-以存代算加速推理实践_终稿.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、破解模型推理成本难题 YRCache 以存代算加速实践张涛焱融科技CTO录0102KVCache 技术背景和挑战YRCache 多级缓存案03针对推理业务的加速实践效果04总结和未来展望01KVCache 的技术背景和挑战推理优化的两个核向模型压缩1将模型权重和激活值的计算精度从FP32/FP16降低INT8乃INT4,来降低内存占,减少数据带宽和提升计算速度量化2剪枝:移除模型中冗余或不重要的权重、神经元或层剪枝4缓存注意机制中的Key和Value,避免在成每个新token时重复计算历史上下,减少计算量,提升系统总吞吐KVCache5使个型、快速的“草稿模型”预先成段token序列,再型“标
2、模型”次性验证,将模型零散的、受内存带宽限制的计算,转化为批处理式的计算模式,提升系统总吞吐投机解码执效率3个型“教师模型”来训练个精简的“学模型”,以更低的成本达到相近的性能蒸馏6将不同户的请求组合成批次进处理,并动态调整批次内的任务,最化GPU的利率,提升系统总吞吐连续批处理KVCache 的原理和价值避免重复计算,提升计算效率 Token 的注意仅取决于其前的 token,因此在每个成步骤中,我们都需要重新计算相同的先前 token 的注意,实际上我们只是想计算新 token 的注意 KVCache 的作就是通过缓存之前的 Key 向量和 Value向量,让我们可以专注于计算新 toke
3、n 的注意 采 KVCache 缓存后,需要计算的矩阵就得多,从可以加快矩阵乘法的速度 KVCache 的缺点就是需要更多的 GPU 显存空间Source:https:/ Cache|优化 Prefill 阶段的计算效率Example 1:Shared system promptRequest AA chat between a curious user and an artificial intelligence assistant.The assistant gives helpful,detailed,and polite answers to the users questions.U
4、ser:HelloRequest BA chat between a curious user and an artificial intelligence assistant.The assistant gives helpful,detailed,and polite answers to the users questions.User:How are you?Example 2:Multi-round conversationPrompt(round 1)Human:Whats AI?LLM Result(round 1)LLM:AI is technology that simula
5、tes human intelligence,like Siri or Google Maps.Prompt(round 2)Human:Whats AI?LLM:AI is technology that simulates human intelligence,like Siri or Google Maps.Human:Cool,thanks!LLM Result(round 2)LLM:No problem!共享部分 相同前缀请求的 KVCache 是完全相同的,没必要重新计算 对于 Agent/tools,有 K 到 K 度的共享系统 prompt,没必要重新计算 多轮对话,为了让模
6、型记住上下信息,需要保留历史对话,随着对话轮次变多,重复计算就越多,KVCache 被重的就越多,Prefix Cache的效果就越明显 通过以存代算,能够节省量的计算资源,进提升整体推理能临的挑战有限的显存空间 vs 爆炸式增的容量GPU 显存空间中,只有 30%显存空间是来存放 KVCache!空间的不和数据的爆炸式增形成了鲜明对!进导致 KVCache 没办法被命中!该图展示了 LLaMa-65B 模型下 KVCache 缓存容量增情况。以 8 张 A100 每秒平均处理 15.2K tokens 为基准,每处理 2K tokens 会成 5GB 的 KVCache。随着时间推移,tok