姜慧强-以 KV 缓存为中心的高效长文本方法的优化和实践.pdf

编号:711766 PDF 57页 15.89MB 下载积分:VIP专享
下载报告请您先登录!

姜慧强-以 KV 缓存为中心的高效长文本方法的优化和实践.pdf

1、演讲人:姜慧强oResearch SDE in Microsoft Research Asia(Shanghai)System-Algorithm Co-design Efficient methods to accelerate inference/training0102030405长文本大语言模型的应用和推理挑战当前主流推理优化方法与技术以KV缓存为中心的大语言模型推理架构以KV缓存为中心的高效长文本方法总结与展望01 Massive Pages of Docs Extended Meeting Time Lengthy CodebasesComplex ReasoningEndless

2、 Agentic HistoryLifelong Personalization Almost all latest models can process contexts exceeding 100K tokens.https:/lifearchitect.ai/models/#context-windowsDeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning10M tokens PyTorch repository code Lord of the Rings trilogy(1p

3、s)500 reasoning iterative*Long Prefilling Latency,30 minutes to process 1M tokens on an A100 for an 8B LLM.Large GPU Memory Consumption,62GB of GPU memory is required for 512 K tokens in fp16.Long Prefilling LatencyLarge GPU Memory Consumption=MInference=RetrievalAttentionRetrieval AttentionAlignmen

4、t betweenANNS and AttentionKeys&ValuesPrefillDecodeCompressPrefix CachingSparse Atten.KV CacheStoragePromptsTokens gen.Compute3LLMLingua Series:Prompt compression1SCBenchExplore bound of KV cachingMInference 1.0/MMInference:Dynamic sparse prefilling202当前主流推理优化方法与技术(a)Prefix caching is widely used in

5、 LLM framework.(b)Prefix caching is widely used in LLM API.RadixAttentionAutomatic Prefix CachingPrompt CachingContext CachingPrompt Caching03以KV缓存为中心的大语言模型推理架构 Long-context methods are designed and utilized around the KV cache,but existing benchmarks focus only on single-request scenarios,ignoring

6、its full lifecycle in real-world use.(a)Long-Context is shared in real-world scenarios.(b)Prefix caching is widely used in LLM framework.Repo-level Code Debugging/Long-document QAMulti-turn DialogueSelf-play Reasoning(c)Prefix caching is widely used in LLM API.RadixAttentionAutomatic Prefix CachingP

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(姜慧强-以 KV 缓存为中心的高效长文本方法的优化和实践.pdf)为本站 (探险者) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠