袁镱-一念LLM 大语言模型推理加速.pdf

编号:169078 PDF 14页 1.57MB 下载积分:VIP专享
下载报告请您先登录!

1、一念LLM 大语言模型推理加速腾讯 袁镱Transformer结构的大语言模型一个token的推理流程:Step 2:按照指定的采样策略,选择下一个tokenStep 1:根据已有信息,估计下一个token的概率分布Step 1:根据已有信息,估计下一个token的概率分布Transformer结构的特性:当前token对结果的影响只与前面的token有关。KvCache的由来前面的token的计算结果可以被缓存起来复用优化后:decoding阶段计算量与前面的token数无关导致:计算量与前面的token数量成正比两个阶段的GPU工作状态以Batch方式提高硬件计算资源利用率输入越长,pre

2、fill和decoding阶段的并发token计算差异越大batch size受显存大小限制2024 A Survey on Efficient Inference for Large Language Models显存消耗的趋势input token的KVCache消耗生成token的KVCache消耗M 是模型参数占用的显存 是每个请求推理过程中的显存占用BS 是batch size 是每个token对应的kv cache所需的显存TN 是缓存kv cache的token数量Mem 是GPU的显存大小。TA 是batch内请求的token平均数量 表示batch中不同请求之间token复用

3、kv-cache的比例一念LLM的基本框架高效调度,提高吞吐算子择优,降低耗时多硬件支持,统一框架手写模型,优化显存ContinuousBatching+PagedAttention 优化BS有效BS越来越低及时填充新请求,维持有效BSkv-cache的操作成本高Paged Attention按block组织kv-cache,降低显存操作的粒度Prefix Caching 优化Prefix Caching实现了两个级别的显存和计算复用1.batch中请求之间2.batch之间Prefix Caching 优化Prefix Caching本身会占用显存,命中率决定了收益需要平衡命中率提升和传统路

4、由的负载平衡,容灾等策略CPU/GPU混合推理 优化M扩词表,词表变大以Llama 13B为例:3.2万的词表占据1.2%30万的词表占据11.8%token embedding变大吞吐提升10%+Generative RecommendationActions Speak Louder than Words:Trillion-Parameter Sequential Transducers for Generative RecommendationsMeta推荐场景推理成本占AI推理成本的72%ISCA2020 RecNMP 模型大小GB/TB 单个请求需要1000+item推理 耗时要求10ms以下 资讯业务请求量大(10000请求/秒)业务需求Generative Recommendation基于历史序列预测对候选item的action单个用户大量item的预测正是prefix caching的场景输入成千上万,只有最后一个token不同计算量与item数量线性相关A*(prefix_token_num+1)*item_numA*(item_num+prefix_token_num)Q/A实习生和正式员工招聘中联系方式:一念LLM技术交流群(微信)

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(袁镱-一念LLM 大语言模型推理加速.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠