袁镱-一念LLM 大语言模型推理加速.pdf-在线下载-三个皮匠报告

1、一念LLM 大语言模型推理加速腾讯袁镱Transformer结构的大语言模型一个token的推理流程：Step 2:按照指定的采样策略，选择下一个tokenStep 1:根据已有信息，估计下一个token的概率分布Step 1:根据已有信息，估计下一个token的概率分布Transformer结构的特性：当前token对结果的影响只与前面的token有关。KvCache的由来前面的token的计算结果可以被缓存起来复用优化后：decoding阶段计算量与前面的token数无关导致：计算量与前面的token数量成正比两个阶段的GPU工作状态以Batch方式提高硬件计算资源利用率输入越长，pre

2、fill和decoding阶段的并发token计算差异越大batch size受显存大小限制2024 A Survey on Efficient Inference for Large Language Models显存消耗的趋势input token的KVCache消耗生成token的KVCache消耗M 是模型参数占用的显存是每个请求推理过程中的显存占用BS 是batch size 是每个token对应的kv cache所需的显存TN 是缓存kv cache的token数量Mem 是GPU的显存大小。TA 是batch内请求的token平均数量表示batch中不同请求之间token复用

3、kv-cache的比例一念LLM的基本框架高效调度，提高吞吐算子择优，降低耗时多硬件支持，统一框架手写模型，优化显存ContinuousBatching+PagedAttention 优化BS有效BS越来越低及时填充新请求，维持有效BSkv-cache的操作成本高Paged Attention按block组织kv-cache，降低显存操作的粒度Prefix Caching 优化Prefix Caching实现了两个级别的显存和计算复用1.batch中请求之间2.batch之间Prefix Caching 优化Prefix Caching本身会占用显存，命中率决定了收益需要平衡命中率提升和传统路

4、由的负载平衡，容灾等策略CPU/GPU混合推理优化M扩词表，词表变大以Llama 13B为例：3.2万的词表占据1.2%30万的词表占据11.8%token embedding变大吞吐提升10%+Generative RecommendationActions Speak Louder than Words:Trillion-Parameter Sequential Transducers for Generative RecommendationsMeta推荐场景推理成本占AI推理成本的72%ISCA2020 RecNMP 模型大小GB/TB 单个请求需要1000+item推理耗时要求10ms以下资讯业务请求量大（10000请求/秒）业务需求Generative Recommendation基于历史序列预测对候选item的action单个用户大量item的预测正是prefix caching的场景输入成千上万，只有最后一个token不同计算量与item数量线性相关A*(prefix_token_num+1)*item_numA*(item_num+prefix_token_num)Q/A实习生和正式员工招聘中联系方式：一念LLM技术交流群（微信）