报告预览

张家驹-释放生成式 AI 推理潜力：分布式 LLM 基础设施与 llm-d 实践.pdf

编号：1188817

PDF 25页 3.19MB 下载积分：VIP专享

下载报告请您先登录！

张家驹-释放生成式 AI 推理潜力：分布式 LLM 基础设施与 llm-d 实践.pdf

1、释放生成式AI推理潜力：分布式LLM 基础设施与llm-d实践张家驹目录01020304背景与问题vLLM：单节点LLM 推理优化llm-d:分布式推理结论与行动呼吁01背景与问题CPU 与GPU 不同的编程模型Source:https:/ 推理面临的挑战在生产环境中运行大语言模型，会面临一系列工程和运维层面的挑战，这些问题直接影响延迟、可扩展性和资源利用效率。随着模型规模增大、并发量提升以及实时响应需求增强，这些挑战会愈发突出。高延迟：自回归式解码在 70 亿参数以上的模型中，每生成一个 token 可能会带来 200600 毫秒的延迟。资源利用低效：在突发流量下，批处理效率下降，GPU 空

2、闲时间增加，导致整体算力浪费。巨大的 KV 缓存需求：在长上下文窗口（4k16k tokens）下，单个请求的 KV 缓存占用可超过 1012GB。复杂的分布式调度：跨节点的推理复制需要复杂的编排、动态的自动扩缩容机制以及资源调优策略。LLM 基础设施功能概览02单节点LLM 推理优化PagedAttention&KV Cache问题：KV 缓存挑战在推理过程中，键值缓存（Key-Value Cache）相当于大语言模型的“记忆”，其大小会随着上下文长度线性增长。传统系统中常出现严重的内存碎片化问题，甚至触发 GPU 显存溢出（OOM）错误。这导致显存利用率极低实际有效使用率往往只有分配空间

3、的 20%40%，严重限制批处理规模并推高成本。解决方案：PagedAttention 借鉴虚拟内存的设计理念，PagedAttention 将 KV 缓存拆分为多个固定大小的小块进行管理。它将逻辑序列与 GPU 物理内存解耦，消除了内存碎片问题，并支持灵活的显存分配。PagedAttention 还能在不同请求之间动态共享缓存块，这对于多轮对话和复杂的解码策略至关重要。连续批处理Naive BatchingContinuous Batching问题：静态批处理（Static Batching）传统的批处理机制会等待固定数量的请求到达后，才开始执行前向计算。在真实业务场景中，这种方式会导致 G

4、PU 大量空闲、算力浪费严重。同时，请求需要排队等待下一个批次填满，进一步增加了响应延迟。解决方案：连续批处理（Continuous Batching）动态地将新到达的请求即时加入当前批次进行处理。通过让请求随时进入 GPU 管线，保持 GPU 长时间“满负荷”工作。这种机制有效消除了排队延迟，大幅提升了 GPU 利用率和整体吞吐性能。推测解码其他特性模型优化（Model Optimization）：采用 FP8 量化等技术，在保持精度的同时减少模型规模和延迟，更高效地利用 GPU 资源。张量并行（Tensor Parallelism）：将超大模型拆分到单节点的多张 GPU 上协同运行，实现大

5、模型的高效推理。兼容 OpenAI API（OpenAI API Compatibility）：提供标准化接口，方便开发者无缝集成到现有工具和应用中。03分布式推理vLLM 推理的局限高成本、非均匀且有状态的请求LLM 推理每个请求的计算成本比传统应用高 69 个数量级，输入输出长度差异巨大且存在关键状态依赖。资源盲目负载均衡传统 Kubernetes 的轮询或随机路由无法感知 AI 特性，忽略了 GPU 负载、队列深度、提示复杂度和 KV 缓存状态，导致 GPU 利用率低下和延迟峰值。资源利用低效在同一实例上同时处理计算密集的 prefill 阶段和内存密集的 decode 阶段效率低下，尤

6、其在长序列推理中，浪费了宝贵的 GPU 计算周期。优化机会错失缺乏 KV 缓存和前缀感知路由，使得重复提示被当作冷启动处理，无法利用缓存计算来降低延迟。可扩展性瓶颈单体部署限制了推理组件的独立扩缩容，在动态、突发流量下难以满足服务等级目标（SLO）。Kubernetes 生态下GenAI 工作负载的使能在过去的十年里，Kubernetes 已成为云原生应用的事实标准，但生成式 AI（GenAI）工作负载带来了独特的挑战。社区正在致力于让 Kubernetes 在核心层面变得“AI 感知”。标准化基准测试：社区项目正在开发评估模型和加速器配置的标准，将部署决策从经验猜测转向数据驱动。AI 感知负

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（张家驹-释放生成式 AI 推理潜力：分布式 LLM 基础设施与 llm-d 实践.pdf）为本站（bungbung）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。