杨珂-从单体到解耦：Mooncake如何支撑下一代大模型推理架构.pdf

上传人：蓝***

编号：1270099

2026-06-20

PDF 48页 7.84MB

《杨珂-从单体到解耦：Mooncake如何支撑下一代大模型推理架构.pdf》由会员分享，可在线阅读，更多相关《杨珂-从单体到解耦：Mooncake如何支撑下一代大模型推理架构.pdf（48页珍藏版）》请在三个皮匠报告上搜索。

1、杨珂趋境科技技术专家Mooncake 核心贡献者yangkeapproaching.aiPart 01.Part 01.Part 02.Part 02.Part 03.Part 03.Mooncake Mooncake 项目背景项目背景如何基于 Mooncake 搭建高性能推理集群Mooncake 技术特性剖析AI AI 成本的新范式：成本的新范式：“用得起用得起”比比“造得出造得出”更难更难推理开销暴增模型能力迅速提升亚马逊的数据：90%以上的成本消耗在推理而非训练R1 训练成本仅$6M 但预估推理成本远高于$32M 每年模型训练模型训练 =造模性造模性模型推理模型推理 =用模性用模性大模

2、型应用正从简单的对话演化成复杂的智能体应用大模型应用正从简单的对话演化成复杂的智能体应用单轮、短输入、短输出多轮、复杂拓扑、长输入、长输出计量单元从 Token 演化为 Task，开销越来越大，SLO 要求越来越严格Mooncake：以 KVCache 为中心的分离式架构Kimi 底层推理架构承载了 Kimi 80%以上的流量将 Kimi 的吞吐量提升了 75%在高负载情况下仍严格保障 SLOMoonshot +Tsinghua KVCache.AI teamFAST 25 Best paperMooncake：以 KVCache 为中心的分离式架构以存换算全局共享的分布式 KVCach

3、e 存储基于 KVCache 命中率与系统负载进行请求路由分离式架构将 Prefill 与 Decode 解耦到不同节点上执行Mooncake：联合开源在 GitHubMooncake：联合开源在 GitHub活跃的社区：已有 176 位贡献者欢迎大家使用和参与！Part 01.Part 01.Part 02.Part 02.Part 03.Part 03.Mooncake 项目背景如何基于如何基于 Mooncake Mooncake 搭建高性能推理集群搭建高性能推理集群Mooncake 技术特性剖析Mooncake 系统架构Transfer Engine高性能网络通讯库，支持RDMA、NV

4、Link、TCP等多种传输协议Mooncake Store分布式缓存、零拷贝高速传输、高内存利用率Mooncake EP面向弹性大EP，优良的容错和恢复能力RL DisaggregationEPD DisaggregationElastic Large EPMooncake EPMooncake StoreMooncake TEDistributed KVCache PoolMooncake StorePD DisaggregationMooncake TEModel WeightModel Weight LoadingMooncake TEMooncake StoreMooncake 逐步演

5、进为大模型服务的通信与存储基础设施LLM 推理服务从传统的单体架构演进至异构、解耦式架构基于 Mooncake 的 PD 分离Prefill 和和 Decode 的的 SLO 指标和计算特指标和计算特征完全不同征完全不同TTFT vs TBTPrefill:并行处理所有输入，算力密集Decode：一个token一个token算，带宽密集P和和D混合在一起用同样的设备进行混合在一起用同样的设备进行处理则往往会顾此失彼、互相干扰处理则往往会顾此失彼、互相干扰TTFT(Time To First Token)TBT(Time Between Tokens)High:100ms 10s(Depen

6、ding oninput length)Low:Less than 100ms(Aligns with human reading speed)Parallel,Compute-boundAuto-Regressive(token by token),Memory-boundPrefillPrefillDecodeDecode指标数值计算特征基于 Mooncake 的 PD 分离PD 分离分离部分 server 只做 Prefill，部分 server 只做 DecodePrefill 计算得到的 KVCache 传输到 Decode 节点上解耦资源与并行策略，以提高模型浮点运算利用率(MFU

杨珂-从单体到解耦：Mooncake如何支撑下一代大模型推理架构.pdf

相关报告