杨珂-从单体到解耦:Mooncake如何支撑下一代大模型推理架构.pdf

编号:1270099 PDF 48页 7.84MB 下载积分:VIP专享
下载报告请您先登录!

杨珂-从单体到解耦:Mooncake如何支撑下一代大模型推理架构.pdf

1、杨珂 趋境科技技术专家Mooncake 核心贡献者yangkeapproaching.aiPart 01.Part 01.Part 02.Part 02.Part 03.Part 03.Mooncake Mooncake 项目背景项目背景如何基于 Mooncake 搭建高性能推理集群Mooncake 技术特性剖析AI AI 成本的新范式:成本的新范式:“用得起用得起”比比“造得出造得出”更难更难推理开销暴增模型能力迅速提升亚马逊的数据:90%以上的成本消耗在推理而非训练R1 训练成本仅$6M 但预估推理成本远高于$32M 每年模型训练模型训练 =造模性造模性模型推理模型推理 =用模性用模性大模

2、型应用正从简单的对话演化成复杂的智能体应用大模型应用正从简单的对话演化成复杂的智能体应用单轮、短输入、短输出多轮、复杂拓扑、长输入、长输出计量单元从 Token 演化为 Task,开销越来越大,SLO 要求越来越严格Mooncake:以 KVCache 为中心的分离式架构Kimi 底层推理架构 承载了 Kimi 80%以上的流量 将 Kimi 的吞吐量提升了 75%在高负载情况下仍严格保障 SLOMoonshot +Tsinghua KVCache.AI teamFAST 25 Best paperMooncake:以 KVCache 为中心的分离式架构 以存换算全局共享的分布式 KVCach

3、e 存储基于 KVCache 命中率与系统负载进行请求路由 分离式架构将 Prefill 与 Decode 解耦到不同节点上执行Mooncake:联合开源在 GitHubMooncake:联合开源在 GitHub活跃的社区:已有 176 位贡献者欢迎大家使用和参与!Part 01.Part 01.Part 02.Part 02.Part 03.Part 03.Mooncake 项目背景如何基于如何基于 Mooncake Mooncake 搭建高性能推理集群搭建高性能推理集群Mooncake 技术特性剖析Mooncake 系统架构Transfer Engine高性能网络通讯库,支持RDMA、NV

4、Link、TCP等多种传输协议Mooncake Store分布式缓存、零拷贝高速传输、高内存利用率Mooncake EP面向弹性大EP,优良的容错和恢复能力RL DisaggregationEPD DisaggregationElastic Large EPMooncake EPMooncake StoreMooncake TEDistributed KVCache PoolMooncake StorePD DisaggregationMooncake TEModel WeightModel Weight LoadingMooncake TEMooncake StoreMooncake 逐步演

5、进为大模型服务的 通信与存储 基础设施LLM 推理服务从传统的单体架构演进至异构、解耦式架构基于 Mooncake 的 PD 分离Prefill 和和 Decode 的的 SLO 指标和计算特指标和计算特征完全不同征完全不同TTFT vs TBTPrefill:并行处理所有输入,算力密集Decode:一个token一个token算,带宽密集P和和D混合在一起用同样的设备进行混合在一起用同样的设备进行处理则往往会顾此失彼、互相干扰处理则往往会顾此失彼、互相干扰TTFT(Time To First Token)TBT(Time Between Tokens)High:100ms 10s(Depen

6、ding oninput length)Low:Less than 100ms(Aligns with human reading speed)Parallel,Compute-boundAuto-Regressive(token by token),Memory-boundPrefillPrefillDecodeDecode指标数值计算特征基于 Mooncake 的 PD 分离PD 分离分离部分 server 只做 Prefill,部分 server 只做 DecodePrefill 计算得到的 KVCache 传输到 Decode 节点上解耦资源与并行策略,以提高模型浮点运算利用率(MFU

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(杨珂-从单体到解耦:Mooncake如何支撑下一代大模型推理架构.pdf)为本站 (蓝色烟花) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠