当前位置:首页 > 报告详情

杨珂-从单体到解耦:Mooncake如何支撑下一代大模型推理架构.pdf

上传人: 蓝*** 编号:1270099 2026-06-20 48页 7.84MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **项目背景**:AI推理成本占比超90%,模型从对话向复杂智能体演化,Token计量转向Task,SLO要求更严。 2. **核心技术**:以KVCache为中心的分离式架构(PD分离、分布式KVCache共享),Mooncake Store实现全局缓存复用,Kimi达90%命中率。 3. **性能提升**:Kimi吞吐量提升75%,vLLM测试中TTFT降低69.1%,Token吞吐提升190.5%。 4. **扩展能力**:支持Elastic EP容错、EPD分离、昇腾CANN集成,RBG部署方案,PyTorch生态兼容。 5. **开源社区**:GitHub联合开源,176位贡献者,FAST’25 Best Paper。
**Mooncake是什么?** **如何降低推理成本?** **KVCache如何复用?**
客服
商务合作
小程序
服务号
折叠