1、KubeEdge云边协同实践:大语言模型云边协同推理benchmark套件胡时京 复旦大学 KubeEdge范彧 北京航空航天大学 KubeEdge目录大模型云边协同背景01基于KubeEdge-Ianvs的大模云边协同实践03KubeEdge大模型云边协同推理新范式02Content开源成果分享04大模型云边协同背景Part 01为什么我们需要大模型云边协同?每年LLM API开销超过100亿人民币 云端LLM API开销仍然较为昂贵为什么我们需要大模型云边协同?边缘端可以部署的LLM模型能力越来越强 在较难任务上边缘端LLM模型与云端LLM模型还有较大差距 满血Deepseek-r1 67
2、1b在边缘部署资源开销较大为什么我们需要大模型云边协同?节省云端LLM API调用成本(每年超过100亿人民币的市场)提高边侧LLM回答准确率(利用云侧LLM更强的能力解决更难的问题)为什么选择KubeEdge作为大模型云边协同基础设施首个分布式协同AI开源项目Sedna基于KubeEdge提供的边云协同能力,支持现有AI类应用无缝下沉到边缘为分布式协同机器学习服务降低构建与部署成本提升模型性能保护数据隐私 数据集管理 模型管理 基础框架 协同推理 增量学习 联邦学习 终身学习训练推理框架 主流AI框架 模块算法 可扩展算法接口 兼容性https:/ 022.1 候选的云边协同推理方式范式1:
3、模型切片范式2:先推理后挖掘难例LLMEdgeCloudQueryResponseHard Example MiningSmall LLMQueryResponseEdgeLarge LLMCloud好不好u 异构网络实现模型部署u CV 场景下常见的协同策略解决隐私问题;带宽需求高;首字时延高缓解隐私问题;带宽需求小;首字时延非常高相关工作:EdgeShard1;PerLLM21.Zhang,Mingjin,et al.EdgeShard:Efficient LLM Inference via Collaborative Edge Computing.arXiv:2405.143712.Ya
4、ng,Zheming,et al.PerLLM:Personalized Inference Scheduling with Edge-Cloud Collaboration for Diverse LLM Services.arXiv:2405.146362.2 较优的云边协同推理方式范式3:查询路由(Query-Routing)RouterEdgeCloudSmall LLMLarger LLMQueryResponse核心思想识别简单的请求并将其路由到边端模型示例简单请求:求复杂请求:给定区域 D,求简单请求:将下面这段翻译为英文:欢迎参加 KCD!复杂请求:按照正式会议的翻译习惯,将
5、KCD 的会议记录信达雅地翻译为英文。EasyHard2.2 较优的云边协同推理方式范式3:查询路由(Query-Routing)RouterEdgeCloudSmall LLMLarger LLMQueryResponse优势在不降低回复质量的前提下,查询路由机制可以:l 减少使用成本:对于模型用户,减少顶级 API 使用开销;对于模型厂商,合理调配模型降低推理成本l 降低首字时延:边端模型几乎无传播时延l 缓解隐私问题:仅有部分请求需要上云相关工作:Hybrid LLM3、RouteLLM4、Prompt2Leaderboard53.Ding,Dujian,et al.Hybrid LLM
6、:Cost-Efficient and Quality-Aware Query Routing.ICLR 2024.4.Ong,Isaac,et al.RouteLLM:Learning to Route LLMs with Preference Data.ICLR 2025.5.Frick,Evan,et al.Prompt-to-Leaderboard.arXiv:2502.14855EasyHard2.3 Query Routing 的效果引入查询路由后构成的新系统:1.给定预算情况下,能够获得更高质量的回复2.在 ChatBot Arena 中获得了 1395 分,超越榜单上原有的所有