AICon北京2025-京东-杨培军_final.pdf

编号:724342 PDF 33页 3.36MB 下载积分:VIP专享
下载报告请您先登录!

AICon北京2025-京东-杨培军_final.pdf

1、京东零售大模型推理优化实践演讲人:杨培军目录01020304大模型应用场景大模型应用挑战核心优化实践总结及展望01大模型应用场景行业发展趋势互联网头部玩家悉数入局,竞逐战略要冲,攻坚大模型技术迭代大模型技术深化,多模态感知、智能体应用、边缘智能部署等多维突破大模型驱动电商全链路深度变革,重构技术基座DeepSeek重塑开源生态、加速产业落地性能突破架构创新成本颠覆在数学、代码、自然语言处理等多个评测任务中展现出强大的性能,与顶级闭源模型比肩,甚至部分超越训练成本为同级别模型的约1/10,推理API调用成本仅为同级别模型的约1/30MoE混合专家网络:6710亿参数,单次推理仅激活370亿参数,

2、推理效率提升3倍MLA多头潜在注意力:突破长上下文瓶颈,推理显存降低80%以上GRPO强化学习新范式:无需人工标注,自主涌现复杂推理能力京东电商大模型应用场景AI 生成商品图生成、短视频、AI营销内容生成、AI 数字人AI 商品图生成、视频生成、AI 营销内容生成、AI 数字人AI 生成商品图生成、短视频、AI营销内容生成、AI 数字人AI 客服与售后管理、AI 经营托管、AI 仓配优化、AI 交互式推荐AI 生成商品图生成、短视频、AI营销内容生成、AI 数字人自动分拣机器人、智能空间、自动驾驶Generative AIAgentic AIPhysical AI02大模型应用挑战大模型应用挑

3、战输入/输出长度和模态多样,硬件异构,用户优先级,不同 SLO,分布式调度的挑战技术挑战模型的规模、效果和效率的平衡,性能优化和轻量化的挑战内存容量、访存带宽和算力利用率压力内存容量和访存带宽是瓶颈,算力利用率低KV Cache导致“内存墙”瓶颈进一步加剧模型参数量爆发式增长,以DeepSeekR1-671B为例,理论参数(FP8)占用671GB,而H20单卡显存只有96GB自回归解码Prefill和Decode计算特性差异大,串行Decode算力利用率低KV Cache显存占用开销随序列长度、batch size增加成倍上升,内容容量和访存问题加剧Prefill阶段:一次Forward完成,

4、Compute BoundInput:Recite,the,first,law,of,roboticsOutput:A(1*dim)Output:robot(1*dim)Input:Recite,the,first,law,of,robotics,ADecode阶段:自回归串行执行,N-1次Forward完成,Memory BoundGEMV矩阵乘向量服务场景高度多样化User CUser BUser AUser DUser EUser G用户请求存在不同的高峰时间段不同的请求优先级以及SLOInstance AInstance B异构、碎片化部署,集群Failover随时间变化的输入长度/输

5、出长度多种模态文本图片视频语音推理系统优化的核心要素高吞吐低时延高可用Tokens/秒,单卡高吞吐意味着更低的成本TTFT/TBT,更低时延保障更好的用户体验SLO保障、Request/Instance Failover处理等03核心优化实践Introduction京东自研大模型推理框架2024国产芯片NPU推理GPU芯片禁售DeepSeek爆火DeepSeek推理优化前期版本核心功能京东大模型推理架构Highlight FeatureNPU/GPU高效推理DeepSeek、Qwen3等模型支持纯C+Runtime,全异步并行Moreover,分离式架构多维并行、EPD分离、KV Cache

6、Pool多级负载均衡多层流水线Overlap智能集群调度分离式架构存储资源分离模型结构分离计算阶段分离单体模式深度解耦的分布式系统设计拆模型结构TP并行PP并行EP并行DP并行拆计算阶段C+Runtime全异步并行Vision模态分离PD分离拆存储资源KV Cache Pool单设备BertViT突破资源瓶颈,构建弹性、高效、可扩展的分布式推理系统突破单设备算力/显存限制-突破计算阶段资源错配限制-突破 KV Cache 显存限制分离式架构 多维混合并行TPPPEPDP优点显著降低单设备内存压力、提高计算并行度缺点权重无法切分时重复存储(MLA单head场景)All-reduce通信量大适用场

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(AICon北京2025-京东-杨培军_final.pdf)为本站 (Flechazo) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠