当前位置:首页 > 报告详情

何斌_Omni-Infer性能极致优化实践.pdf

上传人: 蓝*** 编号:1270076 2026-06-20 40页 7.89MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **项目概述**:华为2012实验室AI Infra团队推出Omni-Infer昇腾推理加速框架,实现高性能推理,支持多模型(如DeepSeek、Qwen、GLM等)在A2/A3硬件上的部署。 2. **核心优化**: - **高吞吐**:16K并发,TPS达2400(DeepSeek R1@18P8-1D144@A3)。 - **低时延**:TTFT<2s,TPOT<20ms(DeepSeek R1@2P8-1D32@A3)。 - **技术亮点**:PD分离、KVCache Store、动态EP负载均衡、多流并行、昇腾NZ格式优化。 3. **性能数据**: - OpenPangu-718B在18P8-1D144@A3下TPS 2400,TTFT<50ms。 - DeepSeek R1在7P8-1D32@A3下QPM 600,TPOT<50ms。 4. **下一步计划**:支持多模态、超长序列、混合Attention优化及新硬件适配。
**Omni-Infer是什么?** **昇腾推理如何优化?** **DeepSeek性能如何?**
客服
商务合作
小程序
服务号
折叠