何斌_Omni-Infer性能极致优化实践.pdf

上传人：蓝***

编号：1270076

2026-06-20

PDF 40页 7.89MB

《何斌_Omni-Infer性能极致优化实践.pdf》由会员分享，可在线阅读，更多相关《何斌_Omni-Infer性能极致优化实践.pdf（40页珍藏版）》请在三个皮匠报告上搜索。

1、华为2012实验室 AI Infra团队：何斌Part 01.Part 01.Part 02.Part 02.Part 03.Part 03.Part 04.Part 04.Omni-Infer项目介绍Omni-Infer 高吞吐优化实践Omni-Infer 低时延优化实践Omni-Infer 下一步计划Omni-Infer Omni-Infer 昇腾亲和推理加速昇腾亲和推理加速+最佳实践最佳实践开箱即用A2/A3最佳实践，实现推理性能SOTA1.Large Scale EP Support2.Scale Out 前后处理优化，16K并发，3ms3.PD分离+KVCache Store昇腾适

2、配4.请求级调度加速，基于负载感知的千卡推理集群弹性伸缩5.MTP/多头优化6.EP动态均衡加速包7.Attention稀疏优化项目地址：https:/ layer实现；架构解耦支持vllm升级；aclgraph支持v0.8.12026-04-03优化openPangu72B/718B模型，支持A2/A3硬件v0.8.02026-01-20Pangu72B支持RL训练；扩展多模型硬件精度支持v0.7.52026-04-03新增支持GLM 5.0模型v0.7.02025-12-10Omni Cache支持MLA/GQA；chunk prefill混部入图；SGLangv0.6.02025-11-

3、12Omni Proxy；Omni Cache支持DSA；Placement支持A2v0.5.02025-09-23支持VeRL；Deepseek R1性能优化QPM500v0.4.22025-09-29DeepSeek-v3.2-EXP with DSA；高性能PD分离调度v0.4.12025-09-23稳定性压测与优化v0.4.02025-09-06模型脚本重构；支持新部署形态v0.3.02025-08-15vllmvllm 0.9.0 0.9.0；动态omni-placement；Multi-lorav0.2.02025-08-06vllm 0.8.3；Deepseek R1解码性能优化

4、v0.1.02025-07-07首个开源版本：PD分离、MTP、入图、图缓存已支持模型列表（已支持模型列表（OpenPanguOpenPangu/DeepSeekDeepSeek 系列）系列）模型名称模型名称硬件硬件精度精度部署形态部署形态openPangu-Ultra-MoE-718BA2/A3INT8PD分离openPangu-72BA3INT8PD分离openPangu-38BA2/A3INT8混布openPangu-7BA2/A3BF16混布openPangu-7BVLA3BF16混布DeepSeek-R1A3INT8/W4A8C16/BF16PD分离DeepSeek-R1A2INT8

5、PD分离DeepSeek-V3A3W4A8C16PD分离DeepSeek-V3.1A3INT8PD分离DeepSeek-V3.2A3INT8PD分离DeepSeek-v3.2-EXPA3BF16/DSAPD分离DeepSeek-OCRA2BF16混布已支持模型列表（已支持模型列表（QwenQwen/Kimi/Kimi/其他系列）其他系列）模型名称模型名称硬件硬件精度精度部署形态部署形态Qwen2.5-7BA2/A3INT8混布(TP1 DP=1)QwQA2/A3BF16PD分离Qwen3-235BA3INT8PD分离Qwen3-235BA2BF16PD分离Qwen3-32BA3BF16/INT

6、8PD分离Qwen3-30BA3BF16PD分离Kimi-K2A3W4A8C16PD分离Kimi-K2 ThinkingA3W4A8C16PD分离Longcat-flashA3BF16PD分离Ling-1TA3BF16PD分离GPT-OSS120BA2/A3INT8PD分离GPT-OSS20BA2/A3INT8PD分离GLM 5.0A2/A3INT8PD分离模型性能统计（部分）模型性能统计（部分）模型模型硬件配置硬件配置版本版本QPMQPMTTFTTTFTTPOTTPOTTPSTPSDeepSeek R12P8-1D32A3v0.7.01862s20ms-openPangu-72B2P2-1D

何斌_Omni-Infer性能极致优化实践.pdf

相关报告