1、华为2012实验室 AI Infra团队:何 斌Part 01.Part 01.Part 02.Part 02.Part 03.Part 03.Part 04.Part 04.Omni-Infer项目介绍Omni-Infer 高吞吐优化实践Omni-Infer 低时延优化实践Omni-Infer 下一步计划Omni-Infer Omni-Infer 昇腾亲和推理加速昇腾亲和推理加速+最佳实践最佳实践开箱即用A2/A3最佳实践,实现推理性能SOTA1.Large Scale EP Support2.Scale Out 前后处理优化,16K并发,3ms3.PD分离+KVCache Store昇腾适
2、配4.请求级调度加速,基于负载感知的千卡推理集群弹性伸缩5.MTP/多头优化6.EP动态均衡加速包7.Attention稀疏优化项目地址:https:/ layer实现;架构解耦支持vllm升级;aclgraph支持v0.8.12026-04-03优化openPangu72B/718B模型,支持A2/A3硬件v0.8.02026-01-20Pangu72B支持RL训练;扩展多模型硬件精度支持v0.7.52026-04-03新增支持GLM 5.0模型v0.7.02025-12-10Omni Cache支持MLA/GQA;chunk prefill混部入图;SGLangv0.6.02025-11-
3、12Omni Proxy;Omni Cache支持DSA;Placement支持A2v0.5.02025-09-23支持VeRL;Deepseek R1性能优化QPM500v0.4.22025-09-29DeepSeek-v3.2-EXP with DSA;高性能PD分离调度v0.4.12025-09-23稳定性压测与优化v0.4.02025-09-06模型脚本重构;支持新部署形态v0.3.02025-08-15vllmvllm 0.9.0 0.9.0;动态omni-placement;Multi-lorav0.2.02025-08-06vllm 0.8.3;Deepseek R1解码性能优化
4、v0.1.02025-07-07首个开源版本:PD分离、MTP、入图、图缓存已支持模型列表(已支持模型列表(OpenPanguOpenPangu/DeepSeekDeepSeek 系列)系列)模型名称模型名称硬件硬件精度精度部署形态部署形态openPangu-Ultra-MoE-718BA2/A3INT8PD分离openPangu-72BA3INT8PD分离openPangu-38BA2/A3INT8混布openPangu-7BA2/A3BF16混布openPangu-7BVLA3BF16混布DeepSeek-R1A3INT8/W4A8C16/BF16PD分离DeepSeek-R1A2INT8
5、PD分离DeepSeek-V3A3W4A8C16PD分离DeepSeek-V3.1A3INT8PD分离DeepSeek-V3.2A3INT8PD分离DeepSeek-v3.2-EXPA3BF16/DSAPD分离DeepSeek-OCRA2BF16混布已支持模型列表(已支持模型列表(QwenQwen/Kimi/Kimi/其他系列)其他系列)模型名称模型名称硬件硬件精度精度部署形态部署形态Qwen2.5-7BA2/A3INT8混布(TP1 DP=1)QwQA2/A3BF16PD分离Qwen3-235BA3INT8PD分离Qwen3-235BA2BF16PD分离Qwen3-32BA3BF16/INT
6、8PD分离Qwen3-30BA3BF16PD分离Kimi-K2A3W4A8C16PD分离Kimi-K2 ThinkingA3W4A8C16PD分离Longcat-flashA3BF16PD分离Ling-1TA3BF16PD分离GPT-OSS120BA2/A3INT8PD分离GPT-OSS20BA2/A3INT8PD分离GLM 5.0A2/A3INT8PD分离模型性能统计(部分)模型性能统计(部分)模型模型硬件配置硬件配置版本版本QPMQPMTTFTTTFTTPOTTPOTTPSTPSDeepSeek R12P8-1D32A3v0.7.01862s20ms-openPangu-72B2P2-1D