报告预览

何斌_Omni-Infer性能极致优化实践.pdf

编号：1270076

PDF 40页 7.89MB 下载积分：VIP专享

下载报告请您先登录！

何斌_Omni-Infer性能极致优化实践.pdf

1、华为2012实验室 AI Infra团队：何斌Part 01.Part 01.Part 02.Part 02.Part 03.Part 03.Part 04.Part 04.Omni-Infer项目介绍Omni-Infer 高吞吐优化实践Omni-Infer 低时延优化实践Omni-Infer 下一步计划Omni-Infer Omni-Infer 昇腾亲和推理加速昇腾亲和推理加速+最佳实践最佳实践开箱即用A2/A3最佳实践，实现推理性能SOTA1.Large Scale EP Support2.Scale Out 前后处理优化，16K并发，3ms3.PD分离+KVCache Store昇腾适

2、配4.请求级调度加速，基于负载感知的千卡推理集群弹性伸缩5.MTP/多头优化6.EP动态均衡加速包7.Attention稀疏优化项目地址：https:/ layer实现；架构解耦支持vllm升级；aclgraph支持v0.8.12026-04-03优化openPangu72B/718B模型，支持A2/A3硬件v0.8.02026-01-20Pangu72B支持RL训练；扩展多模型硬件精度支持v0.7.52026-04-03新增支持GLM 5.0模型v0.7.02025-12-10Omni Cache支持MLA/GQA；chunk prefill混部入图；SGLangv0.6.02025-11-

3、12Omni Proxy；Omni Cache支持DSA；Placement支持A2v0.5.02025-09-23支持VeRL；Deepseek R1性能优化QPM500v0.4.22025-09-29DeepSeek-v3.2-EXP with DSA；高性能PD分离调度v0.4.12025-09-23稳定性压测与优化v0.4.02025-09-06模型脚本重构；支持新部署形态v0.3.02025-08-15vllmvllm 0.9.0 0.9.0；动态omni-placement；Multi-lorav0.2.02025-08-06vllm 0.8.3；Deepseek R1解码性能优化

4、v0.1.02025-07-07首个开源版本：PD分离、MTP、入图、图缓存已支持模型列表（已支持模型列表（OpenPanguOpenPangu/DeepSeekDeepSeek 系列）系列）模型名称模型名称硬件硬件精度精度部署形态部署形态openPangu-Ultra-MoE-718BA2/A3INT8PD分离openPangu-72BA3INT8PD分离openPangu-38BA2/A3INT8混布openPangu-7BA2/A3BF16混布openPangu-7BVLA3BF16混布DeepSeek-R1A3INT8/W4A8C16/BF16PD分离DeepSeek-R1A2INT8

5、PD分离DeepSeek-V3A3W4A8C16PD分离DeepSeek-V3.1A3INT8PD分离DeepSeek-V3.2A3INT8PD分离DeepSeek-v3.2-EXPA3BF16/DSAPD分离DeepSeek-OCRA2BF16混布已支持模型列表（已支持模型列表（QwenQwen/Kimi/Kimi/其他系列）其他系列）模型名称模型名称硬件硬件精度精度部署形态部署形态Qwen2.5-7BA2/A3INT8混布(TP1 DP=1)QwQA2/A3BF16PD分离Qwen3-235BA3INT8PD分离Qwen3-235BA2BF16PD分离Qwen3-32BA3BF16/INT

6、8PD分离Qwen3-30BA3BF16PD分离Kimi-K2A3W4A8C16PD分离Kimi-K2 ThinkingA3W4A8C16PD分离Longcat-flashA3BF16PD分离Ling-1TA3BF16PD分离GPT-OSS120BA2/A3INT8PD分离GPT-OSS20BA2/A3INT8PD分离GLM 5.0A2/A3INT8PD分离模型性能统计（部分）模型性能统计（部分）模型模型硬件配置硬件配置版本版本QPMQPMTTFTTTFTTPOTTPOTTPSTPSDeepSeek R12P8-1D32A3v0.7.01862s20ms-openPangu-72B2P2-1D

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（何斌_Omni-Infer性能极致优化实践.pdf）为本站（蓝色烟花）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。