何斌_Omni-Infer性能极致优化实践.pdf

编号:1270076 PDF 40页 7.89MB 下载积分:VIP专享
下载报告请您先登录!

何斌_Omni-Infer性能极致优化实践.pdf

1、华为2012实验室 AI Infra团队:何 斌Part 01.Part 01.Part 02.Part 02.Part 03.Part 03.Part 04.Part 04.Omni-Infer项目介绍Omni-Infer 高吞吐优化实践Omni-Infer 低时延优化实践Omni-Infer 下一步计划Omni-Infer Omni-Infer 昇腾亲和推理加速昇腾亲和推理加速+最佳实践最佳实践开箱即用A2/A3最佳实践,实现推理性能SOTA1.Large Scale EP Support2.Scale Out 前后处理优化,16K并发,3ms3.PD分离+KVCache Store昇腾适

2、配4.请求级调度加速,基于负载感知的千卡推理集群弹性伸缩5.MTP/多头优化6.EP动态均衡加速包7.Attention稀疏优化项目地址:https:/ layer实现;架构解耦支持vllm升级;aclgraph支持v0.8.12026-04-03优化openPangu72B/718B模型,支持A2/A3硬件v0.8.02026-01-20Pangu72B支持RL训练;扩展多模型硬件精度支持v0.7.52026-04-03新增支持GLM 5.0模型v0.7.02025-12-10Omni Cache支持MLA/GQA;chunk prefill混部入图;SGLangv0.6.02025-11-

3、12Omni Proxy;Omni Cache支持DSA;Placement支持A2v0.5.02025-09-23支持VeRL;Deepseek R1性能优化QPM500v0.4.22025-09-29DeepSeek-v3.2-EXP with DSA;高性能PD分离调度v0.4.12025-09-23稳定性压测与优化v0.4.02025-09-06模型脚本重构;支持新部署形态v0.3.02025-08-15vllmvllm 0.9.0 0.9.0;动态omni-placement;Multi-lorav0.2.02025-08-06vllm 0.8.3;Deepseek R1解码性能优化

4、v0.1.02025-07-07首个开源版本:PD分离、MTP、入图、图缓存已支持模型列表(已支持模型列表(OpenPanguOpenPangu/DeepSeekDeepSeek 系列)系列)模型名称模型名称硬件硬件精度精度部署形态部署形态openPangu-Ultra-MoE-718BA2/A3INT8PD分离openPangu-72BA3INT8PD分离openPangu-38BA2/A3INT8混布openPangu-7BA2/A3BF16混布openPangu-7BVLA3BF16混布DeepSeek-R1A3INT8/W4A8C16/BF16PD分离DeepSeek-R1A2INT8

5、PD分离DeepSeek-V3A3W4A8C16PD分离DeepSeek-V3.1A3INT8PD分离DeepSeek-V3.2A3INT8PD分离DeepSeek-v3.2-EXPA3BF16/DSAPD分离DeepSeek-OCRA2BF16混布已支持模型列表(已支持模型列表(QwenQwen/Kimi/Kimi/其他系列)其他系列)模型名称模型名称硬件硬件精度精度部署形态部署形态Qwen2.5-7BA2/A3INT8混布(TP1 DP=1)QwQA2/A3BF16PD分离Qwen3-235BA3INT8PD分离Qwen3-235BA2BF16PD分离Qwen3-32BA3BF16/INT

6、8PD分离Qwen3-30BA3BF16PD分离Kimi-K2A3W4A8C16PD分离Kimi-K2 ThinkingA3W4A8C16PD分离Longcat-flashA3BF16PD分离Ling-1TA3BF16PD分离GPT-OSS120BA2/A3INT8PD分离GPT-OSS20BA2/A3INT8PD分离GLM 5.0A2/A3INT8PD分离模型性能统计(部分)模型性能统计(部分)模型模型硬件配置硬件配置版本版本QPMQPMTTFTTTFTTPOTTPOTTPSTPSDeepSeek R12P8-1D32A3v0.7.01862s20ms-openPangu-72B2P2-1D

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(何斌_Omni-Infer性能极致优化实践.pdf)为本站 (蓝色烟花) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠