《15.乱序 RVV:动态调度提升AI 计算任务效率 .pdf》由会员分享,可在线阅读,更多相关《15.乱序 RVV:动态调度提升AI 计算任务效率 .pdf(13页珍藏版)》请在三个皮匠报告上搜索。
1、乱序乱序RVV:动态调度提升度提升AI计算任算任务效效率率崔进2025/7/18StarFiveTechnologyCo.,Ltd.A genda1.AI计算的新挑战2.RVV在AI计算中的优势3.乱序RVV在AI计算中的优势4.典型计算任务性能实验5.乱序RVV核实例介绍StarFiveTechnologyCo.,Ltd.AI计算的新挑战3当前,人工智能正经历从专用模型向通用大模型、从云端向边缘的双重演进。这一过程对计算架构提出了三大挑战:模型多模型多样性性:从CNN、Transformer 到新兴的多模态模型,计算模式差异显著部署碎片化部署碎片化:从超低功耗IoT 设备到高性能数据中心,硬
2、件需求千差万别生生态封封闭性性:传统AI 加速方案依赖专有架构,导致开发成本高、迁移困难StarFiveTechnologyCo.,Ltd.向量长度(VLEN)、寄存器组大小等均可配置,使其能够高效支持不同规模的AI 计算参数化设计可以在不同的硬件平台上运行同样的软件,极大的减少了软件移植等开销,对于DSA亦是如此指令集兼容性RVV在在AI计算中的算中的优势4作为首个真正开放的向量指令集标准,RVV 具有两大核心优势:StarFiveTechnologyCo.,Ltd.RVV在在AI计算中的算中的优势5SpeedupRateCoreImgProcDNNCalib3dVideoObjdetect
3、Features2d00.511.522.533.54OpenCVRVV/ScalarRVV/ScalarRVV加速比实验RVV对OpenCV的平均加速2.6倍RVV对Deepseek-1.5B-Qwen-Q8和Q4分别加速2.3,5.5倍Token/s2GHzSpeeduprateDeepSeek-1.5B-Qwen-Q8DeepSeek-1.5B-Qwen-Q400.511.5201234562.315.48DeepseekRVV/ScalarScalarRVVSpeedupRateStarFiveTechnologyCo.,Ltd.AI 计算的本质是数据并行和控制并行的混合负载,乱序RV
4、V的乱序执行通过动态调度将两者解耦,突破顺序执行的“指令墙”和“内存墙”。乱序乱序RVV在在AI计算中的算中的优势6高指令级并行场景如矩阵运算密集的Transformer 层内存访问密集型任务如参数服务器架构的分布式训练动态控制流场景如强化学习决策、自适应推理AI计算控制并行数据并行乱序适用场景StarFiveTechnologyCo.,Ltd.7指令级并行非阻塞内存访问寄存器重命名乱序发射窗内存访问效率提升隐藏延迟优化内存控制流与资源调度优化分支预测错误率降低动态资源分配提升利用率能效比提升乱序乱序RVV在在AI计算中的算中的优势StarFiveTechnologyCo.,Ltd.计算任算任
5、务:向量点:向量点积C=(Ai*Bi)8顺序序RVVvle32.vv8,(a1)#加载A阻塞5周期(内存延迟)vle32.vv16,(a2)#加载B阻塞5周期(依赖v8完成?)vfmul.vvv24,v8,v16#A*B依赖v8/v16就绪(阻塞3周期)vfredsum.vsv0,v24,v0#规约累加依赖v24(阻塞7周期)乱序乱序RVVvle32.vv8,(a1)#发射加载A(不等待)vle32.vv16,(a2)#立即发射加载B(地址独立,无依赖)vfmul.vvv24,v8,v16#发射乘法(乱序执行引擎自动等待操作数)vfredsum.vsv0,v24,v0LoadALoadB#等待
6、LoadA完成MultReduceLoadALoadB#与LoadA并行Mult#操作数就绪即执行Reduce=执行中,=气泡(闲置)假设访存延迟=5周期,乘法=3周期,规约累计=7周期乱序RVV减少37%气泡减少减少25%总延延迟StarFiveTechnologyCo.,Ltd.9顺序RVVvs乱序RVV相同的VLEN,DLEN长度,乱序RVV对比顺序RVV,NCNN,OpenCV,OpenBLAS的典型任务性能提升6.34%-30.19%典型计算任务性能实验StarFiveTechnologyCo.,Ltd.