当前位置:首页 > 报告详情

017-舒卓.pdf

上传人: 山哈 编号:725355 2025-07-04 13页 932.38KB

1、AI关键算子RVV性能优化舒卓Nuclei TechnologyContents:2024/10/8Confidential 2024 Nuclei.All Rights Reserved.2嵌入式 AI 框架Nuclei RISC-V V 扩展简介使用 V 扩展优化 AI 关键算子示例在 Nuclei Evalsoc 上实测的提升效果嵌入式 AI 框架2024/10/8Confidential 2024 Nuclei.All Rights Reserved.33嵌入式 AI 框架指专门为资源受限的嵌入式设备设计的机器学习框架。由于嵌入式设备资源有限,常见做法是采用 训练-推理分离,即在服务器

2、(多核CPU/GPU)上训练模型,然后在嵌入式设备执行模型推理。Nuclei 嵌入式 AI 框架2024/10/8Confidential 2024 Nuclei.All Rights Reserved.44Nuclei Core(with B/P/V)NMSIS NN LibraryTFLite-microTinyMaixMCUNetNuclei AI Software Platform语音识别动作识别人脸识别人脸检测手写数字识别动作检测Nuclei AI DemosNuclei AI LibraryNuclei 基于 tflm/tinymaix 等推理框架进行了适配,提供 NMSIS NN

3、 Library 以及 Nuclei AI Library 等库,用户可以轻松的获得RISC-V P/V扩展加速能力。Nuclei NN Library:基于 CMSIS-NN 进行深度 P/V 扩展优化链接:https:/ Nuclei AI Library:使用 V 扩展优化常见的AI算子链接:https:/ Nuclei AI demo:基于 Nuclei SDK 适配,上手简单,并提供丰富示例链接:https:/ RISC-V V 扩展2024/10/8Confidential 2024 Nuclei.All Rights Reserved.55Nuclei V 扩展特性:支持 RVV

4、 1.0 VLEN 长度(128/512/1024bit)可配 支持整数/定点/浮点运算 支持最新 RVV intrinsic(v0.12.0)用户可以使用 Nuclei 的 NICE 硬件扩展接口,添加自定义 Vector 指令嵌入式AI的几个关键算子-CNN网络2024/10/8Confidential 2024 Nuclei.All Rights Reserved.6CNN 网络典型的层:卷积层、激活层、池化层、全连接层等下图为 Alexnet 网络在 CPU 进行推理的 benchmark,由图可以看出,卷积层和全连接层占用了 89%的时间,如何高效地进行卷积层和全连接层的计算是提升深

5、度学习推理性能的关键点。图片来源于 Jia,Yangqing.Learning semantic image representations at a large scale.University of California,Berkeley 使用 V 扩展优化-GEMM2024/10/8Confidential 2024 Nuclei.All Rights Reserved.7GEMM算子:即通用矩阵乘,GEMM 是非常重要的算子。对于CONV2D 常用的优化方法是 im2col+GEMM 优化,而全连接也是特殊的 GEMM。使用 RVV 优化 GEMM 有如下几种方法:方法1:直接使用 R

6、eduction 指令使用 V 扩展优化-GEMM2024/10/8Confidential 2024 Nuclei.All Rights Reserved.8 方法2:使用 macc 指令,一次可以算多个点方法2有几个优点:1.Reduction 指令效率较低,应尽量避免使用2.充分”榨取”已经load的数据,减少 load 操作使用 V 扩展优化-Exp2024/10/8Confidential 2024 Nuclei.All Rights Reserved.9Softmax/Elu/Silu 等激活函数调用

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了Nuclei Technology针对嵌入式AI框架的优化,特别是使用RISC-V V扩展对AI关键算子进行性能优化。关键点如下: 1. **嵌入式AI框架**:为资源受限的嵌入式设备设计,采用训练-推理分离的方法。 2. **Nuclei RISC-V V扩展**:支持RVV 1.0,可配置VLEN长度,支持多种运算,并提供自定义Vector指令的接口。 3. **优化AI关键算子**:卷积层和全连接层是推理性能的关键点。使用RVV优化GEMM算子,通过macc指令提升效率。 4. **激活函数优化**:使用RVV对Exp等激活函数进行优化,减少vfdiv指令使用,提高lmul取值。 5. **性能提升数据**:在Nuclei nx900fdv上,GEMM算子的RVV优化提升倍数显著;Exp算子的优化在VLEN=1024时,速度提升最高。 - GEMM优化:具体倍数未给出。 - Exp优化:无优化时为基准,VPU(VLEN=128)、VPU(VLEN=512)、VPU(VLEN=1024)的速度提升分别为未给出、未给出、最高。 综上,Nuclei Technology通过V扩展显著提升了嵌入式AI算子的性能。
"RVV如何提速AI运算?" "Nuclei Evalsoc实测性能翻倍?" "AI算子优化有哪些技巧?"
客服
商务合作
小程序
服务号
折叠