当前位置:首页 > 报告详情

014-王得科.pdf

上传人: 山哈 编号:725315 2025-07-04 18页 5.17MB

1、基于RISC-V云端推理NPU的大模型应用实践广州希姆半导体科技有限公司王得科2024/08/20目录希姆计算大模型推理软件栈基于RISC-V的云端推理NPU STCP920大模型政务智能问答应用实践1.2.3.基于RISC-V的云端推理NPU STCP920指令集:RISC-V精度:FP16/INT8算力:INT8:256 TOPS内存:16 GB LPDDR4X制程:12nm散热方式:被动应用:推理功耗:160W虚拟化:支持VM/Container规格:全高全长,单宽开发工具:希姆计算软件开发套件FP16:128 TFLOPS基于RISC-V扩展指令的领域专用架构NPCRISC-V Sca

2、lar CoreVectorUnitMemoryFetchMatrixUnitLD/STLD/STNeural Processor Core可扩展性高灵活度高效能比可编程性DSAScalar CoreI$FETCHDECEXEMEMWBD$DECISSUESYNCMTEL1 BufferData IO BufferWeight BufferMIFMIFIntermediate BufferREGBANKMACVECTORsqrtexpdivPOLYMACMATRIXDataInputBuffer说明希姆计算大模型推理软件栈stc-smi STC-LLM:大模型专用推理框架 DNN:针对硬件特点

3、高度优化的算子库 MLTC:深度学习编译器,MLIR based STCCL:高性能通信库 HPE:异构编程环境,提供运行时 驱动 监控调试工具等STC-LLMDNNMLTCSTCCLHPEstc-gdbstc-profstc-vprofstc-smistcqualToolsRuntime EnvironmentSDKlibraryRuntimeDriverFirmware需要解决的问题 国内外各种大模型及网络结构层出不穷,如何快速跟进 模型参数量大,如何在既有硬件条件下达到最佳性能 开源优化方案大多基于 GPU进行,如何取长补短,快速迁移适配 灵活性 vs 兼容性STC-LLM 推理加速框架

4、框架优势 适配主流的大模型算子 通过模板化、参数化管理各类网络结构 根据既有的硬件及指令集特点,开发针对性的优化策略 提供标准的 Entrypoint,适配主流大模型开发框架,例如 LangChain,llama-index,Dify 等 支持云原生技术部署推理集群,确保生产环境的稳定性与扩展性DeployServingWeights ConvertorCompiler AdaptorEntrypointMetricsInference ServerLLM TemplateDecoder-basedMOEmambaRWKVRuntimeMemory ManagerGeneration Pipe

5、lineOptimizationPaged AttentionQuantizationContinuousBatchingSpeculative SamplingModel ZooLLaMaQwenGLM.设计分层扩展的硬件系统和高性能深度学习编译器,实现大模型的自动化编译。基于MLIR的深度学习编译器-MLTC技术路线DeployPCIe加速卡、OAM模组、单机多卡整机系统、服务器集群深度学习编译器的性能优化整图调度算子融合自动软流水最佳指令选择深度学习编译器设计逐层下降的多层IR设计算子无关的Tiling框架可配置的优化Pass灵活的异构编程流程Pytorch、TensorFlow,Pad

6、dlePaddle、AI框架适配LLaMA2-7B、ChatGLM3-6B、Baidchuan2-6B、大模型适配系统架构Frontend ConverterSTC DialectGeneral Graph OptimizationGraph Tiling&SchedulingCanonicalizerData TypeConversionLayout OptimizationNormalizationGraph PartitionGroup SplitLLB GOATMC GOATSimplifyFuse OpsCSEOp Schedule LSTC DialectL1 GOATBank O

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了广州希姆半导体科技有限公司基于RISC-V云端推理NPU STCP920的大模型应用实践。关键点如下: 1. **技术架构**:STCP920具有高算力(INT8: 256 TOPS,FP16: 128 TFLOPS),16GB LPDDR4X内存,支持被动散热和虚拟化,适用于云端推理。 2. **软件栈**:开发了针对大模型的推理框架STC-LLM,算子库DNN,深度学习编译器MLTC,高性能通信库STCCL,以及异构编程环境HPE。 3. **性能优化**:通过深度学习编译器MLTC优化整图调度、算子融合等,适配多种AI框架和主流开源LLM模型。 4. **政务应用**:基于STCP920构建了政务智能问答系统,处理广州市多个部门的600余项政务服务,提升了问答效率和知识管理。 5. **核心数据**:用户第一轮提问解答率80%,追问后整体提问解答率达到95%;政务知识管理效率比传统提升2倍。 6. **挑战与优势**:面临高精度、灵活性、通用性、吞吐量和成本挑战,STCP920展现了高精度、高推理性能、兼容性和高并发处理能力。 文章展示了在政务领域的实际应用效果,标志着算力新纪元的开启。
"STCP920如何提升政务效率?" "大模型在政务问答中有何优势?" "STCP920怎样赋能行业知识图谱?"
客服
商务合作
小程序
服务号
折叠