当前位置:首页 > 报告详情

王博-从CPU到NPU从对象到张量的编程范式转型.pdf

上传人: 哆哆 编号:631182 2025-04-19 42页 22.72MB

1、ML-SummitML-SummitML-SummitML-SummitML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit软件设计与实现范式 从 对象 到 张量王博ML-SummitML-Summit从 Object 到 Tensor 的架构与实现模式软件设计与实现范式的变化基于 GPU/NPU 的软件技术栈计算架构的演进ML-SummitML-Summit01计算架构的演进ML-SummitML-SummitGPU 算力与能效比变化Single-threaded CPU vs.GPU performancehttps:/ in AI

2、inference energy consumption:Beyond the performance-vs-parameter laws of deep learninghttps:/ in Everywherehttps:/ AI RAN 为例https:/ Software 1.0 到 2.0https:/ EventFactoryValueObjectDomain Driven DesignML-SummitML-SummitSoftware 3.0?https:/ 3.0+Connor White https:/ 1.0Software 2.0Software 3.0Software

3、 4.0自长软件意图驱动软件数据驱动软件确定性软件ML-SummitML-SummitSystem Software EngineeringApplicationML-SummitML-Summit03基于 GPU/NPU 的软件技术栈ML-SummitML-SummitCUDA Platform StackIn the beginningCUDA:New Features and Beyondhttps:/ System View面向产品(竞争力)面向应用(复用)算子开发工程面向硬件(性能)面向研发(效率)模型开发、训练与应用模型推理与加速异构计算 SDK运行时 ptxTensorFlowN

4、vidia DynamoCUDA RuntimenvccNsight ToolsCUTLASScuBLAScuDNNPyTorchTVMXLAJARMegatronDeepSpeedOpenAI TritonNvidia Triton ServerTensorLLMTensorRTFastTransformerNCCLNVSHMEMDriversRDMAnvrtcML-SummitML-SummitFrom AI Framework to Operatorshttps:/ ProgramminghostdeviceML-SummitML-SummitSIMT:Auto SIMDML-Summi

5、tML-SummitSIMT:Easy for Beginner?SimpleMassiveAutomaticML-SummitML-SummitBut Copy,Sync,Schedule,Tile,CacheReduceMatmulML-SummitML-SummitThe complexity of operator developmentTensor Info(DataType、Shape、Format)Operator Type(Elemwise、Reduce、Matmul)Hardware Variants(Volta、Ampere、Blackwell)https:/ Stackh

6、ttps:/ Structure昇腾AI处理器:https:/ Stackhttps:/ in NPUhttps:/ Chttps:/ 融合优化ML-SummitML-SummitAutomatic Optimization by Compilerhttps:/tvm.apache.org/ML-SummitML-SummitPyTorch 2.0 with Tritonhttps:/pytorch.org/get-started/pytorch-2.0/https:/pytorch.org/get-started/pytorch-2.0/ML-Summ

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了软件设计与实现范式从对象到张量的演变,以及基于GPU/NPU的软件技术栈的计算架构演进。 关键点如下: 1. 软件设计与实现范式变化:从Software 1.0到Software 2.0,再到Software 3.0和Software 4.0,体现了软件设计的自生长、意图驱动、数据驱动和确定性等特点。 2. 计算架构的演进:从单线程CPU到GPU,GPU/NPU的能效比变化,以及AI加速器架构的变革。 3. 基于GPU/NPU的软件技术栈:介绍了CUDA平台栈、AI系统视图、异构计算SDK运行时、Tensor Core AI性能里程碑等。 4. 从对象到张量的架构与实现模式:对象与张量的数据结构对比,以及根据数据规模和间隔紧凑性选择合适的实现方式。 5. 硬件驱动与软件库:包括NPU芯片驱动、协议库、通信库、算子编译器、媒体库等。 6. 图编译与优化框架:图编译与执行引擎、自动编译优化工具、观测分析工具等。 7. 推理服务与应用框架:包括LLM推理与加速框架、异构推理与加速框架、确定性资源调度框架等。 综上所述,文章围绕软件设计与实现范式的演变、计算架构的演进以及基于GPU/NPU的软件技术栈展开,探讨了从对象到张量的架构与实现模式,并介绍了相关的硬件驱动、软件库、编译优化和应用框架。
"从对象到张量的架构演进" "GPU/NPU技术栈的软件实现" "软件设计与实现范式的未来趋势"
客服
商务合作
小程序
服务号
折叠