GPU（图形处理器）

7GPU重要参数解释

GPU(图形处理器)是什么

GPU，graphics processing unit，中文是图形处理器，又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。显卡是显示适配卡(显示适配器)的简称，作用是协助CPU进行图像处理，将CPU送来的图像信号经过处理再输送到显示器上，由主板连接设备、监视器连接设备、处理器和内存组成，GPU即是显卡处理器。

GPU的结构有八大部分，分别是图形显存控制器、压缩单元、BIOS、图形和计算整列、总线接口、电源管理单元、视频管理单元、显示界面。GPU的出现使计算机减少了对CPU的依赖，并解放了部分原本CPU的工作。

gpu

GPU工作原理

GPU的工作通俗的来说就是完成3D图形的生成，将图形映射到相应的像素点上，对每个像素进行计算确定最终颜色并完成输出，一般分为顶点处理、光栅化计算、纹理贴图、像素处理、输出五个步骤。

其中工作内容包括：1)顶点处理，GPU读取描述3D图形外观的顶点数据，并根据顶点数据确定3D图形的形状及位置，建立3D图形骨架。2)光栅化，显示器实际显示的图像是由像素点组成的。把一个矢量图形转换为一系列像素点的过程就称为光栅化。例如，把一条线段转化为阶梯状的连续像素点。3)纹理贴图，顶点单元生成的多边形只构成了3D物体的外轮廓，纹理贴图将多边形的表面贴上相应的图片，从而生成完整的3D图形。4)像素处理。5)最终输出，由ROP(光栅化引擎)最终完成像素的输出，1帧图像渲染完毕后，被送到显存帧缓冲区。

GPU与CPU的区别

GPU采用流式并行计算模式，可对每个数据行独立的并行计算。与CPU相比，GPU更擅长大规模并发计算。

一个3D图形最终会被分解为许多个像素点来计算，如果要渲染速度快，这就要求GPU的硬件结构是满足同时进行大量的简单计算的，这个需求导致了GPU与CPU的硬件架构不同。从芯片设计思路看，CPU基于低延时设计，由运算器(ALU)和控制器(CU)，以及若干个寄存器和高速缓冲存储器组成，功能模块较多，擅长逻辑控制，串行运算，而GPU基于大吞吐量设计，拥有更多的ALU用于数据处理，适合对密集数据进行并行处理，擅长大规模并发计算，因此GPU也被应用于AI训练等需要大规模并发计算场景。

微架构的不同最终导致CPU中大部分的晶体管用于构建控制电路和缓存，只有少部分的晶体管完成实际的运算工作，功能模块很多，擅长分支预测等复杂操作。GPU的流处理器(承担简单计算任务)和显存控制器占据了绝大部分晶体管，而控制器相对简单，擅长对大量数据进行简单操作，拥有远胜于CPU的强大浮点计算能力，从而更擅长并行计算，比如图像处理计算，物理仿真，深度学习等。具体而言：

(1)设计目标

CPU侧重于程序执行的效率重在对大量趋同计算的并行处理；运行复杂程度高，需要处理各种不同的数据行，同时逻辑判断有需要处理大量分支跳转和中断

GPU运行复杂度低，面对的是不被打断的计算环境，处理类型统一的、无相关性的大规模数据

(2)内部架构

CPU大部分晶体管用于控制，缓存的等的设计，负责算数逻辑的处理单元不多GPU大部分的晶体管用于算数逻辑处理单元；逻辑核心复杂逻辑核心简单

(3)适用任务

CPU适合运行具有分支密集型，不规则数据结构、逻辑更加灵活复杂等特点的串行程序。

GPU合适处理计算密集型、数据耦合度低、高度并行化的计算任务

GPU分类

(1)根据与CPU的关系，GPU可以分为独立CPU和GPU。

独立GPU一般焊接在显卡的电路板上，位置在显卡的风扇下面。独立GPU使用的是专用的显示存储器，显存带宽决定了和GPU的连接速度。集成GPU一般与CPU集成在一起。集成GPU与CPU共有一个风扇和缓存。集成GPU由于设计制作、驱动程序都由CPU厂家完成，因此兼容性较好；此外，由于CPU与GPU实现了集成，因此，集成GPU的占用空间小；实现GPU与CPU的适配与兼容，集成GPU的性能相对独立GPU较弱，因此功耗和成本相对独立GPU较低。独立GPU由于拥有独立的显存，更大的空间和更好的散热，因此在性能上面独立显卡更好；但需要额外的空间，能够满足复杂庞大的图形处理需求，并提供高效的视频编码应用。然而，强劲的性能意味着更高的耗能，独立GPU需要额外的供电，并且成本也更高。

gpu

(2)根据应用终端类别，可以分为PCGPU，服务器GPU，移动GPU。

PCGPU应用于PC端。根据其所在产品定位既可以使用集成GPU，也可以使用独立GPU。例如，若PC以轻办公，文字编纂为主，一般产品会选择搭载集成GPU；若PC需要制作高清图片，编辑视频，渲染游戏等，则选择的产品搭载独立GPU。服务器GPU应用于服务器，可做专业可视化、计算加速、深度学习等应用，根据云计算、人工智能等一系列技术的发展，服务器GPU将会以独立GPU为主。移动端轻薄化已经成为趋势，终端内部净空间由于多种功能模组的增加已经快速下降；同时就目前移动端需要处理的视频和图像而言，集成GPU已经能够满足。所以移动GPU一般采用集成GPU。

gpu

GPU发展历程

GPU原本只是用于图形和图像的相关运算，受CPU的调配，但随着云计算、AI等技术的发展，GPU并行计算的优势被发掘，在高性能计算领域取代CPU成为主角。2006年，NVIDIA发布了第一款采用统一渲染架构的桌面GPU和CUDA通用计算平台，使开发者能够使用NVIDIAGPU的运算能力进行并行计算，拓展了GPU的应用领域。2011年，NVIDIA发布TESLAGPU计算卡，正式将用于计算的GPU产品线独立出来，标志着GPU进入高性能计算时代。

gpu

国产GPU公司

景嘉微是国内唯一一家能够实现GPU自主研发并商业化大规模生产的企业。有很多企业加入了GPU赛道，如航锦科技、芯原股份、摩尔线程等，但直至2021年7月，景嘉微依旧是国内唯一一家能够实现GPU自主研发并商业化生产的企业，并在逐步缩小与世界领先水平的差距。

景嘉微：新一代高性能、高可靠GPU，支持国产CPU和OS(87.96%)

航锦科技：长沙韶光GPU芯片已经可以满足日常办公及娱乐使用

芯原股份：2015年，收购了美国图芯技术Vivante GPU的IP

壁仞科技：云端通用智能计算GPU(AI训练和推理、图形渲染、高性能通用计算)

中船重工：709所、716所，GPU产品应用于军民两用电子设备、工业控制、电子信息等领域

龙芯中科：成立GPU突击队，2020年开始进军GPU领域

兆芯：独立70W GPU(台积电28纳米制程)

芯瞳半导体：国产自主的GPU和人工智能芯片(党政军、云游戏)，与国产CPU和OS正在双向认证

芯动科技：“风华”系列智能渲染卡GPU图形处理器

海思：GPU Turbo技术(软件层面提升GPU性能)

西邮微电：自主知识产权高性能图形图像处理、虚拟现实、人工智能等专用处理器芯片

天数智芯：中国第一家GPGPU云端芯片及超级算力系统提供商

登临科技：GoldwasserTM GPU+ 片内异构设计

摩尔线程：构建中国视觉计算和人工智能领域计算平台，GPU产品线覆盖通用图形计算和高性能计算

沐曦集成电路：采用国际最先进工艺制程，设计高性能通用GPU产品，服务数据中心、人工智能等领域

翰博半导体：AI云计算GPU

燧原科技：AI云计算GPU

gpu

GPU重要参数解释

(1)显存，全称显示内存，暂时储存显示芯片要处理的数据和处理完毕的数据。图形核心的性能愈强，需要的显存也就越多。显存类型从原来的容量不大的SDR，发展到DDR、SDRAM、DDR3、DDR4等。从Pascal架构开始，NVIDIA已经开始提供HBM2类型的显存，最新针对专业计算的TeslaA100采用HBM2，显存容量可达40GB，为游戏设计的RTX 8080 Ti采用DDR6，显存容量也可达12GB。显存主要由传统的内存制造商提供，比如三星、现代、Kingston等。

(2)显存位宽，指一个时钟周期内能传输数据的位数(bit)。显存位宽位数越大则瞬间所能传输的数据量越大，这是显存的重要参数之一。显存位宽越高，性能越好价格也就越高，因此512位宽的显存更多应用于高端显卡。

(3)显存频率指显存在显卡上工作时的频率，以MHz(兆赫兹)为单位。显存频率一定程度上反应着该显存存取的速度。显存频率随着显存的类型、性能的不同而不同，DDR、SDRAM显存则能提供较高的显存频率，因此是采用最为广泛的显存类型。近年来，GPU显存频率已经从百级提升到万级，GTX1080Ti的显存频率已经高达10000MHz。

(4)显存带宽，指显示芯片与显存之间的数据传输速率，单位是字节/秒。显卡的显存是由一块块的显存芯片构成的，显存总位宽同样也是由显存颗粒的位宽组成，显存带宽=显存频率×显存位宽/8。显存带宽是决定显卡性能和速度最重要的因素之一。

(5)制作工艺，指的是晶体管与晶体管之间的距离，单位是纳米。制作工艺越小说明集成度越高，功耗越小，性能越好。目前NVIDIA最先进的Tesla采用7nm制程，GTX1080 Ti采用16nm制程。

(6)像素填充速率，指GPU一秒钟内能处理多少个像素，单位是GPixel/S(每秒十亿像素)，或MPixel/S(每秒百万像素)。像素填充速率是较好衡量GPU图像显示功能的整体指标，说明了显卡能以多快的速度对图像进行光栅化处理。显卡的硬件指标对其速度具有直接影响。

(7)纹理填充率，指对多边形图像进行纹理贴图、实现3D效果的速度，和像素填充率类似，单位是GTexels/S或MTexels/S。游戏采用了多纹理贴图的方式，使画面具有更好的光影效果。像素填充率和纹理填充率反映的是GPU的性能，而显存带宽则体现了显存的性能。

(8)功率，集显依靠CPU的主板连接提供电源，但独显性能较强，需要单独接电源。如RTX 3080 Ti功率为750w。

(9)总线接口，显示卡要插在主板上才能与主板互相交换数据，现在主流接口为PCLe(PCI-Express)。接口提供数据流量带宽，目前主流采用PCLe4.0版本，16个通道。

(10)Directx支持，简称DX，是一种应用程序接口(API)。DX由微软编写，由很多的API组成，包括显示、声音、输入和网络。DirectX 11还支持高质量实时渲染和预渲染场景，目前DX已发展到Directx 12版本，提高了多线程效率，可以充分发挥多线程硬件的潜力。

(11)CUDA Core和Tensor Core，为GPU提供计算能力的硬件单元。CUDA core也叫Streaming Processor(SP)，是单精度，组成SM的重要部分。Tensor Core已发展到第三代，Tensor Core大幅减少了深度学习需要的时间。Core的数量越多，并行运算的线程越大，计算的峰值越高。

参考资料：【研报】电子行业深度报告：GPU研究框架-210306（108页）.pdf

【精选】2021年电子行业GPU研究框架分析报告（107页）.pdf

大规模分布式 GPU 图嵌入在腾讯的实践之路.pdf

景嘉微-军转民前“景”广阔GPU“芯”辰大海-210827（29页）.pdf

脑研究之利器：基于 NVIDIA GPU 的全脑尺度直接可视化方法.pdf

铂科新材-双碳助力公司发展GPU等新应用构建二次成长曲线-21112（32页）.pdf

科技行业先锋系列报告240：英伟达2022 CES发布4款GPU产品Omniverse提供免费版本-20220106（45页）.pdf

计算机行业专题研究：GPU计算机图显核心计算场景应用崛起-211110（33页）.pdf