GPU结构:CPU+视频内存。
流式多处理器:计算单元的功能是执行计算。每个SM都有一个单独的控制单元、寄存器、高速缓存和命令管道。
全局内存:显卡内存是GPU板上的DRAM,容量大但速度慢。
1、计算单元的基本架构:
图形内核的配置是多样化的,不同的内核专注于不同的任务。对于NVIDIA,GPU图形由TENSOR CORE、CUDA和RT组件组成。长内核或长内核是NVIDIA GPU的特殊区域。它们是为人工智能矩阵计算而设计的。“它可以显著提高人工智能训练的吞吐量和计算性能。CUDA是英伟达生态系统的通用架构,通常适用于常规图像处理和计算任务,如视频制作、图像处理和3D渲染,包括各种数据类型。”。
2、TOPS和TFLOPS是计算性能测量的常用单位。
1) OPS:OPS(每秒任务数)是指每秒的任务数。它是整数运算的一个单位。它被广泛用于测量计算能力以计算精度,如INT8和INT4。每秒Tera运算(TOPS)表示处理器每秒执行1万亿次运算的能力(10^12)。与GOPS和MOPS类似的单位表示每秒的操作次数。
2) FLOPS:FLOPS(每秒浮点运算)表示每秒浮点运算的次数。单精度(FP32),广泛用于测量半精度(FP16)的计算能力和其他计算精度。TFLOPS(每秒Tera浮点运算)是一个每秒有1万亿个单位(10^12)的处理器,表示可以执行的浮点运算。TOPS和TFLOPS具有相同的数量级,但浮点运算是电子测量运算的数量。要将TOPS转换为FLOPS,必须将其与INT8和FP16等数据类型精度相结合。
3、视频存储的位宽、带宽和容量:
视频存储的主要指标包括位宽、带宽和容量。图形存储本身类似于CPU存储,因为它在GPU核心和硬盘之间传输数据。视频存储器的位宽是视频存储器的数据位,可以在一个时钟周期内传输,决定视频存储器可以立即传输的数据量。存储器带宽是指显示芯片和视频存储器之间的数据传输速度。视频存储器频率和视频存储器位宽是同时确定的,反映了图形卡的速度和性能。视频存储器的容量决定了临时存储的数据量。目前,常用的AI GPU芯片包括NVIDIA H100、A100还有V100。全球人工智能训练的AI GPU市场目前由英伟达主导,高端计算产品主要包括H100、A100和V100。与浮点计算能力(FP64张量核心)相比,H100、A100和V100分别为67 TFLOPS和19.5 TFLOPS。8.2提供TFLOPS计算速度。在视频存储带宽方面,传输速度分别为H100、A100和V100 3TB/s、2TB/s和900GB/s。