NVIDIA各个SM 版本功能

计算能力

设备的计算能力由版本号表示,有时也称为SM 版本”。此版本号标识 GPU 硬件支持的功能,并在运行时由应用程序使用来确定当前 GPU 上可用的硬件功能和/或指令。

计算能力由主修订号X和次修订号Y组成,用XY表示。

具有相同主修订号的设备属于相同的核心架构。基于NVIDIA Hopper GPU架构的设备主修订号为 9,基于NVIDIA Ampere GPU架构的设备主修订号为 8,基于Volta架构的设备主修订号为 7,基于Pascal架构的设备主修订号为 6,基于Maxwell架构的设备主修订号为 5,基于 Kepler 架构的设备主修订号为 3 。

特定 GPU 的计算能力版本不应与 CUDA 版本(例如 CUDA 7.5CUDA 8CUDA 9)混淆,后者是 CUDA软件平台的版本。

特点和技术规格

每个计算能力所支持的功能

功能支持

计算能力

(所有计算功能均支持未列出的功能)

5.05.2

5.3

6.x

7.x

8.x

9.0

对全局内存中的 32 位整数值进行操作的原子函数(原子函数

是的

对共享内存中的 32 位整数值进行操作的原子函数(原子函数

是的

对全局内存中的 64 位整数值进行操作的原子函数(原子函数

是的

对共享内存中的 64 位整数值进行操作的原子函数(原子函数

是的

对全局内存中的 128 位整数值进行操作的原子函数(原子函数

是的

对共享内存中的 128 位整数值进行操作的原子函数(原子函数

是的

对全局和共享内存中的 32 位浮点值进行原子加法运算 ( atomicAdd() )

是的

对全局内存和共享内存中的 64 位浮点值进行原子加法运算 ( atomicAdd() )

是的

在全局内存中对 float2 float4 浮点向量进行原子加法运算 ( atomicAdd() )

是的

扭曲投票函数(Warp Vote Functions

是的

内存栅栏函数(Memory Fence Functions

是的

同步函数(Synchronization Functions

是的

表面函数(Surface Functions

是的

统一内存编程 (统一内存编程)

是的

动态并行(CUDA 动态并行

是的

半精度浮点运算:加法、减法、乘法、比较、warp shuffle 函数、转换

是的

Bfloat16 精度浮点运算:加法、减法、乘法、比较、warp shuffle 函数、转换

是的

张量核心

是的

混合精度 Warp 矩阵函数(Warp 矩阵函数

是的

硬件加速memcpy_async使用 cuda::pipeline 进行异步数据复制

是的

硬件加速分割到达/等待屏障(异步屏障

是的

L2 缓存驻留管理(设备内存 L2 访问管理

是的

用于加速动态规划的 DPX 指令

是的

分布式共享内存

是的

线程块簇

是的

张量记忆加速器 (TMA) 单元

是的

请注意,下表中使用的 KB 和 K 单位分别对应 1024 字节(即 1 KiB)和 1024。

分享到:
客服咨询
0752-7897707
邮政编码:516870
客服邮箱:156449799@qq.com
公司地址:广东省惠州市永汉文建路59号
宝禄微信公众号
宝禄微信小程序
在线客服
 
 
 工作时间
周一至周五 :8:00-18:00
周六至周日 :10:00-17:00
 联系方式
客服热线:0752-7897707
赵工邮箱:156449799@qq.com