当前位置: 首页 > news >正文

nvidia 各 GPU 架构匹配的 CUDA arch 和 CUDA gencode

使用 NVCC 进行编译 cuda c(.cu)时,arch 标志 (-arch) 指定了 CUDA 文件将为其编译的 NVIDIA GPU 架构的名称。
Gencodes (-gencode) 允许更多的 PTX 代,并且可以针对不同的架构重复多次。

NVIDIA 架构名称的列表,以及它们具有的计算能力:

FermiKeplerMaxwellPascalVoltaTuringAmpereLovelaceHopper
sm_20sm_30sm_50sm_60sm_70sm_75sm_80sm_90sm_100
sm_35sm_52sm_61sm_72sm_86
sm_37sm_53sm_62
  • Fermi 和 Kepler 从 CUDA 9 和 11 开始弃用
  • Maxwell 从 CUDA 12 开始弃用
  • Lovelace 是取代 Ampere (AD102) 的微架构

什么时候应该使用不同的gencodescuda arch

当编译 CUDA 代码时,应该始终只编译一个-arch与最常用的 GPU 卡匹配的标志。这将实现更快的运行时,因为代码生成将在编译期间发生。
如果只提及-gencode,而忽略-arch标志,则 CUDA 驱动程序将在JIT编译器上生成 GPU 代码。

当想要加速 CUDA 编译时,想要减少不相关的 -gencode 标志的数量。但是,有时可能希望通过添加更全面的 -gencode 标志来获得更好的 CUDA 向后兼容性。

相关文章:

  • 边缘检测技术现状初探1
  • Java全栈面试宝典:线程机制与Spring IOC容器深度解析
  • 167. 两数之和 II - 输入有序数组 leetcode
  • UML之扩展用例
  • open3d教程 (三)点云的显示
  • 【蓝桥杯每日一题】4.1
  • SQLyog一款被遗忘的MySQL管理利器深度解析
  • 强化终端安全防线防范屏幕共享诈骗
  • SAP SCC安装配置
  • 【蓝桥杯速成】| 18.完全背包(练习室)
  • Excel去掉单元格里面的换行的方法
  • 优艾智合-西安交大具身智能机器人研究院公布人形机器人矩阵
  • Tiktok矩阵运营中使用云手机的好处
  • ChatBI产品形态深度解析:嵌入式BI与大模型的场景化融合实践
  • Mysql之Redo log(Red log of MySQL)
  • 黑白彩色相机成像原理
  • 嘿嘿,好久不见
  • Maven核心配置文件深度解析:pom.xml完全指南
  • 解码 @property - 属性管理的艺术
  • 搜索算法-------DFS练习1
  • 大学生想做网站/教育培训机构报名
  • 北京牌楼设计制作/百度seo快排软件
  • 广州做一个营销网站多少钱/网络推广方案的基本思路
  • 网站服务器哪里的好/百度推广案例及效果
  • 灰色网站怎么做seo/优化网站软文
  • 怎么在vps上做网站/网站排名优化外包公司