当前位置: 首页 > news >正文

从高层 PyTorch 到中层 CUDA Kernel 到底层硬件 Tensor Core

层级组件作用举例
① 高层框架PyTorch用户用它写模型,调用 tensor 操作torch.matmul(a, b)
② 执行层 / 中间层CUDA kernel实现 PyTorch 的底层算子逻辑,运行在 GPU 上cublasGemmEx(), custom_op
③ 硬件执行层Tensor CoreNVIDIA GPU 中用于高效执行矩阵乘法的物理单元FP16/FP8 TensorMath 单元

🔧 Tensor Core 是什么?

是 NVIDIA Volta 之后引入的硬件结构(TensorMath 单元)
本质是一个 4x4 或 8x8 矩阵乘加(FMA)模块
优化执行如下类型计算:
D = A × B + C
支持精度:FP16, BF16, TF32, FP8(取决于架构)
➡️ Tensor Core 能以比传统 CUDA core 快几倍的吞吐执行矩阵乘法!

🛠️ CUDA kernel 是什么?

是你编写或 PyTorch/库调用的 GPU 端执行代码
是 GPU 上的计算任务载体(你可以手写 .cu 文件,也可以用 JIT 写)
举例:
PyTorch 自带 kernel:aten::add, aten::matmul
cuBLAS kernel:cublasGemmEx()
你自己写的 kernel:my_custom_add<<<>>>
➡️ CUDA kernel 调度线程块 + 调用底层硬件单元(如 Tensor Core)

🧩 torch.compile、custom kernel 与 Tensor Core 的连接

模块 与 Tensor Core 的关系
torch.compile 会尝试 fuse 运算 → 使用 Triton / cuBLAS 等生成高效 kernel
Triton kernel 能生成调用 Tensor Core 的代码(例如 FP16 matmul)
Custom CUDA kernel 你手写 kernel 时,可以手动调用 Tensor Core 相关 intrinsics

http://www.dtcms.com/a/353006.html

相关文章:

  • fortran notes[2]
  • More Effective C++ 条款11:禁止异常流出析构函数之外
  • 自学嵌入式第二十九天:Linux系统编程-线程
  • 零后端、零配置:用 AI 编程工具「Cursor」15 分钟上线「Vue3 留言墙」
  • 从“找不到”到“秒上手”:金仓文档系统重构记
  • 深度学习-----详解MNIST手写数字数据集的神经网络实现过程
  • Linux系统使用ADB同时连接多个Android设备
  • 一、Mac(M1)本地通过docker安装Dify
  • 【Day 35】Linux-主从复制的维护
  • C语言中的static vs C++中的static:相同关键字,不同境界
  • golang13 单元测试
  • KingBase数据库迁移利器:KDTS工具 MySQL数据迁移到KingbaseES实战
  • uniapp中 ios端 scroll-view 组件内部子元素z-index失效问题
  • 大数据毕业设计选题推荐-基于大数据的城市空气污染数据分析系统-Spark-Hadoop-Bigdata
  • Elasticsearch三大属性详解:enabled、index与store
  • 【问题思考】为什么SVM中的w和超平面是垂直的?【SVM】【gemini生成】
  • Web转uni-app
  • 支持向量机(SVM)学习总结
  • 本地搭建 Redis/MySQL 并配置国内镜像加速(Docker/原生安装 | macOS/Linux/Windows)
  • Python爬虫实战:构建网易云音乐个性化音乐播放列表同步系统
  • 直线拟合方法全景解析:最小二乘、正交回归与 RANSAC
  • 3.【鸿蒙应用开发实战: 从入门到精通】开发入门 Hello World
  • Linux程序管理
  • SyntaxError: Failed to execute ‘open‘ on ‘XMLHttpRequest‘: Invalid URL
  • Mybatis总结
  • 织梦会员中心模板调用某个栏目名和栏目下文档的办法
  • 神经网络学习笔记11——高效卷积神经网络架构SqueezeNet
  • SCANeR Studio 仿真数据获取和车辆座舱数据输入-手自动驾驶切换(二)
  • 混合RAG架构:下一代企业级检索增强生成的融合之道
  • AI-Agent 深度科普:从概念到架构、应用与未来趋势