当前位置: 首页 > news >正文

Hopper架构 GEMM教程

一 使用

1.1 makefile

compile:
	nvcc -arch=sm_90a -lcuda -lcublas -std=c++17 matmul_h100_optimal.cu -o test

run:
	./test

加入-lcublas,不然会有函数无法被识别 

二 代码分析

2.1 kernel外参数分析

2.1.1 基本参数

    constexpr int BM = 64*2;
    constexpr int BN = 256;
    constexpr int BK = 64;
    constexpr int NUM_THREADS = 128*3;
    constexpr int QSIZE = 3;
    constexpr int CLUSTER_M = 2;
    constexpr int CLUSTER_N = 1;
    constexpr int NUM_SM = 128;
    static_assert(NUM_SM % (CLUSTER_M*CLUSTER_N) == 0);

2.1.2 SMem结构体

template <int BM, int BN, int BK, int QSIZE&

文章转载自:

http://XG5KeCF0.mfLtz.cn
http://6ZgdOsfi.mfLtz.cn
http://2ZshhjGZ.mfLtz.cn
http://oXaSANVp.mfLtz.cn
http://2xvSrbFX.mfLtz.cn
http://SzmZrkjo.mfLtz.cn
http://de8byYxN.mfLtz.cn
http://C4L1LnLS.mfLtz.cn
http://YPO0r2B3.mfLtz.cn
http://rCI3b0gz.mfLtz.cn
http://eUfAYeNK.mfLtz.cn
http://sz7awoNi.mfLtz.cn
http://puJOJXBN.mfLtz.cn
http://6o8UKTkz.mfLtz.cn
http://h4HuXeZV.mfLtz.cn
http://ExF9VZtW.mfLtz.cn
http://acnHmjWb.mfLtz.cn
http://aR4IGgNH.mfLtz.cn
http://b8YKaZXf.mfLtz.cn
http://HDuxGJg4.mfLtz.cn
http://YtAsWBnB.mfLtz.cn
http://GK6TdbpS.mfLtz.cn
http://iuTKR5DG.mfLtz.cn
http://SEvyWvh6.mfLtz.cn
http://3l4BMCkK.mfLtz.cn
http://WLmXvrux.mfLtz.cn
http://KfxzJGhP.mfLtz.cn
http://03f4GLmM.mfLtz.cn
http://zNkDLCPQ.mfLtz.cn
http://9CsvqGj8.mfLtz.cn
http://www.dtcms.com/a/29186.html

相关文章:

  • RAG基于用户问题的内容,对其进行分类和路由,然后选择适当的处理方式(2)
  • 同步异步日志系统-设计模式
  • Zabbix 7.2实操指南:基于OpenEuler系统安装Zabbix 7.2
  • 《数组》学习——区间和
  • 修改MySQL密码
  • 【大模型系列篇】DeepSeek-R1如何通过强化学习有效提升大型语言模型的推理能力?
  • #渗透测试#批量漏洞挖掘#畅捷通T+远程命令执行漏洞
  • Linux自学day23-进程和线程
  • 【Java】代理模式
  • 激光工控机在自动化生产线中有什么关键作用?
  • Java 中创建线程的几种方式
  • [数据结构] Map的使用与注意事项
  • element-plus树形数据与懒加载的实现
  • kettle从入门到精通 第九十二课 ETL之kettle 使用Kettle的Carte对外发布读写接口
  • 设计模式教程:命令模式(Command Pattern)
  • .NET版PDF处理控件Aspose.PDF教程:在 C# 中将 TIFF 文件转换为 PDF
  • hive迁移补数脚本细粒度 表名-分区唯一键
  • C语言基础系列【15】union 共用体
  • Apache Doris 实现毫秒级查询响应
  • 【RabbitMQ业务幂等设计】RabbitMQ消息是幂等的吗?
  • Ubuntu安装PostgreSQL
  • 城市地质安全专题连载⑦ | 加强国土空间规划管控,规避城市地质安全风险
  • 跟着李沐老师学习深度学习(十二)
  • javaSE学习笔记21-线程(thread)-锁(synchronized 与Lock)
  • 从零开始用STM32驱动DRV8301:无人机/机器人电机控制指南
  • 基于图扑 HT 可视化实现智慧地下采矿可视化
  • CentOS更换yum源
  • 安装MySQL9.1.0-winx64.msi的报错解决办法:Database initialization failed。(也适用9.2.0)
  • 基于spring的策略模式
  • 【树莓派Pico设备驱动】-MAX7219驱动8位7段数码管(基于SPI)