当前位置: 首页 > news >正文

Hopper架构 GEMM教程

一 使用

1.1 makefile

compile:
	nvcc -arch=sm_90a -lcuda -lcublas -std=c++17 matmul_h100_optimal.cu -o test

run:
	./test

加入-lcublas,不然会有函数无法被识别 

二 代码分析

2.1 kernel外参数分析

2.1.1 基本参数

    constexpr int BM = 64*2;
    constexpr int BN = 256;
    constexpr int BK = 64;
    constexpr int NUM_THREADS = 128*3;
    constexpr int QSIZE = 3;
    constexpr int CLUSTER_M = 2;
    constexpr int CLUSTER_N = 1;
    constexpr int NUM_SM = 128;
    static_assert(NUM_SM % (CLUSTER_M*CLUSTER_N) == 0);

2.1.2 SMem结构体

template <int BM, int BN, int BK, int QSIZE&

相关文章:

  • RAG基于用户问题的内容,对其进行分类和路由,然后选择适当的处理方式(2)
  • 同步异步日志系统-设计模式
  • Zabbix 7.2实操指南:基于OpenEuler系统安装Zabbix 7.2
  • 《数组》学习——区间和
  • 修改MySQL密码
  • 【大模型系列篇】DeepSeek-R1如何通过强化学习有效提升大型语言模型的推理能力?
  • #渗透测试#批量漏洞挖掘#畅捷通T+远程命令执行漏洞
  • Linux自学day23-进程和线程
  • 【Java】代理模式
  • 激光工控机在自动化生产线中有什么关键作用?
  • Java 中创建线程的几种方式
  • [数据结构] Map的使用与注意事项
  • element-plus树形数据与懒加载的实现
  • kettle从入门到精通 第九十二课 ETL之kettle 使用Kettle的Carte对外发布读写接口
  • 设计模式教程:命令模式(Command Pattern)
  • .NET版PDF处理控件Aspose.PDF教程:在 C# 中将 TIFF 文件转换为 PDF
  • hive迁移补数脚本细粒度 表名-分区唯一键
  • C语言基础系列【15】union 共用体
  • Apache Doris 实现毫秒级查询响应
  • 【RabbitMQ业务幂等设计】RabbitMQ消息是幂等的吗?
  • 江苏优化网站公司/搜索引擎优化排名工具
  • 南山做棋牌网站建设/seo基础知识培训
  • 电脑上wap网站/株洲seo
  • 做网站怎么写代码/新闻头条免费下载安装
  • 华为做网站/windows优化大师怎么样
  • 苏州网站搜索优化/seo搜索引擎优化兴盛优选