当前位置: 首页 > news >正文

DeepSeek-OpenSourceWeek-第三天-Release of DeepGEMM

DeepGEMM:这是一款专为高效的 FP8(8 位浮点)通用矩阵乘法(GEMMs)而开发的尖端库。GEMMs 是许多 AI 工作负载(尤其是深度学习)中的基本操作。

  • 特点

    • 支持稠密和 MoE GEMMs:它可以处理标准的稠密矩阵乘法以及混合专家(MoE)模型中使用的矩阵乘法。MoE 是一种神经网络架构,通过使用多个专家网络来提高模型性能。

    • V3/R1 训练和推理:该库专门支持 DeepSeek 的 V3 和 R1 模型的训练和推理,这些可能是他们的最新 AI 模型。

性能与效率

  • 高性能:DeepGEMM 在 Hopper GPU 上可实现超过 1350+ FP8 TFLOPS(每秒万亿次浮点运算)。这表明它针对现代 GPU 架构进行了高度优化。

  • 简洁轻量:该库没有复杂的依赖项,易于集成和使用。它被描述为“像教程一样简洁”,这意味着代码结构清晰易懂。

  • 即时编译:该库使用即时(JIT)编译,即在执行过程中即时编译代码。这可以带来更高效和优化的性能。

1 What is GEMM?

通用矩阵乘法(GEMM) 是一种 两个输入矩阵相乘并生成一个输出矩阵的数学运算 。公式为:

其中, A 和 B 是输入矩阵, C 是输出矩阵,α 和 β 是标量, op(A) 和 op(B) 表示对矩阵 A 和 B 的操作,如转置或不转置。

重要性及应用场景

  • GEMM 是线性代数中的基础操作 ,在众多领域有着广泛的应用,包括但不限于计算机科学、物理学、工程学等领域。

  • 在深度学习中,GEMM 是神经网络训练和推理的核心组件 。矩阵乘法是神经网络运算的基本构成部分,如全连接层、卷积层等,都涉及到大量的矩阵乘法运算。

运算原理

  • 输入矩阵与输出矩阵

    • 假设矩阵 A 的维度是

相关文章:

  • 《deepseek FlashMLA :高效的 MLA 解码内核》:此文为AI自动翻译
  • Mac本地部署Deep Seek R1
  • Mybatis面试总结(下):xml文件和mybatis内部结构的映射关系是?为什么说MyBatis是半自动ORM?它与全自动的区别是?
  • JVM线程分析详解
  • C高级——shell(3)
  • Professional Pycharm教程
  • Jmeter基础知识总结
  • [笔记.AI]AI知识科普提纲
  • 《昇思25天学习打卡营第14天|计算机视觉-ShuffleNet图像分类》
  • Flutter 学习之旅 之 flutter 在 Android 端读取相册图片显示
  • 浅谈对目前 Deep Seek 的看法
  • HOW POWERFUL ARE GRAPH NEURAL NETWORKS?(GIN)
  • DAV_postgresql_2-user_role
  • unity 红点树
  • 网络安全应急响应中主机历史命令被删除 网络安全事件应急响应
  • JAVA面试常见题_基础部分_mybatis面试题
  • Spark RDD持久化机制深度解析
  • sql server 复制从备份初始化数据
  • Ubuntu中dpkg命令和apt命令的关系与区别
  • 大模型算法工程师的技术图谱和学习路径
  • “浦东时刻”在京展出:沉浸式体验海派风情
  • 市自规局公告收回新校区建设用地,宿迁学院:需变更建设主体
  • 壹基金发布2024年度报告,公益项目惠及937万人次
  • 陕西永寿4岁女童被蜜蜂蜇伤致死,当地镇政府介入处理
  • 东莞“超级”音乐节五一出圈背后:文旅热力何以澎湃经济脉动
  • 一企业采购国产化肥冒充“挪威化肥”:7人被抓获