当前位置: 首页 > news >正文

解码未来:DeepSeek开源FlashMLA,推理加速核心技术,引领AI变革

前言:

DeepSeek 兑现了自己的诺言,开源了一款用于 Hopper GPU 的高效型 MLA 解码核:FlashMLA。

项目地址:https://github.com/deepseek-ai/FlashMLA

1:FlashMLA 是什么呀?

MLA是DeepSeek大模型的重要技术创新点,主要就是减少推理过程的KV Cache,从而实现在更少的设备上推理更长的Context,极大地降低推理成本。DeepSeek 直接开源了该核心技术的改进版本,可以说是诚意满满

FlashMLA适用于 Hopper GPU 的高效 MLA 解码内核,针对可变长度序列服务进行了优化。

目前已发布的内容有:

 BF16

块大小为 64 的分页 kvcache

其速度非常快,在 H800 SXM5 GPU 上具有 3000 GB/s 的内存速度上限以及 580 TFLOPS 的计算上限。

2:部署

在部署这个项目之前,你需要的有:

  •  Hopper GPU

  •  CUDA 12.3 及以上版本

  •  PyTorch 2.0 及以上版本

2.1安装

使用 CUDA 12.6,在 H800 SXM5 上,在内存绑定配置下实现高达 3000 GB/s,在计算绑定配置下实现 580 TFLOPS。

2.2 使用

from flash_mla import get_mla_metadata, flash_mla_with_kvcache

tile_scheduler_metadata, num_splits = get_mla_metadata (cache_seqlens, s_q * h_q //h_kv, h_kv)

for i in range (num_layers):...o_i, lse_i = flash_mla_with_kvcache (q_i, kvcache_i, block_table, cache_seqlens, dv,tile_scheduler_metadata, num_splits, causal=True,)...

你可以试试!

最后,还是那句话:这才是真正的 open source 的精神所在!

相关文章:

  • 低功耗可编程RTU在热网监控中的应用
  • 抽象工厂设计模式及应用案例
  • 如何在阿里云linux主机上部署Node.Js
  • ADB介绍
  • 《C语言数据类型取值范围:一场数字的“极限挑战”之旅》
  • CSS 中opacity属性和rgba颜色表示法中透明度的区别及应用场景
  • Kubernetes高级应用之-重启策略
  • 【数据库发展史】
  • 文章记单词 | 第2篇(六级)
  • 3.23[A]linux
  • 量子计算在密码学中的应用:机遇与挑战并存
  • MySQL InnoDB行锁等待时间是怎么引起的?
  • 对象的创建
  • 进程通信(进程池的模拟实现) read write函数复习 Linux ─── 第23课
  • 数据库基础知识点(系列四)
  • OpenCV图像拼接(7)根据权重图对源图像进行归一化处理函数normalizeUsingWeightMap()
  • SQL 通用表表达式(CTE )
  • Linux之基本命令和格式
  • RabbitMQ 学习整理2 - 消峰限流
  • C++学习之类和对象基本概念
  • 做网站建设的方案/泰安网站推广优化
  • 网站title标签内容怎么设置/厦门关键词优化报价
  • 做头像的网站空白/百度云登录入口
  • 网站建设_网站设计 app制作/全媒体运营师报考条件
  • 怎么做网站弹窗/百度推广一年大概需要多少钱
  • 哈尔滨网页设计公司/西安百度网站排名优化