当前位置: 首页 > news >正文

《deepseek FlashMLA :高效的 MLA 解码内核》:此文为AI自动翻译

FlashMLA

GitHub - deepseek-ai/FlashMLA

FlashMLA 是适用于 Hopper GPU 的高效 MLA 解码内核,针对可变长度序列服务进行了优化。

当前发布:

  • BF16、FP16
  • 块大小为 64 的分页 kvcache

快速开始

安装

python setup.py install

基准

python tests/test_flash_mla.py

使用 CUDA 12.8,在 H800 SXM5 上实现高达 3000 GB/s 的内存绑定配置和 580 TFLOPS 的计算绑定配置。

用法

from flash_mla import get_mla_metadata, flash_mla_with_kvcache

tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)

for i in range(num_layers):
    ...
    o_i, lse_i = flash_mla_with_kvcache(
        q_i, kvcache_i, block_table, cache_seqlens, dv,
        tile_scheduler_metadata, num_splits, causal=True,
    )
    ...

要求

  • Hopper GPU
  • CUDA 12.3 及更高版本
    • 但我们强烈建议使用 12.8 或更高版本以获得最佳性能
  • PyTorch 2.0 及更高版本

确认

FlashMLA 的灵感来自 FlashAttention 2&3 和弯刀项目。

引文

@misc{flashmla2025,
      title={FlashMLA: Efficient MLA decoding kernels},
      author={Jiashi Li},
      year={2025},
      publisher = {GitHub},
      howpublished = {\url{https://github.com/deepseek-ai/FlashMLA}},
}

相关文章:

  • Mac本地部署Deep Seek R1
  • Mybatis面试总结(下):xml文件和mybatis内部结构的映射关系是?为什么说MyBatis是半自动ORM?它与全自动的区别是?
  • JVM线程分析详解
  • C高级——shell(3)
  • Professional Pycharm教程
  • Jmeter基础知识总结
  • [笔记.AI]AI知识科普提纲
  • 《昇思25天学习打卡营第14天|计算机视觉-ShuffleNet图像分类》
  • Flutter 学习之旅 之 flutter 在 Android 端读取相册图片显示
  • 浅谈对目前 Deep Seek 的看法
  • HOW POWERFUL ARE GRAPH NEURAL NETWORKS?(GIN)
  • DAV_postgresql_2-user_role
  • unity 红点树
  • 网络安全应急响应中主机历史命令被删除 网络安全事件应急响应
  • JAVA面试常见题_基础部分_mybatis面试题
  • Spark RDD持久化机制深度解析
  • sql server 复制从备份初始化数据
  • Ubuntu中dpkg命令和apt命令的关系与区别
  • 大模型算法工程师的技术图谱和学习路径
  • AI 自动化编程:从效率革命到未来教育的革新
  • 匈牙利外长称匈方已驱逐两名乌克兰外交官
  • 代理销售保险存在误导行为,农业银行重庆市分行相关负责人被罚款0.1万元
  • 新华时评:直播间里“家人”成“韭菜”,得好好管!
  • 新华每日电讯:给“男性妇科病论文”开一剂复方药
  • 首家股份行旗下AIC来了,兴银金融资产投资有限公司获批筹建
  • 高进华“控股”后首份年报出炉,史丹利账上可动资金大幅缩水