当前位置: 首页 > news >正文

debug 笔记:llama 3.2 部署bug 之cutlassF: no kernel found to launch!

1 问题描述 

按照官方的写法

import torch
from transformers import pipeline
import os
os.environ["HF_TOKEN"] = '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'
model_id = "meta-llama/Llama-3.2-3B"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("The key to life is")

2 解决方法

torch.backends.cuda.enable_mem_efficient_sdp(False)
torch.backends.cuda.enable_flash_sdp(False)

禁用 PyTorch 2.x 中默认启用的 Flash Attention 和 Memory-Efficient Attention 内核

相关文章:

  • Java IntelliJ IDEA 中配置多个 JDK 版本
  • 洛谷题单1-B2025 输出字符菱形-python-流程图重构
  • matplotlib——南丁格尔玫瑰
  • K8S接口请求过程
  • 【CI/CD】Ansible知识库
  • # 使用自定义Shell脚本hello快速配置Linux用户账户
  • 【408--复习笔记】数据结构
  • 第十三届蓝桥杯单片机省赛程序设计试题
  • linux/android 如何获取当前系统启动时长
  • Vue学习笔记集--导航篇
  • 精华贴分享|从不同的交易理论来理解头肩形态,殊途同归
  • WPF的MVVM的基础知识
  • 推荐一个可以自定义github主页的网站
  • 深度剖析 Spring 源码 性能优化:核心原理与最佳实践
  • uniapp 在app上 字体如何不跟着系统字体大小变
  • deepseek(2)——deepseek 关键技术
  • OpenEuler linux samba部分目录无法访问的问题
  • 使用 Spring Boot 3.2 集成 MinIO 8.5:实现高效对象存储
  • 爬虫豆瓣电影
  • 大模型开发框架LangChain GO
  • 中国公民在日本被机动车碾压身亡,我使馆发布提醒
  • 出行注意防晒补水,上海五一假期以多云天气为主最高33℃
  • 建行一季度净利833.51亿同比下降3.99%,营收降5.4%
  • 美媒:受关税政策影响,美国电商平台近千种商品平均涨价29%
  • 明查|把太平洋垃圾污染问题甩锅中国,特朗普用的是P过的图
  • 杨荫凯履新浙江省委常委、组织部部长,曾任中央财办副主任