当前位置：首页 > news >正文

debug 笔记：llama 3.2 部署bug 之cutlassF: no kernel found to launch!

news 2025/10/31 3:38:51

1 问题描述

按照官方的写法

import torch
from transformers import pipeline
import os
os.environ["HF_TOKEN"] = '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'
model_id = "meta-llama/Llama-3.2-3B"

pipe = pipeline(
    "text-generation", 
    model=model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

pipe("The key to life is")

2 解决方法

torch.backends.cuda.enable_mem_efficient_sdp(False)
torch.backends.cuda.enable_flash_sdp(False)

禁用 PyTorch 2.x 中默认启用的 Flash Attention 和 Memory-Efficient Attention 内核

查看全文

http://www.dtcms.com/a/93278.html

Java IntelliJ IDEA 中配置多个 JDK 版本

洛谷题单1-B2025 输出字符菱形-python-流程图重构

matplotlib——南丁格尔玫瑰

K8S接口请求过程

【CI/CD】Ansible知识库

# 使用自定义Shell脚本hello快速配置Linux用户账户

【408--复习笔记】数据结构

第十三届蓝桥杯单片机省赛程序设计试题

linux/android 如何获取当前系统启动时长

Vue学习笔记集--导航篇

精华贴分享｜从不同的交易理论来理解头肩形态，殊途同归

WPF的MVVM的基础知识

推荐一个可以自定义github主页的网站

深度剖析 Spring 源码性能优化：核心原理与最佳实践

uniapp 在app上字体如何不跟着系统字体大小变

deepseek(2)——deepseek 关键技术

OpenEuler linux samba部分目录无法访问的问题

使用 Spring Boot 3.2 集成 MinIO 8.5：实现高效对象存储

爬虫豆瓣电影

大模型开发框架LangChain GO

基于Kubernetes部署Prometheus监控平台

探索PyMOL新插件NRGSuite-Qt：全面提升分子对接、结合位点预测与动力学模拟的研究效率

spring batch 中JpaNamedQueryProvider、JpaNativeQueryProvider两种查询方式对比

Graphpad Prism for Mac医学绘图

Svelte 深度理解

31天Python入门——第15天:日志记录

深度学习入门1 基于Python的理论与实现

Photoshop 2025安装包下载及Photoshop 2025详细图文安装教程

【LeetCode 题解】算法：8.字符串转换整数（atoi）

自动化测试selenium(Java版)

1 问题描述

2 解决方法

相关文章：