当前位置: 首页 > news >正文

llama.cpp无法使用gpu的问题

使用cuda编译llama.cpp后,仍然无法使用gpu。

./llama-server -m ../../../../../model/hf_models/qwen/qwen3-4b-q8_0.gguf  -ngl 40

报错如下

ggml_cuda_init: failed to initialize CUDA: forward compatibility was attempted on non supported HW
warning: no usable GPU found, --gpu-layers option will be ignored
warning: one possible reason is that llama.cpp was compiled without GPU support
warning: consult docs/build.md for compilation instructions
 

使用nvidia-smi

$ nvidia-smi 
Failed to initialize NVML: Driver/library version mismatch
NVML library version: 550.144

重启即可解决问题

./llama-server -m ../../../../../model/hf_models/qwen/qwen3-4b-q8_0.gguf  -ngl 40
ggml_cuda_init: GGML_CUDA_FORCE_MMQ:    no
ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no
ggml_cuda_init: found 1 CUDA devices:
  Device 0: NVIDIA GeForce GTX 1660 Ti, compute capability 7.5, VMM: yes
...

load_tensors: offloading 36 repeating layers to GPU
load_tensors: offloading output layer to GPU
load_tensors: offloaded 37/37 layers to GPU
load_tensors:        CUDA0 model buffer size =  4076.43 MiB
load_tensors:   CPU_Mapped model buffer size =   394.12 MiB
 

相关文章:

  • 基于CNN卷积神经网络的带频偏QPSK调制信号检测识别算法matlab仿真
  • Redis 集群
  • 视觉革命来袭!ComfyUI-LTXVideo 让视频创作更高效
  • Java常用类概述
  • 【STM32 学习笔记】USART串口
  • 【验证码】⭐️集成图形验证码实现安全校验
  • Skyvern:用 AI+视觉驱动浏览器自动化
  • Flink 实时数据一致性与 Exactly-Once 语义保障实战
  • 安装或更新 CUDA Toolkit - Ubuntu - RuntimeError
  • 翻转数位题目解释和代码
  • Pandas:数据处理与分析
  • 金融学知识笔记
  • 学习适应对智能软件对对象的属性进行表征、计算的影响
  • 深入了解 ArkTS:HarmonyOS 开发的关键语言与应用实践
  • 什么是向量数据库?向量数据库和关系数据库有什么区别?
  • DAMA语境关系图汇总及考前须知
  • Java【网络原理】(5)深入浅出HTTPS:状态码与SSL/TLS加密全解析
  • AI安全之对抗样本攻击---FGSM实战脚本解析
  • 线性表-顺序表(Sequential List)
  • SpringMVC-执行流程
  • 马鞍山市原常务副市长黄化锋一审获刑11年,涉案金额三千余万元
  • 肖峰读《从塞北到西域》︱拉铁摩尔的骆驼
  • 上报集团社长李芸:发挥媒体优势,让中非民心在数字时代更深层互联互通
  • 1450亿元!财政部拟发行2025年中央金融机构注资特别国债(二期)
  • 中日有关部门就日本水产品输华问题进行第三次谈判,外交部回应
  • 青年与人工智能共未来,上海创新创业青年50人论坛徐汇分论坛举办