当前位置: 首页 > news >正文

Llama factory微调后的模型怎么通过ollama发布

接上一篇博客:用Llama Factory单机多卡微调Qwen2.5时报torch.OutOfMemoryError: CUDA out of memory的解决办法_llama-factory cuda out of memory-CSDN博客

把Lora模块和其基模型merge到一起之后,就可以通过ollama之类的框架提供服务了。不过还是有些格式转换的工作要做:

首先

git clone https://github.com/ggerganov/llama.cpp

其次我们可以创建一个conda环境,然后运行:

pip install -r requirements.txt

这样就把llama.cpp的环境和依赖配置好了,我们注意到llama.cpp文件夹下有convert_hf_to_gguf.py之类的文件,实际上使用这种文件就可以了,例如我这里运行:

python convert_hf_to_gguf.py /home/quyu/Projects/LLaMA-Factory/models/qwen2.5-7b_lora_sft/ --outfile /home/quyu/qwen2.5_7b_finetuned.gguf

顾名思义,就是把huggingface类的文件转成g

http://www.dtcms.com/a/59014.html

相关文章:

  • Android 调用c++报错 exception of type std::bad_alloc: std::bad_alloc
  • 防火墙IPSec (无固定IP地址---一对多)
  • C++之vector类(超详解)
  • 【UCB CS 61B SP24】Lecture 28 - Tries 学习笔记
  • 使用 Elastic-Agent 或 Beats 将 Journald 中的 syslog 和 auth 日志导入 Elastic Stack
  • Go语言实战,HTTP和gRPC多服务启动与关闭的最佳实践
  • aws(学习笔记第三十二课) 深入使用cdk(API Gateway + event bridge)
  • 数据结构常见面试题
  • Java后端高频面经——计算机网络
  • Java线程池深度解析,从源码到面试热点
  • sudo systemctl restart docker 重启docker失败
  • 【数据结构】关键路径
  • 高等数学-第七版-上册 选做记录 习题3-6
  • 3.组合模式
  • C++ Qt创建计时器
  • gazebo官方模型库物品
  • 通俗易懂的介绍LLM大模型技术常用专业名词(专业版)
  • 全原子 MD 结合自适应采样技术揭示 Hsp70 构象循环突变的分子机制
  • 前端学习——CSS
  • Scaled_dot_product_attention(SDPA)使用详解
  • 1.1Vue 3 核心优势与架构革新
  • Mac本地安装运行FastDFS
  • CSK6大模型语音开发板接入DeepSeek排错流程参考
  • java后端开发day29--常见算法(一)----查找与排序
  • Unity DOTS从入门到精通之 C# Job System
  • LeeCode题库第四十六题
  • 长上下文 GRPO
  • Core Speech Kit(基础语音服务)
  • Django与视图
  • 大整数加法(信息学奥赛一本通-1168)