当前位置: 首页 > news >正文

Llama factory微调后的模型怎么通过ollama发布

接上一篇博客:用Llama Factory单机多卡微调Qwen2.5时报torch.OutOfMemoryError: CUDA out of memory的解决办法_llama-factory cuda out of memory-CSDN博客

把Lora模块和其基模型merge到一起之后,就可以通过ollama之类的框架提供服务了。不过还是有些格式转换的工作要做:

首先

git clone https://github.com/ggerganov/llama.cpp

其次我们可以创建一个conda环境,然后运行:

pip install -r requirements.txt

这样就把llama.cpp的环境和依赖配置好了,我们注意到llama.cpp文件夹下有convert_hf_to_gguf.py之类的文件,实际上使用这种文件就可以了,例如我这里运行:

python convert_hf_to_gguf.py /home/quyu/Projects/LLaMA-Factory/models/qwen2.5-7b_lora_sft/ --outfile /home/quyu/qwen2.5_7b_finetuned.gguf

顾名思义,就是把huggingface类的文件转成g

相关文章:

  • Android 调用c++报错 exception of type std::bad_alloc: std::bad_alloc
  • 防火墙IPSec (无固定IP地址---一对多)
  • C++之vector类(超详解)
  • 【UCB CS 61B SP24】Lecture 28 - Tries 学习笔记
  • 使用 Elastic-Agent 或 Beats 将 Journald 中的 syslog 和 auth 日志导入 Elastic Stack
  • Go语言实战,HTTP和gRPC多服务启动与关闭的最佳实践
  • aws(学习笔记第三十二课) 深入使用cdk(API Gateway + event bridge)
  • 数据结构常见面试题
  • Java后端高频面经——计算机网络
  • Java线程池深度解析,从源码到面试热点
  • sudo systemctl restart docker 重启docker失败
  • 【数据结构】关键路径
  • 高等数学-第七版-上册 选做记录 习题3-6
  • 3.组合模式
  • C++ Qt创建计时器
  • gazebo官方模型库物品
  • 通俗易懂的介绍LLM大模型技术常用专业名词(专业版)
  • 全原子 MD 结合自适应采样技术揭示 Hsp70 构象循环突变的分子机制
  • 前端学习——CSS
  • Scaled_dot_product_attention(SDPA)使用详解
  • 网站ui设计基础/网站建设优化推广系统
  • 做电影网站什么系统好/seo代做
  • 企业网站模板建设/排名软件
  • 一站式网站建设比较好/seo是什么意思为什么要做seo
  • 重庆做网站_重庆网站建设_重庆网络推广_重庆网络公司/广州新闻热点事件
  • 南涧县城乡建设局网站/新媒体seo培训