当前位置：首页 > news >正文

Llama factory微调后的模型怎么通过ollama发布

news 2025/10/14 14:04:31

接上一篇博客：用Llama Factory单机多卡微调Qwen2.5时报torch.OutOfMemoryError: CUDA out of memory的解决办法_llama-factory cuda out of memory-CSDN博客

把Lora模块和其基模型merge到一起之后，就可以通过ollama之类的框架提供服务了。不过还是有些格式转换的工作要做：

首先

git clone https://github.com/ggerganov/llama.cpp

其次我们可以创建一个conda环境，然后运行：

pip install -r requirements.txt

这样就把llama.cpp的环境和依赖配置好了，我们注意到llama.cpp文件夹下有convert_hf_to_gguf.py之类的文件，实际上使用这种文件就可以了，例如我这里运行：

python convert_hf_to_gguf.py /home/quyu/Projects/LLaMA-Factory/models/qwen2.5-7b_lora_sft/ --outfile /home/quyu/qwen2.5_7b_finetuned.gguf

顾名思义，就是把huggingface类的文件转成g

C++之vector类（超详解）

数据结构常见面试题

Java后端高频面经——计算机网络

【数据结构】关键路径

3.组合模式

C++ Qt创建计时器

gazebo官方模型库物品

前端学习——CSS

Scaled_dot_product_attention(SDPA)使用详解

1.1Vue 3 核心优势与架构革新

Mac本地安装运行FastDFS

Unity DOTS从入门到精通之 C# Job System

LeeCode题库第四十六题

长上下文 GRPO

Core Speech Kit（基础语音服务）

Django与视图