按照llama.cpp.git
git clone https://github.com/ggml-org/llama.cpp.git
安装依赖
cd llama.cpp/gguf-pypip install --editable .
开始转换
python convert_hf_to_gguf.py xxxx(llamafacoty微调后模型地址) --outtype q8_0(量化为8)
等待转换完成即可
在ollama中使用
创建Modelfile
FROM /models/Lora-Q8-15B-Q8_0.ggufPARAMETER temperature 0.7
PARAMETER num_ctx 32768
PARAMETER num_predict 512TEMPLATE """<|im_start|>system
{{ .System }}<|im_end|>
<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
"""PARAMETER stop "<|im_start|>"
PARAMETER stop "<|im_end|>"
PARAMETER stop "<|endoftext|>"
PARAMETER stop "<|eot|>"PARAMETER seed 42
- 每一种模型的模板文件都有差异,上面文件仅供参考,如果你发现ollama加载后的模型胡说八道极大可能是modelfile文件有问题
注册到ollama
ollama create qwen3:14b-ZB-Q8 -f Modelfile
- qwen3:14b-ZB-Q8 模型的名字,可以自定义
运行模型
ollama run qwen3:14b-ZB-Q8