当前位置: 首页 > news >正文

ollama离线部署加载Qwen3-0.6b模型

Ollama部署

ollama是一个开源工具(ollama.ai),允许用户在 本地设备(无需联网)运行 LLM。终端用户通过ollama低成本体验大模型能力
支持模型
  • llama2(7B/13B/70B 参数)
  • mistral(7B 高效模型)
  • codellama(代码生成专用)
  • phi(微软轻量模型)
典型使用场景
  • 离线环境使用 LLM
  • 数据敏感场景(避免云端传输)
  • 开发者快速测试模型
Github下载
https://github.com/ollama/ollama/releases/tag/v0.11.6
根据所需环境下载,本文在linux下采用二进制文件直接部署,因此下载ollama-linux-amd64.tgz版本,解压后直接可运行;
# 官方提供的安装脚本
# curl -fsSL https://ollama.com/install.sh | sh#下载后解压
tar -zxvf ollama-linux-amd64.tgz
#移动并重命名
mv ollama-linux-amd64 ollama
https://github.com/ollama/ollama/blob/main/docs/linux.md

启动Ollama服务

进入ollama本地bin目录下,通过命令ollama serve启动服务后。
设置ollama服务api其它主机可访问,默认为localhost只能本机访问api,设置OLLAMA_HOST环境变量:export OLLAMA_HOST=0.0.0.0,此为临时性环境变量配置(生产使用需配置到系统文件中),或在启动命令前加上变量参数:OLLAMA_HOST=0.0.0.0 ./ollama serve
执行结果
[root@centos72 bin]# OLLAMA_HOST=0.0.0.0 ./ollama serve
time=2025-08-25T20:11:28.551+08:00 level=INFO source=routes.go:1318 msg="server config" env="map[CUDA_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: HTTPS_PROXY: HTTP_PROXY: NO_PROXY: OLLAMA_CONTEXT_LENGTH:4096 OLLAMA_DEBUG:INFO OLLAMA_FLASH_ATTENTION:false OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://0.0.0.0:11434 OLLAMA_INTEL_GPU:false OLLAMA_KEEP_ALIVE:5m0s OLLAMA_KV_CACHE_TYPE: OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:0 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:/root/.ollama/models OLLAMA_MULTIUSER_CACHE:false OLLAMA_NEW_ENGINE:false OLLAMA_NEW_ESTIMATES:false OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NUM_PARALLEL:1 OLLAMA_ORIGINS:[http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://* vscode-webview://* vscode-file://*] OLLAMA_SCHED_SPREAD:false ROCR_VISIBLE_DEVICES: http_proxy: https_proxy: no_proxy:]"
time=2025-08-25T20:11:28.551+08:00 level=INFO source=images.go:477 msg="total blobs: 0"
time=2025-08-25T20:11:28.552+08:00 level=INFO source=images.go:484 msg="total unused blobs removed: 0"
time=2025-08-25T20:11:28.552+08:00 level=INFO source=routes.go:1371 msg="Listening on [::]:11434 (version 0.11.6)"
time=2025-08-25T20:11:28.552+08:00 level=INFO source=gpu.go:217 msg="looking for compatible GPUs"
time=2025-08-25T20:11:28.561+08:00 level=INFO source=gpu.go:379 msg="no compatible GPUs were discovered"
time=2025-08-25T20:11:28.561+08:00 level=INFO source=types.go:130 msg="inference compute" id=0 library=cpu variant="" compute="" driver=0.0 name="" total="15.5 GiB" available="13.4 GiB"
time=2025-08-25T20:11:28.561+08:00 level=INFO source=routes.go:1412 msg="entering low vram mode" "total vram"="15.5 GiB" threshold="20.0 GiB"
[GIN] 2025/08/25 - 20:12:36 | 200 |     311.063µs |       127.0.0.1 | HEAD     "/"
[GIN] 2025/08/25 - 20:12:36 | 200 |     581.712µs |       127.0.0.1 | GET      "/api/tags"
[GIN] 2025/08/25 - 20:15:56 | 200 |       67.59µs |       127.0.0.1 | HEAD     "/"
[GIN] 2025/08/25 - 20:16:10 | 201 |  7.175086744s |       127.0.0.1 | POST     "/api/blobs/sha256:9465e63a22add5354d9bb4b99e90117043c7124007664907259bd16d043bb031"
[GIN] 2025/08/25 - 20:16:10 | 200 |  473.445126ms |       127.0.0.1 | POST     "/api/create"
[GIN] 2025/08/25 - 20:16:25 | 200 |      49.783µs |       127.0.0.1 | HEAD     "/"
[GIN] 2025/08/25 - 20:16:25 | 200 |     778.794µs |       127.0.0.1 | GET      "/api/tags"

其它命令

#另起一个ssh窗口查看ollama版本
./ollama -v
#查看命令帮助
./ollama -h 或 ./ollama --help
#下载ollama平台模型(本地不存在,则会自动远程拉取)
ollama run MODEL_NAME
#查已下载的模型
./ollama list
#查看正在运行的模型
./ollama ps
#通过模型描述文件创建模型(注意文件绝对路径)
./ollama create MODEL_NAME -f Modelfile
#删除模型
./ollama rm MODEL_NAME

集成Qwen3-0.6b模型

Qwen3 是 Qwen 系列中的最新一代大型语言模型,提供了一整套密集型和专家混合(MoE)模型。基于广泛的训练,Qwen3 在推理、指令遵循、代理能力和多语言支持方面取得了突破性进展。
受限于本地服务器硬件资源(虚拟VM服务器,无计算卡和高端显卡),本文是为了快速体验Qwen3大模型,因此使用Qwen3系例最小参数模型:Qwen3-0.6B,做集成使用;
Qwen3-0.6B 具有以下特点:
  • 类型:因果语言模型
  • 训练阶段:预训练 & 后训练
  • 参数数量:0.6B
  • 非嵌入参数数量:0.44B
  • 层数:28
  • 注意力头数(GQA):Q 为 16,KV 为 8
  • 上下文长度:32,768
  • 量化:q8_0
Ollama官方提供了模型下载,可直接运行ollama run MODEL_NAME,等待拉取完毕后即加载运行模型。
如果不使用Ollama官方平台提供的大模型,而是从Hugging Face的.bin或.safetensors平台获取的不同用户供献的调优模型,则Ollama并不直接支持 Hugging Face的.bin或.safetensors格式类型的大模型文件,它需要一种名为 GGUF 的二进制格式。
可以从modelscope平台(一个提供大模型和训练数据集的公共平台)下载Qwen3-0.6b-GGUF模型。
模型下载平台地址:https://modelscope.cn/models/Qwen/Qwen3-0.6B-GGUF/summary
#此处用git命令克隆
git clone https://www.modelscope.cn/Qwen/Qwen3-0.6B-GGUF.git#也可以通过oallam远程拉取模型
ollama run modelscope.cn/Qwen/Qwen3-0.6B-GGUF
#或直接通过ollama服务下载官方支持的qwen3版本(ollama提供了各种大模型下载)
ollama run qwen3:0.6b

注意:ollama只支持非ollama服务架构运行的Qwen3下GGUF类型格式模型加载,请勿下错,否则需要额外转换成gguf才可以创建导入本地大模型

下载后,将Qwen3-0.6B-GGUF解压(如有压缩),并移动到合适目录
[root@centos72 Qwen3-0.6B-GGUF]# ll
total 624496
-rw-r--r-- 1 root root     11544 Aug 22 15:24 LICENSE
-rw-r--r-- 1 root root       556 Aug 25 20:15 Modelfile
-rw-r--r-- 1 root root 639446688 Aug 22 15:37 Qwen3-0.6B-Q8_0.gguf
-rw-r--r-- 1 root root      6352 Aug 22 15:24 README.md
-rw-r--r-- 1 root root        48 Aug 22 15:24 configuration.json
-rw-r--r-- 1 root root       270 Aug 22 15:24 params

创建Modelfile导入文件

进入到Qwen3-0.6B-GGUF目录下,创建导入GGUF格式模型到ollama的服务下Modelfile配置文件。
#创建Modelfile文件,无后缀
touch Modelfile
#编辑模型配置
vim Modelfile

Modelfile配置

FROM ./Qwen3-0.6B-Q8_0.gguf# 模型参数设置
# 创造性控制(0-1)
PARAMETER temperature 0.7
# 核采样阈值
PARAMETER top_p 0.8
# 重复惩罚系数
PARAMETER repeat_penalty 1.05
# 上下文窗口长度
PARAMETER num_ctx 2048# 系统提示词
SYSTEM """
You are Qwen, a large language model developed by Tongyi Lab. 
You are a helpful assistant that answers questions accurately and concisely.
"""# 模板设置(针对 Qwen 格式)
TEMPLATE "{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
{{ end }}<|im_start|>assistant
{{ .Response }}<|im_end|>"

导入Qwen3-0.6b-GGUF模型

#在ollama本地bin目录下执行,其中Modelfile为Qwen3下载目录中的导入模型配置文件
./ollama create qwen3-0.6b -f /data3/models/Qwen3-0.6B-GGUF/Modelfile

执行结果

[root@centos72 bin]# ./ollama create qwen3-0.6b -f /data3/models/Qwen3-0.6B-GGUF/Modelfile 
gathering model components 
copying file sha256:9465e63a22add5354d9bb4b99e90117043c7124007664901259bd16d043bb031 100% 
parsing GGUF 
using existing layer sha256:9465e63a22add5354d9bb4b99e90317043c7124007664907259bd16d043bb031 
creating new layer sha256:64631f1262e4e87d47511bb7b405540321afd297f723f88bf72faae19992ddba 
creating new layer sha256:2055182cae99c69884916784667894308b04d1218431dda896bc4f21dabb99d5 
creating new layer sha256:f69fa739bb39a9594886d7a98aaa4a4d20e946ed856c57eb60fa22c6198ec44d 
writing manifest 
success 

查看ollama已有的模型

[root@centos72 bin]# ./ollama list
NAME                 ID              SIZE      MODIFIED       
qwen3-0.6b:latest    489740802b4d    639 MB    15 seconds ago  

使用模型问答

完成上述ollama部署和qwen3的gguf格式模型文件导入后,即可通过ollama服务使用模型进行AI问答;
测试模型,ollama run qwen3-0.6b "xxx问题内容xxxx"
[root@centos72 bin]# ./ollama run qwen3-0.6b "你好,介绍一下人工智能"
<think>
好的,用户让我介绍一下人工智能。首先,我需要确保回答准确且全面。人工智能(AI)是计算机科学的一个分支,它使机器能够执行需要人类智能的任务,比如学习、推理、感知和决策等。接下来,我要考虑用户可能的背景。他们可能是学生、研究人员或普通大众,所以回答应该通俗易懂,避免使用过于专业的术语。同时,要涵盖人工智能的主要特点,如自主学习、适应环境、理解和创造能力等。然后,我需要检查是否有遗漏的信息点。比如,AI可以分为弱化型和强化型,或者分为机器学习和深度学习。这些分类也很重要,但可能用户更关心基础概念,所以保持简洁。另外,用户可能对AI的应用领域感兴趣,比如医疗、交通、金融等,但根据问题,重点还是介绍定义和基本特点。因此,在回答中应强调核心要素,同时给出简要的应用实例,帮助用户更好地理解。最后,确保语言流畅自然,信息准确无误。避免使用复杂句子结构,保持口语化,让用户容易理解和接受。
</think>人工智能(Artificial Intelligence, AI)是计算机科学的一个分支,旨在使机器具备学习、推理、感知和决策等人类智能的能力。它通过模拟人类思维过程,使机器能够执行诸如语言理解、图像识别、模式识别、自主学习等任务。人工智能的核心特点包括:
1. **自主学习**:通过不断优化模型参数,提高性能。
2. **适应性**:在不同环境下自动调整策略。
3. **理解与推理**:分析数据并得出结论。
4. **创造性**:生成新的内容或解决方案。AI的应用领域广泛,例如医疗诊断、自动驾驶、金融服务等,正在深刻改变各行各业。

Chatbox集成

ollama提供了基于WEB服务API,因此可以使用UI工具来请求ollama的API,通过界面可视化、友好的体验大模型对话聊天;
本文中推荐一个比较好的大模型对话工具Chatbox,是一个简约强大的 AI 桌面客户端,支持最先进的多款大语言模型,让前沿的人工智能技术变成易于使用的生产力工具。
下载地址:https://chatboxai.app/zh#download
根据操作系统环境下载对应客户端,安装启动后,在设置》模型提供方》Ollama的配置界面中,输入:http://主机IP:端口,API主机IP即ollama的安装服务主机,端口默认11434。点击“获取”则会拉取ollama中的模型清单,选择“qwen3-0.6b:latest”即可;
点击创建“新对话”(Qwen3-0.6B),选择Ollama/qwen3-0.6b:latest模型,输入你想问的内容,如:请介绍一下你的模型能力。
在深度思考十几秒后,开始回答,因是在纯CPU的虚拟VM(8核,16G内存)环境下运行,内容输出过程虽然不是很快,但还算比较顺畅,目测1秒钟能输出8~10个字符左右,整体能够接受;
性能评测参考
在Chatbox中对ollama/Qwen3-0.6b进行对话时,监控ollama服务主机,CPU使用率达到768%(8核),甚至CPU有时快接近最大上限即8 * 每核100%,内存占用不高约6%左右;不难理解,大模型属于强计算类应用,纯纯的吃CPU资源(无独显,否则可卸载到GPU上计算)的大户,如果需要落地使用,还是需要好的计算卡或高端消费级显卡,否则要不了几个并发,会导致资源竞争性能出现严重挤兑,甚至停止服务;
参考:
https://ollama.com/library/qwen3
https://github.com/ollama/ollama/blob/main/docs/linux.md
https://modelscope.cn/
以及deepseek或qwen3提问整理

文章转载自:

http://uZtkQ6iZ.mwjdj.cn
http://E2wzsPNG.mwjdj.cn
http://urIVtuY2.mwjdj.cn
http://rM0Fef3r.mwjdj.cn
http://c1nq1iAe.mwjdj.cn
http://yrRlVLdP.mwjdj.cn
http://2ms2PXHU.mwjdj.cn
http://ihXVxrXG.mwjdj.cn
http://CUs6K5O9.mwjdj.cn
http://ErxYRbSv.mwjdj.cn
http://dINCqBUS.mwjdj.cn
http://31UREAy6.mwjdj.cn
http://TozhZe7D.mwjdj.cn
http://lXGAdanc.mwjdj.cn
http://wJMKtiRY.mwjdj.cn
http://CnZRUx02.mwjdj.cn
http://2q4zkwLC.mwjdj.cn
http://Sioz4VS8.mwjdj.cn
http://r2qAMIvQ.mwjdj.cn
http://mB1BmvIh.mwjdj.cn
http://2eenWt9J.mwjdj.cn
http://6KtTQxA5.mwjdj.cn
http://qOuMKtl2.mwjdj.cn
http://p1UdGXqF.mwjdj.cn
http://vu055EdM.mwjdj.cn
http://v5luJJfT.mwjdj.cn
http://L4covcwk.mwjdj.cn
http://BwbKHwJm.mwjdj.cn
http://E8XoU3WT.mwjdj.cn
http://JCkD6lLY.mwjdj.cn
http://www.dtcms.com/a/374803.html

相关文章:

  • 零基础12周精通Linux学习计划
  • Linux Shell 条件测试与 if 语句全解析
  • C语言内存精讲系列(九):深化详述 int 3(附录:int3 调试关键工具与实战案例)
  • 案例开发 - 日程管理 - 第六期
  • TCP 三次握手、四次挥手
  • 问题排查:之前运行正常的系统,突然批量接口报 404
  • 【Java实战㊱】Spring Boot邂逅Redis:缓存加速的奇妙之旅
  • Spring Cache 多租户缓存隔离解决方案实践
  • Mybatis-12 第三方缓存-EhCache
  • 【C++】特别的程序错误处理方式——异常机制
  • 嵌入式设备上mqtt库的使用
  • 【Linux基础知识系列:第一百二十六篇】使用dd命令进行磁盘复制
  • 从零到一使用Linux+Nginx+MySQL+PHP搭建的Web网站服务器架构环境——LNMP(上)
  • 使用虚拟机Ubuntu搭建mosquito服务器 使esp32、上位机通信
  • 云计算技术栈
  • 国产时序数据库选型指南-从大数据视角看透的价值
  • 东京本社招聘 | 财务负责人 多个日本IT岗位(Java/C++/Python/AWS 等),IT营业同步招募
  • AWS ALB 详解:智能流量调度器
  • Django REST框架:ModelViewSet全面解析
  • 基于Centos7.9搭建svn服务端
  • PyTorch 和nn.Conv2d详解
  • pytorch基本运算-分离计算
  • 基于容器化云原生的 MySQL 及中间件高可用自动化集群项目
  • “图观”端渲染场景编辑器
  • 构建分布式京东商品数据采集系统:基于 API 的微服务实现方案
  • HTML5点击转圈圈 | 深入了解HTML5技术中的动态效果与用户交互设计
  • springboot rabbitmq 延时队列消息确认收货订单已完成
  • CString(MFC/ATL 框架)和 QString(Qt 框架)
  • Sklearn(机器学习)实战:鸢尾花数据集处理技巧
  • 工具框架:Scikit-learn、Pandas、NumPy预测鸢尾花的种类