当前位置：首页 > news >正文

Ollama 深度使用指南：在本地玩转大型语言模型

news 2025/7/1 9:29:13

引言

想在自己的电脑上运行强大的大型语言模型（LLM）吗？Ollama 让你轻松实现！Ollama 是一个流行的工具，它简化了在本地运行各种开源 LLM 的过程，让你能充分利用它们的强大功能，而无需依赖云服务。
本文将深入探讨 Ollama 的使用，从安装到高级功能，助你成为本地 LLM 的玩转高手。

1. 快速上手 Ollama：安装与模型运行

安装 Ollama 异常简单，只需访问其官方网站并下载适合你操作系统的版本即可。
在这里插入图片描述

安装完成后，打开终端，运行模型就像输入一行命令一样轻松：

ollama run [模型名称]

例如，要运行 Qwen 0.5b 模型：

ollama run qwen:0.5b

在这里插入图片描述

Ollama 会自动下载并启动该模型。你甚至可以尝试 Google 的 Gemma 模型，它甚至支持图像理解！

2. 模型存储与管理：告别 C 盘爆满！

默认情况下，Ollama 会将模型下载到系统盘，这可能会导致空间不足。别担心，Ollama 提供了灵活的解决方案。

更改模型存储位置

要更改默认的模型下载位置，你需要设置 OLLAMA_MODELS 环境变量，并将已下载的模型移动到新位置。

Mac/Linux:
1. 打开终端，编辑你的 shell 配置文件（例如 ~/.bashrc, ~/.zshrc 或 ~/.bash_profile）。
2. 添加以下行，将 /path/to/your/new/directory 替换为你希望的新路径：
```
export OLLAMA_MODELS="/path/to/your/new/directory"
```
3. 保存文件并运行 source ~/.bashrc (或你使用的文件) 使更改生效。
4. 手动将现有模型从旧位置（通常是 ~/.ollama/models）移动到新目录。
Windows:
1. 搜索“环境变量”，然后选择“编辑系统环境变量”。
2. 在“系统属性”窗口中，点击“环境变量”。
3. 在“系统变量”部分，点击“新建”。
4. 变量名为 OLLAMA_MODELS，变量值为你希望的新路径（例如 D:\ollama\OllamaModels）。
5. 点击“确定”保存。
6. 手动将现有模型从旧位置（通常是 C:\Users\YourUsername\.ollama\models）移动到新目录。

如何选择合适的本地模型

Ollama 网站上列出了各种可用模型，你可以根据模型的参数量、量化级别以及你计算机的 VRAM 大小来选择。
在这里插入图片描述

模型选择逻辑：
选择性能最佳且你的计算机能够处理的模型是关键。主要考虑因素是你的显存（VRAM）。通常，一个经验法则是，10 亿参数的模型大约需要 1GB 的 VRAM。因此，如果你想运行一个 7B（70 亿参数）的模型，你的显卡至少需要 7GB 的 VRAM。
模型命名约定：
模型通常以参数计数（例如，7B 表示 70 亿参数）和量化级别（例如，Q4 表示 4 位量化级别精度）命名。
- 参数计数：参数计数越大，模型通常在理解和生成复杂内容方面表现越好，但对 VRAM 的需求也越高。
- 量化级别：量化是将模型权重从高精度（如 16 位浮点数）压缩到低精度（如 4 位整数）的过程，以减少模型大小和内存占用。
  - 更高的量化级别（例如 Q8）：意味着更少的压缩，模型精度更高，性能更好，但需要更多的 VRAM。
  - 更低的量化级别（例如 Q4）：意味着更高的压缩，模型文件更小，VRAM 需求更低，但可能会牺牲一些精度。
因此，在选择模型时，你需要权衡性能与你的硬件能力。

模型管理命令

列出已下载模型：ollama list
删除模型：ollama rm [模型名称]
查看详细运行信息：ollama run [模型名称] --verbose

3. 定制你的 AI：创建自定义模型 (Modelfile)

Ollama 最强大的功能之一是创建自定义模型。通过 Modelfile，你可以运行 Ollama 网站上未列出的模型，或者对现有模型进行个性化设置，例如定义系统提示词。

Modelfile 是一个没有文件扩展名的纯文本文件，你可以在其中指定：

FROM [base_model_name]：指定自定义模型所基于的基础模型。
PARAMETER [parameter_name] [value]：设置模型参数，例如 temperature（温度），用于控制生成文本的随机性。
SYSTEM "[prompt]"：定义一个系统提示词，给模型设定一个角色或行为模式。

自定义 AI 助手示例：

假设你想创建一个专注于撰写专业邮件的 AI 助手，你可以基于 mistral 模型来定制。创建一个名为 EmailBot.Modelfile 的文件：

FROM mistral
SYSTEM """
你是一个专业且高效的邮件撰写助手。
你的任务是根据用户的请求，以清晰、简洁和专业的语气撰写邮件。
请确保邮件内容准确无误，并遵循标准的商务邮件格式。
"""
PARAMETER temperature 0.2
PARAMETER top_k 30

FROM mistral：指定我们使用 mistral 作为基础模型。
SYSTEM：定义了助手的角色和核心任务，确保它只专注于邮件撰写。
PARAMETER temperature 0.2：将温度设置为较低值，使生成的邮件更具确定性，减少创意发挥，以保持专业性。
PARAMETER top_k 30：限制模型在生成每个词时考虑的下一个词的范围，进一步提高输出的聚焦性。

然后，使用以下命令创建你的定制模型：

ollama create email-writer -f EmailBot.Modelfile

现在，你可以运行 ollama run email-writer，你的 AI 助手就会严格按照你设定的“专业邮件撰写助手”的角色来回应。

4. 轻松对话：与本地模型聊天

与 Ollama 模型交互有多种方式：

4.1终端交互：

直接在终端中运行 ollama run [模型名称] 即可开始对话。对于支持多模态的模型，你甚至可以直接输入图片。
- 键入 /bye 或按 Ctrl+D 退出聊天会话。
- 键入 /clear 来清除上下文。

4.2 图形聊天界面：

有许多第三方工具可以提供更友好的聊天界面，例如：
* Open WebUI
* AnythingLM
* LobeChat
* PageAssist (浏览器扩展，方便快捷)
这些界面通常提供更丰富的功能，如会话管理、历史记录等。
基于篇幅限制，后续会出一系列的图形聊天界面进行详细说明，在此只做列举说明。

5. 打造局域网 AI 服务器：共享你的本地模型

你甚至可以将运行 Ollama 的电脑变成一个“局域网 AI 服务器”，让同一局域网内的其他设备（如手机、笔记本）也能访问你本地的模型。

5.1. 修改 Ollama 的主机地址：

将 Ollama 的默认绑定地址从 `127.0.0.1` (仅本机访问) 更改为 `0.0.0.0` (允许网络访问)。这可以通过设置环境变量来实现：* **Mac/Linux:**```bashexport OLLAMA_HOST=0.0.0.0```* **Windows:**在系统环境变量中添加 `OLLAMA_HOST`，值为 `0.0.0.0`。

在这里插入图片描述

5.2. 保持模型加载 (可选)：

默认情况下，Ollama 会在一段时间不活动后卸载模型以释放显存。如果你希望模型始终处于加载状态，可以设置：```bash
export OLLAMA_KEEP_ALIVE=-1
```

在这里插入图片描述

5.3. 在其他设备上连接：

在其他设备上的兼容应用程序（例如移动端的 **Enchanted** 应用）中，配置服务器地址为 `http://[你的电脑的IP地址]:11434`。* **查找你的电脑 IP 地址**：* **Windows**：打开命令提示符，输入 `ipconfig`。* **Mac**：打开终端，输入 `ifconfig` 或在“系统设置”中查看网络信息。

通过以上设置，你的局域网中的任何设备都可以轻松调用你本地运行的 LLM 了！如果你需要从局域网外部访问，可以考虑使用 ngrok 等工具进行端口转发。

6.终端交互：极客玩家的常用实例

6.1. 基础命令速查

启动对话：
ollama run [模型名称]（如ollama run qwen:0.5b）
多模态输入：
直接拖拽图片到终端或输入图片路径（需模型支持，如ollama run multimodal-model /path/to/image.jpg）
上下文管理：
/clear：重置当前会话上下文
/history：查看历史对话记录（需模型支持）

6.2. 高级配置技巧

端口修改：
ollama serve --port 8080（默认11434端口被占用时）
模型缓存路径：
通过环境变量OLLAMA_MODELS=D:\ollama_cache指定非系统盘存储
流式输出：添加–stream参数实现实时响应（如ollama run llama3.2 --stream “你想要大模型做什么”）