当前位置: 首页 > news >正文

Ollama 深度使用指南:在本地玩转大型语言模型

引言

想在自己的电脑上运行强大的大型语言模型(LLM)吗?Ollama 让你轻松实现!Ollama 是一个流行的工具,它简化了在本地运行各种开源 LLM 的过程,让你能充分利用它们的强大功能,而无需依赖云服务。
本文将深入探讨 Ollama 的使用,从安装到高级功能,助你成为本地 LLM 的玩转高手。

1. 快速上手 Ollama:安装与模型运行

安装 Ollama 异常简单,只需访问其官方网站并下载适合你操作系统的版本即可。
在这里插入图片描述

安装完成后,打开终端,运行模型就像输入一行命令一样轻松:

ollama run [模型名称]

例如,要运行 Qwen 0.5b 模型:

ollama run qwen:0.5b

在这里插入图片描述

Ollama 会自动下载并启动该模型。你甚至可以尝试 Google 的 Gemma 模型,它甚至支持图像理解!

2. 模型存储与管理:告别 C 盘爆满!

默认情况下,Ollama 会将模型下载到系统盘,这可能会导致空间不足。别担心,Ollama 提供了灵活的解决方案。

更改模型存储位置

要更改默认的模型下载位置,你需要设置 OLLAMA_MODELS 环境变量,并将已下载的模型移动到新位置。

  • Mac/Linux:

    1. 打开终端,编辑你的 shell 配置文件(例如 ~/.bashrc, ~/.zshrc~/.bash_profile)。
    2. 添加以下行,将 /path/to/your/new/directory 替换为你希望的新路径:
      export OLLAMA_MODELS="/path/to/your/new/directory"
      
    3. 保存文件并运行 source ~/.bashrc (或你使用的文件) 使更改生效。
    4. 手动将现有模型从旧位置(通常是 ~/.ollama/models)移动到新目录。
  • Windows:

    1. 搜索“环境变量”,然后选择“编辑系统环境变量”。
    2. 在“系统属性”窗口中,点击“环境变量”。
    3. 在“系统变量”部分,点击“新建”。
    4. 变量名为 OLLAMA_MODELS,变量值为你希望的新路径(例如 D:\ollama\OllamaModels)。
    5. 点击“确定”保存。
    6. 手动将现有模型从旧位置(通常是 C:\Users\YourUsername\.ollama\models)移动到新目录。
      在这里插入图片描述

如何选择合适的本地模型

Ollama 网站上列出了各种可用模型,你可以根据模型的参数量、量化级别以及你计算机的 VRAM 大小来选择。
在这里插入图片描述

  • 模型选择逻辑
    选择性能最佳且你的计算机能够处理的模型是关键。主要考虑因素是你的显存(VRAM)。通常,一个经验法则是,10 亿参数的模型大约需要 1GB 的 VRAM。因此,如果你想运行一个 7B(70 亿参数)的模型,你的显卡至少需要 7GB 的 VRAM。

  • 模型命名约定
    模型通常以参数计数(例如,7B 表示 70 亿参数)和量化级别(例如,Q4 表示 4 位量化级别精度)命名。

    • 参数计数:参数计数越大,模型通常在理解和生成复杂内容方面表现越好,但对 VRAM 的需求也越高。
    • 量化级别:量化是将模型权重从高精度(如 16 位浮点数)压缩到低精度(如 4 位整数)的过程,以减少模型大小和内存占用。
      • 更高的量化级别(例如 Q8):意味着更少的压缩,模型精度更高,性能更好,但需要更多的 VRAM。
      • 更低的量化级别(例如 Q4):意味着更高的压缩,模型文件更小,VRAM 需求更低,但可能会牺牲一些精度。

    因此,在选择模型时,你需要权衡性能与你的硬件能力。

模型管理命令

  • 列出已下载模型ollama list
  • 删除模型ollama rm [模型名称]
  • 查看详细运行信息ollama run [模型名称] --verbose

3. 定制你的 AI:创建自定义模型 (Modelfile)

Ollama 最强大的功能之一是创建自定义模型。通过 Modelfile,你可以运行 Ollama 网站上未列出的模型,或者对现有模型进行个性化设置,例如定义系统提示词。

Modelfile 是一个没有文件扩展名的纯文本文件,你可以在其中指定:

  • FROM [base_model_name]:指定自定义模型所基于的基础模型。
  • PARAMETER [parameter_name] [value]:设置模型参数,例如 temperature(温度),用于控制生成文本的随机性。
  • SYSTEM "[prompt]":定义一个系统提示词,给模型设定一个角色或行为模式。

自定义 AI 助手示例

假设你想创建一个专注于撰写专业邮件的 AI 助手,你可以基于 mistral 模型来定制。创建一个名为 EmailBot.Modelfile 的文件:

FROM mistral
SYSTEM """
你是一个专业且高效的邮件撰写助手。
你的任务是根据用户的请求,以清晰、简洁和专业的语气撰写邮件。
请确保邮件内容准确无误,并遵循标准的商务邮件格式。
"""
PARAMETER temperature 0.2
PARAMETER top_k 30
  • FROM mistral:指定我们使用 mistral 作为基础模型。
  • SYSTEM:定义了助手的角色和核心任务,确保它只专注于邮件撰写。
  • PARAMETER temperature 0.2:将温度设置为较低值,使生成的邮件更具确定性,减少创意发挥,以保持专业性。
  • PARAMETER top_k 30:限制模型在生成每个词时考虑的下一个词的范围,进一步提高输出的聚焦性。

然后,使用以下命令创建你的定制模型:

ollama create email-writer -f EmailBot.Modelfile

现在,你可以运行 ollama run email-writer,你的 AI 助手就会严格按照你设定的“专业邮件撰写助手”的角色来回应。


4. 轻松对话:与本地模型聊天

与 Ollama 模型交互有多种方式:

4.1终端交互

  • 直接在终端中运行 ollama run [模型名称] 即可开始对话。对于支持多模态的模型,你甚至可以直接输入图片。
    • 键入 /bye 或按 Ctrl+D 退出聊天会话。
    • 键入 /clear 来清除上下文。

4.2 图形聊天界面

有许多第三方工具可以提供更友好的聊天界面,例如:
* Open WebUI
* AnythingLM
* LobeChat
* PageAssist (浏览器扩展,方便快捷)
这些界面通常提供更丰富的功能,如会话管理、历史记录等。
基于篇幅限制,后续会出一系列的图形聊天界面进行详细说明,在此只做列举说明。


5. 打造局域网 AI 服务器:共享你的本地模型

你甚至可以将运行 Ollama 的电脑变成一个“局域网 AI 服务器”,让同一局域网内的其他设备(如手机、笔记本)也能访问你本地的模型。

5.1. 修改 Ollama 的主机地址

将 Ollama 的默认绑定地址从 `127.0.0.1` (仅本机访问) 更改为 `0.0.0.0` (允许网络访问)。这可以通过设置环境变量来实现:* **Mac/Linux:**```bashexport OLLAMA_HOST=0.0.0.0```* **Windows:**在系统环境变量中添加 `OLLAMA_HOST`,值为 `0.0.0.0`。

在这里插入图片描述

5.2. 保持模型加载 (可选)

默认情况下,Ollama 会在一段时间不活动后卸载模型以释放显存。如果你希望模型始终处于加载状态,可以设置:```bash
export OLLAMA_KEEP_ALIVE=-1
```

在这里插入图片描述

5.3. 在其他设备上连接

在其他设备上的兼容应用程序(例如移动端的 **Enchanted** 应用)中,配置服务器地址为 `http://[你的电脑的IP地址]:11434`。* **查找你的电脑 IP 地址**:* **Windows**:打开命令提示符,输入 `ipconfig`。* **Mac**:打开终端,输入 `ifconfig` 或在“系统设置”中查看网络信息。

通过以上设置,你的局域网中的任何设备都可以轻松调用你本地运行的 LLM 了!如果你需要从局域网外部访问,可以考虑使用 ngrok 等工具进行端口转发。


6.终端交互:极客玩家的常用实例

6.1. 基础命令速查

启动对话:
ollama run [模型名称](如ollama run qwen:0.5b)
多模态输入:
直接拖拽图片到终端或输入图片路径(需模型支持,如ollama run multimodal-model /path/to/image.jpg)
上下文管理:
/clear:重置当前会话上下文
/history:查看历史对话记录(需模型支持)

6.2. 高级配置技巧

端口修改:
ollama serve --port 8080(默认11434端口被占用时)
模型缓存路径:
通过环境变量OLLAMA_MODELS=D:\ollama_cache指定非系统盘存储
流式输出:添加–stream参数实现实时响应(如ollama run llama3.2 --stream “你想要大模型做什么”)

6.3. 典型场景示例

代码生成:
ollama run codellama “用Python实现快速排序”
知识检索:
ollama run wikillama “解释量子纠缠现象”
文件分析:
ollama run docllama --upload ./report.pdf “总结核心观点”

具体参考:官网reference


结语

Ollama 极大地降低了本地运行大型语言模型的门槛,为个人用户和开发者提供了前所未有的灵活性和控制力。希望这篇深度指南能帮助你更好地利用 Ollama,探索 LLM 的无限可能!
参考:https://github.com/ollama/ollama#

http://www.dtcms.com/a/263119.html

相关文章:

  • OpenLayers 自定义拖动事件
  • Webpack优化详解
  • 运营商智能化升级:破局客服、外呼、质检的“数智神经中枢”革命
  • torchvision中的数据使用
  • Maven 中,dependencies 和 dependencyManagement
  • 临床试验中基线数据缺失的处理策略
  • synetworkflowopenrestydpdk
  • Spring Boot + ONNX Runtime模型部署
  • 6阶段实现最强RAG 模块化检索增强 实践指南
  • [springboot系列] 探秘JUnit 5: Java单元测试利器
  • Redis 和 Mysql 如何保证数据一致性
  • 底盘结构---履带式运动模型
  • 快速手搓一个MCP服务指南(八):FastMCP 代理服务器:构建灵活的 MCP 服务中介层
  • HTML<input>元素详解
  • 《用奥卡姆剃刀原理,为前端开发“减负增效”》
  • 《微信生态裂变增长利器:推客小程序架构设计与商业落地》
  • python训练day45 Tensorborad使用介绍
  • Linux 日志监控工具对比:从 syslog 到 ELK 实战指南
  • 阶段二开始-第一章—8天Python从入门到精通【itheima】-121节+122节(函数和方法的类型注解+Union联合类型注解)
  • 【运维系列】【ubuntu22.04】安装GitLab
  • 2025年光学工程、精密仪器与光电子技术国际会议(OEPIOT 2025)
  • Armbian 25.5.1 Noble Gnome 开启远程桌面功能
  • 百度文心ERNIE 4.5 大模型系列正式开源
  • Windows 安装 nodejs npm
  • 数据生命周期管理实战:建、用、管、存、归档到销毁的全流程治理
  • 如何用废弃电脑变成服务器搭建web网站(公网访问零成本)
  • 24V转12V降压实际输出12.11V可行性分析
  • GitHub Actions配置python flake8和black
  • 云手机的用途都有哪些?
  • 51c大模型~合集144