当前位置：首页 > news >正文

Ollama 使用详解：本地部署大语言模型的指南

news 2025/10/4 5:31:14

随着大语言模型（LLM）在各类应用中的广泛落地，开发者对模型的可控性、数据隐私和成本控制提出了更高的要求。相比依赖云端服务，本地部署大模型成为越来越多技术团队的选择。而在众多本地部署工具中，Ollama 凭借其极简的使用方式和强大的兼容性，迅速成为开发者圈的热门工具。

本文将从 Ollama 的基本概念、安装部署、模型管理、API 调用、与其他框架对比等方面，全面介绍如何使用 Ollama 构建属于自己的本地 AI 助手。

一、什么是 Ollama？

Ollama 是一个开源的大语言模型运行框架，专为在本地机器上便捷部署和运行 LLM 而设计。它的核心理念是：像 Docker 一样简化大模型的使用流程，让开发者无需关心底层推理框架、模型格式、驱动兼容等复杂细节，只需一条命令即可启动模型。

Ollama 支持 macOS、Windows、Linux 三大平台，并提供 Docker 镜像，适合各种开发环境。它内置了模型量化机制，显著降低显存需求，使得在普通家用电脑上运行 7B 甚至 13B 模型成为可能。

二、为什么选择 Ollama？

相比传统的模型部署方式（如使用 Hugging Face Transformers + PyTorch），Ollama 的优势主要体现在以下几个方面：

极简命令行操作：一条 ollama run llama2 命令即可启动模型。
自动下载与配置：无需手动下载模型文件或配置推理环境。
支持多种模型格式：包括 GGUF、Safetensors、PyTorch 等。
REST API 接口：可集成到 Python、JavaScript 等业务系统中。
本地运行保障隐私：数据不出本地，适合企业内网部署。

三、安装 Ollama

1. 系统要求

内存：建议至少 16GB，运行 7B 模型更推荐 32GB。
显卡：支持 NVIDIA GPU（CUDA）、AMD GPU（ROCm）、Apple M 系列芯片。
硬盘空间：每个模型约 3GB~40GB，建议预留 50GB 以上空间。

2. 安装方式

Windows/macOS

访问官网 https://ollama.com，下载对应平台的安装包，双击安装即可。

Linux

curl -fsSL https://ollama.com/install.sh | sh

Docker

docker run -d -p 11434:11434 --name ollama ollama/ollama

四、模型管理与运行

1. 查看支持的模型

ollama list

Ollama 支持的主流模型包括：

Meta 的 Llama 2 / Llama 3
阿里巴巴的 Qwen 系列
Google 的 Gemma 系列
Microsoft 的 Phi 系列
Mistral、DeepSeek、CodeLlama 等

2. 下载并运行模型

ollama run llama3

首次运行会自动下载模型文件，之后即可直接对话。

3. 自定义模型

创建一个 Modelfile：

FROM llama2
PARAMETER temperature 0.7
SYSTEM """你是一个中文助手，请用简洁的语言回答问题。"""

然后运行：

ollama create mymodel -f Modelfile
ollama run mymodel

五、Web UI 与 API 接口

1. 启动 Web UI

ollama serve --public

访问 http://localhost:11434 即可使用图形界面。

2. REST API 示例

生成文本：

curl http://localhost:11434/api/generate -d '{
"model": "llama2",
"prompt": "介绍一下量子计算"
}'

对话模式：

curl http://localhost:11434/api/chat -d '{
"model": "mistral",
"messages": [
{"role": "user", "content": "什么是人工智能？"}
]
}'

3. Python 调用示例

import requests
url = "http://localhost:11434/api/generate"
data = {
"model": "llama3",
"prompt": "用简单的语言解释什么是区块链"
}
response = requests.post(url, json=data)
print(response.json()["response"])

六、与其他推理框架对比

框架	部署方式	优势	劣势
Ollama	本地/容器	简单易用，支持多模型，API友好	模型微调支持较弱
LM Studio	本地桌面应用	图形界面友好，支持 GGUF 模型	不适合服务端部署
HuggingFace + Transformers	云端/本地	灵活强大，支持微调和训练	配置复杂，资源消耗大
LocalAI	本地服务	支持 OpenAI API 接口兼容	社区活跃度略低