【AGI使用教程】GPT-OSS 本地部署(1)
欢迎关注【AGI使用教程】 专栏
【AGI使用教程】GPT-OSS 本地部署
【AGI使用教程】SciSpace 论文阅读神器
【AGI使用教程】GitHub Copilot 免费注册及在 VS Code 中的安装使用
【AGI使用教程】GPT-OSS 本地部署
- 1. 引言
- 2. 下载与安装Ollama
- 2.1 下载Ollama
- 2.2 安装Ollama
- 2.3 运行Ollama
- 3. 下载与使用GPT-OSS
- 3.1 通过Ollama下载GPT-OSS模型
- 3.2 使用Ollama 命令行运行GPT-OSS
- 3.3 使用Ollama GUI运行GPT-OSS
- 3.4 启用Ollama联网搜索功能
1. 引言
2025年8月5日,OpenAI 正式发布了两款突破性的开放轻量级语言模型——GPT-OSS-120B 和 GPT-OSS-20B。
GPT-OSS 是 OpenAI 推出的开源 GPT 服务框架,旨在帮助开发者和企业快速搭建本地化、可扩展的 GPT 服务。GPT-OSS 支持主流开源大模型(如 Llama、Qwen、Mistral、Gemma 等),兼容 OpenAI API 标准,具备高性能推理、插件扩展、模型管理、权限控制等能力,适用于智能问答、内容生成、RAG、Agent、企业知识库等多种场景。
GPT-OSS-120B有1170 亿个参数,在核心推理基准测试中与OpenAI o4-mini 模型性能相当,需要80GB GPU显存才能运行。GPT-OSS-20B有210亿个参数,可以在仅16GB显存的设备上运行,适合开发者在主流工作站或笔记本上使用。
这两款模型采用 Apache 2.0 开源许可证,旨在为全球开发者提供高性能、低成本的 AI 解决方案。
2. 下载与安装Ollama
2.1 下载Ollama
Ollama 是一个开源的本地模型运行工具,可以方便地下载和运行各种开源模型。Ollama 支持macOS、Linux、Windows 操作系统,提供高效、灵活的大模型部署和管理解决方案,可以简化模型的部署流程。Ollama从v0.10.0版本开始提供桌面应用GUI,默认安装会同时包含 CLI 和 GUI 组件。
官网地址:https://ollama.com/
下载地址:https://ollama.com/download
本教程选择 [Ollama Windows 版本]下载:Ollama Windows 版本
2.2 安装Ollama
下载完成后,以管理员身份运行安装包OllamaSetup.exe,按提示完成安装。
安装完成后,按 Win+R
打开运行窗口,输入 cmd
启动命令行窗口。输入ollama -v
测试,显示Ollama版本号则说明安装成功。
Ollama 提供了多种命令行工具(CLI)供用户与本地运行的模型进行交互。可以用 ollama --help
查看包含有哪些命令。
2.3 运行Ollama
Ollama运行后在本地启动了一个内置的Web服务,默认通过localhost:11434端口提供本地API服务,用于接收HTTP请求并返回模型响应。打开浏览器,访问http://localhost:11434/
,将显示 “Ollama is running”。
使用Ollama可以拉取、运行和管理不同的大语言模型,基本命令如下。
(1)启动服务:使用 ollama serve
启动 Ollama 服务。
(2)拉取模型:使用 ollama pull <model-name>
从模型库中下载模型。
(3)列出本地模型:使用 ollama list
查看已下载的模型列表。
(4)显示模型信息:使用 ollama show <model-name>
显示模型的详细信息。
(5)运行模型:使用 ollama run <model-name>
运行一个模型。
(6)停止服务:使用 ollama stop
停止正在运行的Ollama服务。
3. 下载与使用GPT-OSS
3.1 通过Ollama下载GPT-OSS模型
通过 Ollama模型仓库可以下载GPT-OSS模型。
-
访问Ollama官网(https://ollama.com/search),查找GPT-OSS模型。
-
GPT-OSS提供了
gpt-oss:20b
和gpt-oss:120b
两个不同规模的模型。
- 显式拉取 GPT-OSS模型。
可以通过命令行按模型名拉取相应模型权重。在命令行窗口执行:
ollama pull gpt-oss:20b # 下载 20B 模型(下载量约 13–14 GB)
ollama pull gpt-oss:120b # 下载 120B 模型(下载量约 65 GB)
下载和解压过程会显示进度条。下载完成后显示“success”,说明下载成功。
- 自动拉取GPT-OSS模型。
如果已经显式拉取 GPT-OSS模型,则不需要执行本步骤。
Ollama会自动拉取缺失模型。在命令行窗口执行:
ollama run gpt-oss:20b # ollama 运行 gpt-oss:20b
ollama run gpt-oss:120b # ollama 运行 gpt-oss:120b
例如直接执行 ollama run gpt-oss:20b
时,如果本地检测不到该模型,将会自动下载和安装gpt-oss:20b模型。
下载和解压过程会显示进度条。下载完成后显示 “success”,说明下载成功。
注意默认安装路径为"C:\Users%username%.ollama\models"。如果要修改模型的路径,可以另存到系统盘其它路径如 “C:\Model”,然后添加系统变量【变量名:OLLAMA_MODELS,变量值:C:\Model】。
- 下载完成后,可以使用
ollama list
查看已下载的模型列表, 使用ollama show gpt-oss:20b
显示模型的详细信息。
- 模型导出与导入(非必需,参考内容)。
(1)使用ollama show
查看模型信息,获取模型路径。例如,ollama show --modelfile gpt-oss:20b
,输出结果中包含模型的路径(如 C:/Users/m2max/.ollama /models/blobs/sha256-…),对应 GGUF 格式模型文件。
(2)复制模型文件。根据获得的模型路径,直接复制模型文件到目标位置。生成的 gptoss_20b.gguf 即为导出的模型文件。
> cp C:\Users\David\.ollama\models\blobs\sha256-… gptoss_20b.gguf
(3)导入GGUF模型时,先编写一个Modelfile配置文件指定 gptoss_20b.gguf模型文件路径,内容如下。
FROM C:\Users\David\ gptoss_20b.gguf
(4)再执行模型创建命令 ollama create
。
ollama create gpt-oss:20b -f ./Modelfile
3.2 使用Ollama 命令行运行GPT-OSS
Ollama能在本地加载模型实现聊天,也可作为本地服务持续运行。
- 运行GPT-OSS模型。
在命令行窗口使用ollama run gpt-oss:20b
运行本地gpt-oss:20b模型,启动交互会话。模型加载比较慢,加载完会出现 “>>>” 提示符,表示可以开始输入。 - 在提示符后输入
/?
,可以查看快捷键帮助信息。 - 在提示符后输入问题,模型就能进行回复。说明我们已经完成GPT-OSS模型的本地安装,正在使用本地部署的GPT-OSS模型了。
- 退出模型:在提示符后输入
/bye
,退出模型运行,回到命令行模式。交互对话过程中,按Ctrl+C
可以退出。
>>> 请介绍你自己,特别是版本、功能和使用方法。
Thinking...## 关于我——ChatGPT(基于 GPT‑4 架构)### 1. 版本信息
- **核心模型**:OpenAI GPT‑4(大型语言模型)
- **发布时间**:2023 年底发布的 GPT‑4 版本,随后不断进行安全性、鲁棒性与知识库的微调。
- **对比**:相比 GPT‑3.5,GPT‑4 在推理能力、语言流畅度、对话连贯性以及多语言理解上有显著提升。### 2. 主要功能
| 类别 | 具体功能 | 典型应用 |
|------|----------|----------|
| **对话交互** | 回答问题、跟进对话、提供建议 | 学习辅导、技术支持、日常咨询 |
| **文本生成** | 文章、故事、诗歌、剧本、广告文案 | 内容创作、营销、文案写作 |
| **代码编写与调试** | 提供完整脚本、修复错误、代码片段说明 | 软件开发、学习编程、自动化脚本 |
| **知识问答** | 事实查询、概念解释、专业术语 | 学术研究、行业知识、技术培训 |
| **翻译** | 多语种互译,保持上下文一致 | 国际业务、语言学习 |
| **总结归纳** | 文本压缩、要点提炼 | 报告写作、会议记录 |
| **创意激发** | 头脑风暴、命名建议、情节构思 | 创意工作、品牌设计 |
| **教育辅助** | 练习题、解题思路、概念教学 | 学校作业、在线课程 |
| **工具调用** | 通过“function calling”与外部 API 集成(需开发者配置) | 自动化工作流、实时数据查询 |> **注意**:我本身不具备浏览功能,所有回答基于训练时截至 2023 年底的公开知识;无法获取实时信息或访问内部数据库。### 3. 如何使用我
1. **直接提问**- 只需像跟人说话一样输入问题,例如:“请给我一段关于机器学习的简短介绍。”- 如果想得到更精确的回答,可在问题中指定格式或细节,例如:“请给我一份 500 字以内的技术报告摘要。”2. **角色设定(System Prompt)**- 在高级平台(ChatGPT API 或 OpenAI 网站的“角色设置”)可设定系统消息,让模型扮演特定身份,如“你是一名资深律师
,负责合同审查”。- 这有助于控制回答的专业性与语气。3. **多轮对话**- 上下文保留有限(通常 8–10 轮对话)。如果需要更长上下文,最好在每轮回复中包含关键信息或使用**摘要**技巧。4. **使用功能调用(function calling)**- 开发者可在 API 请求中声明“function”描述,模型会在需要时返回 JSON 调用参数,随后由后端执行实际操作(如查询数据
库、调用第三方 API)。5. **安全与隐私**- 不要在对话中分享个人敏感信息(身份证号、银行卡、账号密码等)。- 所有对话数据会用于模型改进,但 OpenAI 已采取严格的隐私政策和加密措施。6. **最佳实践**- **具体化**:越具体的提问,答案越精准。- **分步**:复杂任务可拆分为多步提问,例如先请求思路,再请求代码实现。- **迭代优化**:先得到初稿,再逐步改进。- **多轮校正**:如发现回答错误,可直接指出“这不正确,为什么?”或“请修正。”### 4. 示例对话
**用户**:请给我一段介绍 GPT‑4 的短文。
**ChatGPT**:GPT‑4 是由 OpenAI 开发的先进语言模型,它在推理、常识推断、上下文理解和多语言处理方面较 GPT‑3.5 有显著提
升。它支持多模态输入(如图像)并能生成高质量的文本、代码、翻译和摘要等内容。**用户**:我想让你写一段 Python 代码,读取 CSV 并计算每列的平均值。
**ChatGPT**:
```python
import csv
import statisticsdef column_averages(file_path):with open(file_path, newline='') as f:reader = csv.DictReader(f)rows = list(reader)if not rows:return {}keys = rows[0].keys()averages = {}for key in keys:try:values = [float(row[key]) for row in rows]averages[key] = statistics.mean(values)except ValueError:averages[key] = None # 非数值列return averagesif __name__ == "__main__":print(column_averages("data.csv"))
```python
> 需要根据实际 CSV 结构调整字段类型。### 5. 开发者集成
- **API 访问**:`POST https://api.openai.com/v1/chat/completions`,传入 `model="gpt-4.0-turbo"`。
- **参数**:`messages`(系统、用户、助手消息)、`temperature`(0–1 控制随机性)、`max_tokens`、`function_call` 等。- **安全**:使用 API key 并通过 HTTPS 传输;开启速率限制、内容过滤。### 6. 小结
- **我**:基于 GPT‑4 的 ChatGPT,支持多种文本任务,适用于个人学习、企业办公、创意写作与软件开发。
- **使用**:直接提问、设定角色、利用功能调用;遵循安全与隐私原则。
- **升级**:未来会继续更新模型,提升推理能力和安全性。欢迎随时尝试,我会尽力帮你完成各种语言与编程任务!
3.3 使用Ollama GUI运行GPT-OSS
通过本地命令行窗口可以使用GPT-OSS模型,但交互体验很差,似乎回到了 DOS 年代。Ollama从v0.10.0版本开始提供了原生的桌面应用,标志着 Ollama 从纯命令行工具(CLI)转向了图形用户界面(GUI)。
Windows系统安装Ollama后通常会自动启动,可以从 开始菜单或系统托盘 打开"Ollama GUI" 桌面应用。
你可以在主界面的下拉菜单中,选择你已经 pull的模型(如gpt-oss:20b),然后直接开始对话。
我们来制作一个简单的个人简历页面,在对话框输入:【请生成个人简历网页,要求用HTML格式输出。】,GPT-OSS模型就会自动生成HTML网页代码。在代码区的标题栏点击 “Copy” 按钮,将代码复制粘贴到文本编辑器中保存为index1.html,用浏览器打开该文件即可查看网页效果。
3.4 启用Ollama联网搜索功能
Ollama v0.11提供内置的网页搜索功能,可以选择启用搜索功能以使用联网搜索信息来扩充模型。
(1)打开"Ollama GUI" 桌面应用。登录 Ollama Hub账户。
(2)点击打开对话框下方的 “Toggle web search” 按钮,启用联网搜索功能。
(3)在对话框提出需要实时信息的问题时,模型会自动触发联网搜索功能。
例如,在对话框输入:【请搜索2025年Q1季度销量前5名的手机品牌、销量,以“序号、品牌、销量”格式输出。】,GPT-OSS模型就会自动联网搜索“2025 Q1 手机 销量 前5 名 品牌 销量 2025 第一季度”,并根据搜索结果进行分析并输出结果。
下节继续介绍:
- 基于WebUI使用GPT-OSS
- 使用API接口调用GPT-OSS
版权声明: youcans@qq.com 原创作品,转载必须标注原文链接: [【AGI使用教程】GPT-OSS 本地部署(1)](https://youcans.blog.csdn.net/article/details/145403110)
Copyright@youcans 2025
Crated:2025-08