docker离线部署gpt-oss-20b流程,从下载到安装再到可以使用
背景:内网环境使用大模型前的准备
临时保存搜索的安装步骤
- 联网
- windows系统我选择安装docker desktop
- 安装好后,需要跟着docker destop提示下载子系统linux
- docker hub中搜索可用镜像
- windows系统我选择安装docker desktop
# 1. 下载 Docker 镜像(需联网)
docker pull ollama/ollama# 2. 导出镜像为离线包
docker save ollama/ollama -o ollama-image.tar# 3. 下载模型文件(需联网)
ollama pull gpt-oss:20b# 4. 导出模型为离线包
ollama export gpt-oss:20b ./gpt-oss-20b-model.tar
- 离线
# 1. 传输文件到离线服务器
scp ollama-image.tar user@offline-server:/data
scp gpt-oss-20b-model.tar user@offline-server:/data# 2. 加载 Docker 镜像
docker load -i /data/ollama-image.tar# 3. 导入模型
mkdir -p /mnt/models
docker run -it -v /mnt/models:/root/.ollama ollama/ollama ollama import /data/gpt-oss-20b-model.tar# 4. 启动服务(带 GPU 支持)
docker run -d \--name ollama_gpt \--gpus all \-v /mnt/models:/root/.ollama \-p 11434:11434 \ollama/ollama
- 验证服务
# 1. 检查容器状态
docker logs ollama_gpt | grep "model loaded"# 2. 发送测试请求(JSON 格式)
curl -s http://localhost:11434/api/generate -d '{"model": "gpt-oss:20b","prompt": "Docker离线部署的优势","stream": false
}' | jq .response# 预期输出:
# "Docker离线部署可在隔离环境中运行模型,无需依赖外部网络..."
- 资源优化配置
根据设备显存调整 GPU 层数:
# 高端 GPU(40GB+)
docker exec ollama_gpt ollama run gpt-oss:20b --gpu-layers 35# 中端 GPU(24GB)
docker exec ollama_gpt ollama run gpt-oss:20b --gpu-layers 20# 纯 CPU 模式(量化版本)
docker exec ollama_gpt ollama run gpt-oss:20b-q4_0
- 常见问题排查
拓展
- windows desktop占用c盘空间,迁移到其他盘符
- 配置docker desktop阿里镜像加速器
- 登录你的阿里云账号,访问这个链接, 将如下内容加到配置中
- 登录你的阿里云账号,访问这个链接, 将如下内容加到配置中
{"registry-mirrors": ["https://1i***n.mirror.aliyuncs.com"]
}