【记录】高性能服务器运行DeepSeek
搭建代理服务器
一般情况下高性能服务器为了安全起见,仅仅在内网使用,无法上公网,因此第一步配置代理服务器,让高性能服务器可以上公网。
首选Windows + CCProxy免费版
官网地址:http://www.ccproxy.com/
基本设置
设置防火墙,开放808端口
记下代理服务器地址:
http://代理服务器IP:808
高性能服务器上要用。
下载Ollama程序
在自己电脑上登录Ollama官网
https://ollama.com/download/linux
点击手动指令
跳转到了github
https://github.com/ollama/ollama/blob/main/docs/linux.md
下载这个文件
注意:有可能版本太高,需要升级glibc
如果不想升级的话,或者无权限升级的话,可以考虑用低版本的。v0.5.12
https://github.com/ollama/ollama/releases
高性能服务器操作
上载Ollama
通过FileZilla将’"ollama-linux-amd64.tgz"传到远程高性能服务器。
解压
注意:这里和官网文档不一致。
我其解压到我的主目录下的.local文件夹内。
mkdir -p ~/.local
tar -C ~/.local -xzf ollama-linux-amd64.tgz
检查GPU卡
sinfo -o "%10n %10G %10t"
sinfo
[abc@login01 ~]$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
cn up infinite 2 down* cn[15,21]
cn up infinite 5 mix cn[08-10,17,22]
cn up infinite 17 alloc cn[01-07,11-14,16,18-20,23-24]
cn1 up infinite 5 mix cn[31,42,44-46]
cn1 up infinite 17 alloc cn[25-30,32-41,43]
fat up infinite 1 mix fat01
gpu2 up infinite 1 mix gpu02
gpu3 up infinite 1 mix gpu03
gpu4 up infinite 1 down* gpu05
gpu4 up infinite 1 mix gpu04
gpu5 up infinite 1 down* gpu06
gpu5 up infinite 1 alloc gpu08
gpu6* up infinite 1 alloc gpu07
找一个可用的显卡,比如 “gpu3 up infinite 1 mix gpu03”,登录
登录Slurm 集群
srun -w gpu03 -p gpu3 -n 1 --pty bash
检查NVIDA GPU
nvidia-smi
nvidia-smi -L
设置参数
export OLLAMA_GPU_LAYER=cuda
export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
export OLLAMA_NUM_GPU=8
export OLLAMA_GPU_LAYERS=35
export OLLAMA_KEEP_ALIVE=1800
# 添加path
export PATH="$HOME/.local:$PATH"
# 设置开放端口
export OLLAMA_HOST="127.0.0.1:3001"
# 允许跨域访问
export OLLAMA_ORIGINS="*"
# 设置代理服务器(应该是下面其中一个,全加,未测)
export HTTPS_PROXY="http://代理服务器IP:808"
export HTTP_PROXY="http://代理服务器IP:808"
# 立即生效
source ~/.bashrc
启动Ollama
ollama serve &> /dev/null &
ollama run deepseek-r1:32b