多卡跑ollama run deepseek-r1
# 设置环境变量并启动模型
export CUDA_VISIBLE_DEVICES=0,1,2,3
export OLLAMA_SCHED_SPREAD=1 # 启用多卡负载均衡
ollama run deepseek-r1:32b
若 deepseek-r1:32b
的显存需求未超过单卡容量(如单卡 24GB),Ollama 不会自动启用多卡
在run一个8b的就可以看出来多卡了
# 设置环境变量并启动模型
export CUDA_VISIBLE_DEVICES=0,1,2,3
export OLLAMA_SCHED_SPREAD=1 # 启用多卡负载均衡
ollama run deepseek-r1:32b
若 deepseek-r1:32b
的显存需求未超过单卡容量(如单卡 24GB),Ollama 不会自动启用多卡
在run一个8b的就可以看出来多卡了