Ollama 部署大模型
概述
Ollama是一个开源框架,专门设计用于在本地运行大型语言模型。它的主要特点是将模型权重、配置和数据捆绑到一个包中,从而优化了设置和配置细节,包括GPU使用情况,简化了在本地运行大型模型的过程,采用WSL2作为运行环境。WSL2是WINDOWS的Linux虚拟机,此案例使用的是Ubuntu 22.04.3 LTS (GNU/Linux 5.15.167.4-microsoft-standard-WSL2 x86_64)版本系统
安装
curl -fsSL https://ollama.com/install.sh | sh
sudo chmod +x /usr/bin/ollama
运行(当前使用qwen1.5的模型)
此模型4.7G,下载会比较慢,不要中断,不要中断,不要中断!!!
ollama run qwen:7b
后台启动
# 修改ollama的service文件:/etc/systemd/system/ollama.service
# 在[Service]下边增加一行:Environment="OLLAMA_HOST=0.0.0.0:11434",端口根据实际情况修改
systemctl daemon-reload
systemctl stop ollama
systemctl start ollama
systemctl status ollama
启动WEBUI
前置条件,本地已安装Docker。执行命令后,通过浏览器访问http://localhost:8080即可打开页面。
命令中192.168.0.216为本机IP地址
docker run -d -p 8080:8080 -e OLLAMA_BASE_URL=http://192.168.0.216:11434 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
常用命令
# 拉取LLM
ollama pull qwen:7b
#拉取Embedding
ollama pull quentinz/bge-large-zh-v1.5