Shimmy,超越ollama?
以下是 Shimmy 的安装方法及关键注意事项,综合多个来源整理:
一、安装方式
-
通过 Cargo 安装(推荐)
• 适用场景:需要灵活管理依赖、开发环境或希望自动更新。
• 步骤:
-
安装 Rust 和 Cargo(若未安装):
curl --proto ‘=https’ --tlsv1.2 -sSf https://sh.rustup.rs | sh
source ~/.cargo/env -
安装 Shimmy:
cargo install shimmy
• 优势:自动获取最新版本,支持跨平台(Linux/macOS/Windows)。
-
-
直接下载二进制文件
• 适用场景:快速部署、无 Rust 环境或需要离线安装。
• 步骤:
-
访问 https://github.com/Michael-A-Kuykendall/shimmy/releases。
-
根据操作系统下载对应文件:
▪ Windows:shimmy-x86_64-pc-windows-msvc.zip(需解压为 .exe)。▪ macOS:shimmy-x86_64-apple-darwin(Intel 芯片)或 shimmy-aarch64-apple-darwin(Apple Silicon)。
▪ Linux:shimmy-x86_64-unknown-linux-gnu。
-
将二进制文件放置到系统路径(如 /usr/local/bin 或自定义目录)。
• 注意:Windows 用户可能需在 Defender 中添加排除项,避免误报。
-
二、模型配置
Shimmy 不自带模型,需手动下载并放置到指定目录:
-
模型格式:仅支持 GGUF 格式(如 Phi-3、Llama 系列等)。
-
下载方法:
• 使用 huggingface-cli 下载模型到本地目录:
pip install huggingface-hub
huggingface-cli download microsoft/Phi-3-mini-4k-instruct-gguf --local-dir ./models/• 或从其他来源获取模型文件(如 Ollama 模型目录)。
-
自动发现路径:
• Shimmy 默认扫描以下路径:◦ ~/.cache/huggingface/hub/(Hugging Face 缓存)
◦ ~/.ollama/models/(Ollama 模型目录)
◦ ./models/(当前目录)
• 也可通过环境变量 SHIMMY_BASE_GGUF 指定自定义路径。
三、启动服务
-
基础命令:
shimmy serve• 自动分配端口(默认 http://localhost:11435)。
-
高级配置:
• 指定端口:
shimmy serve --bind 127.0.0.1:11435• 指定模型文件:
shimmy serve --model /path/to/model.gguf• 同时指定模型和端口:
shimmy serve --model ~/models/phi-3.gguf --port 3000• 列出可用模型:
shimmy list• 刷新模型发现:
shimmy discover
四、常见问题
-
Windows 兼容性:
• 若二进制文件无法运行,建议通过 Cargo 安装或检查 Defender 设置。 -
模型加载失败:
• 确认模型文件路径正确,且为 GGUF 格式。• 检查是否在 models/ 目录或配置的环境变量路径中。
-
端口冲突:
• 使用 --port 参数手动指定未被占用的端口。
五、Docker 部署(可选)
-
创建模型目录并下载模型:
mkdir models
curl -L “https://huggingface.co/microsoft/Phi-3-mini-4k-instruct-gguf/resolve/main/Phi-3-mini-4k-instruct-q4.gguf” -o models/phi-3-mini.gguf -
启动容器:
docker run -v $(pwd)/models:/app/models -p 11435:11435 shimmy
总结
Shimmy 的安装流程极简,核心优势在于 轻量化(5.1MB)和 零配置自动发现模型。推荐优先通过 Cargo 安装以获取最新功能,模型部署时需注意路径配置。如需进一步优化性能,可尝试 LoRA 适配器或 Metal GPU 加速(macOS)。