Shimmy - 隐私优先的 Ollama 替代方案
文章目录
- 一、关于 Shimmy
- 1、项目概览
- 2、相关链接资源
- 3、功能特性
- 二、安装配置
- 三、使用示例
- 1、快速启动
- 2、Python SDK 集成
- 四、技术架构
- 五、性能对比
- 其它
- 参考项目
一、关于 Shimmy
1、项目概览
Shimmy 是一个 5.1MB 的单文件二进制工具,提供 100% OpenAI 兼容的 API 端点,用于本地运行 GGUF 模型。它是隐私优先的本地 AI 解决方案,无需配置即可使用。
2、相关链接资源
- Github:https://github.com/Michael-A-Kuykendall/shimmy
- 官方文档:https://github.com/Michael-A-Kuykendall/shimmy/raw/main/docs/
- 开发指南:<DEVELOPERS.md>
- 演示视频:https://github.com/Michael-A-Kuykendall/shimmy/raw/main/docs/demo.mp4
- 作者:Michael A. Kuykendall
- 社区支持:GitHub Issues | GitHub Discussions
- License:MIT
3、功能特性
1、OpenAI API 兼容
- 完全兼容 OpenAI API 规范
- 支持现有 AI 工具无缝切换
2、零配置自动发现
- 自动发现 Hugging Face/Ollama 模型
- 自动端口分配避免冲突
- 自动检测 LoRA 适配器
二、安装配置
# 推荐安装方式
cargo install shimmy --features huggingface# Windows 预编译二进制
curl -L https://github.com/Michael-A-Kuykendall/shimmy/releases/latest/download/shimmy.exe -o shimmy.exe
三、使用示例
1、快速启动
shimmy serve &
shimmy list
curl -s http://127.0.0.1:11435/v1/chat/completions \-H 'Content-Type: application/json' \-d '{"model":"MODEL_NAME","messages":[{"role":"user","content":"Say hi"}],"max_tokens":32}' | jq
2、Python SDK 集成
from openai import OpenAI
client = OpenAI(base_url="http://127.0.0.1:11435/v1", api_key="sk-local")
resp = client.chat.completions.create(model="MODEL_NAME",messages=[{"role": "user", "content": "Say hi"}],max_tokens=32
)
四、技术架构
- 基于 Rust + Tokio 构建
- llama.cpp 后端支持
- 动态端口管理
- 零配置自动发现机制
五、性能对比
工具 | 二进制大小 | 启动时间 | 内存占用 | OpenAI兼容性 |
---|---|---|---|---|
Shimmy | 10-20MB | <100ms | 50MB | 100% |
Ollama | 680MB | 5-10s | 200MB+ | 部分 |
其它
参考项目
- Ollama
- llama.cpp
伊织 xAI 2025-09-20(六)