Xinference 是一个高性能、分布式的模型推理框架,支持多种大语言模型(LLM)、嵌入模型(Embedding)和图像生成模型。本文将详细介绍 Xinference 的常用命令,涵盖模型启动、管理、监控及 API 调用,帮助你快速掌握其核心功能。
1. 安装与启动 Xinference
1.1 安装 Xinference
pip install xinference
1.2 启动本地 Xinference 服务
xinference-local
默认启动在 http://localhost:9997
。
1.3 启动分布式 Xinference 集群