当前位置: 首页 > news >正文

docker安装Xinference

Xinference 介绍

Xinference 是由 Xorbits 团队开发的一套 本地大模型推理和服务框架,它旨在帮助开发者和企业轻松地部署、管理并扩展各种 AI 模型(尤其是大语言模型、嵌入模型、语音模型等),支持本地、云端或混合部署。
官网:http://xinference.io


Xinference 的核心优点

  1. 支持广泛的模型类型

    • 支持主流的大语言模型(LLM):如 Llama 系列(Llama2、Llama3)、Qwen、ChatGLM、Baichuan、InternLM、Phi 等。
    • 支持嵌入模型(Embedding):如 BGE、M3E 等。
    • 支持语音识别与生成模型:如 Whisper、VITS 等。
    • 支持多模态模型。
    • 可通过 xinference model list 查看所有支持的模型。
  2. 一键部署,开箱即用

    • 提供命令行工具和 REST API,只需一条命令即可启动模型服务。
    • 自动下载模型(支持 Hugging Face)、加载、推理和服务化,简化部署流程。
  3. 高性能推理

    • 基于 vLLMGGUFTransformers 等后端优化推理性能。
    • 支持 连续批处理(Continuous Batching)PagedAttention 等技术,显著提升吞吐量和降低延迟。
  4. 灵活的部署方式

    • 支持本地运行、Docker 容器化、Kubernetes 集群部署。
    • 支持 CPU、GPU(NVIDIA)、Apple Silicon(M1/M2)等多种硬件环境。
  5. 可视化 Web UI

    • 提供图形化界面,方便查看模型、启动/停止模型实例、测试推理效果。
    • 支持模型参数调整、上下文管理等。
  6. 与生态工具无缝集成

    • 可与 LangChain、LlamaIndex、Xinference Lite、Xorbits Inference 等框架集成。
    • 提供 Python SDK,便于在应用中调用。
  7. 支持模型注册与自定义

    • 允许用户注册私有模型或自定义模型配置,扩展性强。
  8. 轻量级 & 高可扩展

    • 架构清晰,资源占用低,适合从小型项目到企业级服务的扩展。

使用 Docker 安装 Xinference

使用 Docker 是部署 Xinference 最简单、最干净的方式之一,可以避免环境依赖冲突。

✅ 前提条件
  • 已安装 Docker
  • (可选)NVIDIA GPU + NVIDIA Container Toolkit(用于 GPU 加速)
🐳 步骤 1:拉取 Xinference Docker 镜像
docker pull xprobe/xinference:latest

更多镜像标签可查看:Docker Hub - xprobe/xinference

🐳 步骤 2:启动 Xinference 服务容器
方式一:CPU 模式运行(通用)
docker run -d -p 9997:9997 --name xinference-server xprobe/xinference:latest
方式二:GPU 模式运行(推荐用于大模型)
docker run -d -p 9997:9997 --gpus all --name xinference-server xprobe/xinference:latest

注意:确保已安装 nvidia-docker 或配置好 nvidia-container-toolkit

🐳 步骤 3:进入容器(可选)
docker exec -it xinference-server /bin/bash
🌐 步骤 4:访问 Web UI

打开浏览器,访问:

http://localhost:9997

您将看到 Xinference 的 Web 控制台,可以:

  • 查看可用模型
  • 启动模型(如 Qwen、Llama3 等)
  • 调整参数(temperature、max_tokens 等)
  • 测试对话或生成结果
🧪 步骤 5:通过 API 调用模型(示例)

启动一个模型后,您可以通过 REST API 调用:

curl -X POST "http://localhost:9997/v1/completions" \-H "Content-Type: application/json" \-d '{"model": "qwen-7b","prompt": "Hello, how are you?","max_tokens": 128}'

补充:使用 Docker Compose(推荐用于生产)

创建 docker-compose.yml 文件:

version: '3.8'
services:xinference:image: xprobe/xinference:latestports:- "9997:9997"volumes:- ./data/.xinference:/root/.xinference- ./data/.cache/huggingface:/root/.cache/huggingface- ./data/.cache/modelscope:/root/.cache/modelscope- ./logs:/app/logsenvironment:- XINFERENCE_MODEL_SRC=modelscopedeploy:resources:reservations:devices:- driver: nvidiacount: allcapabilities: [gpu]# 如果没有 GPU,删除上面的 deploy 部分即可

启动服务:

docker compose up -d

总结

优点说明
✅ 易用性一键部署,Web UI 友好
✅ 多模型支持覆盖主流 LLM、Embedding、语音模型
✅ 高性能支持 vLLM 等加速后端
✅ 多平台CPU/GPU/Mac/集群均可
✅ 可扩展支持 Kubernetes、API 集成

http://www.dtcms.com/a/469635.html

相关文章:

  • 从标准化到个性化:基于代理模式的智能办公工具技术实现与趋势
  • AI(学习笔记第十一课) 使用langchain的multimodality
  • 如何配置iis网站国企500强完整名单
  • ppt做的最好的网站有哪些品牌建设方案和思路
  • [cpprestsdk] http_client_config | GET | request()
  • HQChart使用教程30-K线图如何对接第3方数据46-DRAWTEXT_FIX数据结构
  • 奥特蛋的做网站门户网站的发布特点
  • Unity网络开发--超文本传输协议Http(2)
  • Java后端开发核心技术选型指南(优化版)
  • 数字图像处理-图像的傅里叶变换
  • 分布式缓存架构:从原理到生产实践
  • 现代计算机视觉任务综合概述:定义、方法与应用
  • ai 作物分类
  • sm2025 模拟赛11 (2025.10.7)
  • WebSocket 是什么原理?为什么可以实现持久连接?
  • 【开题答辩全过程】以 宝成花园物业管理系统为例,包含答辩的问题和答案
  • CORS配置实战:SpringBoot与Vite项目的本地联调解决方案
  • 长沙学做网站建设wordpress图片全部压缩
  • [cpprestsdk] 统一资源标识符 | uri_builder
  • 网站开发与运维收费明细报社网站开发做什么
  • 徐州做网站的公司招聘可以做ppt的网站或软件
  • python自带的unittest框架
  • STM32学习记录-0.1 STM32外设
  • 人形机器人:Tesla Optimus的AI集成细节
  • starocks创建表后还需要设置什么
  • 《操作系统真象还原》 第十章 输入输出系统
  • 免费发布信息的网站网站建设规划文档
  • kali安装ARL-docker灯塔
  • Linux的Dynamic debug功能
  • 需要做网站建设的公司做流程图用什么网站