M1芯片macOS安装Xinference部署大模型
如果你看的是官方手册:安装 — Xinference
千万不要直接运行:
pip install "xinference[all]"
会遇到几个问题:
1)Python版本如果太新可能安装失败
2)全量安装会失败
3)未科学上网可能会timeout
我目前的做法如下:
1)安装mini-conda
2)创建虚拟环境,Python指定3.11版本,并激活运行
conda create -n xinference python=3.11
conda activate xinference
3)安装官方文档,运行不同的引擎,我推荐使用下面的:
Transformers 引擎
PyTorch(transformers) 引擎支持几乎有所的最新模型,这是 Pytorch 模型默认使用的引擎:
pip install "xinference[transformers]"
如果是M系列芯片的mac,还可以选择:
MLX 引擎
MLX-lm 用来在苹果 silicon 芯片上提供高效的 LLM 推理。
初始步骤:
pip install "xinference[mlx]"
其他引擎大家自行选择。
完成引擎安装后,就可以运行了:
xinference-local --host 0.0.0.0 --port 9997
后续访问 127.0.0.1:9997 即可进行配置;
如果是dify使用,先安装Xorbits Inference插件。
如果是docker部署,则大模型的服务器URL如下:
http://host.docker.internal:9997