当前位置: 首页 > news >正文

【大语言模型_5】xinference部署embedding模型和rerank模型

一、安装xinference

pip install xinference

二、启动xinference

./xinference-local  --host=0.0.0.0  --port=5544

三、注册本地模型

1、注册embedding模型
curl -X POST "http://localhost:5544/v1/models" \
-H "Content-Type: application/json" \
-d '{
  "model_type": "embedding",
  "model_name": "bce-embedding-base_v1",  
  "model_uid": "bce-embedding-base_v1",   
  "model_path": "/root/embed_rerank/bce-embedding-base_v1/" 
}'

验证:
curl -X POST "http://localhost:5544/v1/embeddings" \
-H "Content-Type: application/json" \
-d '{
  "model": "bce-embedding-base_v1",
  "input": ["需要嵌入的文本1", "这是第二个句子"]
}'



2、注册rerank模型

curl -X POST "http://localhost:5544/v1/models" \
-H "Content-Type: application/json" \
-d '{
  "model_type": "rerank",              
  "model_name": "bce-reranker-base_v1",     
  "model_uid": "bce-reranker-base_v1",   
  "model_path": "/root/embed_rerank/bce-reranker-base_v1" 
}'

验证
curl -X POST "http://localhost:5544/v1/rerank" \
-H "Content-Type: application/json" \
-d '{
  "model": "bge-reranker-v2-m3",
  "query": "What is Python?",
  "documents": [
    "Python is a programming language.",
    "Java is another language.",
    "Python is used for web development."
  ]
}'


3、执行./xinference list 查看运行模型

四、删除模型

curl -X DELETE "http://localhost:5544/v1/models/bge-reranker-v2-m3"

五、备注

1、在cpu运行
  • 服务器有显卡但是选择用cpu加载

             启动xinference之前设置

              export CUDA_VISIBLE_DEVICES=""

  • 服务器无显卡会自动在cpu加载模型

2、在gpu运行

启动服务器前设置环境变量

export CUDA_VISIBLE_DEVICES=""

curl -X POST "http://localhost:5544/v1/models" \
-H "Content-Type: application/json" \
-d '{
  "model_type": "embedding",
  "model_name": "bce-embedding-base_v1",  
  "model_uid": "bce-embedding-base_v1",   
  "model_path": "/root/zml/embed_rerank/bce-embedding-base_v1/" 
  "gpu_idx": 1
  "n_gpu" : 1
}'


备注:
gpu_idx :选用的显卡index
n_gpu:选定的显卡总张数

相关文章:

  • Hyperlane:Rust 语言打造的 Web 后端框架新标杆
  • MySQL意向锁我该怎么理解?
  • 自然语言处理(2)—— NLP之百年风雨路
  • 第七次作业,网络防御高级
  • 适配iOS 18:检测并移除三方库中的 bitcode 部分
  • 大数据学习(70)-大数据调度工具对比
  • Trae IDE 介绍与使用教程
  • 大模型架构记录6-推荐算法
  • leetcode29. 两数相除-medium
  • TSB - AD 解读 — 迈向可靠、透明的 TSAD 任务
  • Power Apps 技术分享:画布应用使用表单控件
  • 接入层、汇聚层 和 核心层
  • WebRTC 介绍
  • PyQt6内嵌http.server Web 和Flask Web服务器方法详解
  • 【java零碎知识点】------返回值类型的大小排序
  • Java概述
  • cesium 实现万级管网数据渲染,及pickImageryLayerFeatures原生方法改写
  • 模型蒸馏实战qwen2.5系列模型
  • Android Room 框架测试模块源码深度剖析(五)
  • 汇编基础知识
  • 中美“第二阶段”贸易协定是否会在会谈中提出?商务部回应
  • 习近平出席俄罗斯总统举行的欢迎仪式
  • “三德子”赵亮直播间卖“德子土鸡”,外包装商标实为“德子土”
  • 上海充电桩调研:须全盘考量、分步实现车网互动规模化
  • 西安碑林博物馆票价将调至85元,工作人员:10元属于改扩建期间惠民票
  • 新消费观察| 零售品牌 “走出去” ,如何开辟“新蓝海”?