当前位置: 首页 > news >正文

Dify - Embedding Rerank

注意:v100显卡会出现不适配,不推荐使用

 1. 安装 Docker

ubuntu 22.04 docker 安装&使用_ubuntu22.04 安装docker-CSDN博客

 2. 安装vllm

pip install -U xformers torch torchvision torchaudio triton --index-url https://download.pytorch.org/whl/cu121
pip install modelscope vllm 

3. 下载nlp_gte_sentence-embedding_chinese-base开源模型

#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('iic/nlp_gte_sentence-embedding_chinese-base')

4. 部署Dify到本地

git clone https://github.com/langgenius/dify

启动 Dify

  1. 进入 Dify 源代码的 Docker 目录

    cd dify/docker
    
  2. 复制环境配置文件

    cp .env.example .env
    
  3. 启动 Docker 容器

    根据你系统上的 Docker Compose 版本,选择合适的命令来启动容器。你可以通过 $ docker compose version 命令检查版本,详细说明请参考 Docker 官方文档

    • 如果版本是 Docker Compose V2,使用以下命令:
    docker compose up -d
    
    • 如果版本是 Docker Compose V1,使用以下命令:
    docker-compose up -d
    

运行命令后,你应该会看到类似以下的输出,显示所有容器的状态和端口映射,通过这些步骤,你可以在本地成功安装 Dify。

修改端口:

 如果使用云服务器请先确认暴露端口

以闪电云为例:

sudo apt install rinetd
echo "0.0.0.0 8880 127.0.0.1 9000" > /etc/rinetd.conf
sudo systemctl restart rinetd

更新 Dify

进入 dify 源代码的 docker 目录,按顺序执行以下命令:

cd dify/docker
docker compose down
git pull origin main
docker compose pull
docker compose up -d

访问 Dify

你可以先前往管理员初始化页面设置设置管理员账户:

# 本地环境
http://localhost/install# 服务器环境
http://your_server_ip/install

Dify 主页面:

# 本地环境
http://localhost# 服务器环境
http://your_server_ip

 5. 启动 vLLM 的 OpenAI 兼容服务

启动vllm服务 

vllm serve /root/.cache/modelscope/hub/models/iic/nlp_gte_sentence-embedding_chinese-base --port 8000 --dtype float16

6.使用OpenAl-API-compatible插件在内网部署

 7. 知识库部署Embedding模型

嵌入成功! 

 8. 下载mxbai-rerank-large-v2开源模型

#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('mixedbread-ai/mxbai-rerank-large-v2')

 

 9. 启动 vLLM 的 OpenAI 兼容服务

启动vllm服务 

vllm serve /root/.cache/modelscope/hub/models/mixedbread-ai/mxbai-rerank-large-v2 --port 7000 --dtype float16 

http://www.dtcms.com/a/173275.html

相关文章:

  • 第六章 流量特征分析-蚁剑流量分析(玄机靶场系列)
  • 基于YOLOv8与LSKNet的遥感图像旋转目标检测新框架 —LSKblock注意力机制在小目标检测中的性能优化与SOTA探索
  • TCP/IP, CAN,LIN,SOCKET
  • 学习黑客Nmap 实战
  • Python字符串全面指南:从基础到高级操作
  • 代码随想录算法训练营Day45
  • MCP原理详解及实战案例(动嘴出UI稿、3D建模)
  • GESP2024年3月认证C++八级( 第二部分判断题(6-10))
  • 用Python打造自己的专属命令行工具
  • AI融合SEO关键词优化
  • BC35 判断字母
  • 【AI论文】KeySync:一种在高分辨率下实现无泄漏唇形同步的稳健方法
  • 【day03】简写单词 | dd爱框框 | 除2!
  • WebAssembly(Wasm):现代Web开发的超级加速器
  • 网星安全AWS攻防方案,重磅发布!
  • PCI/PCIe Error?设备总线?Bus?
  • Jmeter性能测试工具使用介绍
  • item_get_app_pro - 获得淘宝app商品详情原数据操作流程
  • Baklib的数字化内容管理核心是什么?
  • n8n工作流自动化平台:生成图文并茂的分析报告之Merge节点详细说明
  • CSS兼容性:挑战与策略
  • 【Leetcode 每日一题 - 补卡】1007. 行相等的最少多米诺旋转
  • 「Mac畅玩AIGC与多模态20」开发篇16 - 使用结构化输出字段控制后续流程示例
  • Three.js + React 实战系列 - 客户评价区细解教程 Clients 组件✨(回答式评价 + 评分星级)
  • ​亚马逊云服务器技术全景解析:从基础架构到行业赋能​
  • JVM——Java对象的内存布局
  • 价格识别策略思路
  • 数智管理学(六)
  • D. Pythagorean Triples 题解
  • Vuex使用指南:状态管理