当前位置：首页 > news >正文

dify 中创建知识库：Embedding 模型和 Rerank 模型作用分析

news 2025/10/29 14:47:48

Dify 中为知识库模型选择：

这是一个非常先进且合理的组合，尤其适合中文场景下的高精度语义检索。下面我为你详细解析这两个模型在知识库检索流程中的分工、作用与协同机制。

在 Dify 的知识库中，一次典型的检索过程分为两个阶段：

用户提问↓
1️⃣ 【Embedding 阶段】 → 从向量库中快速召回 Top-K 相关文档片段（如 Top 10）↓
2️⃣ 【Rerank 阶段】 → 对这 Top-K 片段重新精细排序，选出最相关的 Top-N（如 Top 3）↓
送入 LLM 生成答案

✅ Embedding 负责“快而广”的初筛，Rerank 负责“准而精”的重排。

全称：BGE-M3（BAAI General Embedding - Multi-Lingual, Multi-Function, Multi-Granularity）
由 智谱 AI（Zhipu AI）与北京智源 联合发布
支持 100+ 语言，特别优化了中文表现
同时支持 dense（稠密） + sparse（稀疏） + colbert（多向量） 三种检索模式

文档向量化
- 当你上传 PDF/Word/Markdown 时，Dify 会将其切分为文本块（chunks）
- 每个 chunk 通过 BGE-M3 转为一个 高维向量（embedding）
- 存入向量数据库（如 Weaviate / Qdrant）
用户问题向量化
- 用户提问时，问题也通过 BGE-M3 转为向量
相似度检索（ANN Search）
- 在向量库中快速查找与问题向量最相似的 Top-K 文档块
- 使用 余弦相似度 或内积计算

⚠️ 但 Embedding 检索是“近似匹配”，可能召回语义相关但不精准的内容（如主题相关但细节不符）。

接收 Embedding 阶段召回的 Top-K 文档（如 10 个）
对每个（问题, 文档）对进行精细打分
- 不是单独编码问题和文档，而是联合输入到模型中：
```
[CLS] 用户问题 [SEP] 候选文档片段 [SEP]
```
- 模型输出一个 相关性分数（0~1）
按分数重新排序，选出 Top-N（如 3 个）最相关的片段送入 LLM

💡 举例：
用户问：“机舱油类火灾用什么灭火器？”

Embedding 可能召回：
A. “机舱火灾处理流程”（泛泛而谈）
B. “泡沫灭火器适用于油类火灾”（精准）

Rerank 会给 B 更高分，确保 LLM 优先使用 B 生成答案。

✅ 你的选择（BGE-M3 + BCE Reranker）是目前中文 RAG 的 SOTA（State-of-the-Art）组合，兼顾广度与精度。

Embedding Top-K：建议设为 5~10（给 Rerank 足够候选）
Rerank Top-N：建议设为 2~3（避免 LLM 上下文过长）
模型部署：
- 如果本地有 GPU，可将两个模型都本地部署（通过 Ollama / vLLM / Dify 内置支持）
- 若无 GPU，Dify 也支持调用云端 API（如硅基流动、智谱 API）

模型	类型	MTEB-CN 排名
BGE-M3	Embedding	🥇 第 1 名
bce-reranker-base_v1	Reranker	🥇 第 1 名

数据来源：C-MTEB Leaderboard

模型	角色	核心价值
BGE-M3	初筛召回	快速从海量文档中找出“可能相关”的内容
bce-reranker-base_v1	精排重排	从候选中精准选出“真正相关”的内容