当前位置：首页 > news >正文

OpenWebUI(2)源码学习-后端retrieval检索模块

news 2025/11/16 14:47:37

- - 1. retrieval主要功能说明
  - 2. 🔍 整体架构概览
  - 3. 📁 目录结构解析
  - - 3.1 `loaders/`
    - - 3.1.1 datalab_marker.py 处理 Datalab 格式的数据。
      - 3.1.2 external_document.py从外部源（如 PDF、Word 等）加载文档内容
      - 3.1.3 external_web.py从 Web URL 加载网页内容。
      - 3.1.3 main.py统一入口，注册并管理所有 loader 类型
      - 3.1.3 mistral.py Mistral模型相关数据加载器
      - 3.1.3 tavily.py Tavily搜索 API 的数据加载器
      - 3.1.3 youtube.py从 YouTube 视频中提取文本内容。
    - 3.2. `models/`
    - 3.3. `vector/`
    - - 3.3.1 `dbs/`
    - 3.4. `web/`
    - 3.5. `utils.py`
  - 4.💡 主要功能模块详解
  - - ✅ 1. **信息检索**
    - ✅ 2. **文档加载**
    - ✅ 3. **向量数据库**
    - ✅ 4. **重排序（Reranking）**
  - 5.🧩 应用场景
  - 6.⚙️ 配置与部署建议
  - 7.📦 总结

1. retrieval主要功能说明

是一个检索模块目录，主要负责实现信息检索、向量存储与搜索、网络爬取和重排序（Reranking）等功能。这个模块为 AI对话系统提供外部知识支持，帮助模型从文档、网页、数据库中获取相关信息。

2. 🔍 整体架构概览

在这里插入图片描述

retrieval/
├── loaders/                # 数据加载器（PDF/URL/External API）
├── models/                 # 检索模型（Rerank / ColBERT）
├── vector/                 # 向量数据库操作
│   ├── dbs/                # 具体向量数据库实现
│   ├── factory.py          # 向量数据库工厂类
│   └── main.py           # 统一向量检索接口
├── web/                   # 网络搜索模块
│   ├── testdata/           # 测试用的搜索响应示例
│   ├── bing.py            # Bing 搜索引擎集成
│   ├── brave.py           # Brave 搜索引擎集成
│   └── ...               # 更多搜索引擎支持
└── utils.py               # 通用工具函数

3. 📁 目录结构解析

D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval 是一个检索模块目录，主要负责实现信息检索、向量存储与搜索、网络爬取和重排序（Reranking）等功能。这个模块为 AI 对话系统提供外部知识支持，帮助模型从文档、网页、数据库中获取相关信息。

3.1 `loaders/`

功能：用于加载各种来源的数据，并将其转换为可被模型使用的格式。

3.1.1 datalab_marker.py 处理 Datalab 格式的数据。

关于用到的Datalab平台的介绍如下：
api网站www.datalab.to
文件 datalab_marker.py 的作用是实现一个文档加载器 DatalabMarkerLoader它通过调用 Datalab 提供的 Marker API 将各种格式的文件（如 PDF、Word、PPT 等）转换为结构化的输出格式（如 Markdown、HTML 或 JSON），并返回处理后的文档内容。这个类的主要功能包括：

初始化配置：

构造函数 init 接收多个参数来控制文件解析行为，例如是否使用 OCR、是否跳过缓存、输出格式等。

MIME 类型识别：

_get_mime_type 方法根据文件扩展名判断文件的 MIME 类型，以便在上传时正确标识文件类型。

提交文件处理请求：

load 方法负责将本地文件上传到 Datalab 的 Marker API，并等待处理结果。
使用 HTTP POST 请求向 https://www.datalab.to/api/v1/marker 发送文件和配置参数。

轮询处理状态：

上传文件后，会通过轮询机制定期检查处理状态，直到任务完成或超时。
如果处理成功，则从响应中提取生成的内容（Markdown、HTML 或 JSON）。

保存处理结果：

处理完成后，将生成的内容写入指定目录 /app/backend/data/uploads/marker_output，以便后续访问。

构建文档对象：

最终返回一个包含处理结果和元数据的 Document
对象列表，用于进一步的处理或存储。

主要依赖的技术

Requests: 用于发送 HTTP 请求与 Datalab API 进行交互。
LangChain: 使用了 langchain_core.documents.Document 来封装处理后的文档内容及其元数据。
FastAPI: 抛出异常时使用了 FastAPI 的 HTTPException。

应用场景
该文件主要用于从非结构化文档（如 PDF、Word 文档等）中提取结构化内容，适用于需要自动化解析和处理大量文档的应用场景，例如知识库构建、文档分析、信息检索系统等。

3.1.2 external_document.py从外部源（如 PDF、Word 等）加载文档内容

文件 external_document.py 的作用是实现一个外部文档加载器 ExternalDocumentLoader，它通过将本地文件发送到指定的外部 API 端点进行处理，并返回处理后的文档内容。这个类的主要功能包括：

初始化配置

构造函数 [init](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\loaders\external_document.py#L14-L27)
接收以下参数：
[file_path](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\loaders\external_document.py#L0-L0):
本地文件路径。
[url](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\loaders\external_document.py#L0-L0):
外部 API 的地址。
[api_key](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\loaders\external_document.py#L0-L0):
访问 API 所需的身份验证密钥。
[mime_type](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\loaders\external_document.py#L0-L0):
文件的 MIME 类型（可选）。

初始化时保存这些参数供后续使用。

上传并处理文件

[load](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\loaders\external_document.py#L29-L58)
方法负责将本地文件上传到指定的外部 API 并获取处理结果。
读取文件：以二进制模式打开并读取本地文件内容。
构建请求头：根据提供的 [mime_type](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\loaders\external_document.py#L0-L0)
和
[api_key](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\loaders\external_document.py#L0-L0)
构建 HTTP 请求头。
发送 PUT 请求：向 {url}/process 发送包含文件内容的 PUT 请求。
处理响应：
如果请求成功 (r.ok)，解析 JSON 响应并构造一个包含 page_content 和 [metadata](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\utils\audit.py#L0-L0)
的
[Document](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\src\lib\stores\index.ts#L190-L195)
对象。
如果没有返回内容，则抛出异常。
如果请求失败，则抛出包含状态码和错误信息的异常。

主要依赖的技术

Requests: 用于发送 HTTP 请求与外部 API 进行交互。
LangChain: 使用了 langchain_core.documents.Document 来封装处理后的文档内容及其元数据。
BaseLoader: 继承自 LangChain 的 BaseLoader，遵循其接口规范。

应用场景该文件主要用于将本地文档上传到远程服务进行处理，并获取结构化的内容。适用于需要调用外部文档处理服务（如 OCR、文本提取、元数据生成等）的场景，例如文档解析、知识库构建、信息检索系统等。

3.1.3 external_web.py从 Web URL 加载网页内容。

文件 external_web.py 的作用是实现一个外部网页加载器
[ExternalWebLoader](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\loaders\external_web.py#L13-L49)，它通过将一组网页
URL 发送到指定的外部 API 进行处理，并逐个返回提取后的网页内容。这个类的主要功能包括：

初始化配置

构造函数 [init](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\loaders\external_web.py#L14-L27)
接收以下参数：
[web_paths](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\loaders\external_web.py#L0-L0):
单个或多个网页 URL。
[external_url](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\loaders\external_web.py#L0-L0):
外部服务 API 地址，用于提交提取任务。
[external_api_key](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\loaders\external_web.py#L0-L0):
调用外部 API 所需的身份验证密钥。
[continue_on_failure](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\loaders\external_web.py#L0-L0):
是否在单个请求失败时继续执行其余请求，默认为 True。

初始化时将传入的 URL 统一转换为列表形式，并保存相关配置。

批量获取网页内容

[lazy_load](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\loaders\external_web.py#L31-L49)
方法以惰性方式逐批发送请求并生成结果：
分批处理：将输入的 URL 按照每批 20 个进行分组（避免单次请求数据量过大）。
发送 POST 请求：向 [external_url](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\loaders\external_web.py#L0-L0)
发送包含当前批次 URL 列表的 JSON 请求，使用指定的 User-Agent 和身份验证头。
解析响应：接收 API 返回的数据，对每个网页提取出 page_content 和 [metadata](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\utils\audit.py#L0-L0)，并封装为
[Document](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\src\lib\stores\index.ts#L190-L195)
对象逐个返回。
错误处理：
如果发生异常且 [continue_on_failure](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\loaders\external_web.py#L0-L0)
为 True，则记录错误并继续处理下一批；
否则直接抛出异常中断流程。

主要依赖的技术

Requests: 用于与外部网页内容提取服务进行 HTTP 通信。
LangChain:
继承自 BaseLoader，遵循统一的文档加载接口。
使用 [Document](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\src\lib\stores\index.ts#L190-L195)
封装提取出的内容和元信息。

惰性迭代器：采用 Iterator[Document] 实现按需加载，适用于大规模数据处理。

应用场景 该文件主要用于从多个网页中高效提取内容，适用于需要集成外部网页解析服务（如全文抓取、结构化数据抽取等）的场景，例如构建基于网页的知识库、搜索引擎索引、自动化数据采集系统等。

3.1.3 main.py统一入口，注册并管理所有 loader 类型

文件 main.py 的作用是实现一个统一的文档加载器 Loader，它根据不同的文档类型和配置选择合适的底层文档解析工具，完成对各种格式文件的内容提取。该模块是整个检索系统中负责接入多种文档解析引擎的核心组件。
这个类的主要职责是：
多源支持：根据用户指定的解析引擎（如 tika, docling, datalab_marker 等）动态选择对应的加载器。
自动识别：根据文件扩展名或 MIME 类型判断最适合的解析方式。
内容修复：使用 ftfy.fix_text 自动修正文本编码问题。
兼容性处理：支持大量文档格式（PDF、Word、Excel、PPT、EPUB、HTML、Markdown、CSV、代码文件等），并为不同格式调用合适的解析库。

3.1.3 mistral.py Mistral模型相关数据加载器

文件 mistral.py 的作用是实现一个基于 Mistral OCR API 的文档加载器 MistralLoader，它能够将 PDF 文件通过 Mistral AI 的 OCR 服务转换为结构化的文本内容，并返回处理后的文档对象列表。该类支持同步和异步两种工作模式，具备完整的错误处理、重试机制以及资源清理功能。

应用场景
此模块适用于需要对 PDF 或图像文件进行高质量 OCR 提取的场景，
例如：
构建知识库系统
实现文档检索引擎
提取扫描版书籍/报告中的文本内容
支持多语言文档识别（需配合 Mistral 支持的语言）

3.1.3 tavily.py Tavily搜索 API 的数据加载器

该文件主要用于从多个网页中高效提取内容，适用于需要集成外部网页解析服务（如全文抓取、结构化数据抽取等）的场景，例如构建基于网页的知识库、搜索引擎索引、自动化数据采集系统等

采用tavily平台API实现实时搜索
tavily平台API

初始化配置
构造函数 init 接收以下参数：
urls: 单个或多个需要提取内容的网页 URL。
api_key: 调用 Tavily API 所需的身份验证密钥。
extract_depth: 提取深度，可选 “basic”（基础）或 “advanced”（高级），分别代表不同的数据提取级别。
continue_on_failure: 是否在单个请求失败时继续执行其余请求，默认为 True。
初始化时将传入的 URL 统一转换为列表形式，并保存相关配置。
提取网页内容
lazy_load 方法以惰性方式逐批发送请求并生成结果：
分批处理：将输入的 URL 按照每批 20 个进行分组（避免单次请求数据量过大）。
发送 POST 请求：向 Tavily 的 /extract 接口发送包含当前批次 URL 列表的 JSON 请求，使用指定的身份验证头。
解析响应：接收 API 返回的数据，对每个网页提取出 raw_content 和源 URL，封装为 Document 对象逐个返回。
错误处理：
如果发生异常且 continue_on_failure 为 True，则记录错误并继续处理下一批；
否则直接抛出异常中断流程。

3.1.3 youtube.py从 YouTube 视频中提取文本内容。

文件 youtube.py 的作用是实现一个 YouTube 视频字幕加载器 YoutubeLoader，它可以从指定的 YouTube
视频链接中提取字幕内容，并将其封装为 Document 对象返回。该类主要用于构建基于视频内容的知识检索系统。

一、核心功能概述
YouTube 视频解析：
支持从标准 YouTube URL（如 https://www.youtube.com/watch?v=xxx）或短链接（如 https://youtu.be/xxx）中提取视频 ID。
验证 URL 合法性，确保仅处理允许的域名和协议。
多语言字幕支持：
可指定多个语言优先级列表，尝试按顺序获取可用字幕。
默认会尝试英文 (en) 字幕作为后备选项。
代理支持：
支持通过设置代理服务器访问受限内容，适用于网络隔离环境。
结构化数据输出：
提取的字幕内容被封装为 LangChain 的 Document 对象，便于后续处理与集成。

3.2. `models/`

功能：定义和封装各种检索模型，包括本地模型和外部服务接口。
文件说明：
- [base_reranker.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\models\base_reranker.py)：定义 Reranker 基类，供具体模型继承。
- [colbert.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\models\colbert.py)：ColBERT 模型的实现，用于语义级重排序。
- [external.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\models\external.py)：调用外部检索模型（如 OpenAI、HuggingFace 等）的通用适配器。

3.3. `vector/`

功能：向量数据库的集成与操作，用于高效地进行语义相似性检索。
子目录说明：

3.3.1 `dbs/`

支持多种向量数据库后端：
- [chroma.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\vector\dbs\chroma.py)：Chroma 向量数据库客户端。
- [elasticsearch.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\vector\dbs\elasticsearch.py)：Elasticsearch + Vector 插件支持。
- [milvus.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\vector\dbs\milvus.py)：Milvus 向量数据库客户端。
- [opensearch.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\vector\dbs\opensearch.py)：OpenSearch 向量数据库支持。
- [pgvector.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\vector\dbs\pgvector.py)：PostgreSQL + pgvector 扩展的支持。
- [pinecone.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\vector\dbs\pinecone.py)：Pinecone 向量数据库客户端。
- [qdrant.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\vector\dbs\qdrant.py)：Qdrant 向量数据库客户端。
- [qdrant_multitenancy.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\vector\dbs\qdrant_multitenancy.py)：多租户场景下的 Qdrant 支持。
其他核心文件：
- [factory.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\vector\factory.py)：工厂模式创建向量数据库实例。
- [main.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\vector\main.py)：统一接口，处理向量插入、查询等逻辑。
- [type.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\vector\type.py)：定义向量数据库的通用接口类型（如 VectorDB）。

3.4. `web/`

功能：Web 数据检索模块，整合多个搜索引擎 API 实现联网搜索能力。
子目录说明：
- testdata/：测试用的搜索结果 JSON 文件，用于调试和模拟不同搜索引擎返回。
- 各搜索引擎实现：
  - [bing.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\web\bing.py)
  - [bocha.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\web\bocha.py)
  - [brave.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\web\brave.py)
  - [duckduckgo.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\web\duckduckgo.py)
  - [exa.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\web\exa.py)
  - [firecrawl.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\web\firecrawl.py)
  - [google_pse.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\web\google_pse.py)
  - [jina_search.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\web\jina_search.py)
  - [kagi.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\web\kagi.py)
  - [mojeek.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\web\mojeek.py)
  - [perplexity.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\web\perplexity.py)
  - [searchapi.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\web\searchapi.py)
  - [searxng.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\web\searxng.py)
  - [serpapi.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\web\serpapi.py)
  - [serper.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\web\serper.py)
  - [serply.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\web\serply.py)
  - [serpstack.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\web\serpstack.py)
  - [sougou.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\web\sougou.py)
  - [tavily.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\web\tavily.py)
  - [yacy.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\web\yacy.py)
核心文件：
- [main.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\web\main.py)：统一入口，协调各个搜索引擎，返回统一格式的搜索结果。
- [utils.py](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\web\utils.py)：工具函数，例如提取网页正文、过滤无效链接等。

3.5. `utils.py`

功能：通用辅助函数。
主要用途：
- 清洗和预处理检索到的内容。
- 处理分页、去重、缓存等通用逻辑。
- 提供日志记录、错误处理、性能优化等支持。

4.💡 主要功能模块详解

✅ 1. 信息检索

通过 web/ 中的搜索引擎模块，可以实时获取互联网上的最新信息。
支持多个搜索引擎，方便切换或组合使用（如 Google + Bing 双引擎搜索）。

示例调用方式：

from retrieval.web.bing import BingSearch
search = BingSearch(api_key="your_api_key")
results = search.run("AI大模型发展现状", max_results=5)

✅ 2. 文档加载

通过 loaders/ 模块将 PDF、网页、API 返回的原始数据转换为标准文本。
支持异步加载和批处理，适用于大规模数据导入。

示例调用方式：

from retrieval.loaders.external_web import ExternalWebLoader
loader = ExternalWebLoader(url="https://example.com/document.html")
content = loader.load()  # 获取网页正文

✅ 3. 向量数据库

使用 vector/ 模块将文档切片并嵌入为向量，存储在向量数据库中。
支持多种向量数据库后端，便于根据部署环境选择合适的向量存储方案。

示例调用方式：

from retrieval.vector.factory import VectorDBFactory
db = VectorDBFactory.create_db("chroma", collection_name="ai_docs")
db.add_texts(["深度学习基础知识", "Transformer 架构详解"])
results = db.similarity_search("什么是注意力机制？")

✅ 4. 重排序（Reranking）

利用 models/ 中的模型对初步检索结果进行二次排序，提升匹配精度。
支持本地模型和远程模型调用。

示例调用方式：

本地模型（如 ColBERT）：

from retrieval.models.colbert import ColbertReranker
reranker = ColbertReranker(model_path="colbert-base")
ranked_results = reranker.rerank(queries, candidates)

外部模型（如 HuggingFace Inference API）：

from retrieval.models.external import ExternalReranker
reranker = ExternalReranker(endpoint="https://api.example.com/rerank")
ranked_results = reranker.rerank(queries, candidates)

5.🧩 应用场景

场景	使用模块	说明
文档问答	`loaders/`, `vector/`	将 PDF 或网页内容向量化后进行语义检索
联网搜索	`web/`	调用搜索引擎获取实时信息
个性化推荐	`models/`	使用 Reranker 提升搜索结果的相关性
知识库构建	`vector/`, `loaders/`	将企业内部资料导入向量数据库
AI插件扩展	`web/`, `models/`	结合外部模型和搜索引擎增强 AI 回答能力

6.⚙️ 配置与部署建议

搜索引擎 API Key：需配置 BING_API_KEY、[GOOGLE_PSE_API_KEY](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\config.py#L2330-L2334) 等环境变量。
向量数据库连接：可在配置文件中指定 VECTOR_DB_TYPE（如 [chroma](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\vector\dbs\chroma.py#L0-L0), [qdrant](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\vector\dbs\qdrant.py#L0-L0), [pinecone](file://D:\GiteeDownloadProject\AIStudyProject\open-webui\backend\open_webui\retrieval\vector\dbs\pinecone.py#L0-L0)）及对应连接参数。
模型路径：若使用本地模型（如 ColBERT），需确保模型文件已下载至指定路径。

7.📦 总结

模块	功能	推荐用途
`loaders/`	文档加载	PDF、网页、API 内容抽取
`web/`	网络搜索	实时信息检索
`vector/`	向量数据库	本地语义检索、知识库构建
`models/`	检索模型	重排序、语义匹配
`utils.py`	工具函数	日志、缓存、文本处理