当前位置：首页 > news >正文

RAG 文档嵌入到向量数据库FAISS

news 2025/11/3 16:23:01

文档的嵌入操作

文档嵌入（Embedding）是将文本数据转换为向量的过程。这一过程的核心是使用一个预训练的嵌入模型（如 OpenAI 的 text-embedding-ada-002，或 BERT、SentenceTransformers 等）将文本映射到一个高维向量空间中。相似的文本在该空间中的距离较近，而不相关的文本距离较远。

嵌入操作通常包括以下步骤

文本预处理：去除停用词、标点符号，进行分词、归一化等处理。
使用嵌入模型生成向量：利用深度学习模型，将文本转换为高维向量。
存储向量：将生成的向量存入向量数据库，如pgvector、 Pinecone、Weaviate、FAISS、Milvus。

实践

使用 FAISS 进行文档嵌入和检索的完整示例

import faiss
import numpy as np
from sentence_transformers import SentenceTransformer

# 1. 加载嵌入模型
model = SentenceTransformer('all-MiniLM-L6-v2')

# 2. 定义文档
documents = [
    "机器学习是一种人工智能技术，允许计算机从数据中学习模式。",
    "深度学习是一种基于神经网络的机器学习方法，擅长处理复杂数据。",
    "强化学习是一种决策优化方法，常用于游戏 AI 和机器人控制。"
]

# 3. 计算嵌入向量
document_vectors = np.array(model.encode(documents))

# 4. 创建 FAISS 索引
index = faiss.IndexFlatL2(document_vectors.shape[1])
index.add(document_vectors)

# 5. 查询文本
query_text = "什么是机器学习？"
query_vector = np.array([model.encode(query_text)])

# 6. 检索最相似的文本
D, I = index.search(query_vector, 1)  # 返回 1 个最相似的文本
print(f"最匹配的文档: {documents[I[0][0]]}")

查看全文

http://www.dtcms.com/a/106154.html