当前位置: 首页 > news >正文

RAG 文档嵌入到向量数据库FAISS

文档的嵌入操作

文档嵌入(Embedding)是将文本数据转换为向量的过程。这一过程的核心是使用一个预训练的嵌入模型(如 OpenAI 的 text-embedding-ada-002,或 BERT、SentenceTransformers 等)将文本映射到一个高维向量空间中。相似的文本在该空间中的距离较近,而不相关的文本距离较远。

嵌入操作通常包括以下步骤

  • 文本预处理:去除停用词、标点符号,进行分词、归一化等处理。
  • 使用嵌入模型生成向量:利用深度学习模型,将文本转换为高维向量。
  • 存储向量:将生成的向量存入向量数据库,如pgvector、 Pinecone、Weaviate、FAISS、Milvus。

实践

使用 FAISS 进行文档嵌入和检索的完整示例

import faiss
import numpy as np
from sentence_transformers import SentenceTransformer

# 1. 加载嵌入模型
model = SentenceTransformer('all-MiniLM-L6-v2')

# 2. 定义文档
documents = [
    "机器学习是一种人工智能技术,允许计算机从数据中学习模式。",
    "深度学习是一种基于神经网络的机器学习方法,擅长处理复杂数据。",
    "强化学习是一种决策优化方法,常用于游戏 AI 和机器人控制。"
]

# 3. 计算嵌入向量
document_vectors = np.array(model.encode(documents))

# 4. 创建 FAISS 索引
index = faiss.IndexFlatL2(document_vectors.shape[1])
index.add(document_vectors)

# 5. 查询文本
query_text = "什么是机器学习?"
query_vector = np.array([model.encode(query_text)])

# 6. 检索最相似的文本
D, I = index.search(query_vector, 1)  # 返回 1 个最相似的文本
print(f"最匹配的文档: {documents[I[0][0]]}")

相关文章:

  • 前沿科技:具身智能(Embodied Intelligence)详解
  • 利用cusur+claude3.7 angent模式一句提示词生成一个前端网站
  • 阿里拟收购两氢一氧公司 陈航将出任阿里集团钉钉 CEO
  • 【CV/NLP/生成式AI】
  • 二月公开赛Web-ssrfme
  • 4月1号.
  • Redis:主从复制
  • 机器学习+EEG熵进行双相情感障碍诊断的综合评估
  • Git基本操作
  • ThreadLocal用法详解
  • 聊一聊缓存如何进行测试
  • 图片边缘采样
  • 自动化释放linux服务器内存脚本
  • 6-2 赶工中~
  • Https安全
  • ansible条件判断及循环
  • 【系统架构设计师】嵌入式操作系统的定义及特点
  • Spring实现WebScoket
  • UE5学习记录 part13
  • 无人机遥测系统工作与技术难点分析!
  • 浪尖计划再出发:万亿之城2030课题组赴九城调研万亿产业
  • 外交部:中美双方并未就关税问题进行磋商或谈判
  • 不准打小孩:童年逆境经历视角下的生育友好社会
  • 向总书记汇报具身智能发展的“稚辉君”:从期待到兴奋再到备受鼓舞
  • 修订占比近30%收录25万条目,第三版《英汉大词典》来了
  • 央行副行长:增强外汇市场韧性,坚决对市场顺周期行为进行纠偏