当前位置: 首页 > news >正文

LangChain 核心模块:Data Conneciton - Vector Stores

LangChain 核心模块:Data Conneciton - Vector Stores

存储和搜索非结构化数据最常见的方法之一是将其嵌入并存储生成的嵌入向量,然后在查询时将非结构化查询进行嵌入,并检索与嵌入查询“最相似”的嵌入向量。

向量存储库负责为您存储已经过嵌入处理的数据并执行向量搜索。

下面以 Chroma 为例展示功能和用法

使用 Chroma 作为向量数据库,实现语义搜索

from langchain.document_loaders import TextLoader
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import Chroma

加载长文本

raw_documents = TextLoader(‘…/tests/state_of_the_union.txt’).load()

实例化文本分割器

text_splitter = CharacterTextSplitter(chunk_size=200, chunk_overlap=0)

分割文本

documents = text_splitter.split_documents(raw_documents)

将分割后的文本,使用 OpenAI 嵌入模型获取嵌入向量,并存储在 Chroma 中

db = Chroma.from_documents(documents, embeddings_model)

query = “What did the president say about Ketanji Brown Jackson”
docs = db.similarity_search(query)
print(docs[0].page_content)

embedding_vector = embeddings_model.embed_query(query)
docs = db.similarity_search_by_vector(embedding_vector)
print(docs[0].page_content)

相关文章:

  • 基于LangChain构建最小智能体(Agent)实现指南
  • 26个脑影像工具包合集分享:从预处理到SCI成图
  • 三轴云台之摄像模组篇
  • Java实现归并排序算法
  • 2025-03 机器人等级考试四级理论真题 4级
  • 如何在Dify沙盒中安装运行pandas、numpy
  • 毕业论文 | 基于STM32的自动烟雾报警系统设计
  • 提高设计的综合性能
  • C++后端服务器常见开发框架
  • WPF使用高性能图表
  • Elasticsearch入门速通01:核心概念与选型指南
  • mac电脑pytest生成测试报告
  • PixONE 六维力传感器:赋能 OEM 机器人,12 自由度精准感知
  • 文件备份服务器,备份文件内容到服务器有哪些方法?
  • 【阿里云大模型高级工程师ACP习题集】2.7 通过微调增强模型能力 (下篇)(⭐️⭐️⭐️ 重点章节!!!)
  • SSM电子资源管理系统
  • Copilot 上线深度推理智能体 Researcher
  • 虚拟机对前端开发的实用价值:提升效率与解决痛点的完整指南
  • 深入解析Java架构师面试:从核心技术到AI应用
  • ARM 指令集(ubuntu环境学习) 第一章:ARM 指令集概述
  • 4月一二线城市新房价格环比上涨,沪杭涨幅居百城前列
  • 北京银行一季度净赚超76亿降逾2%,不良贷款率微降
  • 中国人保不再设监事会,国寿集团未再设置监事长职务
  • “乐购浦东”消费券明起发放,多个商家同期推出折扣促销活动
  • 现场|西岸美术馆与蓬皮杜启动新五年合作,新展今开幕
  • 中国纪检监察报刊文:要让劳动最光荣成为社会的崇高风尚