当前位置：首页 > news >正文

LangChain 核心模块：Data Conneciton - Vector Stores

news 2025/11/3 22:40:02

LangChain 核心模块：Data Conneciton - Vector Stores

存储和搜索非结构化数据最常见的方法之一是将其嵌入并存储生成的嵌入向量，然后在查询时将非结构化查询进行嵌入，并检索与嵌入查询“最相似”的嵌入向量。

向量存储库负责为您存储已经过嵌入处理的数据并执行向量搜索。

下面以 Chroma 为例展示功能和用法

使用 Chroma 作为向量数据库，实现语义搜索

from langchain.document_loaders import TextLoader
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import Chroma

加载长文本

raw_documents = TextLoader(‘…/tests/state_of_the_union.txt’).load()

实例化文本分割器

text_splitter = CharacterTextSplitter(chunk_size=200, chunk_overlap=0)

分割文本

documents = text_splitter.split_documents(raw_documents)

将分割后的文本，使用 OpenAI 嵌入模型获取嵌入向量，并存储在 Chroma 中

db = Chroma.from_documents(documents, embeddings_model)

query = “What did the president say about Ketanji Brown Jackson”
docs = db.similarity_search(query)
print(docs[0].page_content)

embedding_vector = embeddings_model.embed_query(query)
docs = db.similarity_search_by_vector(embedding_vector)
print(docs[0].page_content)

查看全文

http://www.dtcms.com/a/165553.html

基于LangChain构建最小智能体(Agent)实现指南

26个脑影像工具包合集分享：从预处理到SCI成图

三轴云台之摄像模组篇

Java实现归并排序算法

2025-03 机器人等级考试四级理论真题 4级

如何在Dify沙盒中安装运行pandas、numpy

毕业论文｜基于STM32的自动烟雾报警系统设计

提高设计的综合性能

C++后端服务器常见开发框架

WPF使用高性能图表

Elasticsearch入门速通01：核心概念与选型指南

mac电脑pytest生成测试报告

PixONE 六维力传感器：赋能 OEM 机器人，12 自由度精准感知

文件备份服务器，备份文件内容到服务器有哪些方法？

【阿里云大模型高级工程师ACP习题集】2.7 通过微调增强模型能力 (下篇)（⭐️⭐️⭐️ 重点章节！！！）

SSM电子资源管理系统

Copilot 上线深度推理智能体 Researcher

虚拟机对前端开发的实用价值：提升效率与解决痛点的完整指南

深入解析Java架构师面试：从核心技术到AI应用

ARM 指令集(ubuntu环境学习) 第一章：ARM 指令集概述

自定义Tool

【Android】文件导出到本地或者U盘

前端笔记-Element-Plus

在线服务器都有哪些用途？

pytorch对应gpu版本是否可用判断逻辑

UE5 项目迁移注意事项记录

redis 数据类型新手练习系列——List类型

【Bootstrap V4系列】学习入门教程之布局

【Prometheus-OracleDB Exporter安装配置指南，开机自启】

JMeter WebSocket 压测详细步骤（支持 ws+proto 协议）