当前位置：首页 > news >正文

基于 Python 的自然语言处理系列（70）：检索增强生成（RAG）

news 2025/7/12 17:44:17

1. 什么是 RAG？

在许多大模型（LLM）应用场景中，我们需要使用特定的用户数据，而这些数据并未包含在模型的训练集中。检索增强生成（Retrieval Augmented Generation，RAG）是一种有效的解决方案，它通过从外部数据源检索相关数据，并在生成回答时将其传递给 LLM，以提高回答的准确性和相关性。

LangChain 提供了一整套用于构建 RAG 应用的模块，包括：

文档加载（Document loaders）：从 HTML、PDF、代码等多种格式的数据源加载文档。
文档转换（Document transformers）：将大文档拆分为更小的、相关的片段，以提升检索效果。
文本嵌入模型（Text embedding models）：将文本转换为向量，以便进行相似度搜索。
向量存储（Vector stores）：用于存储和检索嵌入向量的数据库。
检索器（Retrievers）：从存储的数据中获取最相关的信息。

2. 文档加载（Document Loaders）

LangChain 提供了多种文档加载工具，例如 CSVLoader、PyPDFLoader 和 OnlinePDFLoader。

from langchain.document_loaders import PyPDFLoader

loader = PyPDFLoader("./docs/pdf/MachineLearning-Lecture01.pdf")
pages = loader.load_and_split()
print(len(pages))

3. 文档转换（Document Transformers）

在检索过程中，将长文档拆分为较小的块有助于提高查询效率。

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=700, chunk_overlap=100
)
docs = text_splitter.split_documents(pages)
print(len(docs))

4. 文本嵌入（Text Embedding Models）

文本嵌入用于将文本转换为向量，以便进行相似度计算。

from langchain.embeddings import HuggingFaceInstructEmbeddings
import torch

embedding_model = HuggingFaceInstructEmbeddings(
    model_name='hkunlp/instructor-base',
    model_kwargs={'device': torch.device('cuda' if torch.cuda.is_available() else 'cpu')}
)

5. 向量存储（Vector Stores）

我们可以使用 FAISS 进行向量存储和检索。

from langchain.vectorstores import FAISS

vectordb = FAISS.from_documents(docs, embedding_model)
vectordb.save_local("./vectordb_path/ml-andrew-ng")

6. 检索器（Retrievers）

检索器用于从存储的数据中提取最相关的片段。

retriever = vectordb.as_retriever(search_type="similarity")
query = "What is Linear Regression"
docs = retriever.get_relevant_documents(query)
print(docs)

7. 多查询检索（MultiQueryRetriever）

LangChain 允许自动生成多个查询，以便获取更全面的检索结果。

from langchain.chat_models import ChatOpenAI
from langchain.retrievers.multi_query import MultiQueryRetriever

llm = ChatOpenAI(temperature=0)
retriever_from_llm = MultiQueryRetriever.from_llm(
    retriever=vectordb.as_retriever(), llm=llm
)
query = "What is the difference between Linear Regression and Logistic Regression?"
docs = retriever_from_llm.get_relevant_documents(query)
print(len(docs))

8. 向量存储缓存（Caching）

缓存嵌入结果可以减少重复计算，提高检索效率。

from langchain.embeddings import CacheBackedEmbeddings
from langchain.storage import LocalFileStore

fs = LocalFileStore("./cache/")
cached_embedder = CacheBackedEmbeddings.from_bytes_store(
    embedding_model, fs, namespace=embedding_model.model_name
)