当前位置：首页 > news >正文

构建智能问答系统：从零开始实现 RAG 应用

news 2025/9/19 23:02:21

1. 什么是 RAG？

RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合信息检索与文本生成的技术，旨在提升大型语言模型（LLM）在特定领域或私有数据上的表现。其核心流程分为两部分：

Indexing（索引）：将源数据（如文档、网页内容）加载、拆分并存储为向量数据库。
Retrieval & Generation（检索与生成）：在运行时根据用户查询从数据库中检索相关片段，并通过 LLM 生成答案。

RAG 的优势在于：

动态更新知识：无需重新训练模型即可利用最新数据。
减少幻觉：通过外部数据验证，避免模型生成错误信息。
适应特定场景：适用于企业知识库、学术研究、客服系统等场景。

2. RAG 的典型架构

一个完整的 RAG 应用通常包含以下组件：

数据加载与预处理
- Document Loaders：加载原始数据（如 PDF、网页、文本文件）。
- Text Splitters：将长文档拆分为小块（Chunks），便于检索和模型处理。
向量存储与检索
- VectorStore：将文本块嵌入为向量并存储（如 Chroma、FAISS）。
- Retriever：根据用户查询检索最相关的文档片段。
生成答案
- Prompt Template：将检索结果与用户问题结合，构造输入提示。
- LLM：生成最终答案。

3. 实现 RAG 应用的完整流程

以下通过代码示例逐步演示如何构建一个基于 RAG 的问答系统。

步骤 1：环境准备

安装 LangChain 及相关依赖：

pip install langchain langchain-text-splitters langchain-community langgraph langchain-chroma

步骤 2：加载并预处理数据

从网页加载内容并拆分文本：

from langchain_community.document_loaders import WebBaseLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter# 加载网页内容
loader = WebBaseLoader(web_paths=("https://lilianweng.github.io/posts/2023-06-23-agent/",),bs_kwargs=dict(parse_only=bs4.SoupStrainer(class_=("post-content", "post-title", "post-header")))
)
docs = loader.load()# 拆分文本为小块
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
all_splits = text_splitter.split_documents(docs)

步骤 3：构建向量数据库

使用 Chroma 存储文本块的向量表示：


# 初始化嵌入模型（需通义千问API-KEY）
from langchain_community.embeddings import DashScopeEmbeddings# 初始化嵌入模型
embed_model = DashScopeEmbeddings(model="text-embedding-v2",dashscope_api_key="sk-712a634dbaa7444d838d20b25eb938xx"
)# 构建向量数据库
from langchain_chroma import Chromavector_store = Chroma(collection_name="example_collection",embedding_function=embed_model,persist_directory="./chroma_langchain_db",  # Where to save data locally, remove if not necessary
)

在这里插入图片描述

步骤 4：定义检索与生成逻辑

使用 LangGraph 编排流程，并通过 LLM 生成答案：

from langchain.chat_models import init_chat_model
from langchain_core.prompts import PromptTemplate
from langgraph.graph import StateGraph, START
from typing_extensions import TypedDict, List
from langchain_openai import ChatOpenAI# 初始化 LLM（以 OpenAI 为例）
llm = ChatOpenAI(model="deepseek-chat",api_key="sk-e3f022d1746f415c9b0f4bc9a52a43xx",  # todo 替换deepseek API Key  https://platform.deepseek.com/api_keystemperature=0.7,max_tokens=512,timeout=30,max_retries=3,base_url="https://api.deepseek.com"
)# 定义状态结构
class State(TypedDict):question: strcontext: List[Document]answer: str# 检索函数
def retrieve(state: State):retrieved_docs = vector_store.similarity_search(state["question"])return {"context": retrieved_docs}# 生成函数
def generate(state: State):docs_content = "\n\n".join(doc.page_content for doc in state["context"])prompt = PromptTemplate.from_template("Question: {question}\nContext: {context}\nAnswer:")messages = prompt.invoke({"question": state["question"], "context": docs_content})response = llm.invoke(messages)return {"answer": response.content}# 构建流程图
graph_builder = StateGraph(State)
graph_builder.add_edge(START, "retrieve")
graph_builder.add_sequence([retrieve, generate])
graph = graph_builder.compile()

步骤 5：测试 RAG 应用

运行流程并验证输出：

response = graph.invoke({"question": "What is Task Decomposition?"})
print(response["answer"])

示例输出：
在这里插入图片描述

4. 关键技术点解析

文本拆分策略
- 使用 RecursiveCharacterTextSplitter 按字符递归拆分，确保上下文连贯性。
- 调整 chunk_size 和 chunk_overlap 以平衡检索效果与模型输入限制。
向量数据库优化
- 选择适合的嵌入模型（如 text-embedding-3-large）提升检索精度。
- 持久化存储数据（如 ./chroma_langchain_db）以便后续扩展。
Prompt 设计
- 通过模板将检索结果与用户问题结合，引导 LLM 生成更准确的答案。
- 可尝试不同的 Prompt 结构（如 Chain-of-Thought）优化生成效果。