当前位置：首页 > news >正文

基于Llama3.2与LlamaIndex：实现简单的文档检索RAG系统

news 2025/11/3 9:56:53

1、RAG的定义及其流程

1.1、RAG的定义

RAG（Retrieval-Augmented Generation，检索增强生成）是一种融合信息检索与语言生成的人工智能技术。其核心机制在于从外部知识库中检索相关信息，并将其作为上下文提示输入给大规模语言模型，从而显著增强模型在问答、摘要等知识密集型任务中的表现。该模型由Facebook AI Research团队于2020年提出，现已成为大模型应用领域的关键方案之一。

1.2、RAG的实现流程

在明确了RAG的基本定义后，我们需要进一步剖析其核心流程：“检索”、“增强”与“生成”。这三个环节环环相扣，共同构成了RAG的工作闭环。

检索（Retrieval）：这是整个流程的起点。当用户提出问题后，系统会从预先构建的外部知识库中，查找并筛选出与问题最相关的信息片段。此步骤的核心目标，是为大语言模型后续的生成任务提供精准、可靠的上下文依据。
增强（Augmentation）：这是承上启下的关键一步。系统将检索到的信息作为额外的上下文，与用户的原始问题一并整合，构成一个信息更全面、指引更明确的“增强型提示词”（Prompt）。这一步的本质，是利用外部知识来弥补大模型内部知识的不足或时效性问题，从而“增强”其理解问题与生成答案的能力。
生成（Generation）：这是流程的最终阶段。大语言模型接收并理解这份“增强后的提示词”，在此基础上运用其强大的语言理解和生成能力，输出一个不仅流畅、而且事实性更强、更契合用户需求的答案。

总结来说，在RAG的流程中，是“检索”到的外部知识“增强”了输入给LLM的提示词，而大语言模型（LLM）则是利用这份增强后的提示，“生成”出了最终的答案。清晰理解“谁增强了谁”以及“谁生成了答案”，是把握RAG技术精髓的关键。

2、RAG主要解决什么问题

RAG（检索增强生成）技术有效应对了传统大语言模型在知识更新、生成准确性与数据安全等方面的关键挑战，具体体现在以下几个方面：

(1). 突破知识时效性限制
传统大语言模型（如GPT、Llama系列）在训练完成后即固化知识状态，难以获取新信息，存在明显的时效滞后。RAG通过引入外部知识库实时检索机制，使模型能够基于最新数据生成回答。例如，在面对最新事件的相关提问时，RAG可直接从更新的数据库中提取信息，而非受限于训练数据的截止时点。

(2). 抑制模型“幻觉”现象
当模型缺乏相关知识支撑时，易产生看似合理实则错误的“幻觉”输出。RAG通过检索-生成的双阶段架构，首先从可信外部源获取相关信息，再将其整合进生成上下文，显著提升答案的事实准确性与可信度。

(3). 增强企业数据安全控制
企业应用中，数据安全至关重要。传统模型往往需将内部数据上传至第三方平台进行处理，带来潜在泄露风险。RAG支持在本地或私有化环境中直接调用企业内部知识库，实现数据不出域的检索与生成，有效提升业务数据的安全性。

(4). 提升生成内容的可靠性与可读性
RAG通过引入检索信息扩展生成模型的上下文边界，使输出内容不仅更具事实依据，也在逻辑连贯性与语言流畅度上得到加强。这种基于增强上下文的生成方式，在提升文本质量的同时，也显著改善了用户体验。

3、大模型RAG的应用场景

大模型RAG的核心应用在于充当通用大语言模型与专业领域知识之间的“桥梁”，其典型场景包括：构建企业级智能知识库，使员工能基于内部文档（如产品手册、技术方案）进行精准问答；赋能内容创作与研究报告生成，通过检索权威资料确保输出内容的准确性与时效性；增强智能搜索引擎，直接为用户复杂问题提供整合多源信息的摘要答案；并广泛应用于客服、教育、法律、医疗等领域，为专业人员提供实时、可靠的决策支持，有效解决了大模型在专业知识和最新信息上的局限性。

4、RAG的简单实现

本实现基于LlamaIndex框架（具体版本如下图所示），构建了一个完全本地化的RAG问答系统。该系统采用Llama3.2:1b作为大语言模型，通过Ollama进行部署（我们采用本地的llama模型没有用API Key）；同时选用BAAI/bge-small-zh-v1.5中文模型处理文本向量化。整个系统采用模块化设计，集成知识检索与生成功能，并完全运行于CPU环境之上。

代码如下：

from llama_index.core import Settings
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader# 设置嵌入模型
Settings.embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-small-zh-v1.5"  # 中文优化的嵌入模型
)# 设置本地LLM（使用Ollama）from llama_index.llms.ollama import Ollama
Settings.llm = Ollama(model="llama3.2:1b", request_timeout=120.0)
print("使用 Ollama 本地模型")
# except:
#     # 如果Ollama不可用，使用MockLLM
#     from llama_index.core.llms import MockLLM
#     Settings.llm = MockLLM()
#     print("使用 MockLLM（仅测试用）")# 加载数据
documents = SimpleDirectoryReader(input_files=[r"C:\Users\Administrator\Downloads\Retrieval Augmented Generation for Large.pdf"]
).load_data()# 构建索引
index = VectorStoreIndex.from_documents(documents)
print("index:",index)# 创建问答引擎
query_engine = index.as_query_engine()# 开始问答
print("回答:",query_engine.query("简单介绍rag是什么"))

输出结果：

该实例展示了一个简单的RAG系统实现过程。在实际应用中，其核心组件可以灵活替换：大模型可选用GPT、DeepSeek、Qwen等；词向量化模型则有BAAI/bge-reranker-large、sentence-transformers/all-MiniLM-L6-v2、BGE及OpenAI的ChatGPT-Embeg模型等多种选择；框架层面，Langchain等其他开源项目也是常见的替代方案（当然，想实现一个性能优异的大模型RAG系统需要做的远不止这些）。