当前位置：首页 > news >正文

使用LlamaIndex将私有数据接入大模型

news 2025/7/29 6:26:09

将私有数据接入大模型：LlamaIndex 文档检索智能问答实战（附Python代码）

一、引言

在AI应用落地过程中，企业私有数据的安全高效利用是核心需求。LlamaIndex作为一个开源的文档处理框架，能够：

统一接入多种文档格式（PDF/Word/Markdown等）
构建语义向量索引实现精准检索
与LLM大模型无缝集成

本文将以文档检索问答系统为例，详细讲解从环境搭建到生产部署的全流程。

二、环境准备

2.1 依赖安装

# 基础包（必装）
pip install llama-index# 文档读取器（按需安装）
pip install llama-index-readers-file  # 通用文件处理
pip install llama-index-readers-pdf    # PDF专项处理# LLM集成（以OpenAI为例）
pip install llama-index-llms-openai

2.2 API密钥配置

import os
os.environ["OPENAI_API_KEY"] = "sk-xxx"  # 替换为真实密钥

三、核心实现流程

3.1 文档加载与预处理

from llama_index import SimpleDirectoryReader# 加载多格式文档（支持PDF/Word/Markdown等）
documents = SimpleDirectoryReader(input_dir="data/",recursive=True,          # 递归加载子目录required_exts=[".pdf", ".docx"]  # 限制文件类型
).load_data()

3.2 构建向量索引

from llama_index import VectorStoreIndex# 配置索引参数
index = VectorStoreIndex.from_documents(documents,chunk_size=512,           # 文本块大小chunk_overlap=64,         # 块间重叠量show_progress=True        # 显示进度条
)# 持久化存储（生产环境必备）
index.storage_context.persist("storage/")

3.3 智能问答实现

async def ask_question(query: str):# 加载持久化索引from llama_index import StorageContext, load_index_from_storagestorage_context = StorageContext.from_defaults(persist_dir="storage/")index = load_index_from_storage(storage_context)# 创建查询引擎query_engine = index.as_query_engine(response_mode="tree_summarize",  # 树形总结模式similarity_top_k=3               # 检索前3个相关块)# 执行异步查询response = await query_engine.aquery(query)return response.response# 使用示例
import asyncio
print(asyncio.run(ask_question("公司2025年战略规划是什么？")))

四、进阶优化技巧

4.1 索引优化配置

from llama_index.node_parser import HierarchicalNodeParser# 分层切割配置
parser = HierarchicalNodeParser(chunk_sizes=[1024, 512],  # 两级切割chunk_overlap=64
)index = VectorStoreIndex.from_documents(documents,transformations=[parser]
)

4.2 混合检索策略

query_engine = index.as_query_engine(embedding_mode="hybrid",  # 混合向量+关键词检索similarity_top_k=5
)

4.3 智能体集成示例

from llama_index.agent import OpenAIAgent# 创建多工具智能体
agent = OpenAIAgent.from_tools([multiply_tool, search_documents],llm=OpenAI(model="gpt-4o-mini"),system_prompt="你可以进行数学计算或文档检索"
)# 执行复合查询
response = await agent.run("计算2024年营收增长率，并说明增长原因")

五、生产部署注意事项

5.1 数据安全

敏感文档使用加密存储
设置访问权限控制

5.2 性能优化

# 使用FAISS向量数据库
pip install faiss-cpu
index = VectorStoreIndex.from_documents(documents,service_context=ServiceContext.from_defaults(vector_store_type="faiss")
)

5.3 监控告警

添加查询日志记录
设置异常检测机制

六、完整代码示例

# main.py
import asyncio
from llama_index import SimpleDirectoryReader, VectorStoreIndex
from llama_index.llms.openai import OpenAI
import os# 环境配置
os.environ["OPENAI_API_KEY"] = "sk-xxx"async def main():# 加载文档documents = SimpleDirectoryReader("data/").load_data()# 构建索引index = VectorStoreIndex.from_documents(documents)# 创建查询引擎query_engine = index.as_query_engine(response_mode="tree_summarize")# 执行查询response = await query_engine.aquery("请说明公司的核心竞争优势")print(response.response)if __name__ == "__main__":asyncio.run(main())