当前位置：首页 > news >正文

使用ChromaDB构建RAG知识库

news 2025/10/22 6:00:41

ChromaDB支持构建基于本地文件存储的RAG知识库。

在这里插入图片描述

一、本地文件存储的核心实现方式

持久化客户端配置
使用PersistentClient类创建客户端时，通过path参数指定本地存储路径（如C:\chroma-data或/data/chroma），数据将以SQLite数据库文件形式自动持久化。该模式下所有操作（增删改查）均会实时写入硬盘，重启后自动加载历史数据。
存储目录结构
指定路径下会自动生成以下核心文件：
- chroma.sqlite3：元数据和索引的SQLite数据库
- chroma-embeddings：向量数据的Parquet格式存储文件
- chroma-fulltext：全文检索索引文件
服务模式与本地模式融合
可通过chroma run --path /db_path命令启动本地服务进程，此时数据仍以文件形式存储，但支持通过HTTP客户端远程访问（如Django/Python后端调用），实现生产环境部署。

二、具体实施步骤（基于Python）

import chromadb

# 创建持久化客户端（自动生成存储文件）
client = chromadb.PersistentClient(path="./my_rag_db")

# 创建/获取知识库集合
collection = client.get_or_create_collection(name="tech_docs")

# 添加文档与向量（支持自动生成或自定义嵌入）
collection.add(
    documents=["半导体光刻技术...", "EUV光源原理..."],  # 知识文本
    ids=["doc1", "doc2"],  # 唯一标识
    metadatas=[{"category": "半导体"}, {"category": "光学"}]  # 元数据过滤
)

# 查询时自动加载持久化数据
results = collection.query(
    query_texts=["SMEE光刻机的技术突破"],
    n_results=3,
    where={"category": "半导体"}  # 元数据过滤
)

三、技术优势对比

特性	内存模式	本地文件模式
数据持久化	❌ 进程退出即丢失	✔️ 硬盘自动保存
存储容量	受内存限制	仅受硬盘空间限制
并发访问	单进程独占	支持多进程/HTTP客户端访问
生产部署适用性	仅开发调试	适合企业级应用

四、RAG知识库构建最佳实践

文档预处理
建议将PDF/Word等文档解析为文本后，按256-512字符长度进行分块（可重叠32-64字符），再存入ChromaDB。这能提升语义检索的精准度。

向量模型选择

默认使用all-MiniLM-L6-v2模型（适合英文）
中文推荐阿里云coROM或text2vec-large-chinese模型

支持集成Ollama本地模型：

from chromadb.utils import embedding_functions
ollama_ef = embedding_functions.OllamaEmbeddingFunction(
    url="http://localhost:11434/api/embeddings",
    model_name="llama2"
)