当前位置：首页 > news >正文

【大模型:知识库管理】--开源工具Ragflow构建知识库

news 2025/9/27 21:36:46

【大模型:知识库管理】--开源工具Ragflow介绍+本地搭建-CSDN博客

1.启动ragflow

2.创建知识库

2.1.配置--切块方法

2.2.上传知识库文件

2.3.运行检索测试

2.4.配置本地对话模型

1.启动ragflow

docker compose up -d
docker logs -f ragflow-server

2.创建知识库

2.1.配置--切块方法

先配置：

1.知识库名称：Rag_test

2.权限：只有我

3.PDF解析器：选用DeepDoc（Naive不好用）

4.嵌入模型：千问的

5.切块方法：

模板 (Template)	描述 (Description)	文件格式 (File Formats)
常规 (General)	1.系统将使用视觉检测模型将连续文本分割成多个片段。 2.接下来，这些连续的片段被合并成Token数不超过“Token数”的块。	DOCX、XLSX、XLS (Excel 97-2003)、PPT、PDF、TXT、JPEG、JPG、PNG、TIF、GIF、CSV、JSON、EML、HTML
问答 (Q&A)	问答对，两列	EXCEL, CSV/TXT
简历（Resume）	将简历解析为结构化数据	DOCX、PDF、TXT
手册 (Manual)	使用最低的部分标题作为对文档进行切片的枢轴。因此，同一部分中的图和表不会被分割，	PDF
表格 (Table)	对于 csv 或 txt 文件，列之间的分隔符TAB。第一行必须是列标题。	EXCEL, CSV/TXT
论文 (Paper)	LLM可以更好的概括论文中相关章节的内容，	PDF
书本 (Book)	请为每本书设置页面范围，	DOCX, PDF, TXT
法律 (Legal)	使用文本特征来检测分割点	DOCX, PDF, TXT
ppt (Presentation)	每个页面都将被视为一个块。并且每个页面的缩略图都会被存储。	PDF, PPTX
(Tag)	标签集独立存在，仅供其他知识库匹配使用。文件格式严格：XLSX 需两列无标题CSV/TXT 需 TAB 分隔 + 逗号分隔标签。容错机制：非法格式数据自动跳过，避免污染标签集。	JPEG, JPG, PNG, TIF, GIF
唯一 (one)	整个文档被分成唯一块。	DOCX, EXCEL, PDF, TXT

2.2.上传知识库文件

我i这里上传了deepseek-v3的论文翻译（53页），试试分快的情况。

鼠标放到进度条上面可以看到具体的解析过程：

等几分钟：

2.3.运行检索测试

RAGFlow 在其聊天中使用全文搜索和矢量搜索的多次调用。在设置 AI 聊天之前，请考虑调整以下参数以确保预期信息始终出现在答案中：

相似度阈值：相似度低于阈值的数据块将被过滤。默认设置为 0.2。
向量相似度权重：向量相似度占总分的百分比。默认设置为 0.3。

2.4.配置本地对话模型

在聊天页面增加一个聊天助手：

简单配置一下参数（可以使用默认）

默认提示词：

你是一个智能助手，请总结知识库的内容来回答问题，
请列举知识库中的数据详细回答。当所有知识库内容都与问题无关时，
你的回答必须包括“知识库中未找到您要的答案！”这句话。回答需要考虑聊天历史。以下是知识库：{knowledge}以上是知识库。

模型参数：

Model ：选择 Chat （对话）模型。尽管您在系统模型设置中选择了默认聊天模型，但 RAGFlow 允许您为对话选择替代聊天模型，选择正确的对话模型十分重要，这个影响到系统能否正常运行，如果对话模型配置错误，将导致不能输出正确的对话内容。
Freedom：指 LLM 即兴创作的级别。从 Improvise、Precise 到 Balance，每个自由度级别都对应于 Temperature、Top P、Presence Penalty 和 Frequency Penalty 的独特组合。
Temperature: LLM 的预测随机性水平。值越高，LLM 的创意就越大。
Top P：也称为“细胞核采样”，选用默认值即可。
Max Tokens：LLM 响应的最大长度。请注意，如果此值设置得太低，则响应可能会减少。