当前位置：首页 > news >正文

【Ragflow】11. 文件解析流程分析/批量解析实现

news 2025/7/15 16:04:15

概述

本文继续对ragflow文档解析部分进行分析，并通过脚本的方式实现对文件的批量上传解析。

文件解析流程

文件解析的请求处理流程大致如下：

1.前端上传文件，通过v1/document/run接口，发起文件解析请求

2.后端api\apps\document_app.py的run函数接收请求，校验用户权限，处理文档解析运行信息，创建新的任务队列

3.后端api\db\services\task_service.py的queue_tasks函数进一步根据文档根据文档类型和页数，将文档分割成多个子任务，并通过解析器进行解析。

4.解析器在deepdoc\parser路径下，对于docx、excel、pdf等不同格式的文件都有不同的解析策略。其中，pdf的解析策略最为复杂，因为要设计需要先转成图像，再进行ocr文本识别。

5.解析完成后，会生成文本块，并构建索引，存储到向量数据库。

在解析过程的同时，前端同时还会定时向v1/document/list这个接口发起轮询，以获取解析的进度信息。

文件解析模型

ragflow的文件解析采用了名为deepdoc的模型，该模型的相关资料并不多，是其自研的模型，在hugging face上公布了具体的模型权重：

hf地址：https://huggingface.co/InfiniFlow/deepdoc

从模型体积上看，其采用的模型并不大，但对不同的任务，会采用不同的模型，比如OCR（光学字符识别）、TSR（表格结构识别）、DLA（文档布局分析）等多种解析任务。

文件解析加速实验

由于解析模型都是onnx形式的模型，因此，如果使用gpu进行解析，理论上可以显著加速解析速度。

于是下面做个实验，通过docker-compose-gpu.yml文件启动容器，使其能够访问外部gpu。

启动命令：

docker compose -f docker-compose-gpu.yml up -d

对于一篇学位论文的pdf文件，未使用gpu，通过docker-compose.yml进行解析，花费时间约10分钟。

使用gpu配置启动容器，对相同文件进行解析，发现cpu多核全部拉满，gpu仍然未工作，因此速度基本无差别。

说明仅通过docker-compose-gpu.yml似乎无法成功利用上gpu资源，此点还需进一步论证。

观察docx和pdf的解析器设置，docx只需要解析纯文本信息，而无需进行ocr处理，因此理论解析速度会比pdf文件快很多，下面进行一个实验，比较word文件和pdf文件的解析日志，内容如下：

word格式文件解析日志：

进度:
15:36:34 Task has been received.
15:36:34 Page(1~100000001): Start to parse.
15:36:34 Page(1~100000001): Finish parsing.
15:36:35 Page(1~100000001): Generate 16 chunks
15:36:53 Page(1~100000001): Embedding chunks (18.57s)
15:36:55 Page(1~100000001): Indexing done (1.42s). Task done (20.93s)

pdf格式文件解析日志：

开始于:
Fri, 04 Apr 2025 13:45:56 GMT
持续时间:
599.00 s
进度:
13:45:56 Task has been received.
13:46:29 Page(1~13): OCR started
13:46:36 Page(1~13): OCR finished (7.77s)
13:46:56 Page(1~13): Layout analysis (19.70s)
13:46:56 Page(1~13): Table analysis (0.00s)
13:46:56 Page(1~13): Text merged (0.00s)
13:47:07 Page(1~13): Generate 27 chunks
13:48:39 Page(1~13): Embedding chunks (92.02s)
13:48:43 Page(1~13): Indexing done (3.77s). Task done (166.60s)
....(略去多个子任务解析过程，和上述类似)

word文件的确比pdf文件解析速度快很多，因此，如果想加快解析速度，可以预先通过其他方式，将pdf文件的文本信息摘取出来，转成其它格式。

文档批量解析

经过上述分析后，实际上可以通过两个解析接口+文件上传接口，实现文档的批量解析。

发现已有一个代码仓库实现了该功能：

仓库地址：https://github.com/Samge0/ragflow-upload

下面是具体操作步骤：

1.开启ragflow服务
需保持ragflow服务处于正常运行状态

2.克隆仓库代码

git clone https://github.com/Samge0/ragflow-upload.git

3.安装依赖

pip install -r requirements.txt

4.设置配置项
将ragflows/configs.demo.py改成ragflows/configs.py

配置文件主要修改以下几点：

API_URL：ragflow的api地址，默认值：http://localhost:80/v1，如果是本机部署，无需修改
AUTHORIZATION：ragflow的api鉴权token，可以从F12网站开发者工具，查看请求的标头获取
DIFY_DOC_KB_ID：ragflow的知识库id，直接在知识库页面，查看url尾缀dataset?id的具体值获取
KB_NAME：ragflow的知识库名称，设置为需要上传的知识库名称
DOC_DIR：本地上传文件夹路径，待上传文件的存储位置，设置为需要上传的实际文件夹路径

5.启动脚本

运行命令

python -m ragflows.main

这个脚本的优势在于，它并不是多个文件批量解析，而是单个文件解析完之后，再执行下一个文件进行解析。这样可以有效避免多线程解析时，线程阻塞导致的文件解析过程中断。

拓展方向

1.进一步支持GPU解析

本文尝试了一下使用docker运行gpu环境，但发现文件解析时，并不能有效利用gpu设备。后续可对此进行进一步研究，以更好地利用gpu资源实现解析过程加速。

2.图像识别存储

目前文档解析仍然是针对文本信息，并未涉及图像信息的提取和关联，此点有待进一步研究。

查看全文

http://www.dtcms.com/a/111556.html

计算机视觉算法实战——基于YOLOv8的自动驾驶障碍物实时感知系统

linux gcc

【读书笔记·VLSI电路设计方法解密】问题62：什么是故障覆盖率，什么是百万缺陷率

【算法/c++】利用中序遍历和后序遍历建二叉树

Axure RP 9 详细图文安装流程（附安装包）教程包含下载、安装、汉化、授权

3维格式转换（二）

AI医疗诊疗系统设计方案

Qt QComboBox 下拉复选多选

常用的国内镜像源

MSF上线到CS工具中实战方案(可执行方案)

ZLMediaKit 源码分析——[5] ZLToolKit 中EventPoller之延时任务处理

[特殊字符] 驱动开发硬核特训 · Day 2

Python爬取新浪微博内容实战：从API解析到数据存储

[Linux系统编程]进程信号

基于Java的区域化智慧养老系统(源码+lw+部署文档+讲解)，源码可白嫖!

146. LRU 缓存带TTL的LRU缓存实现(拓展)

Spring项目中使用@Data或@Slf4j等注解，发生找不到符号异常错误解决办法

【Python】Python环境管理工具UV安装gdal

Docker 命令简写配置

【进收藏夹吃灰】机器学习学习指南

[2013][note]通过石墨烯调谐用于开关、传感的动态可重构Fano超——

湖北师范大学计信学院研究生课程《工程伦理》9.6章节练习

RestFul风格详解

数据结构每日一题day8（顺序表）★★★★★

大型语言模型的智能本质是什么

leetcode数组-二分查找

LeetCode题一：求两数之和

密码学基础——DES算法

WPF 免费UI 控件HandyControl

大模型-爬虫prompt

概述

文件解析流程

文件解析模型

文件解析加速实验

文档批量解析

拓展方向

相关文章：