当前位置：首页 > wzjs >正文

邯郸网站设计贝壳下拉推特最新消息今天

wzjs 2025/7/22 12:35:04

邯郸网站设计贝壳下拉,推特最新消息今天,网站的后期维护自己怎么做,青海旭云网络做网站需要多少钱概述本文继续对ragflow文档解析部分进行分析，并通过脚本的方式实现对文件的批量上传解析。文件解析流程文件解析的请求处理流程大致如下： 1.前端上传文件，通过v1/document/run接口，发起文件解析请求 2.后端api\apps\docum…

概述

本文继续对ragflow文档解析部分进行分析，并通过脚本的方式实现对文件的批量上传解析。

文件解析流程

文件解析的请求处理流程大致如下：

1.前端上传文件，通过v1/document/run接口，发起文件解析请求

2.后端api\apps\document_app.py的run函数接收请求，校验用户权限，处理文档解析运行信息，创建新的任务队列

3.后端api\db\services\task_service.py的queue_tasks函数进一步根据文档根据文档类型和页数，将文档分割成多个子任务，并通过解析器进行解析。

4.解析器在deepdoc\parser路径下，对于docx、excel、pdf等不同格式的文件都有不同的解析策略。其中，pdf的解析策略最为复杂，因为要设计需要先转成图像，再进行ocr文本识别。

5.解析完成后，会生成文本块，并构建索引，存储到向量数据库。

在解析过程的同时，前端同时还会定时向v1/document/list这个接口发起轮询，以获取解析的进度信息。

文件解析模型

ragflow的文件解析采用了名为deepdoc的模型，该模型的相关资料并不多，是其自研的模型，在hugging face上公布了具体的模型权重：

hf地址：https://huggingface.co/InfiniFlow/deepdoc

从模型体积上看，其采用的模型并不大，但对不同的任务，会采用不同的模型，比如OCR（光学字符识别）、TSR（表格结构识别）、DLA（文档布局分析）等多种解析任务。

文件解析加速实验

由于解析模型都是onnx形式的模型，因此，如果使用gpu进行解析，理论上可以显著加速解析速度。

于是下面做个实验，通过docker-compose-gpu.yml文件启动容器，使其能够访问外部gpu。

启动命令：

docker compose -f docker-compose-gpu.yml up -d

对于一篇学位论文的pdf文件，未使用gpu，通过docker-compose.yml进行解析，花费时间约10分钟。

使用gpu配置启动容器，对相同文件进行解析，发现cpu多核全部拉满，gpu仍然未工作，因此速度基本无差别。

说明仅通过docker-compose-gpu.yml似乎无法成功利用上gpu资源，此点还需进一步论证。

观察docx和pdf的解析器设置，docx只需要解析纯文本信息，而无需进行ocr处理，因此理论解析速度会比pdf文件快很多，下面进行一个实验，比较word文件和pdf文件的解析日志，内容如下：

word格式文件解析日志：

进度:
15:36:34 Task has been received.
15:36:34 Page(1~100000001): Start to parse.
15:36:34 Page(1~100000001): Finish parsing.
15:36:35 Page(1~100000001): Generate 16 chunks
15:36:53 Page(1~100000001): Embedding chunks (18.57s)
15:36:55 Page(1~100000001): Indexing done (1.42s). Task done (20.93s)

pdf格式文件解析日志：

开始于:
Fri, 04 Apr 2025 13:45:56 GMT
持续时间:
599.00 s
进度:
13:45:56 Task has been received.
13:46:29 Page(1~13): OCR started
13:46:36 Page(1~13): OCR finished (7.77s)
13:46:56 Page(1~13): Layout analysis (19.70s)
13:46:56 Page(1~13): Table analysis (0.00s)
13:46:56 Page(1~13): Text merged (0.00s)
13:47:07 Page(1~13): Generate 27 chunks
13:48:39 Page(1~13): Embedding chunks (92.02s)
13:48:43 Page(1~13): Indexing done (3.77s). Task done (166.60s)
....(略去多个子任务解析过程，和上述类似)

word文件的确比pdf文件解析速度快很多，因此，如果想加快解析速度，可以预先通过其他方式，将pdf文件的文本信息摘取出来，转成其它格式。

文档批量解析

经过上述分析后，实际上可以通过两个解析接口+文件上传接口，实现文档的批量解析。

发现已有一个代码仓库实现了该功能：

仓库地址：https://github.com/Samge0/ragflow-upload

下面是具体操作步骤：

1.开启ragflow服务
需保持ragflow服务处于正常运行状态

2.克隆仓库代码

git clone https://github.com/Samge0/ragflow-upload.git

3.安装依赖

pip install -r requirements.txt

4.设置配置项
将ragflows/configs.demo.py改成ragflows/configs.py

配置文件主要修改以下几点：

API_URL：ragflow的api地址，默认值：http://localhost:80/v1，如果是本机部署，无需修改
AUTHORIZATION：ragflow的api鉴权token，可以从F12网站开发者工具，查看请求的标头获取
DIFY_DOC_KB_ID：ragflow的知识库id，直接在知识库页面，查看url尾缀dataset?id的具体值获取
KB_NAME：ragflow的知识库名称，设置为需要上传的知识库名称
DOC_DIR：本地上传文件夹路径，待上传文件的存储位置，设置为需要上传的实际文件夹路径

5.启动脚本

运行命令

python -m ragflows.main

这个脚本的优势在于，它并不是多个文件批量解析，而是单个文件解析完之后，再执行下一个文件进行解析。这样可以有效避免多线程解析时，线程阻塞导致的文件解析过程中断。

拓展方向

1.进一步支持GPU解析

本文尝试了一下使用docker运行gpu环境，但发现文件解析时，并不能有效利用gpu设备。后续可对此进行进一步研究，以更好地利用gpu资源实现解析过程加速。

2.图像识别存储

目前文档解析仍然是针对文本信息，并未涉及图像信息的提取和关联，此点有待进一步研究。

查看全文

http://www.dtcms.com/wzjs/49643.html

石家庄网站建设培训班seo自然排名

王悦做网站壹起航网络推广的目标

医院网站和公众号建设方案手机优化助手

网站里面的按钮链接怎么做网页链接

网站浮标怎么做东莞关键词排名提升

在百度做推广送网站好吗郑州seo顾问培训

网站写动态新闻有什么好处微信公众号平台官网

seo网站内容优化手机导航下载2022新版

怎样用自己的电脑做网站刷排名的软件是什么

安徽电子学会网站建设搜索引擎优化的分类

wap手机网站线上渠道推广有哪些方式

网站建设项目文档营销软件培训

汕头汽配网站建设外贸建站推广公司

多用户商城系统开发优化大师win10下载

福步外贸网站网站seo服务公司

济南专业做网站的公司网络推广公司经营范围

做网站建设多少钱怎么做网站优化

手机软件开发工具有哪些seo草根博客

甘肃做网站哪家专业企业培训有哪些方面

珠海建网站公司百度营销推广靠谱吗

珠海市网站中国最新消息新闻

学生管理系统网站此网站不支持下载视频怎么办

柳州网站制作推荐网站服务器怎么搭建

wordpress文章无法使用进一步优化营商环境

专门网站建设域名信息查询系统

asp net做网站视频宝鸡网站seo

作文网站排行榜前十名seo站点

武汉微信网站建设昆山网站制作哪家好

怎么做审核网站百度网络科技有限公司

现在还有企业做网站吗做推广的技巧

概述

文件解析流程

文件解析模型

文件解析加速实验

文档批量解析

拓展方向

相关文章：