当前位置: 首页 > wzjs >正文

邯郸网站设计 贝壳下拉推特最新消息今天

邯郸网站设计 贝壳下拉,推特最新消息今天,网站的后期维护自己怎么做,青海旭云网络做网站需要多少钱概述 本文继续对ragflow文档解析部分进行分析,并通过脚本的方式实现对文件的批量上传解析。 文件解析流程 文件解析的请求处理流程大致如下: 1.前端上传文件,通过v1/document/run接口,发起文件解析请求 2.后端api\apps\docum…

概述

本文继续对ragflow文档解析部分进行分析,并通过脚本的方式实现对文件的批量上传解析。

文件解析流程

文件解析的请求处理流程大致如下:

1.前端上传文件,通过v1/document/run接口,发起文件解析请求

2.后端api\apps\document_app.pyrun函数接收请求,校验用户权限,处理文档解析运行信息,创建新的任务队列

3.后端api\db\services\task_service.pyqueue_tasks函数进一步根据文档根据文档类型和页数,将文档分割成多个子任务,并通过解析器进行解析。

4.解析器在deepdoc\parser路径下,对于docx、excel、pdf等不同格式的文件都有不同的解析策略。其中,pdf的解析策略最为复杂,因为要设计需要先转成图像,再进行ocr文本识别。

5.解析完成后,会生成文本块,并构建索引,存储到向量数据库。

在解析过程的同时,前端同时还会定时向v1/document/list这个接口发起轮询,以获取解析的进度信息。

文件解析模型

ragflow的文件解析采用了名为deepdoc的模型,该模型的相关资料并不多,是其自研的模型,在hugging face上公布了具体的模型权重:

hf地址:https://huggingface.co/InfiniFlow/deepdoc

从模型体积上看,其采用的模型并不大,但对不同的任务,会采用不同的模型,比如OCR(光学字符识别)、TSR(表格结构识别)、DLA(文档布局分析)等多种解析任务。

文件解析加速实验

由于解析模型都是onnx形式的模型,因此,如果使用gpu进行解析,理论上可以显著加速解析速度。

于是下面做个实验,通过docker-compose-gpu.yml文件启动容器,使其能够访问外部gpu。

启动命令:

docker compose -f docker-compose-gpu.yml up -d

对于一篇学位论文的pdf文件,未使用gpu,通过docker-compose.yml进行解析,花费时间约10分钟。

使用gpu配置启动容器,对相同文件进行解析,发现cpu多核全部拉满,gpu仍然未工作,因此速度基本无差别。

说明仅通过docker-compose-gpu.yml似乎无法成功利用上gpu资源,此点还需进一步论证。

观察docx和pdf的解析器设置,docx只需要解析纯文本信息,而无需进行ocr处理,因此理论解析速度会比pdf文件快很多,下面进行一个实验,比较word文件和pdf文件的解析日志,内容如下:

word格式文件解析日志:

进度:
15:36:34 Task has been received.
15:36:34 Page(1~100000001): Start to parse.
15:36:34 Page(1~100000001): Finish parsing.
15:36:35 Page(1~100000001): Generate 16 chunks
15:36:53 Page(1~100000001): Embedding chunks (18.57s)
15:36:55 Page(1~100000001): Indexing done (1.42s). Task done (20.93s)

pdf格式文件解析日志:

开始于:
Fri, 04 Apr 2025 13:45:56 GMT
持续时间:
599.00 s
进度:
13:45:56 Task has been received.
13:46:29 Page(1~13): OCR started
13:46:36 Page(1~13): OCR finished (7.77s)
13:46:56 Page(1~13): Layout analysis (19.70s)
13:46:56 Page(1~13): Table analysis (0.00s)
13:46:56 Page(1~13): Text merged (0.00s)
13:47:07 Page(1~13): Generate 27 chunks
13:48:39 Page(1~13): Embedding chunks (92.02s)
13:48:43 Page(1~13): Indexing done (3.77s). Task done (166.60s)
....(略去多个子任务解析过程,和上述类似)

word文件的确比pdf文件解析速度快很多,因此,如果想加快解析速度,可以预先通过其他方式,将pdf文件的文本信息摘取出来,转成其它格式。

文档批量解析

经过上述分析后,实际上可以通过两个解析接口+文件上传接口,实现文档的批量解析。

发现已有一个代码仓库实现了该功能:

仓库地址:https://github.com/Samge0/ragflow-upload

下面是具体操作步骤:

1.开启ragflow服务
需保持ragflow服务处于正常运行状态

2.克隆仓库代码

git clone https://github.com/Samge0/ragflow-upload.git

3.安装依赖

pip install -r requirements.txt

4.设置配置项
ragflows/configs.demo.py改成ragflows/configs.py

配置文件主要修改以下几点:

  • API_URL:ragflow的api地址,默认值:http://localhost:80/v1,如果是本机部署,无需修改

  • AUTHORIZATION:ragflow的api鉴权token,可以从F12网站开发者工具,查看请求的标头获取

  • DIFY_DOC_KB_ID:ragflow的知识库id,直接在知识库页面,查看url尾缀dataset?id的具体值获取

  • KB_NAME:ragflow的知识库名称,设置为需要上传的知识库名称

  • DOC_DIR:本地上传文件夹路径,待上传文件的存储位置,设置为需要上传的实际文件夹路径

5.启动脚本

运行命令

python -m ragflows.main

这个脚本的优势在于,它并不是多个文件批量解析,而是单个文件解析完之后,再执行下一个文件进行解析。这样可以有效避免多线程解析时,线程阻塞导致的文件解析过程中断。

拓展方向

1.进一步支持GPU解析

本文尝试了一下使用docker运行gpu环境,但发现文件解析时,并不能有效利用gpu设备。后续可对此进行进一步研究,以更好地利用gpu资源实现解析过程加速。

2.图像识别存储

目前文档解析仍然是针对文本信息,并未涉及图像信息的提取和关联,此点有待进一步研究。

http://www.dtcms.com/wzjs/49643.html

相关文章:

  • 石家庄网站建设培训班seo自然排名
  • 王悦做网站壹起航网络推广的目标
  • 医院网站和公众号建设方案手机优化助手
  • 网站里面的按钮链接怎么做网页链接
  • 网站浮标怎么做东莞关键词排名提升
  • 在百度做推广送网站好吗郑州seo顾问培训
  • 网站写动态新闻有什么好处微信公众号平台官网
  • seo网站内容优化手机导航下载2022新版
  • 怎样用自己的电脑做网站刷排名的软件是什么
  • 安徽电子学会网站建设搜索引擎优化的分类
  • wap手机网站线上渠道推广有哪些方式
  • 网站建设项目文档营销软件培训
  • 汕头汽配网站建设外贸建站推广公司
  • 多用户商城系统开发优化大师win10下载
  • 福步外贸网站网站seo服务公司
  • 济南专业做网站的公司网络推广公司经营范围
  • 做网站建设多少钱怎么做网站优化
  • 手机软件开发工具有哪些seo草根博客
  • 甘肃做网站哪家专业企业培训有哪些方面
  • 珠海建网站公司百度营销推广靠谱吗
  • 珠海市网站中国最新消息新闻
  • 学生管理系统网站此网站不支持下载视频怎么办
  • 柳州网站制作推荐网站服务器怎么搭建
  • wordpress文章无法使用进一步优化营商环境
  • 专门网站建设域名信息查询系统
  • asp net做网站视频宝鸡网站seo
  • 作文网站排行榜前十名seo站点
  • 武汉微信网站建设昆山网站制作哪家好
  • 怎么做审核网站百度网络科技有限公司
  • 现在还有企业做网站吗做推广的技巧