当前位置: 首页 > wzjs >正文

建立网站的条件建网站 免费

建立网站的条件,建网站 免费,网站加载特效,注册微信有过使用LLM搭建RAG或其它类知识系统的朋友一定会对文档数据的复杂多样性有着深刻的理解。各行各业的磁盘中都沉睡了数年到数十年的各类文档信息,包括:Doc、Docx、PPT、PDF、XLS、PNG、JPEG等各类格式。利用LLM激活这些数据价值的首要工作就是能够正确的…

有过使用LLM搭建RAG或其它类知识系统的朋友一定会对文档数据的复杂多样性有着深刻的理解。各行各业的磁盘中都沉睡了数年到数十年的各类文档信息,包括:Doc、Docx、PPT、PDF、XLS、PNG、JPEG等各类格式。利用LLM激活这些数据价值的首要工作就是能够正确的抽取这些文件中的信息。目前,市场上已经有了不少开箱即用的Rag类工具,这些工具能够很好的抽取绝大多数文件中的内容,对于很多用户来说,已经足够了。但对于存量数据跨越多年的企业,由于数据的复杂性、抽取需求的多样性,这类开箱即用工具预置的文件数据处理流程就变的很难满足需要了。

由于文件处理是一个非常大的话题,我们无法用一篇文章探讨完此类需求。因此,本文我们只尝试简单探讨一下针对复杂PDF处理的场景,特别是在无代码模式下,如何快速处理PDF,提升数据处理的效率。

复杂PDF处理技术选型

复杂PDF处理是一个业界难题,有很多团队都在尝试解决此类问题,并且也都有了一定的成绩。各类方案个有所长,如何选定就变得有些困难。最近一篇《Ilya Rice:我是如何赢得企业 RAG 挑战赛的》的文章大火,里面给出了一个不错的方案–Docling。

Docling 是一个开源的文档解析和转换工具,能高效地将多种格式的文档(包括 PDF、DOCX、PPTX、图片和 HTML)解析,导出为 Markdown 或 JSON 格式。能够对PDF进行OCR、布局分析、表格分析、代码识别等深度理解。互联网上有很多相关资料可以参考,本文就不做赘述了。

于是,HuggingFists整合了Docling技术,帮助使用者应对复杂PDF的解析场景。选用Docling还有一个重要的原因,就是其部分转换功能可以在纯CPU的环境中运行完成。

复杂PDF处理流程

在这里插入图片描述

如图所示,在HuggingFists中使用Docling进行复杂PDF处理非常简单,只要一个包含三个算子的流程就可以批量完成复杂PDF文本的转换工作了。由于LLM模型对Markdown格式支持的更完善一些,故而Docling算子将Markdown格式作为了缺省的目标格式。虽然LLM对Json格式的支持也非常完善,但由于它无法保留版式信息,无法直观评价转换效果,故而这里也没有作为首选项。

这是一个将PDF文件批量转换为Markdown文件并存储到文件系统的流程。文件输入算子用于批量选中要处理的PDF文件;Docling算子负责将PDF文件转换为Markdown格式;批量文件输出算子用于将转换后的文件存储到指定的目录。

经过转换后的Markdown文件由于采用了纯文本描述格式,就非常方便进行后续处理了。如在进行RAG系统开发时,为了最大程度的保持文本含义的内聚性,可以对文件按章节切分;如希望单独抽取文件中的表格、图片等信息,也可以在此基础上进一步抽取。我们将在随后的文章中介绍如何完成以上类型的工作。

Docling环境的准备

目前最新版的HuggingFists并不支持Docling,如果希望使用该功能,需要去HuggingFists的算子商城(资源库/算子库/商城)中安装该算子,并在HuggingFists环境中按照如下步骤安装Docling。

  1. 进入HuggingFists的安装目录,sengee.community.linux

  2. 在命令行中执行nerdctl exec -it oyez /bin/sh进入oyez容器。执行su root命令,输入密码12345678,切换到root用户下

  3. 在oyez系统中运行pip install docling安装docling。如果你的机器能够翻墙,那么打开翻墙通道,安装完成。这里强调能够翻墙是因为docling运行时会根据算子的功能配置去下载对应的模型。而这些模型需要翻墙才能下载。需要注意的是,此时在每次使用Docling算子时,需要对算子中的Python代码部分进行相应的调整。如下图:

    在这里插入图片描述

    点击图中Docling算子右上角的配置弹出按钮。在弹出框中找到"Python脚本片段属性"。注释掉代码中红色框标注的2行代码,点击确定即可。这两行代码是为无法下载Docling模型包而预置的模型路径。具体安装方式见步骤4。

  4. 退出oyez系统。进入sengee.community.linux/moo目录下。下载“https://pan.baidu.com/s/1uoa3UqBfHBX3sCf10bUtog?pwd=1234”的包到当前目录,解压Docling.zip包。该包中包含Docling运行所需的部分模型。对于无法翻墙的用户,运行时无法下载到对应模型。故而无法正常运行Docling。HuggingFists提供的这个压缩包中涵盖了ocr识别,布局识别以及表格识别等多个模型。可以帮助网络条件不足的朋友使用Docling算子。需要注意的是,当前提供的模型中,未包括代码识别和公式识别的模型,如需此类功能需下载对应的模型放在指定的路径下。

结语

Docling内置了很多功能配置项,但是Docling算子只封装了其中的一部分。如果希望调整和配置更多的配置项,可以试着去修改算子的Python脚本片段。这里的脚本片段为实际运行Docling时所需的脚本片段。好了,现在可以使用HuggingFists去自动化处理复杂PDF文档了。


文章转载自:

http://4cNCTvtD.yzygj.cn
http://O560SIn4.yzygj.cn
http://M1Y9SJBD.yzygj.cn
http://AmTq1Owv.yzygj.cn
http://y84q3A0E.yzygj.cn
http://4WwvaOV8.yzygj.cn
http://boTvcZz9.yzygj.cn
http://JdWSL4Ek.yzygj.cn
http://d4uTMXmf.yzygj.cn
http://z2zIWGyg.yzygj.cn
http://ukfY0dGw.yzygj.cn
http://RFa7BVyX.yzygj.cn
http://mDb11PoW.yzygj.cn
http://l2OtIM4Z.yzygj.cn
http://Lxv1aQZB.yzygj.cn
http://lA2W16za.yzygj.cn
http://fgShntRU.yzygj.cn
http://FlBtvL3O.yzygj.cn
http://bCchCeD2.yzygj.cn
http://pnnW93XT.yzygj.cn
http://I0n9dyZl.yzygj.cn
http://7fthCrah.yzygj.cn
http://ZGgzIZu1.yzygj.cn
http://eWUgIlua.yzygj.cn
http://RJyLsuEi.yzygj.cn
http://HeehaVrx.yzygj.cn
http://VBitV0qt.yzygj.cn
http://ayMa6JW6.yzygj.cn
http://6ep0B4KR.yzygj.cn
http://hjmQNf2L.yzygj.cn
http://www.dtcms.com/wzjs/613632.html

相关文章:

  • php 网站建设方案做网站用什么配资电脑
  • wordpress多站点注册页wordpress ios
  • 精通网站建设pdf长沙网站建设哪家好
  • 大型网站开发实例wordpress与
  • 容桂网站开发仿网站的ppt怎么做
  • 网站制作开发教程做中国最专业的健康门户网站
  • 网站建设自评报告wordpress精简代码
  • 网站开发哪种语言好网站的交互设计
  • 贵阳市 网站建设厦门市建设区网站首页
  • 网站推广服务费会计分录怎么做长春火车站什么时候解封
  • 用asp.net做购物网站昆明网站建设公司排名猫咪科技
  • 如何导入旧网站数据库单位网站建设论文
  • 网站建设和维护实训建设网站需要的步骤
  • 网站加速mvc网站开发 案例视频
  • 怎样搭建网站百度百科优化
  • dw做购物网站官方网站app大全
  • 关于网站建设心得体会可口可乐公司的企业网站建设
  • 分模板网站和定制网站百度统计怎么用
  • 营销型企业网站群策略网站建设 中企动力成都
  • 上传文档网站开发关键字搜索网站怎么做
  • 凡科建站提示网站建设中网站设计任务书
  • 一个网站多个域名备案吗大连网站建设怎么样
  • 网站建设与管理电子教程盐城网站建设厂商
  • 网站推广软文公司家政公司怎么注册
  • 开发一个网站需要几个人美橙建站怎么样
  • 湖南竞网做网站好吗北京网站建设天下公司
  • it产品网站建设方案19年做网站
  • 吉他谱网站如何建设重庆建设工程信息网项目经理积分
  • 福州学做网站做图标得英文网站
  • 企业网站必须备案吗网站维护要多久