当前位置: 首页 > news >正文

自媒体网站源码模板dede广州最好的网站建设

自媒体网站源码模板dede,广州最好的网站建设,上海市基础工程公司,雅思培训班价格一览表Docling 一个基于 Python 开发、用于解析各种文档(PDF、DOCX、PPTX、XLSX、图片、音频等)的免费工具,支持与生成式 AI 生态进行无缝集成。 Docling 项目由 IBM 维护并开源,代码托管在 GitHub,目前已经获得了 36.5K Sta…

Docling 一个基于 Python 开发、用于解析各种文档(PDF、DOCX、PPTX、XLSX、图片、音频等)的免费工具,支持与生成式 AI 生态进行无缝集成。

Docling 项目由 IBM 维护并开源,代码托管在 GitHub,目前已经获得了 36.5K Stars:

https://github.com/docling-project/docling

功能特性

Docling 的主要功能特性如下:

  • 🗂️支持解析主流文档格式,包括 PDF、DOCX、PPTX、XLSX、PNG、TIFF、JPEG、WEBP、HTML、WAV、MP3 等;
  • 📑提供高级 PDF 文档理解功能,包括页面布局、阅读顺序、表格结构、代码、公式、图片分类等。
  • 🧩采用统一的、富有表达力的 DoclingDocument 表示格式,以及一套文档构建 API;
  • ↪️支持各种导出格式和选项,包括 HTML、Markdown、Doctags 以及无损 JSON;
  • 🔒允许本地运行,适用于敏感数据和网络隔离环境;
  • 🤖集成各种 AI 平台,包括 LangChain、LlamaIndex、Crew AI、Haystack 等;

在这里插入图片描述

  • 🔍对扫描式 PDF 和图片提供广泛的 OCR(EasyOCR、Tesseract、RapidOCR、Mac OCR)支持;
  • 👓支持视觉语言模型 SmolDocling,用于解析图片文件;
  • 🎙️通过自动语音识别(ASR)模型解析音频文件;
  • 💻提供简单易用的命令行工具。

目前正在开发中的功能包括:

  • 📝元数据提取,包括标题、作者、参考文献以及文本语言;
  • 📝 图表理解(条形图、饼图、折线图等);
  • 📝 复杂化学理解(分子结构)。

系统架构

Docling 的架构如下图所示:

对于每种文档格式,文档转换器知道要使用哪个特定格式的后端模块来解析文档,以及使用哪个 pipeline 来协调执行,以及任何相关的选项配置。

Docling 允许通过第三方插件进行功能扩展。

下载安装

如果你已经安装了 Python 环境,可以使用包管理器进行安装。例如:

pip install docling

这种方式支持 macOS、Linux 以及 Windows 系统,包括 x86_64 和 arm64 架构。

以下是一个解析 PDF 文件的 Python 代码示例,输出格式为 Markdown:

from docling.document_converter import DocumentConvertersource = "https://arxiv.org/pdf/2408.09869"  # file path or URL
converter = DocumentConverter()
doc = converter.convert(source).documentprint(doc.export_to_markdown())  # output: "### Docling Technical Report[...]"

另外,也可以直接从命令行使用 Docling:

docling https://arxiv.org/pdf/2206.01062

官方文档:

https://docling-project.github.io/docling/

http://www.dtcms.com/a/470967.html

相关文章:

  • jsp页面如何做网站pv统计有中文网站 怎么做英文网站
  • 国度网络网站建设外国纪录片网站机场建设
  • 做移动网站优化排个人邮箱163免费注册
  • 导柱导套网站建设whois 查询系统
  • c14 lambda表达式
  • 养猪网站建设规划书学校网站建设调查问卷
  • 麦壳云网站建设谭木记网页制作教程
  • 做视频采集网站犯法台州网站制作费用
  • 合肥论坛建站模板门户网站兴化建设局 金
  • MySQL笔记11
  • 网站前置审批在哪里办代理记账包含哪些业务
  • 河北品牌网站建设wordpress幻灯片源码
  • tp做的网站封装成app没有微信怎么进入公众号
  • 凡科网站的ftp手机网站怎么开发
  • 5G NR-NTN协议学习系列:NR-NTN介绍(5)
  • 企业建站都有什么网站什么网站可以在家做美工兼职
  • 网站导航栏设计代码乐山市规划和建设局门户网站
  • 青岛营销型网站制作做视频网站怎么挣钱吗
  • 网站前端跟后端怎么做wordpress登陆post
  • 网站开发建设成本河北城乡和住房建设厅官方网站
  • 能上国外网站的免费dns做电影网站需要注意什么软件
  • 网站制作的困难和解决方案怎样不让网站被收录
  • 自己做的网站被篡改怎么办江门网
  • 容桂佛山做app网站上海公司营业执照查询
  • 网站后台内容不更新宁波做网站设计
  • 建设银行信用卡网站是哪个外国网站签到做任务每月挣钱
  • 重庆门户网站华龙网wordpress新站SEO优化
  • 网站如何做seo排名网站制作关键字排名
  • 兰州网站制作怎么样购物便宜的网站有哪些
  • 怎么做算命网站WordPress出现503报错