当前位置: 首页 > news >正文

什么是标记 PDF(Tagged PDF)?

什么是标记 PDF(Tagged PDF)?

标记 PDF 是一种包含额外信息的 PDF 文件,这些信息用于定义文档的结构(如文本流、标题、表格、段落等)。这非常有用,因为它可以使内容更加可访问(文本流明确定义后,可以用于屏幕阅读器朗读),同时也便于内容的重用和处理。标记 PDF 文件的内容可以通过许多库(包括我们的 JPedal PDF 库)提取为 XML/HTML。

 

所有 PDF 文件都是标记 PDF 吗?

很遗憾,并不是。目前只有大约 20% 的 PDF 文件是标记 PDF,而其余的大部分文件在可用性方面要差得多。标记 PDF 只能在创建 PDF 文件时启用,无法在之后添加。过去,人们反对标记 PDF 的理由是它会使文件体积稍大一些。但在当今存储空间以 TB 计算的时代,相比于文件略小,标记 PDF 带来的可访问性、可搜索性和可重用性价值显然更重要,因此这个理由已经不再成立。

 

哪些 PDF 创建工具可以生成正确的标记 PDF?

LibreOffice、Microsoft Office、InDesign 和 Acrobat 都可以创建标记 PDF 文件(但需要确保已启用相关设置)。如果您想检查自己的 PDF 文件是否包含标记内容,可以阅读我们的文章 《如何判断 PDF 文件是否具有结构化内容》。

 

请使用标记 PDF 文件!

我们强烈建议 始终 创建标记 PDF 文件。即使您现在觉得无所谓,但在未来,它会让您的 PDF 文件更容易使用。

 

我们的主页:PDF 转 HTML5、Java 图像库、Java PDF SDK - IDRsolutions

 

相关文章:

  • Ollama下载安装+本地部署DeepSeek+UI可视化+搭建个人知识库——详解!(Windows版本)
  • 京东-零售-数据研发面经【附答案】
  • 选开源CMS建站系统时,插件越多越好吗?
  • 0x02 js、Vue、Ajax
  • 家用可燃气体探测器——家庭燃气安全的坚实防线
  • MongoDB—(一主、一从、一仲裁)副本集搭建
  • 利用node.js搭配express框架写后端接口(一)
  • ERP、BPM适合哪些类型的企业
  • PVE 配置显卡直通
  • XSS-labs靶场通关
  • PMP项目管理—整合管理篇—1.制定项目章程
  • 日文和中文中相同的汉字的utf编码是相同的吗
  • C# Dictionary 使用指南
  • 一个滑块可变色的Seekbar
  • 计算机毕业设计Python+DeepSeek-R1大模型考研院校推荐系统 考研分数线预测 考研推荐系统 考研(源码+文档+PPT+讲解)
  • LlamaFactory-webui:训练大语言模型的入门级教程
  • 11特殊函数
  • java——执行linux/cmd命令
  • SE注意力机制详解:从原理到应用,全面解析Squeeze-and-Excitation模块
  • JWT+redis实现三大令牌管理方案深度解析
  • 杨国荣︱以经验说事:思想史研究中一种需要反思的现象
  • 无人机企业从科技园区搬到乡村后,村子里变得不一样了
  • 《歌手》回归,人均技术流,00后整顿职场
  • 雅典卫城上空现“巨鞋”形状无人机群,希腊下令彻查
  • 北方将现今年首场大范围高温天气,山西河南山东陕西局地可超40℃
  • 刘国中将出席第78届世界卫生大会并顺访瑞士、访问白俄罗斯