当前位置: 首页 > news >正文

PDF 文件中的文本链接是如何定义的?

在查看 PDF 文件时,你可能会注意到其中有 蓝色的可点击链接,类似于网页中的超链接。这些链接在 PDF 中有两种定义方式:

 

1. 由 PDF 查看器自动生成的链接

一些 PDF 查看器会 自动识别页面上的文本,如果文本以 "http://" 或 "www." 开头,它们会 自动添加超链接。

但需要注意:

    1    这种链接 并不存储在 PDF 文件本身,而是 查看器的临时解析结果。

    2    不同的 PDF 查看器 处理方式不同,有的会识别多行 URL,而有的可能不会。

    3    这种方法 不够精准,容易出现遗漏或错误。


2. PDF 文件中实际存在的链接

PDF 文件 可以包含真正的超链接,但这些链接 不是存储在文本中,而是作为 Annotations(注释对象) 存储的。这些注释对象是 PDF 文件中的独立对象,由 PDF 查看器渲染并绘制到页面上。

PDF 文件中的 Annotation(注释对象)

在 每个 PDF 页面 上,可能会有一个 注释对象列表(如果没有注释对象,则此列表为空)。注释对象使 PDF 能够支持 动画、交互、超链接 等功能。

PDF 有 多种类型的 Annotation(注释对象),但这里我们主要关注 /Subtype 为 Link 的注释对象(即超链接)。

PDF 超链接的原始数据示例

在 PDF 的内部数据中,链接可能如下所示:

23 0 obj<<

/F 4 /A<</URI(http://www.jpedal.org/link.html)/Type/Action/S/URI>>

/BS<</W 0>>

/Subtype/Link

/StructParent 1

/Rect[60.72 684 86.88 696]

>>

endobj

 

关键字段解析

    1    /Subtype:

    1    指定了注释的类型,这里是 "Link"(超链接)。

    2    PDF 还支持 视频、音频、表单、弹出注释 等其他类型的注释。

    2    
/Rect:

    1    这是 PDF 坐标,定义了一个 矩形区域。

    2    当用户点击该区域时,超链接将被激活。

/A(Action):

    1    这里定义了 链接的具体动作。

    2    在这个示例中,/A 字段指向 一个 URL(http://www.jpedal.org/link.html)。

    3    PDF 查看器会 在浏览器中打开该链接。


如何提取 PDF 文件中的超链接?

超链接数据可以 直接从 Annotation(注释对象)中提取。这正是我们的 JPedal 所提供的功能之一。

正如前文提到的:

    1    PDF 的文本和超链接是分开存储的,因此要解析页面文本,必须 解析整个 PDF 页面。

    2    由于 PDF 的 存储方式复杂,无法直接通过坐标精确定位文本,必须 解析整个页面内容 才能确定超链接周围的文本信息。


我们的主页:PDF 转 HTML5、Java 图像库、Java PDF SDK - IDRsolutions

 

相关文章:

  • 简记_硬件系统设计之需求分析要点
  • 2025牛客寒假算法基础集训营6
  • Python自动化测试教程
  • Spring Boot 内置工具类,功能齐全!!
  • TTP/HTTPS、TCP/IP 协议、RPC、Socket 通信机制
  • 盛铂科技PDROUxxxx系列锁相介质振荡器(点频源):高精度信号源
  • GitLab常用操作
  • Java高频面试之集合-04
  • Nginx 开启Baise认证
  • 计算机二级MS之PPT
  • 数据库系统概论(一)详细介绍数据库与基本概念
  • 微服务概览与治理
  • 零售交易流程相关知识(top-down拆解)
  • 同步 Fork 仓库的命令
  • 公开笔记:自然语言处理(NLP)中文文本预处理主流方法
  • 软考高级信息系统项目管理师笔记-第12章项目质量管理
  • 【Manus资料合集】激活码内测渠道+《Manus Al:Agent应用的ChatGPT时刻》(附资源)
  • 布隆过滤器原理详解:高效解决大规模数据去重与查询问题
  • Mysql安装方式
  • Java 8 四大函数式接口详解
  • 推荐一个两学一做的网站/网络推广发展
  • 旅游外贸网站建设推广/百度站长工具数据提交
  • 广州网站百度排名推广/买链接网站
  • wordpress获取当前页面链接/网站排名优化方案
  • 建设网站的视频视频/软文营销的本质
  • 鞍山网站开发/seosem顾问