当前位置: 首页 > news >正文

PDFBox + Tess4J 从PDF中提取图片OCR识别文字

目录

  • 说明
  • 功能说明
  • maven依赖
  • 示例代码
  • 语言包下载
  • 总结

说明

记录一个完整的 Java 示例,展示如何使用 PDFBox + Tess4J 从 PDF 中提取图片,并通过 OCR 识别图片中的文字,当前仅仅支持基础功能。

功能说明

  • 读取一个 PDF 文件
  • 将每一页渲染成图片(高分辨率)
  • 使用 Tess4J 对每一页图片进行 OCR
  • 打印识别结果

maven依赖

<!-- PDFBox -->
<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.30</version>
</dependency><!-- Tess4J -->
<dependency><groupId>net.sourceforge.tess4j</groupId><artifactId>tess4j</artifactId><version>5.11.0</version>
</dependency>

示例代码

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;public class PdfOcrExample {public static void main(String[] args) {String pdfPath = "your.pdf"; // 你的PDF路径String tessDataPath = "tessdata"; // OCR语言包路径try {// 加载 PDF 文档PDDocument document = PDDocument.load(new File(pdfPath));PDFRenderer pdfRenderer = new PDFRenderer(document);int pageCount = document.getNumberOfPages();// 初始化 Tesseract OCRTesseract tesseract = new Tesseract();tesseract.setDatapath(tessDataPath); // tessdata 文件夹路径tesseract.setLanguage("chi_sim");    // 语言设置(chi_sim 为简体中文)for (int page = 0; page < pageCount; ++page) {// 渲染每一页为高分辨率图像(300 DPI)BufferedImage image = pdfRenderer.renderImageWithDPI(page, 300);// 可选:保存为中间图片文件File imageFile = new File("page_" + page + ".png");ImageIO.write(image, "png", imageFile);// OCR 识别String text = tesseract.doOCR(imageFile);// 打印结果System.out.println("===== 第 " + (page + 1) + " 页识别结果 =====");System.out.println(text);}document.close();} catch (IOException | TesseractException e) {e.printStackTrace();}}
}

说明

  • renderImageWithDPI(…, 300) 建议使用 300 DPI 提高识别精度。
  • chi_sim 为简体中文语言包(chi_sim.traineddata),必须放在 tessdata 目录下。
  • PDF 页数多或内容复杂时,可以加进度显示或分页保存

打印效果:
在这里插入图片描述

语言包下载

https://github.com/tesseract-ocr/tessdata
下载所需 .traineddata 文件(如 chi_sim.traineddata),放到 tessdata/ 目录下

总结

这种java提取方式只是能用,无法完整识别pdf中表格数据将进行结构化抓取,只能作为实验性功能。

如果要更加准确性提取pdf文件中数据需要借助OCR的大模型。
参考: https://github.com/Yuliang-Liu/MonkeyOCR
在线: http://vlrlabmonkey.xyz:7685/

http://www.dtcms.com/a/263804.html

相关文章:

  • 探秘阿里云Alibaba Cloud Linux:云时代的操作系统新宠
  • C语言学习笔记:深入解析结构体数组(附代码实践)
  • Qt QTableWidget多行多列复制粘贴
  • Android 网络全栈攻略(四)—— TCPIP 协议族与 HTTPS 协议
  • 安全左移(Shift Left Security):软件安全的演进之路
  • Spring Boot 2 多模块项目中配置文件的加载顺序
  • 智能交通信号灯
  • Django打造智能Web机器人控制平台
  • HarmonyOS应用开发高级认证知识点梳理 (三)状态管理V2装饰器核心规则
  • android车载开发之HVAC
  • 笔记本电脑怎样投屏到客厅的大电视?怎样避免将电脑全部画面都投出去?
  • 【蓝牙】Linux Qt4查看已经配对的蓝牙信息
  • 05【C++ 入门基础】内联、auto、指针空值
  • 算法-每日一题(DAY12)最长和谐子序列
  • 为Mkdocs网站添加Google广告
  • CRMEB开源商城系统Windows+IIS环境安装配置详解
  • word中一行未满但是后面有空白行
  • 每日一练:找到初始输入字符串 I
  • AbMole| H₂DCFDA(M9096;活性氧(ROS)探针)
  • MySQL索引深度解析:B+树、B树、哈希索引怎么选?
  • 凸包进阶旋转卡壳(模板题目集)
  • Window 2000 Perfectional_配置和管理FTP
  • uniapp内置蓝牙打印
  • Qt小组件 - 1(手风琴)
  • 计算机网络:【socket】【UDP】【地址转换函数】【TCP】
  • 测试第六讲-测试模型分类
  • CloudBase AI ToolKit实战:从0到1开发一个智能医疗网站
  • 时空数据挖掘五大革新方向详解篇!
  • 电机控制——电机位置传感器零位标定
  • 安防监控视频汇聚平台EasyCVR v3.7.2版云端录像无法在web端播放的原因排查和解决方法