当前位置: 首页 > wzjs >正文

西安网站制作开发公司哪家好推广普通话手抄报内容怎么写

西安网站制作开发公司哪家好,推广普通话手抄报内容怎么写,品牌宣传策划方案,沃尔玛超市网上购物送货上门目录 说明功能说明maven依赖示例代码语言包下载总结 说明 记录一个完整的 Java 示例,展示如何使用 PDFBox Tess4J 从 PDF 中提取图片,并通过 OCR 识别图片中的文字,当前仅仅支持基础功能。 功能说明 读取一个 PDF 文件将每一页渲染成图片…

目录

  • 说明
  • 功能说明
  • maven依赖
  • 示例代码
  • 语言包下载
  • 总结

说明

记录一个完整的 Java 示例,展示如何使用 PDFBox + Tess4J 从 PDF 中提取图片,并通过 OCR 识别图片中的文字,当前仅仅支持基础功能。

功能说明

  • 读取一个 PDF 文件
  • 将每一页渲染成图片(高分辨率)
  • 使用 Tess4J 对每一页图片进行 OCR
  • 打印识别结果

maven依赖

<!-- PDFBox -->
<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.30</version>
</dependency><!-- Tess4J -->
<dependency><groupId>net.sourceforge.tess4j</groupId><artifactId>tess4j</artifactId><version>5.11.0</version>
</dependency>

示例代码

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;public class PdfOcrExample {public static void main(String[] args) {String pdfPath = "your.pdf"; // 你的PDF路径String tessDataPath = "tessdata"; // OCR语言包路径try {// 加载 PDF 文档PDDocument document = PDDocument.load(new File(pdfPath));PDFRenderer pdfRenderer = new PDFRenderer(document);int pageCount = document.getNumberOfPages();// 初始化 Tesseract OCRTesseract tesseract = new Tesseract();tesseract.setDatapath(tessDataPath); // tessdata 文件夹路径tesseract.setLanguage("chi_sim");    // 语言设置(chi_sim 为简体中文)for (int page = 0; page < pageCount; ++page) {// 渲染每一页为高分辨率图像(300 DPI)BufferedImage image = pdfRenderer.renderImageWithDPI(page, 300);// 可选:保存为中间图片文件File imageFile = new File("page_" + page + ".png");ImageIO.write(image, "png", imageFile);// OCR 识别String text = tesseract.doOCR(imageFile);// 打印结果System.out.println("===== 第 " + (page + 1) + " 页识别结果 =====");System.out.println(text);}document.close();} catch (IOException | TesseractException e) {e.printStackTrace();}}
}

说明

  • renderImageWithDPI(…, 300) 建议使用 300 DPI 提高识别精度。
  • chi_sim 为简体中文语言包(chi_sim.traineddata),必须放在 tessdata 目录下。
  • PDF 页数多或内容复杂时,可以加进度显示或分页保存

打印效果:
在这里插入图片描述

语言包下载

https://github.com/tesseract-ocr/tessdata
下载所需 .traineddata 文件(如 chi_sim.traineddata),放到 tessdata/ 目录下

总结

这种java提取方式只是能用,无法完整识别pdf中表格数据将进行结构化抓取,只能作为实验性功能。

如果要更加准确性提取pdf文件中数据需要借助OCR的大模型。
参考: https://github.com/Yuliang-Liu/MonkeyOCR
在线: http://vlrlabmonkey.xyz:7685/

http://www.dtcms.com/wzjs/257923.html

相关文章:

  • 网站的请求服务做优先级济南网站建设制作
  • 做智能家居网站深圳网站优化推广方案
  • wordpress 主题css路径网站优化外包
  • 桂林北站改造最新方案免费搭建自己的网站
  • 江门制作网站公司域名服务器地址查询
  • 专业的集团网站制作企业持啊传媒企业推广
  • 网站建设 客户同程国内新闻最新消息今天简短
  • 网页美工设计photoshop 规划教材长沙做优化的公司
  • 网站建设 有聊天工具的吗网站维护的内容有哪些
  • 网站建设 无锡网络软文写作
  • 南阳做网站哪家好酒店如何进行网络营销
  • 淘宝移动网站建设网络营销的主要手段
  • 聊城做网站推广费用推广竞价的公司有哪些
  • 做兽药网站用什么图片好搜索关键词推荐
  • 宝安网站制作公司怎么在百度上做广告推广
  • 河南省建设厅官方网站郭风春厦门网络推广
  • 合网站 - 百度一个新产品怎么推广
  • 宣传推广计划谷歌seo
  • WordPress上展示PDF武汉seo培训
  • 哪些网站做外贸效果好深圳英文网站推广
  • 做网站怎么写工作日志2021年网络热点舆论
  • 天津低价做网站最全的百度网盘搜索引擎
  • 信阳建设企业网站公司什么是信息流广告
  • 东莞的网站建设宁波正规seo推广公司
  • 小蘑菇网站建设下载seo排名优化怎样
  • 杨浦集团网站建设seo工具不包括
  • 网站建设要咨询哪些内容网络广告怎么做
  • 做网站是怎么赢利的百度竞价入门教程
  • 自贡做网站公司做网店自己怎么去推广
  • 微信3g网站模板青岛网络seo公司