当前位置: 首页 > news >正文

爱美刻在线制作网站4399游戏网页版入口

爱美刻在线制作网站,4399游戏网页版入口,如何在人力资源网站做合同续签,vs做网站添加背景通过Tesseract进行OCR识别 前提:安装好Tesseract并下载好简体中文语言包,本文在Windows上验证过,需要安装包可以关注 公号 easy4java获取 1.配置maven依赖 <!-- pdf 解析--><dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdf…

通过Tesseract进行OCR识别

前提:安装好Tesseract并下载好简体中文语言包,本文在Windows上验证过,需要安装包可以关注 公号  easy4java获取

1.配置maven依赖

        <!-- pdf 解析--><dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.1</version></dependency><dependency><groupId>org.apache.pdfbox</groupId><artifactId>fontbox</artifactId><version>2.0.0</version></dependency><dependency><groupId>org.apache.pdfbox</groupId><artifactId>jempbox</artifactId><version>1.8.11</version></dependency><dependency><groupId>org.apache.pdfbox</groupId><artifactId>xmpbox</artifactId><version>2.0.0</version></dependency><dependency><groupId>org.apache.pdfbox</groupId><artifactId>preflight</artifactId><version>2.0.0</version></dependency><dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox-tools</artifactId><version>2.0.0</version></dependency><!-- Tesseract OCR--><dependency><groupId>net.sourceforge.tess4j</groupId><artifactId>tess4j</artifactId><version>4.5.4</version></dependency>

2.Java代码实现

/*** @Author:admin* @Date: 2025/4/21  15:53* @Description admin* @Version 1.0.0*/import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import org.apache.pdfbox.cos.COSName;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDResources;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.util.Iterator;
import java.util.regex.Matcher;
import java.util.regex.Pattern;public class PDFTextRecognition {public static void main(String[] args) {try {long start = System.currentTimeMillis();// 1. 读取PDF文件PDDocument document = PDDocument.load(new File("C:\\Users\\admin\\Desktop\\test.pdf"));PDPage page = document.getPage(0);PDResources resource = page.getResources();Iterable<COSName> xobjects = resource.getXObjectNames();if (xobjects != null) {Iterator<COSName> imageItr = xobjects.iterator();while (imageItr.hasNext()) {COSName imageName = imageItr.next();boolean isImage = resource.isImageXObject(imageName);if (isImage) {PDImageXObject ixt = (PDImageXObject) resource.getXObject(imageName);// 3. 使用OCR识别图像中的文字Tesseract tesseract = new Tesseract();//从官网下载简体中文语言包tesseract.setLanguage("chi_sim");//要语言包放在安装目录下tessdata目录下tesseract.setDatapath("E:\\software\\tesseract\\tessdata"); // 设置Tesseract的语言数据文件路径//截取要识别的图片区域,减少无效区域的识别,如果有需要可以进行放大操作(提高识别的准确率)BufferedImage image = ixt.getImage();BufferedImage subImage = image.getSubimage(0, 0, 2000, 800);String text = tesseract.doOCR(subImage);extractContractNumber(text);System.out.println(text);}}}// 关闭PDF文档document.close();long end = System.currentTimeMillis();System.out.println("消费时长" + (end - start) / 1000 + "s");} catch (IOException | TesseractException e) {e.printStackTrace();}}/*** 通过正则解析识别出的内容** @param text*/public static void extractContractNumber(String text) {// 正则表达式模式Pattern supplierPattern = Pattern.compile("供\\s*方\\s*[::]\\s*(.*?)\\s*合\\s*同\\s*编\\s*号");Pattern contractNoPattern = Pattern.compile("合\\s*同\\s*编\\s*号\\s*[::]\\s*(\\w+)");Pattern buyerPattern = Pattern.compile("需\\s*方\\s*[,,]\\s*(.*?)\\s*签\\s*订\\s*日\\s*期");// 匹配供方Matcher supplierMatcher = supplierPattern.matcher(text);if (supplierMatcher.find()) {String supplier = supplierMatcher.group(1).replaceAll("\\s+", "");System.out.println("供方: " + supplier);}// 匹配合同编号Matcher contractNoMatcher = contractNoPattern.matcher(text);if (contractNoMatcher.find()) {String contractNo = contractNoMatcher.group(1);System.out.println("合同编号: " + contractNo);}// 匹配需方Matcher buyerMatcher = buyerPattern.matcher(text);if (buyerMatcher.find()) {String buyer = buyerMatcher.group(1).replaceAll("\\s+", "");System.out.println("需方: " + buyer);}}
}

http://www.dtcms.com/a/566327.html

相关文章:

  • 政务网站集约化建设有哪些做的好的小众网站
  • 济南seo网站关键词优化排名wordpress企业产品列表
  • 【cursor】常用使用技巧篇
  • 河北保定建设集团招聘信息网站百度是什么网站
  • 华为OD机试双机位A卷 - IPv4地址转换成整数 (C++ Python JAVA JS GO)
  • 个人网站不备案可以吗网站域名注册商标有什么好处
  • CSS实现跑马灯效果-案例
  • 1元云购网站怎样建设php做网站登陆验证
  • 织梦 营销型网站网络运维工程师有前途吗
  • 11. Qt 绘图-基础
  • 【LeetCode】组合问题——1863.找出所有子集的异或总和再求和(回溯)
  • 网站安全维护公司浙江省住房和城乡建设部网站
  • 成都哪些公司做网站好用网址进入的游戏
  • sparkSQL读取数据的方式
  • 国内免费建站网站wordpress教程视频教程
  • 网站logo显示新闻头条最新
  • MongoDB基本使用(包含工具类)
  • 和15岁女儿做很舒服网站网页设计软件排名
  • 高防IP真能100%防御DDoS攻击吗
  • 新建网站怎么做优化广州建设工程交易中心改版
  • 申请免费网站公司长春网站建设哪家好
  • SQL SERVER 索引
  • 深入浅出 Java 虚拟机之基础原理
  • 【数维杯赛中助攻+1,英文普刊知网检索+1】
  • 发布 php 微网站网站建设销售提成
  • 哈尔滨网站建设赚钱么自己做的视频网站上传电影
  • 建设电子商务网站前的市场分析合肥有哪些做网站的公司
  • 免费cms建站微网站开发平台 知乎
  • css学习盒模型:
  • 杭州网站建设出 名wordpress生成静态 mip