当前位置: 首页 > news >正文

Tesseract OCR 安装与中文+英文识别实现

一、下载

https://digi.bib.uni-mannheim.de/tesseract/
下载,尽量选择时间靠前的(识别更好些)。符合你的运行机(我的是windows64)
在这里插入图片描述
持续点击下一步安装,安装你认可的路径即可,没必要配置环境变量(后续在代码里指定即可)。

二、下载语言包

https://github.com/tesseract-ocr/tessdata/blob/main/chi_sim.traineddata
(这是中文的。有了它,后续的识别会更精准)
在这里插入图片描述
下载到的语言包放到安装目录的 Tesseract-OCR\tessdata 目录下
在这里插入图片描述

三、代码实现和图片优化

注意:图片的优化很重要,这会极大的提高识别。
【图片越大、像素越清晰,识别的准确度越高。
如果是小图片,需要额外做放大、锐化、对比度等处理。 本文章不做这方面的优化。
各位可以截大图和小图对比一下结果就知道了。】

下面以python实现为例:
程序:替换你的安装路径和图片地址,运行即可测试。

import pytesseract
from PIL import Image# 设置Tesseract路径(根据实际安装路径修改)
pytesseract.pytesseract.tesseract_cmd = r'C:\soft_install\Tesseract-OCR\tesseract.exe'def ocr_scan(image_path):"""对指定图片文件进行OCR识别:param image_path: 图片文件路径(支持PNG/JPG等格式)"""try:# 加载图片文件image = Image.open(image_path)# 识别文字(中英文混合)text = pytesseract.image_to_string(image, lang='chi_sim+eng')print("识别结果:\n", text.strip())except FileNotFoundError:print(f"错误:文件 '{image_path}' 不存在")except Exception as e:print(f"发生错误:{str(e)}")if __name__ == "__main__":# 直接指定图片路径(示例路径)image_path = "processed_latest.png"  # 修改为你的图片路径ocr_scan(image_path)

图片实例如下:

(图1 未经过放大和二值化阈值等处理。 会存在识别失真)
在这里插入图片描述
(图2 经过放大和二值化阈值处理。 上面的程序可以正确识别
在这里插入图片描述

相关文章:

  • c++设计模式-单例模式
  • 【Microsoft 365可用】PPT一键取消所有超链接
  • 私有化部署DeepSeek后行业数据模型的训练步骤
  • “顶点着色器”和“片元着色器”是先处理完所有顶点再统一进入片元阶段,还是一个顶点处理完就去跑它的片元?
  • 说说线程有几种创建方式
  • 嵌入式自学第三十天(5.28)
  • 运维三剑客——sed
  • ArcGIS Pro裁剪影像
  • 单例模式的隐秘危机
  • 《Google I/O 2025:AI浪潮下的科技革新风暴》
  • Web3 风控挑战重重,图数据库为何成为破局关键-悦数图数据库
  • LiveGBS作为下级平台GB28181国标级联2016|2022对接海康大华宇视华为政务公安内网等GB28181国标平台查看级联状态及会话
  • 打破认知壁垒重构科技驱动美好生活 大模型义务传播计划
  • 使用 Shell 脚本实现 Spring Boot 项目自动化部署到 Docker(Ubuntu 服务器)
  • 国际数字影像产业园:以科技赋能,打造文创产业升级新引擎
  • AI赋能金融风控:基于机器学习的智能欺诈检测系统实战教程
  • Dify:详解 docker-compose.yaml配置文件
  • 多线程和并发之线程
  • 摩尔条纹 原理以及matlab 实现
  • 一站式掌握视频编辑器开发:OpenCV + Qt + FFmpeg 实战课程全览
  • 如何用百度搜自己做的网站/百度排行榜风云
  • 做调研的网站有哪些/百度seo查询系统
  • 医疗网站建设案例/百度客服24小时人工电话
  • 怎么制作钓鱼网站/网络优化工程师吃香吗
  • 网站关键词做排名不分/怎么下载需要会员的网站视频
  • wordpress悬浮窗口/北京做网络优化的公司