当前位置: 首页 > news >正文

Tesseract OCR使用

1. 准备tif图片

  • 可以使用 Tesseract 自带的 text2image 工具来生成图像
  • 可以使用jTessBoxEditor将图片生成tif文件

tif命名规则:[lang].[fontname].exp[num].tif

  • lang = 语言
  • fontname = 字体
  • num = 图片序号

比如我们要训练自定义字库 testlang、字体名normal,则命名为testlang.normal.exp0.tif

2. 生成box文件

# 语法如下:
tesseract tif文件名.tif box文件名 -l 字体库 batch.nochop makebox
tesseract zwp.font.exp0.tif \
zwp.font.exp0 \
-l chi_sim \
batch.nochop makebox

注意:tif文件名与box文件名必须保持一致

相关文章:

  • linux 麒麟安装人大金仓数据库
  • 革新之力:数字科技——重塑未来的超越想象之旅
  • AI基本知识讲解
  • java项目之超市管理系统设计与实现(源码+文档)
  • HTML项目一键打包工具:HTML2EXE 最新版
  • Lab13_ Visible error-based SQL injection
  • pika 支持的redis接口及兼容情况
  • VUE中的组件加载方式
  • 重构谷粒商城07:Git一小时快速起飞指南
  • Go 之 Beego 配置文件
  • Vue.js Vue 测试工具:Vue Test Utils 与 Jest
  • 【Golang 面试题】每日 3 题(六十二)
  • CVE-2021-34527: PrintNightmare 域内提权
  • linux--文件属性、目录的操作
  • 计算机网络之物理层——基于《计算机网络》谢希仁第八版
  • 计算机考研之数据结构:P 问题和 NP 问题
  • Spring监听器Listener
  • LLaMA-Factory|微调大语言模型初探索(3),qlora微调deepseek记录
  • qt:输入控件操作
  • 从0-1搭建mac环境最新版
  • 4月新增社融1.16万亿,还原地方债务置换影响后信贷增速超过8%
  • 江西贵溪:铜板上雕出的国潮美学
  • 赖清德为“临阵脱逃”作准备,国台办:绝不会任“台独”祸首逍遥法外
  • 中国至越南河内国际道路运输线路正式开通
  • 人才争夺战,二三线城市和一线城市拼什么?洛阳官方调研剖析
  • 人民日报整版聚焦:专家学者看2025中国经济增长点