当前位置: 首页 > news >正文

Tesseract OCR使用

1. 准备tif图片

  • 可以使用 Tesseract 自带的 text2image 工具来生成图像
  • 可以使用jTessBoxEditor将图片生成tif文件

tif命名规则:[lang].[fontname].exp[num].tif

  • lang = 语言
  • fontname = 字体
  • num = 图片序号

比如我们要训练自定义字库 testlang、字体名normal,则命名为testlang.normal.exp0.tif

2. 生成box文件

# 语法如下:
tesseract tif文件名.tif box文件名 -l 字体库 batch.nochop makebox
tesseract zwp.font.exp0.tif \
zwp.font.exp0 \
-l chi_sim \
batch.nochop makebox

注意:tif文件名与box文件名必须保持一致

http://www.dtcms.com/a/31414.html

相关文章:

  • linux 麒麟安装人大金仓数据库
  • 革新之力:数字科技——重塑未来的超越想象之旅
  • AI基本知识讲解
  • java项目之超市管理系统设计与实现(源码+文档)
  • HTML项目一键打包工具:HTML2EXE 最新版
  • Lab13_ Visible error-based SQL injection
  • pika 支持的redis接口及兼容情况
  • VUE中的组件加载方式
  • 重构谷粒商城07:Git一小时快速起飞指南
  • Go 之 Beego 配置文件
  • Vue.js Vue 测试工具:Vue Test Utils 与 Jest
  • 【Golang 面试题】每日 3 题(六十二)
  • CVE-2021-34527: PrintNightmare 域内提权
  • linux--文件属性、目录的操作
  • 计算机网络之物理层——基于《计算机网络》谢希仁第八版
  • 计算机考研之数据结构:P 问题和 NP 问题
  • Spring监听器Listener
  • LLaMA-Factory|微调大语言模型初探索(3),qlora微调deepseek记录
  • qt:输入控件操作
  • 从0-1搭建mac环境最新版
  • Freertos学习第一篇-总体概述
  • springboot三层架构详细讲解
  • 输入搜索、分组展示选项、下拉选取,全局跳转页,el-select 实现 —— 后端数据处理代码,抛砖引玉展思路
  • Java之——“String类”(内容较多,结合目录察看分类)
  • CSS Grid 布局学习笔记
  • Android 之 AIDL for HAL
  • qt-C++笔记之创建和初始化 `QGraphicsScene` 和 `QGraphicsView` 并关联视图和场景的方法
  • React进阶之前端业务Hooks库(一)
  • 基于Spring Boot的RabbitMQ延时队列技术实现
  • 服务器Docker OOM RSS高问题排查思路