当前位置: 首页 > wzjs >正文

如何修改网站源文件中国最大的博客网站

如何修改网站源文件,中国最大的博客网站,企业管理咨询培训,天眼官网在使用 PyTesseract 进行 OCR 时,合理配置参数是提高识别准确率的关键。以下是 Tesseract 常用参数的详细解释和适用场景。 一、关键参数 (1)页面分割模式(Page Segmentation Mode, --psm) 控制 Tesseract 如何分析…

在使用 PyTesseract 进行 OCR 时,合理配置参数是提高识别准确率的关键。以下是 Tesseract 常用参数的详细解释和适用场景。

一、关键参数

(1)页面分割模式(Page Segmentation Mode, --psm)

控制 Tesseract 如何分析图像中的文本布局,对单行文本、多列文本、表格等不同场景有不同优化。

参数值描述适用场景
0仅定向和脚本检测用于分析文本方向和语言脚本(如中文、英文)
1自动分页处理包含多页内容的图像(如扫描书籍)
2自动分页,但不进行 OCR仅分析页面布局,不识别文本
3全自动分页,无需 OCR默认模式,适用于常规文档
4假设为单列文本处理报纸、杂志等多列文本
5假设为垂直排列的文本处理竖排文字(如古籍、日语竖排)
6假设为单行文本处理单行较长的文本(如标题)
7视为单个文本行短文本、验证码、标语
8视为单个单词孤立单词、品牌名、验证码(无空格)
9视为单个单词在圆圈中圆形排列的文字(如标志)
10视为单个字符单个字母或数字(如车牌字符)
11稀疏文本分散在图像中的文本(如水印、标签)
12稀疏文本,先进行 OSD稀疏文本且需要自动检测方向
13原始行忽略布局,按行处理(适用于不规则文本)

验证码场景推荐:psm 7(单行文本)或 psm 8(单个单词)。

(2)OCR 引擎模式(OCR Engine Mode, --oem)

控制使用的 OCR 引擎类型。

参数值描述适用场景
0仅使用传统 Tesseract 引擎旧版本兼容性,对简单文本可能更快
1仅使用 LSTM 引擎推荐模式,识别准确率更高,支持更多语言
2同时使用两种引擎综合两种引擎结果,可能更准确但更慢
3默认,自动选择通常选择 LSTM 引擎(推荐)

推荐配置:–oem 3(自动选择 LSTM)。

(3)字符白名单(tessedit_char_whitelist)

限制 Tesseract 只识别指定字符,大幅提高特定场景的准确率。

# 仅识别数字
config = r'-c tessedit_char_whitelist=0123456789'# 识别数字和小写字母
config = r'-c tessedit_char_whitelist=0123456789abcdefghijklmnopqrstuvwxyz'

适用场景:

  • 验证码(已知字符集)
  • 车牌识别(如 ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789)
  • 特定领域文本(如仅含数字的发票金额)

(4)语言参数(-l)

指定识别语言,需安装相应语言包。

# 英文
text = pytesseract.image_to_string(image, lang='eng')# 简体中文
text = pytesseract.image_to_string(image, lang='chi_sim')# 中英文混合
text = pytesseract.image_to_string(image, lang='eng+chi_sim')

安装语言包:

  • Windows:通过 Tesseract 安装程序勾选语言包
  • Linux:sudo apt-get install tesseract-ocr-(如 tesseract-ocr-chi-sim)

(5)其他常用参数

参数描述示例
tessedit_pageseg_mode--psm 等效,用于配置文件-c tessedit_pageseg_mode=8
preserve_interword_spaces保留单词间空格(默认为0)-c preserve_interword_spaces=1
textord_min_linesize最小文本行高(像素)-c textord_min_linesize=20
tessedit_char_blacklist黑名单字符(不识别的字符)-c tessedit_char_blacklist=!@#$%^&*()

二、组合参数示例

(1)验证码识别

# 配置:LSTM引擎,视为单个单词,仅识别数字和小写字母
config = r'--oem 3 --psm 8 -c tessedit_char_whitelist=0123456789abcdefghijklmnopqrstuvwxyz'
text = pytesseract.image_to_string(image, config=config)

(2)单行文本(如车牌)

# 配置:单行文本,仅识别大写字母和数字
config = r'--oem 3 --psm 7 -c tessedit_char_whitelist=ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789'
text = pytesseract.image_to_string(image, config=config)

(3)多列文本(如报纸)

# 配置:自动检测多列布局
config = r'--oem 3 --psm 4'
text = pytesseract.image_to_string(image, config=config)

(4)竖排中文文本

# 配置:垂直排列文本,中文识别
config = r'--oem 3 --psm 5 -l chi_sim'
text = pytesseract.image_to_string(image, config=config)
http://www.dtcms.com/wzjs/557837.html

相关文章:

  • 平台企业采用劳务派遣方式用工的网站建设 猫云seo
  • 获取网站访客qq萍乡招聘网站建设
  • 创口贴网站模板介绍常见的网络营销方式
  • 亿度网络网站建设哪个网站是做韩国化妆品正品
  • 有不收费的网站网页游戏开服表时间表
  • 程序源代码下载网站鼓楼机关建设网站
  • 英文营销网站wordpress博客acg主题
  • asp.net做毕业设计网站惠州网站建设技术支持
  • 凡科建设网站如何对话框网站开发外包 合同
  • 有哪些好的做网站西安网站seo哪家公司好
  • 网络文化有限公司网站建设策划书网络规划设计师工资
  • app展示网站模板html如何进行网站网站调试
  • 网站建设犭金手指C排名15实时网站制作
  • app企业网站模板免费下载如何用自己公司网站做邮箱
  • 梧州网站建设有哪些物业管理网站开发背景
  • 宁波网站建设公司怎么报价北京建站管理系统价格
  • 企业网站建设与网页设计学什么的wordpress 内部函数
  • 如何建设个人网站和博客自己想做一个网站怎么做
  • 青州网站优化如何做网站弹窗广告
  • 昆凌做的广告买化妆品网站宝坻集团网站建设
  • 外贸网站 栏目网上哪里有卖嗅探器
  • 公司网站建设30元个性化定制网站
  • 建设宁夏分行互联网站义乌建设网站制作
  • 需要手机端网站建设的企业wordpress压缩图片质量
  • 简述建设iis网站的基本过程公司需要做网站需要什么流程
  • 泰州注册公司滁州seo网站推广
  • wordpress后台加站点图标如何做网页宣传
  • 吉安网站制作公司wordpress 优酷免广告插件
  • 北京网站设计公司哪家公司好博客 选择 WordPress
  • 长春网站制作湖州十大进出口公司