当前位置: 首页 > wzjs >正文

wordpress需要备案北京seo包年

wordpress需要备案,北京seo包年,虚拟主机商,网站建设情况汇报在使用 PyTesseract 进行 OCR 时,合理配置参数是提高识别准确率的关键。以下是 Tesseract 常用参数的详细解释和适用场景。 一、关键参数 (1)页面分割模式(Page Segmentation Mode, --psm) 控制 Tesseract 如何分析…

在使用 PyTesseract 进行 OCR 时,合理配置参数是提高识别准确率的关键。以下是 Tesseract 常用参数的详细解释和适用场景。

一、关键参数

(1)页面分割模式(Page Segmentation Mode, --psm)

控制 Tesseract 如何分析图像中的文本布局,对单行文本、多列文本、表格等不同场景有不同优化。

参数值描述适用场景
0仅定向和脚本检测用于分析文本方向和语言脚本(如中文、英文)
1自动分页处理包含多页内容的图像(如扫描书籍)
2自动分页,但不进行 OCR仅分析页面布局,不识别文本
3全自动分页,无需 OCR默认模式,适用于常规文档
4假设为单列文本处理报纸、杂志等多列文本
5假设为垂直排列的文本处理竖排文字(如古籍、日语竖排)
6假设为单行文本处理单行较长的文本(如标题)
7视为单个文本行短文本、验证码、标语
8视为单个单词孤立单词、品牌名、验证码(无空格)
9视为单个单词在圆圈中圆形排列的文字(如标志)
10视为单个字符单个字母或数字(如车牌字符)
11稀疏文本分散在图像中的文本(如水印、标签)
12稀疏文本,先进行 OSD稀疏文本且需要自动检测方向
13原始行忽略布局,按行处理(适用于不规则文本)

验证码场景推荐:psm 7(单行文本)或 psm 8(单个单词)。

(2)OCR 引擎模式(OCR Engine Mode, --oem)

控制使用的 OCR 引擎类型。

参数值描述适用场景
0仅使用传统 Tesseract 引擎旧版本兼容性,对简单文本可能更快
1仅使用 LSTM 引擎推荐模式,识别准确率更高,支持更多语言
2同时使用两种引擎综合两种引擎结果,可能更准确但更慢
3默认,自动选择通常选择 LSTM 引擎(推荐)

推荐配置:–oem 3(自动选择 LSTM)。

(3)字符白名单(tessedit_char_whitelist)

限制 Tesseract 只识别指定字符,大幅提高特定场景的准确率。

# 仅识别数字
config = r'-c tessedit_char_whitelist=0123456789'# 识别数字和小写字母
config = r'-c tessedit_char_whitelist=0123456789abcdefghijklmnopqrstuvwxyz'

适用场景:

  • 验证码(已知字符集)
  • 车牌识别(如 ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789)
  • 特定领域文本(如仅含数字的发票金额)

(4)语言参数(-l)

指定识别语言,需安装相应语言包。

# 英文
text = pytesseract.image_to_string(image, lang='eng')# 简体中文
text = pytesseract.image_to_string(image, lang='chi_sim')# 中英文混合
text = pytesseract.image_to_string(image, lang='eng+chi_sim')

安装语言包:

  • Windows:通过 Tesseract 安装程序勾选语言包
  • Linux:sudo apt-get install tesseract-ocr-(如 tesseract-ocr-chi-sim)

(5)其他常用参数

参数描述示例
tessedit_pageseg_mode--psm 等效,用于配置文件-c tessedit_pageseg_mode=8
preserve_interword_spaces保留单词间空格(默认为0)-c preserve_interword_spaces=1
textord_min_linesize最小文本行高(像素)-c textord_min_linesize=20
tessedit_char_blacklist黑名单字符(不识别的字符)-c tessedit_char_blacklist=!@#$%^&*()

二、组合参数示例

(1)验证码识别

# 配置:LSTM引擎,视为单个单词,仅识别数字和小写字母
config = r'--oem 3 --psm 8 -c tessedit_char_whitelist=0123456789abcdefghijklmnopqrstuvwxyz'
text = pytesseract.image_to_string(image, config=config)

(2)单行文本(如车牌)

# 配置:单行文本,仅识别大写字母和数字
config = r'--oem 3 --psm 7 -c tessedit_char_whitelist=ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789'
text = pytesseract.image_to_string(image, config=config)

(3)多列文本(如报纸)

# 配置:自动检测多列布局
config = r'--oem 3 --psm 4'
text = pytesseract.image_to_string(image, config=config)

(4)竖排中文文本

# 配置:垂直排列文本,中文识别
config = r'--oem 3 --psm 5 -l chi_sim'
text = pytesseract.image_to_string(image, config=config)
http://www.dtcms.com/wzjs/186945.html

相关文章:

  • 网络营销论文选题方向关键词优化seo公司
  • 网站制作方案垂直领域获客河南今日头条新闻
  • 网络营销企业网站设计网站seo优化运营
  • 马鞍山网站建设 明达石家庄自动seo
  • 哪个网站做效果图好南京seo推广优化
  • WordPress指定IP访问成都网站seo外包
  • 网站开发 . 漫游指南网络营销的好处
  • 沧州网站建设网络推广图片
  • 西安网站设计建设公司微信营销是什么
  • 网站动态域名雅虎搜索
  • 做招聘网站的怎么让人注册简历宁波网站推广找哪家公司
  • 广州市做网站公司深圳seo排名优化
  • 北京百子湾后现代城网站建设宁波seo基础入门
  • 揭阳做网站哪个好sem运营有出路吗
  • 互联网站备案数据统计网站
  • 建设网站过程第一阶段网站宣传方法
  • 网站建设自合肥百度关键词排名
  • 网站开发的业务风险品牌营销策略分析
  • 可以做设计兼职的网站有哪些工作室自媒体营销的策略和方法
  • 企业网站建设合同免费seo优化工具
  • 网站开发税率是多少泉州网站seo公司
  • 广东平台网站建设找哪家抚顺网络推广
  • h5网站案例快速排名seo软件
  • 济源建设企业网站公司百度问一问付费咨询
  • 乐清企业网站建设国外网络推广
  • 蜜雪加盟一般多少钱seo网站排名助手
  • 招生网站建设方案惠州seo管理
  • 新疆网站备案上聊城疫情最新消息
  • 字节跳动员工人数多少东莞网站推广优化公司
  • 深圳做网站公司有那些营销方案设计思路