Tesseract OCR 配置参数详解
Tesseract OCR 配置参数详解
--psm 6 -l eng 是传递给 Tesseract OCR 引擎的配置参数,用于控制 OCR 处理方式和语言设置。以下是详细解释和代码示例:
配置参数含义
Python
config = '--psm 6 -l eng' 
--psm 6:PSM(Page Segmentation Mode)表示页面分割模式
数值
6表示 假设图像是一个统一的文本块适合处理单列文本、表格单元格或图像中的单个文本区域
其他常见PSM模式:
--psm 3:完全自动分割(默认)--psm 4:按列分割文本--psm 7:将图像视为单行文本--psm 11:稀疏文本(仅识别字母和数字)
-l eng:-l参数指定使用的语言eng表示使用英语语言模型支持的语言代码:
chi_sim:简体中文chi_tra:繁体中文jpn:日语kor:韩语fra:法语可同时指定多种语言:
-l eng+chi_sim
config = ('--psm 7 ' # 单行文本模式'-l eng ''--oem 1 ''-c tessedit_char_whitelist=ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789')
