pyocr 取发票文本信息(图片)
记录一下 pyocr 使用,后续可以用来取发票的信息,配上正则表达式,就能取出发票号,做一个发票登记功能。
# 官方网站:https://github.com/tesseract-ocr/tesseract
# 官方文档:https://github.com/tesseract-ocr/tessdoc
# 语言包地址:https://github.com/tesseract-ocr/tessdata
# 下载地址:https://digi.bib.uni-mannheim.de/tesseract/
# Tesseract,一款由HP实验室开发由Google维护的开源OCR
# (Optical Character Recognition , 光学字符识别)引擎,
# 与Microsoft Office Document Imaging(MODI)相比,
# 我们可以不断的训练的库,使图像转换文本的能力不断增强;
# 如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。import pyocr
from PIL import Image
import pyocr.builders
# 初始化OCR引擎
tools = pyocr.get_available_tools()
if len(tools) == 0:print("No OCR tool found")exit(1)
ocr_tool = tools[0]# 打开图像文件
image = Image.open('fapiao.png')# 使用OCR引擎进行文本识别
text = ocr_tool.image_to_string(image,lang='chi_sim',#builder=pyocr.builders.TextBuilder()builder = pyocr.builders.TextBuilder()
)# 打印识别结果
print(text)
D:\2.DEVELOP\OCR_TaxInvoice\scan_tax.py
发票号码: 25122000000036090904
开票日期: 2025年05月28日统一社会信用代码/纳税人识别号: 91 4 4名称: 郑州哈拜网络科技有限公司天津分公司统一社会信用代码/纳税人识别号: 9112xxxxxx项目名称 单 价