当前位置: 首页 > news >正文

pyocr 取发票文本信息(图片)

 记录一下 pyocr 使用,后续可以用来取发票的信息,配上正则表达式,就能取出发票号,做一个发票登记功能。

# 官方网站:https://github.com/tesseract-ocr/tesseract
# 官方文档:https://github.com/tesseract-ocr/tessdoc
# 语言包地址:https://github.com/tesseract-ocr/tessdata
# 下载地址:https://digi.bib.uni-mannheim.de/tesseract/
# Tesseract,一款由HP实验室开发由Google维护的开源OCR
# (Optical Character Recognition , 光学字符识别)引擎,
# 与Microsoft Office Document Imaging(MODI)相比,
# 我们可以不断的训练的库,使图像转换文本的能力不断增强;
# 如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。import pyocr
from PIL import Image
import pyocr.builders
# 初始化OCR引擎
tools = pyocr.get_available_tools()
if len(tools) == 0:print("No OCR tool found")exit(1)
ocr_tool = tools[0]# 打开图像文件
image = Image.open('fapiao.png')# 使用OCR引擎进行文本识别
text = ocr_tool.image_to_string(image,lang='chi_sim',#builder=pyocr.builders.TextBuilder()builder = pyocr.builders.TextBuilder()
)# 打印识别结果
print(text)
D:\2.DEVELOP\OCR_TaxInvoice\scan_tax.py 
发票号码: 25122000000036090904
开票日期: 2025年05月28日统一社会信用代码/纳税人识别号: 91 4 4名称: 郑州哈拜网络科技有限公司天津分公司统一社会信用代码/纳税人识别号: 9112xxxxxx项目名称             单 价

相关文章:

  • C++11 右值引用:从入门到精通
  • (转)什么是DockerCompose?它有什么作用?
  • 沉金电路板工艺全解析:关键技术要点与行业应用实践
  • helm与chartmuseum安装
  • CSS 定位:原理 + 场景 + 示例全解析
  • 30.【新型数据架构】-区块链数据架构
  • 【办公类-104-01】20250606通义万相50分一天用完,通义万相2.1专业版测试
  • 软考 系统架构设计师系列知识点之杂项集萃(83)
  • MIT 6.S081 2020 Lab7 Multithreading 个人全流程
  • 【Go面试陷阱】对未初始化的chan进行读写为何会卡死?
  • Python打卡DAY46
  • 全生命周期的智慧城市管理
  • C++ const 修饰符深入浅出详解
  • CVPR 2025 | 港中文 MMLab 提出文生图模型 T2I-R1,文生图进入R1时刻!
  • freeRTOS xQueueGenericSend以及xQueueGenericReceive函数疑问
  • 【AI论文】硬测试:为大型语言模型(LLM)编程合成高质量测试用例
  • 华为大规模——重塑生产力
  • Git仓库的创建
  • 虹科方案 | 高效集成!CAN/CAN FD通信与数字信号控制一体化
  • 艾体宝案例丨Transavia如何借助LambdaTest测试平台高效起飞?
  • 高清vpswindows在线看/冯耀宗seo教程
  • 如何做网站内链/怎样在百度上发帖子
  • 代理服务器地址怎么设置/百度关键词优化多久上首页
  • 怎样做新闻网站/seo新人培训班
  • 工业园区管委会网站建设方案/网店推广实训系统
  • 站酷app/网站排名优化外包