当前位置: 首页 > news >正文

【学以致用|python自动化办公】OCR批量识别自动存为Excel(批量识别发票)

文章目录

  • Python自动化办公
    • OCR批量识别自动存为Excel
        • 1.下载poocr
        • 2.开通腾讯云账号
        • 3.具体代码(以识别发票为例)
        • 4.其他功能
        • 5.总结

Python自动化办公

OCR批量识别自动存为Excel

本笔记仅用于复盘与日后回顾。在此特别感谢开源库 poocr 的作者 晚枫老师(CoderWanFeng),感谢 腾讯云 相关功能的支持

前期准备:需要配置好python和pycharm,我用的是python3.9.7PyCharm2023.3.4专业版(具体安装和配置教程可以上B站上找找)

需要用到的软件安装好后就开始正式操作了

具体步骤如下:

1.下载poocr

poocr 是一个文字识别的第三方库

打开Terminal,输入

pip install -i https://mirrors.aliyun.com/pypi/simple/ poocr -U

使用阿里云镜像下载poocr

在这里插入图片描述

附:

下载poocr需要pip,下载前最好先检查一下pip是否准备好了

win+R打开终端

检查pip是否已经安装:

pip --version

如果没安装好,再安装一下:

python -m ensurepip --upgrade

拓展查看pip已经安装的应用:

pip List
2.开通腾讯云账号
  1. 注册一个腾讯云账号

  2. 找到OCR这个功能

    文字识别 OCR_ 图片文字识别_图片文字智能识别-腾讯云

    在这里插入图片描述

  3. 点击免费体验,获得每个月1000次的免费额度

  4. 打开API密钥管理

    访问密钥 - 控制台

    新建一个密钥,复制下自己的id和key

3.具体代码(以识别发票为例)
import poocrr_id = '你的id'
r_key = '你的密钥'poocr.ocr2excel.VatInvoiceOCR2Excel(input_path=r'你存放图片的文件夹',output_path=r'你导出Excel的文件夹地址',id=r_id,key=r_key)

>>逐行解释

第 1 行:import poocr

import poocr
  • 作用:导入 poocr 这个第三方 Python 库。
  • 解释:
    • poocr 是一个用于 OCR(光学字符识别)办公自动化 的库,特别擅长识别发票、表格等。

第 2行:r_id = '你的id'

r_id = '你的id'
  • 作用:定义一个变量 r_id,用来存储你的 云服务密钥 ID

  • 解释:

    • 这里的 id 是调用 腾讯云 OCR 接口 所需的 SecretId

    • 你必须去 腾讯云官网 注册账号,开通 OCR 服务,并获取 SecretIdSecretKey

    • 示例(真实值):

      r_id = 'AKIDXXXXX123456789'
      

第 3 行:r_key = '你的密钥'

r_key = '你的密钥'
  • 作用:定义变量 r_key,存储你的 云服务密钥 Key

  • 解释

    • 这是 SecretKey,和 SecretId 配合使用,用于身份验证。

    • 示例:

      r_key = 'DDzhJlDZv4ziFZfYEhwwlPyMXUM2Xqxu'
      

剩下几行:调用 VatInvoiceOCR2Excel 函数

poocr.ocr2excel.VatInvoiceOCR2Excel(input_path=r'你存放图片的文件夹',output_path=r'你导出Excel的文件夹地址',id=r_id,key=r_key
)

poocr.ocr2excel.VatInvoiceOCR2Excel(...)

  • 作用:调用 poocr 库中的一个高级功能函数

  • 解释:

    • poocr:主库

    • .ocr2excel:子模块,表示“OCR 转 Excel”

    • .VatInvoiceOCR2Excel:具体函数名,意思是:

      增值税发票(VAT Invoice)OCR 识别 → 自动导出为 Excel 表格

4.其他功能

其他功能请见晚枫老师的文章

Python实现图片文字提取,准确率高达99%,100多个功能全给你!

5.总结
  • 腾讯云OCR:提供核心的发票识别能力,处理图像并提取相关信息

    用腾讯云OCR识别图像上的信息,返回成JSON格式,接着让poocr处理

  • POOCR

    在python程序中获取发票的关键信息进一步保存和分析

http://www.dtcms.com/a/482049.html

相关文章:

  • AJAX 实时搜索
  • 详细介绍C++中通过OLE操作excel时,一般会出现哪些异常,这些异常的原因是什么,如何来解决这些异常
  • ES6知识点详解和应用场景
  • 网站平台建设可行性c 网站开发项目教程
  • Webpack 核心知识点详解:proxy、热更新、Loader与Plugin全解析
  • 本地搭建 Jekyll 环境
  • 前端基础之《React(1)—webpack简介》
  • 攻击者利用Discord Webhook通过npm、PyPI和Ruby软件包构建隐蔽C2通道
  • [Spark] Metrics收集流程
  • pyspark并行性能提升经验
  • HTML盒子模型详解
  • 个人电脑做网站违法吗东莞市住建局官网
  • 下载selenium-ide及使用
  • [Spark] 事件总线机制
  • 长春建站公众号wordpress4.7中文主题
  • 6.string的模拟实现(三)
  • AQS 为什么采用抽象类(abstract class)而不是接口(interface)实现?
  • stable-diffusion-webui / stable-diffusion-webui-forge部署
  • 阿里云和聚名网的域名注册安全性如何?
  • 别让链表兜圈子——力扣141.环形链表
  • 济南网站推广公司做二手网站的用意
  • 专业的汽车媒体发稿怎么选
  • 事务消息(Transactional Message)
  • 北京网站开发周期专业的传媒行业网站开发
  • 高频使用RocksDB DeleteRange引起的问题及优化
  • for是什么意思?从foreign、forest谈起
  • 网站开发设计工程师网上注册公司申请入口
  • ARM 总线技术 —— AHB
  • .NET 程序自动更新的回忆总结
  • 自然语言处理笔记