【学以致用|python自动化办公】OCR批量识别自动存为Excel(批量识别发票)
文章目录
- Python自动化办公
- OCR批量识别自动存为Excel
- 1.下载poocr
- 2.开通腾讯云账号
- 3.具体代码(以识别发票为例)
- 4.其他功能
- 5.总结
Python自动化办公
OCR批量识别自动存为Excel
本笔记仅用于复盘与日后回顾。在此特别感谢开源库
poocr
的作者 晚枫老师(CoderWanFeng),感谢 腾讯云 相关功能的支持
前期准备:需要配置好python和pycharm,我用的是python3.9.7PyCharm2023.3.4专业版(具体安装和配置教程可以上B站上找找)
需要用到的软件安装好后就开始正式操作了
具体步骤如下:
1.下载poocr
poocr 是一个文字识别的第三方库
打开Terminal,输入
pip install -i https://mirrors.aliyun.com/pypi/simple/ poocr -U
使用阿里云镜像下载poocr
附:
下载poocr需要pip,下载前最好先检查一下pip是否准备好了
win+R打开终端
检查pip是否已经安装:
pip --version
如果没安装好,再安装一下:
python -m ensurepip --upgrade
拓展查看pip已经安装的应用:
pip List
2.开通腾讯云账号
-
注册一个腾讯云账号
-
找到OCR这个功能
文字识别 OCR_ 图片文字识别_图片文字智能识别-腾讯云
-
点击免费体验,获得每个月1000次的免费额度
-
打开API密钥管理
访问密钥 - 控制台
新建一个密钥,复制下自己的id和key
3.具体代码(以识别发票为例)
import poocrr_id = '你的id'
r_key = '你的密钥'poocr.ocr2excel.VatInvoiceOCR2Excel(input_path=r'你存放图片的文件夹',output_path=r'你导出Excel的文件夹地址',id=r_id,key=r_key)
>>逐行解释
第 1 行:import poocr
import poocr
- 作用:导入
poocr
这个第三方 Python 库。 - 解释:
poocr
是一个用于 OCR(光学字符识别)办公自动化 的库,特别擅长识别发票、表格等。
第 2行:r_id = '你的id'
r_id = '你的id'
-
作用:定义一个变量
r_id
,用来存储你的 云服务密钥 ID。 -
解释:
-
这里的
id
是调用 腾讯云 OCR 接口 所需的SecretId
。 -
你必须去 腾讯云官网 注册账号,开通 OCR 服务,并获取
SecretId
和SecretKey
。 -
示例(真实值):
r_id = 'AKIDXXXXX123456789'
-
第 3 行:r_key = '你的密钥'
r_key = '你的密钥'
-
作用:定义变量
r_key
,存储你的 云服务密钥 Key。 -
解释
:
-
这是
SecretKey
,和SecretId
配合使用,用于身份验证。 -
示例:
r_key = 'DDzhJlDZv4ziFZfYEhwwlPyMXUM2Xqxu'
-
剩下几行:调用 VatInvoiceOCR2Excel
函数
poocr.ocr2excel.VatInvoiceOCR2Excel(input_path=r'你存放图片的文件夹',output_path=r'你导出Excel的文件夹地址',id=r_id,key=r_key
)
poocr.ocr2excel.VatInvoiceOCR2Excel(...)
-
作用:调用
poocr
库中的一个高级功能函数。 -
解释:
-
poocr
:主库 -
.ocr2excel
:子模块,表示“OCR 转 Excel” -
.VatInvoiceOCR2Excel
:具体函数名,意思是:增值税发票(VAT Invoice)OCR 识别 → 自动导出为 Excel 表格
-
4.其他功能
其他功能请见晚枫老师的文章
Python实现图片文字提取,准确率高达99%,100多个功能全给你!
5.总结
-
腾讯云OCR:提供核心的发票识别能力,处理图像并提取相关信息
用腾讯云OCR识别图像上的信息,返回成JSON格式,接着让poocr处理
-
POOCR:
在python程序中获取发票的关键信息进一步保存和分析