当前位置：首页 > news >正文

【AI实践】PaddleOCR模型PP-OCRv5上手

news 2025/9/23 16:17:29

背景

paddleocr模型最近破圈，报道开了

本文旨在快速上手，为后续的评测做环境和模型产线基本流程梳理。

关键词：OCR，AI能力
目的：环境搭建，快速上手，流程熟悉
难度：低；

快速上手

官方网站

https://github.com/PaddlePaddle/PaddleOCR?tab=readme-ov-file

部署安装

conda create -n paddleocr
conda activate paddleocr
python -m pip install paddleocr  --break-system-packages
pip install paddlepaddle --break-system-packages

测试demo

测试代码来自官网4.1章节，增加了本地和在线图片的分类调用

# docs:
#   https://github.com/PaddlePaddle/PaddleOCR?tab=readme-ov-file# Initialize PaddleOCR instance
from paddleocr import PaddleOCR
ocr = PaddleOCR(use_doc_orientation_classify=False,use_doc_unwarping=False,use_textline_orientation=False)# Run OCR inference on a sample image 
# online image URL
# result = ocr.predict(
#     input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")# local image path
result = ocr.predict("./general_ocr_002.png")# Visualize the results and save the JSON results
for res in result:res.print()res.save_to_img("output")res.save_to_json("output")

备注：

首次运行，会下载模型库，耗时略长（1分钟）；第二次运行几秒；
即使首次下载的模型库，第二次运行，也无法断网运行；

根据PP-OCRv5文档

https://www.paddleocr.ai/latest/version3.x/pipeline_usage/OCR.html，本文档提供了代码解析，当然也可以使用vscode自带的copilot进行分析

开发部署

https://www.paddleocr.ai/latest/version3.x/pipeline_usage/OCR.html

根据这个文档，有高性能推理（比如使用CPU进行加速）和服务化部署（http API）2个方案。

本文暂不涉及，略。

二次开发

根据特定领域或应用场景的数据，对现有模型进行进一步的微调，提升精度或速度。

首先，根据业务场景中的数据，跑base 模型，根据badcase进行聚类分析，找到模型产线中具体哪个模块效果差，进行针对性微调。

微调完成后，通过参数配置或者yaml配置文件，指定微调后的本地模型路径。

应用UI

Output JSON 文件是 PaddleOCR 对图片 general_ocr_002.png 的识别结果，有时候我们需要把图片上的识别结果进行其它交互。比如英语教材上的单词，点击图片，指导阅读。

字段说明

input_path
图片路径。
model_settings / doc_preprocessor_res
PaddleOCR 的模型参数设置和预处理结果。
dt_polys / rec_polys / rec_boxes
检测到的文本区域的多边形坐标和矩形框坐标。
rec_texts
识别出的文本内容列表。例如：

["登机牌", "BOARDING", "PASS", "日期DATE", "舱位", ...]

rec_scores
每个识别文本的置信度分数，越接近 1 表示识别越准确。
text_det_params
文本检测的参数设置。
text_type
识别类型（如 "general"）。
textline_orientation_angles
每行文本的方向角度（此处均为 -1，表示未检测到角度）。

结果解读

PaddleOCR 检测并识别了 33 个文本区域，每个区域都给出了位置坐标和识别结果。
识别文本包括中英文、数字等，内容与登机牌相关（如“登机牌”、“BOARDING PASS”、“日期DATE”、“座位号”、“航班FLIGHT”等）。
置信度分数大多在 0.97 以上，说明识别结果较为可靠。
每个文本区域都给出了多边形和矩形框坐标，可用于后续可视化或定位。

应用交互

我们对结果的字段分别解析，如有相关的应用，可以做对应的交互，比如触屏点击/鼠标滑词某个区域，可以复制，播报等其它交互。

查看全文

http://www.dtcms.com/a/396206.html

网站pr查询自己怎么优化关键词

国外设计网站it项目流程八个阶段

从零开始学AI——16

最好的一站式家装公司常州微元宝网站建设

移动应用开发专业刷排名seo软件

《棒球》MLB美职棒洋基队·棒球1号位

速度下载 1.0.0 | 支持56种下载协议，磁力、短视频等

绍兴网站开发公司网站开发语言怎么看

重庆城乡建设部网站首页网站做地区定位跳转

做网站赚多少钱微网站如何做推广方案设计

【PH8 大模型开放平台】Claude Code + PH8：国产大模型的完美融合方案

做ar的网站北京企业网站报价

【51单片机开始第一灯亮间隔1位流水，2个外部中断按键控制流水方向和中间4灯亮】2022-12-20

做网站和做小程序哪个好设计优秀的企业网站

网站建设支付接口千图网在线编辑

制作网站软件叫什么线上h5是什么意思

逆置单链表的两种方法

跨境电商手机app平台资源企业网站排名优化价格

进程VS线程

湖北建设厅造价网站网站切换语言怎么做的

黑白网站设计wordpress安装主题要多久

LeetCode 3467.将数组按照奇偶性转化

【Day 64】Linux-抓包工具

要建一个优惠卷网站怎么做wordpress评论表情插件

重庆营销型网站建设价格微信分销平台排行

网站前台模板下载alexa排名前三十

如何学习网站建设专业门户网站开发公司

并发事务问题、隔离级别

自动驾驶的车辆电子电气（E/E）架构拓扑的设计原则 --- 系统划分与权衡参数

定制网站和模板建站哪个更好用react做的网站上传

背景