当前位置: 首页 > news >正文

【AI实践】PaddleOCR模型PP-OCRv5上手

背景

paddleocr模型最近破圈,报道开了

本文旨在快速上手,为后续的评测做环境和模型产线基本流程梳理。

  • 关键词:OCR,AI能力
  • 目的:环境搭建,快速上手,流程熟悉
  • 难度:低;

快速上手

官方网站

https://github.com/PaddlePaddle/PaddleOCR?tab=readme-ov-file

部署安装

conda create -n paddleocr
conda activate paddleocr
python -m pip install paddleocr  --break-system-packages
pip install paddlepaddle --break-system-packages

测试demo

测试代码来自官网4.1章节,增加了本地和在线图片的分类调用

# docs:
#   https://github.com/PaddlePaddle/PaddleOCR?tab=readme-ov-file# Initialize PaddleOCR instance
from paddleocr import PaddleOCR
ocr = PaddleOCR(use_doc_orientation_classify=False,use_doc_unwarping=False,use_textline_orientation=False)# Run OCR inference on a sample image 
# online image URL
# result = ocr.predict(
#     input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")# local image path
result = ocr.predict("./general_ocr_002.png")# Visualize the results and save the JSON results
for res in result:res.print()res.save_to_img("output")res.save_to_json("output")

备注:

  1. 首次运行,会下载模型库,耗时略长(1分钟);第二次运行几秒;
  2. 即使首次下载的模型库,第二次运行,也无法断网运行;

根据PP-OCRv5文档

https://www.paddleocr.ai/latest/version3.x/pipeline_usage/OCR.html,本文档提供了代码解析,当然也可以使用vscode自带的copilot进行分析

开发部署

https://www.paddleocr.ai/latest/version3.x/pipeline_usage/OCR.html

根据这个文档,有高性能推理(比如使用CPU进行加速)和服务化部署(http API)2个方案。

本文暂不涉及,略。

二次开发

根据特定领域或应用场景的数据,对现有模型进行进一步的微调,提升精度或速度。

首先,根据业务场景中的数据,跑base 模型,根据badcase进行聚类分析,找到模型产线中具体哪个模块效果差,进行针对性微调。

微调完成后,通过参数配置或者yaml配置文件 ,指定微调后的本地模型路径。

应用UI

Output JSON 文件是 PaddleOCR 对图片 general_ocr_002.png 的识别结果,有时候我们需要把图片上的识别结果进行其它交互。比如英语教材上的单词,点击图片,指导阅读。

字段说明

  • input_path
    图片路径。
  • model_settings / doc_preprocessor_res
    PaddleOCR 的模型参数设置和预处理结果。
  • dt_polys / rec_polys / rec_boxes
    检测到的文本区域的多边形坐标和矩形框坐标。
  • rec_texts
    识别出的文本内容列表。例如:
["登机牌", "BOARDING", "PASS", "日期DATE", "舱位", ...]
  • rec_scores
    每个识别文本的置信度分数,越接近 1 表示识别越准确。
  • text_det_params
    文本检测的参数设置。
  • text_type
    识别类型(如 "general")。
  • textline_orientation_angles
    每行文本的方向角度(此处均为 -1,表示未检测到角度)。

结果解读

  • PaddleOCR 检测并识别了 33 个文本区域,每个区域都给出了位置坐标和识别结果。
  • 识别文本包括中英文、数字等,内容与登机牌相关(如“登机牌”、“BOARDING PASS”、“日期DATE”、“座位号”、“航班FLIGHT”等)。
  • 置信度分数大多在 0.97 以上,说明识别结果较为可靠。
  • 每个文本区域都给出了多边形和矩形框坐标,可用于后续可视化或定位。

应用交互

我们对结果的字段分别解析,如有相关的应用,可以做对应的交互,比如触屏点击/鼠标滑词某个区域,可以复制,播报等其它交互。

http://www.dtcms.com/a/396206.html

相关文章:

  • 网站pr查询自己怎么优化关键词
  • 国外 设计 网站it项目流程八个阶段
  • 从零开始学AI——16
  • 最好的一站式家装公司常州微元宝网站建设
  • 移动应用开发专业刷排名seo软件
  • 《棒球》MLB美职棒洋基队·棒球1号位
  • 速度下载 1.0.0 | 支持56种下载协议,磁力、短视频等
  • 绍兴网站开发公司网站开发语言怎么看
  • 重庆城乡建设部网站首页网站做地区定位跳转
  • 做网站赚多少钱微网站如何做推广方案设计
  • 【PH8 大模型开放平台】Claude Code + PH8:国产大模型的完美融合方案
  • 做ar的网站北京企业网站报价
  • 【51单片机开始第一灯亮间隔1位流水,2个外部中断按键控制流水方向和中间4灯亮】2022-12-20
  • 做网站和做小程序哪个好设计优秀的企业网站
  • 网站建设支付接口千图网在线编辑
  • 制作网站软件叫什么线上h5是什么意思
  • 逆置单链表的两种方法
  • 跨境电商手机app平台资源企业网站排名优化价格
  • 进程VS线程
  • 湖北建设厅造价网站网站切换语言怎么做的
  • 黑白网站设计wordpress安装主题要多久
  • LeetCode 3467.将数组按照奇偶性转化
  • 【Day 64】Linux-抓包工具
  • 要建一个优惠卷网站怎么做wordpress评论表情插件
  • 重庆营销型网站建设价格微信分销平台排行
  • 网站前台模板下载alexa排名前三十
  • 如何学习网站建设专业门户网站开发公司
  • 并发事务问题、隔离级别
  • 自动驾驶的车辆电子电气(E/E)架构拓扑的设计原则 --- 系统划分与权衡参数
  • 定制网站和模板建站哪个更好用react做的网站上传