当前位置: 首页 > news >正文

CnSTD+CnOCR的联合使用

        复杂背景的OCR,使用CnSTD定位图像中的文本区域,然后CnOCR对每一个区域内的文字进行识别。

  • 安装

        有一个注意点:如果直接pip安装就会安装最新版的CnSTD和CnOCR,需要使用v5版本的模型,然而我在项目的官网并没有下载到v5版本的模型,甚至在CSDN上花了几十元买了模型也不能使用,我手里的模型是v4版本的,所以不能直接安装最新版否则会出错:

会提示找不到v5版本的模型。

解决办法:安装旧版的。

支持v4模型的最新版本:

pip install cnstd==1.2.5
pip install cnocr==2.3.1
  • 基本的使用

from cnstd import CnStd
from cnocr import CnOcrstd = CnStd()
ocr = CnOcr()box_infos = std.detect('test.jpg', resized_shape=(768, 1024))print(len(box_infos['detected_texts']))
for box_info in box_infos['detected_texts']:cropped_img = box_info['cropped_img']ocr_res = ocr.ocr_for_single_line(cropped_img)print('ocr result: %s' % str(ocr_res))

艾玛,识别效果还是令人满意的。

http://www.dtcms.com/a/355726.html

相关文章:

  • vsgCs显示谷歌全球倾斜模型-节点
  • 9 从 “内存怎么存” 到 “指针怎么用”:计算机内存编址机制 + C 语言指针核心 + memory 模拟实现
  • “AI+制造”政策下,户外智能清洁如何跑出加速度?
  • 20250828-学习JumpServer开源堡垒机使用:统一访问入口 + 安全管控 + 操作审计
  • 复杂BI报表SQL
  • 集成电路学习:什么是TensorFlow
  • MCP Factory——专业 MCP Server 开发平台,正式发布,免费下载!
  • 一站式爬虫MCP服务器助力AI市场分析师
  • 微服务相关面试题
  • ComfyUI ControlNet 保姆级教程:开箱即用的示例工作流,精准控制AI图像生成
  • 记录git报错ssh: connect to host github.com port 22: Connection timed out,已解决
  • P3373 【模板】线段树 2
  • l六步完成麒麟操作系统挂载本地REPO源
  • 软考 系统架构设计师系列知识点之杂项集萃(134)
  • IPv6过渡技术IPv6 over IPv4
  • 【数据结构与算法】LeetCode 20.有效的括号
  • 跨网络通信:路由器如何实现全球互联
  • QT控件:【控件概述】【QWidget核心体系】【按钮类控件】【显示类控件】
  • 实战回忆录从webshell开始突破边界
  • 3D血管图像处理与连接系统
  • Odoo AI 智能查询系统
  • 【LeetCode每日一题】160.相交链表 206. 反转链表
  • AI智能供应链深度解析:从库存优化到风险预警,解锁企业降本提效新路径
  • 基于deepseek的Spring boot入门
  • Zabbix监控Dell R系列硬件(PowerEdge R740等)
  • git 小白入门教学
  • TypeScript:symbol类型
  • vscode自动格式化,取消保存时自动格式化也不好使
  • open webui源码分析11-四个特征之记忆
  • 【MySQL 为什么默认会给 id 建索引? MySQL 主键索引 = 聚簇索引?】