当前位置：首页 > news >正文

CnSTD+CnOCR的联合使用

news 2025/8/29 11:09:43

复杂背景的OCR，使用CnSTD定位图像中的文本区域，然后CnOCR对每一个区域内的文字进行识别。

安装

有一个注意点：如果直接pip安装就会安装最新版的CnSTD和CnOCR，需要使用v5版本的模型，然而我在项目的官网并没有下载到v5版本的模型，甚至在CSDN上花了几十元买了模型也不能使用，我手里的模型是v4版本的，所以不能直接安装最新版否则会出错：

会提示找不到v5版本的模型。

解决办法：安装旧版的。

支持v4模型的最新版本：

pip install cnstd==1.2.5
pip install cnocr==2.3.1

基本的使用

from cnstd import CnStd
from cnocr import CnOcrstd = CnStd()
ocr = CnOcr()box_infos = std.detect('test.jpg', resized_shape=(768, 1024))print(len(box_infos['detected_texts']))
for box_info in box_infos['detected_texts']:cropped_img = box_info['cropped_img']ocr_res = ocr.ocr_for_single_line(cropped_img)print('ocr result: %s' % str(ocr_res))

艾玛，识别效果还是令人满意的。

http://www.dtcms.com/a/355726.html

相关文章：

vsgCs显示谷歌全球倾斜模型-节点

9 从 “内存怎么存” 到 “指针怎么用”：计算机内存编址机制 + C 语言指针核心 + memory 模拟实现

“AI+制造”政策下，户外智能清洁如何跑出加速度？

20250828-学习JumpServer开源堡垒机使用：统一访问入口 + 安全管控 + 操作审计

复杂BI报表SQL

集成电路学习：什么是TensorFlow

MCP Factory——专业 MCP Server 开发平台，正式发布，免费下载！

一站式爬虫MCP服务器助力AI市场分析师

微服务相关面试题

ComfyUI ControlNet 保姆级教程：开箱即用的示例工作流，精准控制AI图像生成

记录git报错ssh: connect to host github.com port 22: Connection timed out，已解决

P3373 【模板】线段树 2

l六步完成麒麟操作系统挂载本地REPO源

软考系统架构设计师系列知识点之杂项集萃（134）

IPv6过渡技术IPv6 over IPv4

【数据结构与算法】LeetCode 20.有效的括号

跨网络通信：路由器如何实现全球互联

QT控件：【控件概述】【QWidget核心体系】【按钮类控件】【显示类控件】

实战回忆录从webshell开始突破边界

3D血管图像处理与连接系统

Odoo AI 智能查询系统

【LeetCode每日一题】160.相交链表 206. 反转链表

AI智能供应链深度解析：从库存优化到风险预警，解锁企业降本提效新路径

基于deepseek的Spring boot入门

Zabbix监控Dell R系列硬件(PowerEdge R740等)

git 小白入门教学

TypeScript：symbol类型

vscode自动格式化，取消保存时自动格式化也不好使

open webui源码分析11-四个特征之记忆

【MySQL 为什么默认会给 id 建索引？ MySQL 主键索引 = 聚簇索引？】