当前位置: 首页 > news >正文

【麒麟桌面系统】V10-SP1 2503 系统知识——Umi-OCR⽂字识别⼯具

提示:分享麒麟桌面操作系统 V10 SP1 2503 ( Kylin-Desktop-V10-SP1 2503 )Umi-OCR⽂字识别⼯具的详细方法

1、Umi-OCR 概述

1、Umi-OCR简介

Umi-OCR:是一款免费、开源、可批量的离线光学字符识别(OCR)工具,可以将图片中的文字提取并转换为可编辑的文本,并支持截图OCR、 批量OCR 、 PDF识别 、 二维码 、 公式识别等功能。

在这里插入图片描述

2、Umi-OCR特点

① 免费 :本项目所有代码开源,完全免费;
② 方便:解压即用,离线运行,无需网络;
③ 高效:自带高效率的离线OCR引擎,内置多种语言识别库;
④ 灵活:支持命令行、HTTP接口等外部调用方式;
⑤ 功能:支持截图OCR / 批量OCR / PDF识别 / 二维码 / 公式识别等功能

2、Umi-OCR下载

1、蓝奏云

蓝奏云(说明:无麒麟系统版本)下载地址:https://hiroi-sora.lanzoul.com/s/umi-ocr

https://hiroi-sora.lanzoul.com/s/umi-ocr

在这里插入图片描述

2、GitHub

GitHub 下载地址:https://github.com/hiroi-sora/Umi-OCR/releases/latest

https://github.com/hiroi-sora/Umi-OCR/releases/latest

在这里插入图片描述

3、Source Forge

Source Forge 下载地址:https://sourceforge.net/projects/umi-ocr

https://sourceforge.net/projects/umi-ocr

在这里插入图片描述

4、百度网盘

百度网盘下载地址:因链接存在更新,建议通过文末添加作者微信获取最新分享链接

在这里插入图片描述

3、Umi-OCR 安装

1、解压安装包

1.选中已下载的安装包,点击鼠标右键;

在这里插入图片描述

2.点击解压到此处;

在这里插入图片描述

3.等待解压完成;

在这里插入图片描述

4.解压完成。

在这里插入图片描述

2、运行Umi-OCR

1.按需存放解压后的文件夹(说明:根据实际情况选择存储位置);

在这里插入图片描述

2.进入Umi-OCR_Linux_Paddle_2.1.5文件夹;

在这里插入图片描述

3.双击umi-ocr.sh文件;

在这里插入图片描述

4.点击 直接运行;

在这里插入图片描述

5.点击始终允许;

在这里插入图片描述

6.运行成功。

在这里插入图片描述

3、Umi-OCR 使用

1、界面语言

1.1 自动配置

在首次打开软件时,将会按照你的电脑的系统设置,自动切换语言;

在这里插入图片描述

1.2 手动设置

1.点击全局配置;

在这里插入图片描述

2.点击语言后的下拉选项;

在这里插入图片描述

3.按需选择需要设置的语言;

在这里插入图片描述

4.点击 Quit Umi-OCR 重启软件生效。

在这里插入图片描述

2、标签页

2.1 打开标签页

Umi-OCR v2 由一系列灵活好用的标签页组成,按照需使用的功能,打开需要的标签页。

在这里插入图片描述

2.2 锁定标签页

右上角能够锁定标签页,以防止日常使用中误触关闭标签页。

在这里插入图片描述

3、截图OCR

3.1 功能

截图OCR:打开这一页后,就可以用快捷键唤起截图,识别图中的文字。

在这里插入图片描述

3.2 图片预览栏

图片预览栏:位于截图OCR功能界面左侧,支持直接用鼠标划选复制。

在这里插入图片描述

3.3 设置栏

设置栏:位于截图OCR功能界面右侧,可以设置截图OCR界面相关参数

在这里插入图片描述

3.3 识别记录栏

识别记录栏:位于截图OCR功能界面右侧,可以编辑文字,允许划选多个记录复制。

在这里插入图片描述

3.4 屏幕截图

屏幕截图:支持通过点击截图完成屏幕截图,以识别截图中的文字。

在这里插入图片描述

3.5 粘贴图片

粘贴图片:支持通过点击粘贴完成复制图片中的文字识别(说明:复制图片路径需要存放在Umi-OCR_Linux_Paddle_2.1.5文件夹及以下)。

在这里插入图片描述

3.6 OCR文本后处理
3.6.1 OCR文本后处理介绍

OCR文本后处理:位于截图OCR功能界面的设置栏下。

在这里插入图片描述

3.6.2 OCR文本后处理参数

① 多栏-按自然段换行:适合大部分情景,自动识别多栏布局,按自然段规则进行换行;
② 多栏-总是换行:每段语句都进行换行;
③ 多栏-无换行:强制将所有语句合并到同一行;
④ 单栏-按自然段换行:不区分多栏布局按自然段规则进行换行;
⑤ 单栏-总是换行:不区分多栏布局对每段语句都进行换行;
⑥ 单栏-无换行:不区分多栏布局强制将所有语句合并到同一行;
⑦ 单栏-保留缩进:适用于解析代码截图,保留行首缩进和行中空格;
⑧ 不做处理:OCR引擎的原始输出,默认每段语句都进行换行。

在这里插入图片描述

4、批量OCR

4.1 功能

批量OCR:用于批量导入本地图片进行识别,并且没有数量上限,可一次性导入几百张图片进行任务。

在这里插入图片描述

4.2 识别格式

识别格式:支持识别 jpg, jpe, jpeg, jfif, png, webp, bmp, tif, tiff等格式图片。

在这里插入图片描述

4.3 保存格式

保存格式:支持保存 txt, jsonl, md, csv(Excel)等格式的文件。

在这里插入图片描述

4.4 识别大图

识别大图:若需识别像素超大的长图或大图,可通过 页面的设置→文字识别→限制图像边长→【调高数值】来实现此功能。

在这里插入图片描述

4.5 忽略区域
4.5.1 忽略区域介绍

忽略区域:批量OCR中的一种特殊功能,适用于排除图片中的不想要的文字。

在这里插入图片描述

4.5.2 使用方法

1.在批量识别页的右栏设置中可进入忽略区域编辑器;

在这里插入图片描述

2.按住右键,绘制多个矩形框(说明:框内的文字将在任务中被忽略)。

在这里插入图片描述

4.6 OCR文本后处理
4.6.1 OCR文本后处理介绍

OCR文本后处理:位于批量OCR功能界面的设置栏下。

在这里插入图片描述

4.6.2 OCR文本后处理参数

① 多栏-按自然段换行:适合大部分情景,自动识别多栏布局,按自然段规则进行换行;
② 多栏-总是换行:每段语句都进行换行;
③ 多栏-无换行:强制将所有语句合并到同一行;
④ 单栏-按自然段换行:不区分多栏布局按自然段规则进行换行;
⑤ 单栏-总是换行:不区分多栏布局对每段语句都进行换行;
⑥ 单栏-无换行:不区分多栏布局强制将所有语句合并到同一行;
⑦ 单栏-保留缩进:适用于解析代码截图,保留行首缩进和行中空格;
⑧ 不做处理:OCR引擎的原始输出,默认每段语句都进行换行。

在这里插入图片描述

5、文档识别

5.1 功能

文档识别:对扫描件进行OCR,或提取原有文本。

在这里插入图片描述

5.2 识别格式

识别格式:支持识别pdf, xps, epub, mobi, fb2, cbz等格式的文件。

在这里插入图片描述

5.3 忽略区域

说明:使用方法同批量OCR一致,不重复演示。

在这里插入图片描述

6、二维码

6.1 功能

二维码:支持读取二维码、条形码内容和通过输入内容生成二维码。

在这里插入图片描述

6.2 读取二维码

读取二维码功能:通过截图、粘贴、拖入图片,读取其中的二维码、条形码。

在这里插入图片描述

6.3 生成二维码

生成二维码:通过输入文本,生成二维码图片(说明:平台无法上传二维码)。

http://www.dtcms.com/a/523679.html

相关文章:

  • macOS 常用命令速查手册
  • Mac 安装neo4j(解压版)最新版本教程
  • 使用Python实现MCP协议Streamable HTTP详细教程
  • JMeter测试HTTP GET(附实例)
  • 保定网站建设系统wordpress 后台速度优化
  • 【OS笔记21】:处理机调度3-进程调度
  • Flutter中Key的作用以及应用场景
  • linux ubuntu 报错findfont: Font family ‘Times New Roman‘ not found.
  • 基于单片机的滴速液位输液报警系统
  • 如何通过 C# 高效读写 Excel 工作表
  • 【final、finally和 finalize的区别】
  • JVM直接内存和堆内存比例如何设置?
  • Spring Boot 启动时,JVM 是如何工作的?
  • 个性化网站建设开发李沧建网站公司
  • 益品康丰集团:以科技重塑康养未来,让健康触手可及
  • 华为Watch GT 6:运动与科技的完美融合
  • 微算法科技(NASDAQ MLGO)开发基于区块链的差分优化联邦增量学习算法,提高机器学习的性能与安全性
  • 《水龙吟》开播即热 李家豪化身“阳光侠客”点亮玄侠江湖
  • Linux基础 -- UBI模块之 leb_read_sanity_check函数说明
  • 深入解析 Transformer 模型:以 ChatGPT 为例从词嵌入到输出预测的大语言模型核心工作机制
  • 破局延时任务(上):为什么选择Spring Boot + DelayQueue来自研分布式延时队列组件?
  • 云手机是一种应用软件吗?
  • 工业无线通信突破!SG-Lora-TCP 模块,7 公里无线替代 TCP 布线
  • 网站建设 服务内容 费用上海有几个区最好
  • 现代前端状态管理深度剖析:从单一数据源到分布式状态
  • UART 串口协议详解与 STM32 实战实现
  • 【CMakeLists.txt】QtSvg 头文件包含配置详解
  • 调用Zlib库接口压缩、解压缩(C++源码)
  • flume的log4j日志无输出排查
  • 一个域名可以做两个网站吗天津人事考试网