当前位置: 首页 > news >正文

如何在ONLYOFFICE中使用OCR工具:轻松识别图片和PDF中的文字

OCR 文字识别是一种能够将图像、图片或扫描文档转换为可编辑、可搜索文本的软件。借助该技术,您无需手动输入文档内容,系统会自动将其转换为机器可读的文本格式,这在某些场景下非常便捷,可帮助您节省时间和精力。

本文将会为您介绍 ONLYOFFICE 的OCR 解决方案,帮助您轻松实现图像和PDF中的文本内容识别与转换。

ONLYOFFICE 文档中的 OCR 工具

如果您经常处理文档、电子表格、演示文稿、图表或 PDF 文件,ONLYOFFICE 文档是一个理想的选择,它不仅是一款功能齐全的开源办公套件,还集成了可靠的 OCR 功能。

该套件提供适用于 Linux 与 Windows 服务器的私有化部署解决方案,可轻松集成到任何基于网页的文档管理系统、内容管理系统或文件共享平台,并支持实时协作功能。此外,该套件还提供了基于相同引擎的免费桌面应用程序,兼容任何 Linux 发行版。

ONLYOFFICE 提供两种 OCR 使用方式:​传统 OCR 插件AI 驱动的 OCR 功能

  • OCR 插件可以通过插件管理器安装,这是一个基于 Tesseract OCR 引擎的 JavaScript 库,支持60多种语言。您可使用该插件识别 PNG 和 JPG 格式的图像与照片中的文本,并将识别出的文本插入文档,以便进一步编辑。
  • AI 驱动的 OCR 功能则是通过 AI 插件实现。这个插件可以集成各种 AI 助手和聊天机器人,借助它们的功能执行文档编辑任务,例如文本生成、翻译、语法与样式修正、摘要等。OCR 是其中重要且实用的功能之一。

下面将以 PDF 为主要的使用场景,详细介绍启用 AI 驱动 OCR 功能的完整步骤。

选择合适的 ONLYOFFICE 解决方案

根据您的使用需求,可以选择以下 ONLYOFFICE 解决方案:

  • 服务器部署​:在 Windows 或 Linux 服务器上部署 ONLYOFFICE 文档,并集成到您选择的平台(如 Nextcloud、ownCloud、Redmine 等)
  • 云端版​:使用 ONLYOFFICE 协作空间,无需安装配置即可使用
  • 桌面应用程序​:在 Windows、Linux 或 macOS 电脑上安装 ONLYOFFICE 桌面编辑器,免费享受离线文档编辑

所有方案都包含强大的ONLYOFFICE PDF编辑器,支持编辑现有文本、添加文本框、插入和修改视觉对象等操作。

启用 AI 集成

要在 PDF 中运行 OCR,需通过 AI 插件添加支持 OCR 的 AI 模型。该插件兼容众多主流工具,如 ChatGPT、Google Gemini、Claude Sonnet、Mistral、Groq、DeepSeek、xAI、Stability AI 等。本文我们使用 Mistral 进行演示,您可以选择任何支持 OCR 的模型。

下面是在 ONLYOFFICE PDF 编辑器中安装配置的步骤:

步骤 1. 安装 AI 插件

打开 PDF 文件,通过插件选项卡上的插件管理器访问插件市场。找到 AI 插件并点击相应按钮安装。

AI 驱动的 ONLYOFFICE PDF 编辑器 OCR:轻松将图像转换为文本

步骤 2. 启用 AI 插件

插件管理器旁的后台插件区域,点击 AI 插件按钮以激活。顶部工具栏将出现新的 AI 选项卡。

AI 驱动的 ONLYOFFICE PDF 编辑器 OCR:轻松将图像转换为文本

步骤 3. 添加支持 OCR 的 AI 模型

切换到 AI 选项卡,点击设置图标。在 AI 配置菜单中,可为不同任务添加和选择 AI 模型。

AI 驱动的 ONLYOFFICE PDF 编辑器 OCR:轻松将图像转换为文本

点击编辑 AI 模型添加新模型。在 AI 模型列表菜单中,可随时增删模型。

AI 驱动的 ONLYOFFICE PDF 编辑器 OCR:轻松将图像转换为文本

点击 + 按钮,在名称字段的下拉列表中选择一个提供商(如示例中的 Mistral,也可选其他)。

AI 驱动的 ONLYOFFICE PDF 编辑器 OCR:轻松将图像转换为文本

选择提供商后,系统会自动设置对应的 URL 参数。您只需在密钥字段输入有效的 API 密钥(可从提供商官网获取)。

注意: 部分提供商不免费提供 API 密钥,可能需要购买。强烈建议在使用其 AI 模型前查阅其政策和使用条款。

AI 驱动的 ONLYOFFICE PDF 编辑器 OCR:轻松将图像转换为文本

模型下拉列表中选择一个模型(若无选项可点击更新模型列表)。请注意,不同模型擅长的任务不同(例如,某些擅长文本生成但不支持图像文字识别)。建议选择专为 OCR 设计的模型(具体功能请参考提供商网站说明)。

可在模型名称字段重命名添加的模型。关键步骤:在使用模型部分,必须勾选视觉分析选项,否则无法用于 OCR。若您的模型支持 OCR 但未默认勾选,请手动勾选。完成后点击确定

AI 驱动的 ONLYOFFICE PDF 编辑器 OCR:轻松将图像转换为文本

步骤 4. 分配 OCR 任务

成功添加模型后,返回 AI 模型列表菜单。点击返回按钮进入 AI 配置窗口,将您的模型设为 OCR 任务的默认选项。点击确定完成配置。

AI 驱动的 ONLYOFFICE PDF 编辑器 OCR:轻松将图像转换为文本

OCR 功能已准备就绪,可在 AI 选项卡访问该功能。若 OCR 图标为灰色,只需从默认的批注模式切换到编辑模式即可(因为批注模式不支持文字识别)。点击 AI 选项卡上的编辑 PDF 按钮,或在界面右上角选择编辑模式均可。

AI 驱动的 ONLYOFFICE PDF 编辑器 OCR:轻松将图像转换为文本

使用 AI 驱动的 OCR 功能

配置好 AI 模型后,点击 AI 选项卡上的 OCR 按钮,即可轻松将 PDF 中的图像转为可编辑文本。AI 助手会识别图像文字并插入同一页面。随后,您可使用 ONLYOFFICE PDF 编辑器丰富的工具进行编辑:选择多样字体、调整大小颜色、创建列表、对齐文本、插入修改对象等。

AI 驱动的 ONLYOFFICE PDF 编辑器 OCR:轻松将图像转换为文本

这种 AI 驱动的 OCR 集成最大优势在于,您不必局限于默认的 OCR 工具,可直接在文档、PDF、幻灯片等编辑器中,直接将图像转换为可编辑文本。您可以自由选择平台提供的多种 AI 模型,例如 Mistral、Ollama、LocalAI 等,也支持使用自定义模型。

常见问题解答

以下是关于 ONLYOFFICE 中 AI 驱动的 OCR 常见问题解答:

问:不信任 AI 工具,能否不用 AI 插件运行 OCR?

答: 对于 PDF 文件,目前仅支持 AI 驱动的 OCR。但处理文本文档时,可使用无需 AI 集成的 OCR 插件转换图像文本。

问:只能在 PDF 中使用 OCR 吗?

答: AI 驱动的 OCR 同样适用于文本文档、电子表格和演示文稿。使用方法:选中图像 > 右键菜单 > AI > 图像 > OCR

问:任何 AI 模型都适合 OCR 吗?

答: 并非所有模型都能处理此任务。使用前,请在其提供商官网确认模型规格。

问:AI 驱动的 OCR 是付费功能吗?

答: ONLYOFFICE AI 插件及其功能(包括 OCR)免费提供。但您的 AI 提供商可能会收取模型使用费,具体定价请参考其官网。

相关链接

ONLYOFFICE AI 智能体

集成 ONLYOFFICE 与 AI 插件


文章转载自:

http://fY9h8Vjb.sLzkq.cn
http://Adnv2CWy.sLzkq.cn
http://Mg6T4Oel.sLzkq.cn
http://LN3rcIrd.sLzkq.cn
http://0YDEZm9w.sLzkq.cn
http://G7fzHeTD.sLzkq.cn
http://96icdlji.sLzkq.cn
http://OvGbWhbW.sLzkq.cn
http://0LflXene.sLzkq.cn
http://hLekLv9c.sLzkq.cn
http://pAkZqUsu.sLzkq.cn
http://glZKv1gE.sLzkq.cn
http://toUvSD6M.sLzkq.cn
http://nM7uOCLy.sLzkq.cn
http://eTpRGx2d.sLzkq.cn
http://gCh3MWfr.sLzkq.cn
http://FdEX4P7z.sLzkq.cn
http://ImHLAuwI.sLzkq.cn
http://Nx652AqQ.sLzkq.cn
http://GupNKx3U.sLzkq.cn
http://0rzhNdoI.sLzkq.cn
http://lfevaaMZ.sLzkq.cn
http://XW1jnzFm.sLzkq.cn
http://FNU51ixa.sLzkq.cn
http://BW5xNRsw.sLzkq.cn
http://bm0OZ41y.sLzkq.cn
http://0FSVnWYy.sLzkq.cn
http://tSKm1cwG.sLzkq.cn
http://fRDEkVqE.sLzkq.cn
http://Jde4SufX.sLzkq.cn
http://www.dtcms.com/a/378446.html

相关文章:

  • 专题:2025社交媒体营销与电商融合趋势报告:抖音、小红书、短剧、直播全拆解|附210+份报告PDF、数据仪表盘汇总下载
  • Ubuntu22.04如何安装新版本的Node.js和npm
  • Java根据模版导出PDF文件
  • 经济学研究与机器学习应用:R语言实证分析及论文写作指南
  • 洛谷 P1967 [NOIP 2013 提高组] 货车运输(kruskal 重构树 + 求路径最小边权)
  • android 如何判定底部导航栏显示时 不是键盘显示
  • Django入门笔记
  • 中悦大华通过订单日记实现流程重构之路
  • 电波之外:socket套接字,Linux下UDP通信的孤独诗篇
  • 自动驾驶中的传感器技术44——Radar(5)
  • Linux常用命令之top:动态进程排查利器
  • 【Problem】动态规划之跳跃游戏系列
  • Android 相机框架的跨进程通信架构
  • 从零实现成绩管理系统:深入理解 Python 类方法、静态方法和属性封装
  • G1 垃圾收集器深入解析
  • 【Leetcode hot 100】104.二叉树的深度
  • nginx的基础使用
  • AWS 查询 ALB access log
  • 认知语义学对人工智能自然语言处理深层语义分析的影响与启示
  • iText与OpenPDF使用差异及中文处理完全指南
  • 动态规划算法的欢乐密码(五):子数组系列(上)
  • 【国内电子数据取证厂商龙信科技】浅析文件头和文件尾和隐写
  • Gradio全解11——Streaming:流式传输的视频应用(8)——Gemini Live API:实时音视频连接
  • [特殊字符] 玩转 Python 命令行参数:从 `-m` 到 `argparse` 的全攻略
  • [免费]基于Python的Django医院管理系统【论文+源码+SQL脚本】
  • 【音视频】Android NDK 与.so库适配
  • 认识鸿蒙——它不是“安卓换皮”
  • YOLO11目标检测运行推理简约GUI界面
  • 如何在 VSCode 中设置默认浏览器为 Chrome 或 Firefox
  • VSCode设置:解决找不到文件的问题