当前位置：首页 > news >正文

如何在ONLYOFFICE中使用OCR工具：轻松识别图片和PDF中的文字

news 2025/9/12 6:34:16

OCR 文字识别是一种能够将图像、图片或扫描文档转换为可编辑、可搜索文本的软件。借助该技术，您无需手动输入文档内容，系统会自动将其转换为机器可读的文本格式，这在某些场景下非常便捷，可帮助您节省时间和精力。

本文将会为您介绍 ONLYOFFICE 的OCR 解决方案，帮助您轻松实现图像和PDF中的文本内容识别与转换。

ONLYOFFICE 文档中的 OCR 工具

如果您经常处理文档、电子表格、演示文稿、图表或 PDF 文件，ONLYOFFICE 文档是一个理想的选择，它不仅是一款功能齐全的开源办公套件，还集成了可靠的 OCR 功能。

该套件提供适用于 Linux 与 Windows 服务器的私有化部署解决方案，可轻松集成到任何基于网页的文档管理系统、内容管理系统或文件共享平台，并支持实时协作功能。此外，该套件还提供了基于相同引擎的免费桌面应用程序，兼容任何 Linux 发行版。

ONLYOFFICE 提供两种 OCR 使用方式：传统 OCR 插件和 AI 驱动的 OCR 功能。

OCR 插件可以通过插件管理器安装，这是一个基于 Tesseract OCR 引擎的 JavaScript 库，支持60多种语言。您可使用该插件识别 PNG 和 JPG 格式的图像与照片中的文本，并将识别出的文本插入文档，以便进一步编辑。
AI 驱动的 OCR 功能则是通过 AI 插件实现。这个插件可以集成各种 AI 助手和聊天机器人，借助它们的功能执行文档编辑任务，例如文本生成、翻译、语法与样式修正、摘要等。OCR 是其中重要且实用的功能之一。

下面将以 PDF 为主要的使用场景，详细介绍启用 AI 驱动 OCR 功能的完整步骤。

选择合适的 ONLYOFFICE 解决方案

根据您的使用需求，可以选择以下 ONLYOFFICE 解决方案：

服务器部署：在 Windows 或 Linux 服务器上部署 ONLYOFFICE 文档，并集成到您选择的平台（如 Nextcloud、ownCloud、Redmine 等）
云端版：使用 ONLYOFFICE 协作空间，无需安装配置即可使用
桌面应用程序：在 Windows、Linux 或 macOS 电脑上安装 ONLYOFFICE 桌面编辑器，免费享受离线文档编辑

所有方案都包含强大的ONLYOFFICE PDF编辑器，支持编辑现有文本、添加文本框、插入和修改视觉对象等操作。

启用 AI 集成

要在 PDF 中运行 OCR，需通过 AI 插件添加支持 OCR 的 AI 模型。该插件兼容众多主流工具，如 ChatGPT、Google Gemini、Claude Sonnet、Mistral、Groq、DeepSeek、xAI、Stability AI 等。本文我们使用 Mistral 进行演示，您可以选择任何支持 OCR 的模型。

下面是在 ONLYOFFICE PDF 编辑器中安装配置的步骤：

步骤 1. 安装 AI 插件

打开 PDF 文件，通过插件选项卡上的插件管理器访问插件市场。找到 AI 插件并点击相应按钮安装。

AI 驱动的 ONLYOFFICE PDF 编辑器 OCR：轻松将图像转换为文本

步骤 2. 启用 AI 插件

在插件管理器旁的后台插件区域，点击 AI 插件按钮以激活。顶部工具栏将出现新的 AI 选项卡。

AI 驱动的 ONLYOFFICE PDF 编辑器 OCR：轻松将图像转换为文本

步骤 3. 添加支持 OCR 的 AI 模型

切换到 AI 选项卡，点击设置图标。在 AI 配置菜单中，可为不同任务添加和选择 AI 模型。

AI 驱动的 ONLYOFFICE PDF 编辑器 OCR：轻松将图像转换为文本

点击编辑 AI 模型添加新模型。在 AI 模型列表菜单中，可随时增删模型。

AI 驱动的 ONLYOFFICE PDF 编辑器 OCR：轻松将图像转换为文本

点击 + 按钮，在名称字段的下拉列表中选择一个提供商（如示例中的 Mistral，也可选其他）。

AI 驱动的 ONLYOFFICE PDF 编辑器 OCR：轻松将图像转换为文本

选择提供商后，系统会自动设置对应的 URL 参数。您只需在密钥字段输入有效的 API 密钥（可从提供商官网获取）。

注意： 部分提供商不免费提供 API 密钥，可能需要购买。强烈建议在使用其 AI 模型前查阅其政策和使用条款。

AI 驱动的 ONLYOFFICE PDF 编辑器 OCR：轻松将图像转换为文本

从模型下拉列表中选择一个模型（若无选项可点击更新模型列表）。请注意，不同模型擅长的任务不同（例如，某些擅长文本生成但不支持图像文字识别）。建议选择专为 OCR 设计的模型（具体功能请参考提供商网站说明）。

可在模型名称字段重命名添加的模型。关键步骤：在使用模型部分，必须勾选视觉分析选项，否则无法用于 OCR。若您的模型支持 OCR 但未默认勾选，请手动勾选。完成后点击确定。

AI 驱动的 ONLYOFFICE PDF 编辑器 OCR：轻松将图像转换为文本

步骤 4. 分配 OCR 任务

成功添加模型后，返回 AI 模型列表菜单。点击返回按钮进入 AI 配置窗口，将您的模型设为 OCR 任务的默认选项。点击确定完成配置。

AI 驱动的 ONLYOFFICE PDF 编辑器 OCR：轻松将图像转换为文本

OCR 功能已准备就绪，可在 AI 选项卡访问该功能。若 OCR 图标为灰色，只需从默认的批注模式切换到编辑模式即可（因为批注模式不支持文字识别）。点击 AI 选项卡上的编辑 PDF 按钮，或在界面右上角选择编辑模式均可。

AI 驱动的 ONLYOFFICE PDF 编辑器 OCR：轻松将图像转换为文本

使用 AI 驱动的 OCR 功能

配置好 AI 模型后，点击 AI 选项卡上的 OCR 按钮，即可轻松将 PDF 中的图像转为可编辑文本。AI 助手会识别图像文字并插入同一页面。随后，您可使用 ONLYOFFICE PDF 编辑器丰富的工具进行编辑：选择多样字体、调整大小颜色、创建列表、对齐文本、插入修改对象等。

AI 驱动的 ONLYOFFICE PDF 编辑器 OCR：轻松将图像转换为文本

这种 AI 驱动的 OCR 集成最大优势在于，您不必局限于默认的 OCR 工具，可直接在文档、PDF、幻灯片等编辑器中，直接将图像转换为可编辑文本。您可以自由选择平台提供的多种 AI 模型，例如 Mistral、Ollama、LocalAI 等，也支持使用自定义模型。

常见问题解答

以下是关于 ONLYOFFICE 中 AI 驱动的 OCR 常见问题解答：

问：不信任 AI 工具，能否不用 AI 插件运行 OCR？

答：对于 PDF 文件，目前仅支持 AI 驱动的 OCR。但处理文本文档时，可使用无需 AI 集成的 OCR 插件转换图像文本。

问：只能在 PDF 中使用 OCR 吗？

答： AI 驱动的 OCR 同样适用于文本文档、电子表格和演示文稿。使用方法：选中图像 > 右键菜单 > AI > 图像 > OCR。

问：任何 AI 模型都适合 OCR 吗？

答：并非所有模型都能处理此任务。使用前，请在其提供商官网确认模型规格。

问：AI 驱动的 OCR 是付费功能吗？

答： ONLYOFFICE AI 插件及其功能（包括 OCR）免费提供。但您的 AI 提供商可能会收取模型使用费，具体定价请参考其官网。

相关链接

ONLYOFFICE AI 智能体

集成 ONLYOFFICE 与 AI 插件

文章转载自：

http://fY9h8Vjb.sLzkq.cn
http://Adnv2CWy.sLzkq.cn
http://Mg6T4Oel.sLzkq.cn
http://LN3rcIrd.sLzkq.cn
http://0YDEZm9w.sLzkq.cn
http://G7fzHeTD.sLzkq.cn
http://96icdlji.sLzkq.cn
http://OvGbWhbW.sLzkq.cn
http://0LflXene.sLzkq.cn
http://hLekLv9c.sLzkq.cn
http://pAkZqUsu.sLzkq.cn
http://glZKv1gE.sLzkq.cn
http://toUvSD6M.sLzkq.cn
http://nM7uOCLy.sLzkq.cn
http://eTpRGx2d.sLzkq.cn
http://gCh3MWfr.sLzkq.cn
http://FdEX4P7z.sLzkq.cn
http://ImHLAuwI.sLzkq.cn
http://Nx652AqQ.sLzkq.cn
http://GupNKx3U.sLzkq.cn
http://0rzhNdoI.sLzkq.cn
http://lfevaaMZ.sLzkq.cn
http://XW1jnzFm.sLzkq.cn
http://FNU51ixa.sLzkq.cn
http://BW5xNRsw.sLzkq.cn
http://bm0OZ41y.sLzkq.cn
http://0FSVnWYy.sLzkq.cn
http://tSKm1cwG.sLzkq.cn
http://fRDEkVqE.sLzkq.cn
http://Jde4SufX.sLzkq.cn

http://www.dtcms.com/a/378446.html

相关文章：

专题：2025社交媒体营销与电商融合趋势报告：抖音、小红书、短剧、直播全拆解|附210+份报告PDF、数据仪表盘汇总下载

Ubuntu22.04如何安装新版本的Node.js和npm

Java根据模版导出PDF文件

经济学研究与机器学习应用：R语言实证分析及论文写作指南

洛谷 P1967 [NOIP 2013 提高组] 货车运输（kruskal 重构树 + 求路径最小边权）

android 如何判定底部导航栏显示时不是键盘显示

Django入门笔记

中悦大华通过订单日记实现流程重构之路

电波之外：socket套接字，Linux下UDP通信的孤独诗篇

自动驾驶中的传感器技术44——Radar（5）

Linux常用命令之top：动态进程排查利器

【Problem】动态规划之跳跃游戏系列

Android 相机框架的跨进程通信架构

从零实现成绩管理系统：深入理解 Python 类方法、静态方法和属性封装

G1 垃圾收集器深入解析

【Leetcode hot 100】104.二叉树的深度

nginx的基础使用

AWS 查询 ALB access log

认知语义学对人工智能自然语言处理深层语义分析的影响与启示

iText与OpenPDF使用差异及中文处理完全指南

动态规划算法的欢乐密码(五)：子数组系列(上)

【国内电子数据取证厂商龙信科技】浅析文件头和文件尾和隐写

Gradio全解11——Streaming：流式传输的视频应用（8）——Gemini Live API：实时音视频连接

[特殊字符] 玩转 Python 命令行参数：从 `-m` 到 `argparse` 的全攻略

[免费]基于Python的Django医院管理系统【论文+源码+SQL脚本】

【音视频】Android NDK 与.so库适配

认识鸿蒙——它不是“安卓换皮”

YOLO11目标检测运行推理简约GUI界面

如何在 VSCode 中设置默认浏览器为 Chrome 或 Firefox

VSCode设置：解决找不到文件的问题