当前位置：首页 > news >正文

借助Aspose.OCR ，使用 Python 提取JPG图像文本、将JPG图像转换为Word

news 2025/10/26 5:09:23

图像通常包含有价值的文本，但从JPG等格式中提取文本并非易事。本文将学习如何借助Aspose.OCR，使用 Python 提取 JPG 文本，已经如何转换为Word文档。无论您是要自动化文档处理还是数字化印刷材料，此解决方案都能快速准确地为您提供结果。

Aspose.OCR官方正版下载

什么是 JPG 文本？

.jpgJPG 文本是嵌入在文件或图像文件中的可见文本.jpeg。它可以是以下形式：

扫描文件
桌面或移动设备的屏幕截图
标志、标签或收据的照片
名片和手写表格

由于 JPG 中的文本以像素形式存储，因此必须使用 OCR（光学字符识别）将其转换为机器可读的文本。从 JPG 图像中提取文本有很多好处。它有助于将纸质文档数字化，自动化表单数据录入，并使图像内容可搜索。您还可以将提取的文本用于代码中，以便进一步分析。借助 OCR 技术，您可以节省时间，并减少任何涉及图像信息任务的手动操作。

Aspose.OCR：JPG文本提取器

OCR（光学字符识别）是从 JPG 图像中提取文本的唯一可靠方法。在本篇博文中，我们将使用Aspose.OCR for Python提取 JPG 文本。它是一个专为开发人员设计的独立库，具有以下主要优势：

内置预处理（倾斜校正、二值化、噪声过滤）
高速、高精度识别
支持多种输出格式：纯文本、JSON、PDF
适用于 Python、Java、.NET 和 C++

Aspose.OCR 可自动检测字体、大小，甚至旋转后的文本，无论是简单用例还是高级用例，它都是理想之选。它可以扫描 JPG 图像中的打字或手写文本，检测复杂布局中的文本区域，并从图像中提取多语言内容。

如何在 Python 中提取 JPG 文本

步骤1：安装Aspose.OCR

使用以下pip命令从PyPI安装库：

pip install aspose-ocr-python-net

您也可以从发布版本中下载该软件包。

步骤2：使用代码读取JPG文本

import aspose.ocr as ocr# Instantiate Aspose.OCR API
api = ocr.AsposeOcr()# Add image to the recognition batch
img = ocr.OcrInput(ocr.InputType.SINGLE_IMAGE)
img.add("sample-with-text.jpg")# Recognize the image
result = api.recognize(img)# Print recognition result
print(result[0].recognition_text)

图像示例：

输出：

使用 Python 将 JPG 文本转换为 Word

您可以按照前面提到的步骤将 JPG 文本直接转换为可编辑的 Microsoft Word 文档。但是，您只需要.docx使用 Python 将提取的文本保存到文件中：

import aspose.ocr as ocr# Instantiate Aspose.OCR API
api = ocr.AsposeOcr()# Add image to the recognition batch
img = ocr.OcrInput(ocr.InputType.SINGLE_IMAGE)
img.add("sample.jpg")# Recognize the image
result = api.recognize(img)# Print recognition result
print(result[0].recognition_text)# Save as DOCX
result[0].save("ImagetoDOCX.docx", ocr.SaveFormat.DOCX, ocr.PdfOptimizationMode.NONE)