当前位置：首页 > news >正文

qwen-vl 实现OCR的测试

news 2025/10/10 4:14:52

文本识别，也称为光学字符识别 (OCR)，可以将印刷文本或手写文本转换为易于编辑、搜索和分析的数字格式。它涉及分析文本图像并识别其中包含的字符和单词。

深度学习彻底改变了文本识别，显著提升了准确性和性能。目前已有多种基于深度学习的文本识别方法。

使用深度学习进行文本识别

卷积神经网络 (CNN)：CNN 通常用于基于图像的文本识别。输入图像由卷积层驱动，提取特征并学习文本表征。然后，CNN 的输出被传递到循环神经网络 (RNN) 进行进一步处理和文本识别。
循环神经网络 (RNN)：RNN 广泛应用于基于序列的文本识别，例如手写和语音识别。RNN 使用反馈循环来处理序列数据，从而能够捕捉长期依赖关系和上下文信息。
编码器-解码器网络：编码器-解码器网络用于端到端文本识别。输入图像首先被编码为特征向量，然后解码为字符或单词序列。这些网络可以进行端到端训练，从而提高效率和准确性。

记得十年前学习google 的tensorflow 神经网络技术的第一个项目就是手写数字的识别。伴随着大模型（LLM）特别是多模态大模型的出现，基于AI大模型的OCR 变现出显著的优势。而且使用十分简单。最近我就尝试了基于阿里的qwen-vl 大模型实现OCR 。

输入：

这是一个page 的文档，通过截屏出来的图片。

代码

import os
from openai import OpenAI
import base64
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode("utf-8")
 
input_image_path = r"./text.png"
base64_image = encode_image(input_image_path)
client = OpenAI(
    api_key="sk-27c202869xxxxxxa4a9300767e0d",
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen-vl-ocr-latest",
    messages=[
        {
            "role": "system",
            "content": [{"type": "text", "text": "You are a helpful assistant."}],
        },
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": f"data:image/jpeg;base64,{base64_image}"
                    },
                },
                {"type": "text", "text": "请识别出图片文字"},
            ],
        },
    ],
)

print(completion.choices[0].message.content)

结果

播客电台项目报告
项目简介
项目的目标
本项目标是实现像收听电台一样收听自己喜爱的播客节目。节目单是根据听众的喜好，利用
AI技术的推荐算法自动生成。实现听众完全脱离屏幕操作，可以在多种设备收听播客节目。
本项目的另一个目标是将国外优质的播客节目翻译成中文播客，使国内听众能够收听到国外
生活，教育类的播客节目。倾听世界的声音。
项目的背景
国内播客的现状
国内的播客平台主要包括喜马拉雅和小宇宙。本人收听了一段时间的播客节目，总的感觉有一些高
质量的播客节目，比如我喜欢的播客包括：硅谷101，商业就是这样的。但是高质量的节目比较少，
主要表现在：
• 音频书比较多，访谈类节目比较少。从我个人的体验而言，我更喜欢访谈类节目，感觉有一个人
在讲述。更加亲切。

我尝试使用了两个大模型