当前位置：首页 > news >正文

23、Swift框架微调实战（3）-Qwen2.5-VL-7B LORA微调OCR数据集

news 来源：原创 2025/6/1 15:53:33

一、模型介绍

Qwen2.5-VL 是阿里通义千问团队开源的视觉语言模型，具有3B、7B和72B三种不同规模，能够识别常见物体、分析图像中的文本、图表等元素，并具备作为视觉Agent的能力。

Qwen2.5-VL 具备作为视觉Agent的能力，可以推理并动态使用工具，初步操作电脑和手机。在视频处理上，Qwen2.5-VL 能够理解超过1小时的长视频，精准定位相关片段捕捉事件。模型还支持发票、表单等数据的结构化输出。

Qwen2.5-VL 在多个性能测试中表现优异，在文档和图表理解方面优势明显，7B模型在多项任务中超越了GPT-4o-mini。模型的推出为开发者提供了强大的工具，能够在多种应用场景中发挥重要作用。

1.1 Qwen2.5-VL 的主要功能

视觉理解：能识别常见物体，如花、鸟、鱼和昆虫，能分析图像中的文本、图表、图标、图形和布局。
视觉Agent能力：可以直接作为一个视觉Agent，推理并动态地使用工具，初步具备使用电脑和使用手机的能力。
理解长视频和捕捉事件：能理解超过1小时的视频，精准定位相关视频片段来捕捉事件。
视觉定位：可以通过生成bounding boxes或者points来准确定位图像中的物体，能为坐标和属性提供稳定的JSON输出。