PaddleOCR-VL:基于0.9B超轻量视觉-语言模型的高效多语言文档解析

一、PaddleOCR-VL 简介
PaddleOCR-VL 是一款在文档解析领域兼具顶尖性能和高效资源利用的模型。其核心是 PaddleOCR-VL-0.9B,一个轻量且强大的视觉语言模型(VLM)。该模型创新性地将 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型相结合,实现了精准的元素识别。
PaddleOCR-VL 高效支持 109 种语言,并在解析复杂元素(包括文本、表格、公式及图表)方面表现卓越,同时保持极低的资源占用。经过在主流公共基准和内部基准上的全面测试,该模型在 页面级文档解析 和 元素级识别 任务中均达到 SOTA(State-of-the-Art) 水平,显著超越现有方案,并在顶级 VLM 中展现出强劲竞争力。此外,它还具备 快速推理速度,非常适合实际场景的部署需求。
二、核心特性
-
紧凑而强大的 VLM 架构:一种专为高效资源推理设计的新型视觉语言模型。该模型在元素识别任务中表现优异,通过整合 N
