当前位置：首页 > news >正文

PaddleOCR-VL：紧凑型0.9B参数模型在多语言文档解析领域表现卓越

news 2025/10/25 10:29:02

作者：算力魔方创始人/飞桨开发者专家刘力

近日，百度飞桨团队正式推出 PaddleOCR-VL🚀

https://huggingface.co/PaddlePaddle/PaddleOCR-VL

一款创新的视觉语言模型，专为文档解析场景设计，在保持高效性能的同时显著降低资源消耗。

文档解析的技术挑战在于现实文档的复杂性。典型文档通常包含布局、表格📊、图表📈、公式、手写内容✍️和多语言文本等多种元素的混合呈现，这对传统解析模型构成了巨大挑战。PaddleOCR-VL

https://huggingface.co/PaddlePaddle/PaddleOCR-VL

(0.9B) 以其精巧的0.9B参数规模，创新性地结合了动态高分辨率视觉编码器和轻量级ERNIE-4.5–0.3B语言模型，在保证高精度的同时大幅减少计算需求。

✅ 支持 109 种语言

✅ 处理复杂的文档元素

✅ 在有限的硬件上高效运行

✅ 在实际场景中超越更大的模型

一，🐜 小模型，🐘 大性能

传统文档AI模型往往需要在速度与精度间进行权衡，而PaddleOCR-VL实现了二者的平衡。

动态视觉编码器：采用NaViT风格架构，高效处理高分辨率图像
轻量语言模型：基于ERNIE-4.5–0.3B，提供优质语义理解能力

这种架构组合确保了高精度🎯与低延迟⚡的兼得，使得复杂文档解析具备实际应用价值。

PaddleOCR-VL架构示意图：

二，🏆 领先的准确率表现

PaddleOCR-VL 在公共基准测试的两个方面均处于领先地位：

页面级理解

✅ 布局识别

✅ 阅读顺序检测

元素级提取

✅ 表格 📊

✅ 公式 ➗

✅ 图表 📈

✅ 手写文字 ✍️

✅ 历史文档 📜

它功能多样、鲁棒性强且经过实战检验。

三，🌐 多语言支持单一模型

PaddleOCR-VL专为全球化应用设计，支持语言远超英语范畴。

涵盖中文、英语、日语、韩语、拉丁语等主要语言，同时支持西里尔字母（俄语）、阿拉伯语、天城文（印地语）等多种文字体系。

面对多语言混合文档，该模型能够直接处理。🌍

四，🚀 快速入门指南

1️⃣ 环境安装依赖：PaddlePaddle 和 PaddleOCR：

https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/develop/install/pip/linux-pip.html
https://github.com/PaddlePaddle/PaddleOCR

pip install paddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
pip install -U "paddleocr[doc-parser]"
pip install https://paddle-whl.bj.bcebos.com/nightly/cu126/safetensors/safetensors-0.6.2.dev0-cp38-abi3-linux_x86_64.whl

2️⃣ 命令行使用：

paddleocr doc_parser -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/pp_ocr_vl_demo.png
https://./cli.webp

https://./cli.webp

3️⃣ Python API 调用：

from paddleocr import PaddleOCRVL
pipeline = PaddleOCRVL()
output = pipeline.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/pp_ocr_vl_demo.png")
for res in output:res.print()res.save_to_json(save_path="output")res.save_to_markdown(save_path="output")

4️⃣ 基于vLLM的推理加速

步骤 1. 启动 VLM 推理服务器（默认端口为 8080）：

docker run \--rm \--gpusall \--network host \ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlex-genai-vllm-server
# 你也可以使用 ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlex-genai-vllm-server 作为 SGLang 服务器

步骤 2. 调用 PaddleOCR Python API：

from paddleocr import PaddleOCRVL
pipeline = PaddleOCRVL(vl_rec_backend="vllm-server", vl_rec_server_url="http://127.0.0.1:8080")
output = pipeline.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/pp_ocr_vl_demo.png")
for res in output:res.print()res.save_to_json(save_path="output")res.save_to_markdown(save_path="output")

五，✅ 技术亮点总结

PaddleOCR-VL作为专为文档解析优化的0.9B参数视觉语言模型，通过动态视觉编码器与轻量语言模型的创新结合，在有限硬件资源下实现了业界领先的解析精度。

它的突出之处在于：

🌍 涵盖109种语言支持

📊 全面覆盖表格、图表、公式等复杂元素

🧠 全面覆盖表格、图表、公式等复杂元素

⚡ 以更低的计算成本超越更大的模型

✅ 输出结构化的 JSON 和 Markdown

简而言之：

PaddleOCR-VL 将前沿文档智能技术封装为紧凑、高效、多语言且可直接部署的解决方案。

🔗 探索更多

📦 GitHub:

https://github.com/PaddlePaddle/PaddleOCR

🤗 Hugging Face 模型：

https://huggingface.co/PaddlePaddle/PaddleOCR-VL

🚀 在线体验：

https://aistudio.baidu.com/application/detail/98365

如果你有更好的文章，欢迎投稿！

稿件接收邮箱：nami.liu@pasuntech.com

更多精彩内容请关注“算力魔方®”！

查看全文

http://www.dtcms.com/a/524935.html

syssetup!Wizard函数分析之comctl32!_CreatePropertySheetPage

Python爬虫数据存储：MySQL实战教程

网站源码免费的电影网站页面seo

青岛建设工程信息网站银川360推广网站建设

阿里云国际站GPU：怎么使用Workbench工具以SSH协议登录Linux实例？

Linux中内核基础设置函数do_basic_setup的实现

乳腺癌良性和恶性图像分类数据集

C++通用业务标准库中常用接口函数总结

永久免费的移动建站平台网站备案没通过

汕头建网站国家高新技术企业认定有什么好处

【数论】欧拉定理扩展欧拉定理

正能量网站入口免费安全想学做网站从哪里入手

南宁网站制作最新招聘信息wordpress文章插件

基于python大数据技术的医疗数据分析与研究

1.Go基础知识入门

Linux内核InfiniBand连接管理器(CM)深度解析：架构设计与实现原理

网站网站开发者犯法吗网站负责人

Arbess从入门到实战(17) - 使用Arbess+GitPuk+SonarQube实现Java项目代码扫描及自动化部署

开发避坑指南(65)：JDK21升级遇NoSuchFieldError：Lombok兼容性修复

周口住房和城乡建设网站大龄工找工作哪个网站好

【DecEx-RAG】

数据结构算法题：list

ArkTs-Android 与 ArkTS (HarmonyOS) 存储目录全面对比

网站广告费一般多少钱做网站公司名字应该用图片吗

解决 Word四大烦：消标记、去波浪线、关首字母大写、禁中文引号

统信系统下设置RTC时间

晓羽礼品兑换系统小程序+H5

九一人才网赣州找工作昆明高端seo怎么做

KingbaseES：MongoDB 国产化平替的优选方案，从技术适配到政务落地

Day 22 复习日——泰坦尼克号人员生还预测

一，🐜 小模型，🐘 大性能

二，🏆 领先的准确率表现

三，🌐 多语言支持 单一模型

四，🚀 快速入门指南

五，✅ 技术亮点总结

相关文章：

三，🌐 多语言支持单一模型