当前位置: 首页 > news >正文

PaddleOCR-VL:紧凑型0.9B参数模型在多语言文档解析领域表现卓越

作者:算力魔方创始人/飞桨开发者专家 刘力

近日,百度飞桨团队正式推出 PaddleOCR-VL🚀

https://huggingface.co/PaddlePaddle/PaddleOCR-VL

一款创新的视觉语言模型,专为文档解析场景设计,在保持高效性能的同时显著降低资源消耗。

文档解析的技术挑战在于现实文档的复杂性。典型文档通常包含布局、表格📊、图表📈、公式、手写内容✍️和多语言文本等多种元素的混合呈现,这对传统解析模型构成了巨大挑战。PaddleOCR-VL

https://huggingface.co/PaddlePaddle/PaddleOCR-VL

(0.9B) 以其精巧的0.9B参数规模,创新性地结合了动态高分辨率视觉编码器和轻量级ERNIE-4.5–0.3B语言模型,在保证高精度的同时大幅减少计算需求。

✅ 支持 109 种语言

✅ 处理复杂的文档元素

✅ 在有限的硬件上高效运行

✅ 在实际场景中超越更大的模型

一,🐜 小模型,🐘 大性能

传统文档AI模型往往需要在速度与精度间进行权衡,而PaddleOCR-VL实现了二者的平衡。

  • 动态视觉编码器:采用NaViT风格架构,高效处理高分辨率图像

  • 轻量语言模型:基于ERNIE-4.5–0.3B,提供优质语义理解能力

这种架构组合确保了高精度🎯与低延迟⚡的兼得,使得复杂文档解析具备实际应用价值。

PaddleOCR-VL架构示意图:

二,🏆 领先的准确率表现

PaddleOCR-VL 在公共基准测试的两个方面均处于领先地位:

页面级理解

✅ 布局识别

✅ 阅读顺序检测

元素级提取

✅ 表格 📊

✅ 公式 ➗

✅ 图表 📈

✅ 手写文字 ✍️

✅ 历史文档 📜

它功能多样、鲁棒性强且经过实战检验。

三,🌐 多语言支持 单一模型

PaddleOCR-VL专为全球化应用设计,支持语言远超英语范畴。

涵盖中文、英语、日语、韩语、拉丁语等主要语言,同时支持西里尔字母(俄语)、阿拉伯语、天城文(印地语)等多种文字体系。

面对多语言混合文档,该模型能够直接处理。🌍

四,🚀 快速入门指南

1️⃣ 环境安装依赖:PaddlePaddle 和 PaddleOCR:

https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/develop/install/pip/linux-pip.html
​​​​​​​https://github.com/PaddlePaddle/PaddleOCR
pip install paddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
pip install -U "paddleocr[doc-parser]"
pip install https://paddle-whl.bj.bcebos.com/nightly/cu126/safetensors/safetensors-0.6.2.dev0-cp38-abi3-linux_x86_64.whl

2️⃣ 命令行使用:

paddleocr doc_parser -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/pp_ocr_vl_demo.png
https://./cli.webp
https://./cli.webp

3️⃣ Python API 调用:

from paddleocr import PaddleOCRVL
pipeline = PaddleOCRVL()
output = pipeline.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/pp_ocr_vl_demo.png")
for res in output:res.print()res.save_to_json(save_path="output")res.save_to_markdown(save_path="output")

4️⃣ 基于vLLM的推理加速

步骤 1. 启动 VLM 推理服务器(默认端口为 8080):

docker run \--rm \--gpusall \--network host \ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlex-genai-vllm-server
# 你也可以使用 ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlex-genai-vllm-server 作为 SGLang 服务器

步骤 2. 调用 PaddleOCR Python API:

from paddleocr import PaddleOCRVL
pipeline = PaddleOCRVL(vl_rec_backend="vllm-server", vl_rec_server_url="http://127.0.0.1:8080")
output = pipeline.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/pp_ocr_vl_demo.png")
for res in output:res.print()res.save_to_json(save_path="output")res.save_to_markdown(save_path="output")

五,✅ 技术亮点总结

PaddleOCR-VL作为专为文档解析优化的0.9B参数视觉语言模型,通过动态视觉编码器与轻量语言模型的创新结合,在有限硬件资源下实现了业界领先的解析精度。

它的突出之处在于:

🌍 涵盖109种语言支持

📊 全面覆盖表格、图表、公式等复杂元素

🧠 全面覆盖表格、图表、公式等复杂元素

⚡ 以更低的计算成本超越更大的模型

✅ 输出结构化的 JSON 和 Markdown

简而言之:

PaddleOCR-VL 将前沿文档智能技术封装为紧凑、高效、多语言且可直接部署的解决方案。

🔗 探索更多

📦 GitHub:

https://github.com/PaddlePaddle/PaddleOCR

🤗 Hugging Face 模型:

https://huggingface.co/PaddlePaddle/PaddleOCR-VL

🚀 在线体验:

https://aistudio.baidu.com/application/detail/98365

如果你有更好的文章,欢迎投稿!

稿件接收邮箱:nami.liu@pasuntech.com

更多精彩内容请关注“算力魔方®”!

http://www.dtcms.com/a/524935.html

相关文章:

  • syssetup!Wizard函数分析之comctl32!_CreatePropertySheetPage
  • Python爬虫数据存储:MySQL实战教程
  • 网站源码免费的电影网站页面seo
  • 青岛建设工程信息网站银川360推广 网站建设
  • 阿里云国际站GPU:怎么使用Workbench工具以SSH协议登录Linux实例?
  • Linux中内核基础设置函数do_basic_setup的实现
  • 乳腺癌良性和恶性图像分类数据集
  • C++通用业务标准库中常用接口函数总结
  • 永久免费的移动建站平台网站备案没通过
  • 汕头建网站国家高新技术企业认定有什么好处
  • 【数论】欧拉定理 扩展欧拉定理
  • 正能量网站入口免费安全想学做网站从哪里入手
  • 南宁网站制作最新招聘信息wordpress文章插件
  • 基于python大数据技术的医疗数据分析与研究
  • 1.Go基础知识入门
  • Linux内核InfiniBand连接管理器(CM)深度解析:架构设计与实现原理
  • 网站网站开发者犯法吗网站负责人
  • Arbess从入门到实战(17) - 使用Arbess+GitPuk+SonarQube实现Java项目代码扫描及自动化部署
  • 开发避坑指南(65):JDK21升级遇NoSuchFieldError:Lombok兼容性修复
  • 周口住房和城乡建设网站大龄工找工作哪个网站好
  • 【DecEx-RAG】
  • 数据结构算法题:list
  • ArkTs-Android 与 ArkTS (HarmonyOS) 存储目录全面对比
  • 网站广告费一般多少钱做网站公司名字应该用图片吗
  • 解决 Word四大烦:消标记、去波浪线、关首字母大写、禁中文引号
  • 统信系统下设置RTC时间
  • 晓羽礼品兑换系统小程序+H5
  • 九一人才网赣州找工作昆明高端seo怎么做
  • KingbaseES:MongoDB 国产化平替的优选方案,从技术适配到政务落地
  • Day 22 复习日——泰坦尼克号人员生还预测