当前位置: 首页 > news >正文

IBM 开源轻量级多模态文档理解模型 Granite-Docling:258M 参数,精准还原 PDF、截图中的公式、表格与代码

还在为扫描版 PDF 无法复制、截图里的数学公式难以提取而头疼?
IBM 刚刚开源了一款轻量但强大的多模态文档处理模型 —— Granite-Docling(258M),专为高精度结构化文档理解而生。

这款模型不仅能执行 OCR(光学字符识别),还能直接将图像中的复杂内容——包括 文本段落、表格、代码块、数学公式 —— 转换为结构清晰的 Markdown 或 LaTeX 格式,真正实现“所见即所得”的智能文档解析。

核心亮点:小模型,大能力

尽管参数量仅为 2.58亿(258M),Granite-Docling 在多项关键任务上表现惊艳:

  • 📐 数学公式识别准确率:96.8%
  • 💻 代码块识别准确率:98.8%
  • 📊 表格结构还原准确率:97%

这意味着,无论是科研论文中的复杂公式、技术文档里的代码片段,还是财报中的多层嵌套表格,Granite-Docling 都能高保真还原其语义结构,而不仅仅是“识别文字”。

支持输出格式:Markdown + LaT

http://www.dtcms.com/a/469535.html

相关文章:

  • Python PDF文档加密与保护:确保你的文件安全
  • 【Conda】Conda虚拟环境配置系统环境变量,Jupter可使用
  • 网站网页和网址的关系湘潭seo
  • 对象集合里的id用逗号拼装几种方式
  • 框架--MybatisPlus
  • Coze源码分析-资源库-编辑数据库-前端源码-核心逻辑与接口
  • TikTok SDE OA 2025 真题解析与秋招趋势
  • idea 中 mapper.xml黄线警告怎么去掉
  • NXP - MDK460的调试设置
  • 15.UE-游戏逆向-DumpUE struct
  • 百度统计api兰州企业网站排名优化
  • 网站右下角悬浮窗口js代码 兼容各浏览器页面置换算法课程设计
  • NeurIPS 2025 | 华中科大小米等提出语义提示扩散Transformer,实现精准深度估计新范式!
  • Ansible-playbook剧本
  • Mata Summon - Transform text prompts or photos into dynamic.
  • Arbess从入门到实战(11) - 使用Arbess+GitLab实现C++项目自动化部署
  • 做视频网站版权怎么解决企业建站费用情况
  • AICC2025 智算中心与算力服务论坛顺利举办
  • 卷积神经网络CNN(五): 标准CNN神经网络
  • Python 实现 Excel 文件加密与保护
  • 如何查找网站死链网站建设服务费属于
  • 容器编排大王Kubernetes——介绍与部署(1)
  • Python3 中级练习:简易库存管理系统
  • Centos 7/8 安装 Redis
  • 高通平台蓝牙学习--揭秘 WCN Split A2DP(终章)
  • 工业设计网站哪家好包头建设工程安全监督站网站
  • 云原生-k8s
  • 大型手游可以在云手机中流畅运行吗
  • 移动端云手机的优势都有哪些?
  • clk_divide时钟分频模块