当前位置: 首页 > news >正文

IBM开源轻量多模态文档处理模型:Granite-Docling 258M,能执行OCR、文档QA

在企业数字化转型的深水区,一个被长期忽视的效率黑洞正在浮出水面:非结构化文档。无论是扫描合同、科研论文、财务报表还是工程图纸,它们躺在硬盘和云盘里,却无法被系统真正“读懂”。OCR 只能识别文字,传统NLP看不懂表格和公式——直到 IBM 端出这张王牌:Granite-Docling 258M。

这不是一个普通的大模型插件,而是一个专为“文档智能”而生的多模态轻骑兵。

谁是 Granite-Docling 258M?

由 IBM Research 团队于 2025 年 9 月正式开源,Granite-Docling 258M 是一款仅 2.58 亿参数的视觉-语言模型(VLM),但它却拥有“以小博大”的惊人能力:

架构精巧:基于 IDEFICS3 改良,换用 SigLIP 视觉编码器 + Granite 165M 语言模型,在保持轻量的同时实现高精度。

图文联合理解:不仅能“看图识字”,更能理解版面结构、数学公式、代码块、图表关系,输出结构化 DocTags。

极速推理 & 多平台支持:支持 Transformers、vLLM、ONNX、MLX(Apple Silicon 本地运行),批量处理速度提升数倍。

多语言实验支持:除英文外,初步支持中文、日文、阿拉伯文,全球化部署潜力巨大。

它不是通用图像模型,而是“文档专属AI”,设计初衷就是无缝嵌入 Docling 文档处理生态,替代多个单点模型,成为企业文档流水线的“智能中枢”。

图片

六大杀手级功能,重新定义文档处理

1、公式识别大师

数学公式不再是一堆乱码。Granite-Docling 能高精度还原 LaTeX 表达式,编辑距离低至 0.073,F1 分数高达 96.8% —— 科研人员和工程师的福音。

2、代码块精准提取

支持 50+ 编程语言,从截图或 PDF 中提取可复制粘贴的干净代码,编辑距离从 0.114 降至惊人的 0.013!

3、图表转结构化表格

不只是识别图表存在,更能将其内容转化为机器可读的表格数据(支持 OTSL 格式),打通数据分析最后一公里。

4、区域引导推理(BBox-Guided)

想只提取签名栏?只想读取页眉页脚?通过坐标框选局部区域,模型精准响应,避免全页计算浪费资源。

5、文档元素问答(QA)

“这份合同第3页有没有担保条款?”、“报告里图表出现在哪几节?”——直接提问,AI 给你定位答案。

6、布局保留导出

输出 HTML 或 Markdown 时,可选择保留原始排版(split-page view),学术论文、法律文书转换后仍保持专业格式。

性能碾压前辈,小模型也有大能量

相比前代 SmolDocling,Granite-Docling 258M 在多项基准测试中全面领先:

图片

更稳定、更少死循环、更强泛化能力 —— 小体积,大智慧。

如何快速上手?

只需一行命令,即可体验魔法:

图片

开发者也可直接调用 Transformers API,自定义处理逻辑:

图片

支持 CUDA、MPS(Mac)、甚至 ONNX 部署到边缘设备。

负责任的AI:安全与局限

IBM 明确指出:Granite-Docling 不适用于通用图像理解。对于敏感场景,建议搭配 Granite Guardian 安全过滤模型,防范偏见、错误与恶意输出。模型虽小,伦理不小。

Granite-Docling 258M 不仅是工具,更是“文档即数据”时代的基础设施。下一步,IBM 计划集成 RAG 增强检索、实时协作批注、跨文档语义关联等功能,让静态文档“活”起来,成为企业知识图谱的自动构建者。

Hugging Face:https://huggingface.co/ibm-granite/granite-docling-258M

http://www.dtcms.com/a/410949.html

相关文章:

  • 基于OCR的验证码识别与算术运算解析实践
  • 网站开发 网络工程 哪个好朝天门户网
  • 从零开始WebRTC(一)
  • K230基础-RTC时钟介绍及使用
  • 机器人定位器市场报告:2025-2031 年行业增长逻辑与投资机遇解析​
  • CTFHub RCE通关笔记3:文件包含 php://input
  • 北京做网站建设有发展吗使用wordpress编辑器
  • 我的第一个AI Agent
  • 郑州网站建设公司哪家好做购物网站需要什么资质
  • 【序列晋升】46 Spring Security Kerberos 如何衔接 Boot 自动配置与 RBAC 权限?
  • 哪家做网站的公司大连网络推广公司推荐
  • 苏州高端网站建设设计wordpress自助
  • 社区网站建设费用视频网站怎么做可以播放电视剧
  • 重庆网站建设合肥公司智能建站免费
  • PAT乙级_1041 考试座位号_Python_AC解法_无疑难点
  • vscode使用arcpy-选择arcgis带的python+运行错误解决
  • 呼和浩特市城乡建设网站wordpress 当前主题目录
  • 做暧暧视频免费网站怎么做网约车
  • docker常用命令记录
  • 《伤寒论9》-何时选用汤剂散剂丸剂
  • 锤子助手插件功能七十八:语音复读
  • TypeScript严格模式(Strict Mode)介绍(null和undefined、any和unknown)
  • 2025年渗透测试面试题总结-89(题目+回答)
  • Webpack5 第三节
  • 【编号112】IPCC AR5全球气候模式模拟的中国日平均降水精度评价数据集(1996-2005)
  • 中山制作网站的公司横沥镇网站建设
  • 怎么做卡蜜网站郑州做网站推广资讯
  • commons-proxy
  • 机器学习实战第十五章 RNN处理序列
  • pinme 个人开发者免费部署静态资源的工具