当前位置: 首页 > news >正文

上海AI实验室发布MinerU2:通专融合路线如何补齐AI-Ready数据的最后一公里

导言:

当前,大模型训练的竞争焦点正从“数据规模”转向“数据质量与差异化”方向。如何高效精准地挖掘高质量私域数据成为关键挑战。为解决这一难题,上海人工智能实验室(上海AI实验室)于去年7月开源智能文档解析引擎MinerU,旨在将复杂文档精确地转化为可用于大模型训练的AI-Ready数据。

经一年潜心研发,基于通专融合技术路线,采用全新架构MinerU2正式推出其凭借0.9B精巧参数量,在多语言与复杂文档解析精度上实现突破,同级别开源模型综合评分第一MinerU2在性能、速度跃升的同时,将可解析场景延伸至科学数据领域,补齐AI-Ready数据的最后一公里,缩窄AGI促进科学发现的鸿沟,已成为『书生』科学多模态大模型Intern-S1开源工具链中的重要一环。

目前,MinerU深度集成于『书生』科学发现平台Intern-Discovery和AI地球科学家智能体系统EarthLink,为科研人员提供高效的文档解析与数据提取服务,极大提升了文献处理和科学研究的效率。

一、从“量变”到“质变”:AI-Ready数据成为大模型下半场核心竞争力

随着模型技术发展,互联网数据趋同性导致通用大模型同质化,细分专业化成为深入行业落地的必然路径,这些数据常存在于私域,且以文档形式最为普遍。数据竞争正从“粗放式扩张”转向“精细化挖掘”,从私域数据中构建高质量AI-Ready数据成为竞争关键。

图片

AI-Ready 数据成为大模型下半场核心竞争力

而在私域数据中解析文档和构建AI-Ready数据时,面临着三重结构性挑战:

  • 格式复杂多样:私域数据的来源多样,数据形态格式复杂,对文档解析能力提出挑战

  • 高精度要求:关键领域对数据精度要求高,微小误差可能引发决策偏差与业务风险

  • 高速度需求:数据解析只是大模型研发与落地的第一步,每个环节对速度的容忍性有限

二、MinerU2:基于Intern‑S1拓展科学领域AI‑Ready数据构建能力

在此背景下,上海AI实验室于去年7月推出开源智能文档解析引擎MinerU,支持高精度解析文档元素,支撑构建高质量AI-Ready数据。经过一年的潜心研发,上海AI实验室团队联合北京大学团队,以全新技术架构推出MinerU2——端到端多模态文档解析大模型,位列同级别开源模型综合评分第一,解析精度和速度大幅提升,有力突破了前文提及的三重结构性挑战。

图片

MinerU 相较于同级别开源模型在Benchmark 上的性能对比

MinerU2解析准确率较前代提升22%,实现 “全尺寸・真高清”解析,能精准解析学术论文、教科书等复杂版面。其采用的模型参数量仅0.9B,性能比肩72B大模型,可在消费级显卡单卡上流畅运行。通过集成自适应缩放、SGLang等技术,显著提升推理效率,解析速度较上一代提升6倍。它在精准识别文本、布局、表格基础上,还能高精度提取数学公式、物理符号、化学分子式和化学反应,支撑高质量AI-Ready的语料构建管线,将可解析场景延伸至科学数据领域,补齐AI-Ready数据的最后一公里,缩窄AGI促进科学发现的鸿沟,现已成为『书生』科学多模态大模型Intern-S1开源工具链中的重要一环。

图片

“全尺寸・真高清” “小模型・大能量” “深优化・高性能”

MinerU2的能力突破,植根于上海AI实验室在基础理论与科学数据领域的长期战略投入:

  • “通专融合”技术路线作为理论指导:MinerU2以“通专融合”作为核心技术路线,致力于打造面向科研任务的“革命性工具”,促进科学知识的结构化理解与重组,为解析高度复杂的科学文档提供坚实的工具支撑。
  • OpenDataLab平台提供生态支撑:充分利用OpenDataLab平台汇聚的7700+多领域PB级数据集及核心科学数据资源,结合实验室在数据核心技术方面的持续积累,为模型训练与优化提供了丰富、高质量的专业数据与技术保障。

三、从 GitHub明星到产业基石:MinerU 构建AI-Ready产业生态

MinerU项目以卓越的技术实力从开源社区脱颖而出,多次蝉联GitHub平台的Python Trending榜首,斩获超4万星标,领先同期Llama3的2.9万星标,充分体现了开发者生态的高度认可与广泛影响力。

在国产化适配方面,MinerU深度对接昇腾AI-910B平台,显著提升OCR处理效率——实现单页处理时间从分钟级压缩至2秒,效率提升达60倍,为国产AI技术落地提供有效保障。

MinerU目前向开发者提供了多样化的部署与使用形态,包括开源本地部署、桌面客户端/网页端、在线API接口服务以及MCP企业级服务,全面适配主流AI开发/使用平台如 Dify、CherryStudio、Sider与ModelWhale等。

目前,MinerU已深度接入上海AI实验室『书生』科学发现平台Intern-Discovery和AI地球科学家智能体系统EarthLink平台提供文档解析服务。在 Intern-Discovery中,其内置的论文元分析模块利用MinerU进行深度文档解析与信息提取,为科研人员生成高质量数据表格与分析报告,显著提升了文献处理效率。在 EarthLink中,MinerU文档解析工具则能够智能解析科学实验计划,为地球科学家提供无需编程的气候数据分析与建模能力,有效应对大数据处理难题,助力科研人员专注于科学探索。

MinerU不仅是连接大模型与垂直场景的技术桥梁,更是构建开放协同的AI产业生态的坚实基石。

图片

MinerU 良好的体验,丰富的生态

展望未来,MinerU 将持续以 “Tokenize Everything” 为愿景,不断突破异构数据智能解析的边界,全力推动AI-Ready数据转化进程。届时,海量异构数据中蕴含的万亿价值不仅将得到更加充分的释放,也将为通用人工智能的底层数据根基注入强劲动能。

更多MinerU 相关信息,欢迎访问以下地址👇

MinerU官网:

https://mineru.net/

MinerU桌面客户端

https://mineru.net/client

在线API申请

https://mineru.net/apiManage/token

GitHub链接:

https://github.com/opendatalab/MinerU

http://www.dtcms.com/a/327332.html

相关文章:

  • AutoAgent节点入门:解锁智能体的自主规划能力
  • Myqsl建立库表练习
  • 盲盒抽谷机小程序系统开发:解锁盲盒新玩法,开启潮玩社交新时代
  • 论答题pk小程序软件版权的
  • DeepSeek-R1与RAGflow本地部署全流程指南:从模型下载到个人知识库构建实战
  • 真实案例 | 如何用iFlyCode开发Webpack插件?
  • string 类运算符重载
  • LeetCode Day5 -- 栈、队列、堆
  • JavaScript 实现模块懒加载的几种方式
  • 如何轻松解除Facebook封锁
  • flinksql bug: Received resultset tuples, but no field str
  • 阿里云国际DDoS高防:添加网站配置指南
  • 腾讯codebuddy.ai 安装实测【从零开始开发在线五子棋游戏:完整开发记录】
  • 机械学习--TF-IDF实战--红楼梦数据处理
  • wordpress数据库导入时的#1044错误
  • Linux中使用计划任务和tar命令实现文件备份
  • 【Unity】Spine重新播放动画时会闪烁上次动画的残影
  • K8S 节点初始化一键脚本(禁用 SELinux + 关闭 swap + 开启 ipvs 亲测实用)
  • SQL 与 NoSQL 的核心区别
  • 部署高可用5节点 k8s 集群(v1.25.0版本)
  • Python中的高阶函数
  • vue+Django农产品推荐与价格预测系统、双推荐+机器学习预测+知识图谱
  • 六、SpringBoot多环境开发
  • 【Unity笔记】视频播放控制器全攻略:支持延迟播放、事件回调与多视频管理的完整实现
  • Linux 系统下 VS Code 降级至 1.85 版本教程:通过历史版本网站解决兼容性问题
  • 二叉树(七)--完全二叉树的节点个数
  • Day13 Vue工程化
  • mysql 简单操作手册
  • 行业分享丨SimSolid 在汽车零部件开发中应用的可行性调研及实践
  • 鸿蒙har包打包与引用,其它主工程entry引用本地har