当前位置: 首页 > news >正文

智源研究院发布数据魔方,以智能化自定义方式重构模型训练数据供给范式

2025年7月28日,在2025世界人工智能大会(WAIC)“数据要素X人工智能+”赋能行业高质量发展论坛上,智源研究院正式发布“数据魔方(DataCube)”——高效生成自定义开源数据集的数据平台。“数据魔方”首次以全新的“多、快、好、省”的方式为用户提供高质量自定义开源数据集(多模态数据),旨在以技术创新打通数据供给与应用个性化需求之间的壁垒,为AI模型训练提供高效、精准、低成本的全新数据解决方案。

在人工智能飞速发展的浪潮中,数据的核心驱动力愈发凸显。当前,开源数据集呈现快速增长,截至2025年7月,HuggingFace平台上的各种开源数据集已突破45万个。然而,在海量数据中精准定位匹配需求、高质量的数据资源,却成为科研人员与开发者面临的新挑战。

与此同时,模型训练正从通用领域加速向垂直领域发展,这意味着模型对训练数据的需求呈现出垂直化、精细化、个性化的趋势。据统计,截至2025年6月,国家网信办备案的生成式人工智能服务已突破400个,其中绝大多数为垂直领域应用模型,这一趋势也进一步凸显了对优质数据的迫切渴求。

然而,在实际操作中,传统模型训练仍依赖人工检索多个数据集,随后进行下载、汇总、筛选、过滤、去重、质检等一系列繁琐流程,不仅耗时费力,也严重制约了模型开发效率。

为解决这一痛点,智源研究院研发的数据魔方(DataCube)可实现从“数据集Level”到“数据样本Level”的精准检索,满足用户个性化的数据需求。只需自然语言输入数据需求,平台便能快速构建专属的个性化数据集,彻底打破以往操作流程的桎梏。数据魔方首次发布,先以多模态视频数据开始,后续将支持更多模态的数据。

在核心技术架构层面,数据魔方依托智源数据平台支持的100+数据处理算子,实现 PB 级数据的自动化处理Pipeline;深度融合 CLIP Understanding 引擎,对多模态样本从本体、行为、视角与风格等多维细进行细粒度语义解析,逐条构建精细数据画像;辅以 Hybrid Retrieval 体系,实现跨模态特征的毫秒级精准召回;最终通过 Data Evaluation 评估数据集构建效果,实现个性化高质量数据集生成。

这些技术的融合,使得数据魔方具备“多、快、好、省”四大优势。

  • 响应速度“快”,自然语言输入需求后,最快能秒级反馈并生成数据集;

  • 成本“省”,免去繁琐的数据筛选过滤过程,极大降低了人力与时间成本;

  • 数据量“多”,目前已汇聚5000W+数据样本基础,且数量仍在持续增长;

  • 数据质量“好”,内置深度语义理解算法,确保检索到的数据相关性极高。

依托个性化数据集构建引擎,数据魔方可一键匹配目标场景,高效构建高领域契合度的个性化数据集。以人工智能辅助运动员训练为例,数据魔方可基于训练目标构建运动员技术动作相关视频数据集,从而为后续训练模型提供可直接用于监督学习的高质量素材。再例如游戏场景生成,数据魔方可同时构建具备高动态画面、角色动作及场景切换的优质视频片段,为后续模型提供多样且可控的创作素材。

数据魔方将为AI数据处理领域注入了新的活力,助力行业迈向新的发展阶段。目前,数据魔方已免费开放申请试用,申请通过后每日可试用100次,欢迎感兴趣的用户体验。

数据魔方访问链接:

https://datacube.baai.ac.cn

智源研究院长期致力于人工智能数据研究,并为产业锻造和开源高质量数据集。目前,智源已开源涵盖语言、语音、图像、视频、具身智能等多种模态的数据集超 100 个,全球范围内来自数十个国家的下载量累计突破百万次。其中,自2023年,智源牵头联合数十家研究机构与企业,共同打造国家级高质量中文互联网语料库 CCI 系列。该系列从 2023 年 11 月的 CCI 1.0 迭代至 2025 年 5 月发布的 CCI 4.0,规模已达35TB,成为全球最大的高质量中英文开源文本数据集。截至目前,CCI 系列数据集全球下载超 12 万次,广泛服务于具备中文能力的大模型训练,为大模型技术发展提供数据基石。此外,智源发布的千万级指令微调数据集Infinity Instruct,被评为 HuggingFace 年度 Top20 数据集,成为开源生态中模型微调的重要基准数据集。未来,智源研究院将持续推进高质量数据集的研发与迭代,为大模型技术发展提供“养料”。

http://www.dtcms.com/a/305257.html

相关文章:

  • 两数之和(每天刷力扣hot100系列)
  • JDK17 新特性跟学梳理
  • Java注解全面解析与应用实战
  • Redis 跨主机连接超时分析:从网络波动到架构优化
  • 关于算法的一些思考
  • 基于springboot的零食商城的设计与实现/零食销售系统的设计与实现
  • 基于Matlab图像处理的静态雨滴去除与质量评估系统
  • JAVA第五学:方法的使用 调试讲解
  • RAG实战指南 Day 26:RAG系统评估指标与方法
  • 2025年06月 C/C++(二级)真题解析#中国电子学会#全国青少年软件编程等级考试
  • R语言中 read.table 和 read.delim 之间的区别
  • vue中使用wavesurfer.js绘制波形图和频谱图
  • 数学建模算法-day[14]
  • Java中写文件的显示大小实时性
  • 深入理解 boost::lock_guard<boost::mutex>
  • mybatis-plus由mysql改成达梦数据库
  • 【Linux】重生之从零开始学习运维之Mysql事务
  • Python day28
  • 破解企业无公网 IP 难题:可行路径与实现方法?
  • Three.js 渲染优化处理
  • 【C++算法】74.优先级队列_最后一块石头的重量
  • 查找特定的值
  • zama test
  • BGP团体属性
  • Linux部署各类软件
  • 《剑指offer》-算法篇-位运算
  • 【深度学习新浪潮】什么是世界模型?
  • 洛谷 P9779 [HUSTFC 2023] 不定项选择题
  • 记一次导出pdf表单引发的问题
  • Linux救援模式之简介篇