当前位置: 首页 > news >正文

【AI论文】实习生-S1:一种科学多模态基础模型

摘要:近年来,大量开源基础模型应运而生,在一些备受关注的领域取得了显著进展,其性能已十分接近闭源模型。然而,在高价值但更具挑战性的科学专业领域,要么这些领域仍依赖专家模型,要么通用基础模型的进展与热门领域相比明显滞后,远不足以推动科学研究变革,并且在这些科学领域中,开源模型与闭源模型之间仍存在巨大差距。为缩小这一差距,并朝着通用人工智能(AGI)更进一步地探索,我们推出了Intern-S1,这是一款具备通用理解和推理能力,且拥有分析多种科学模态数据专业知识的专业通用模型。Intern-S1是一个多模态混合专家(Mixture-of-Experts,MoE)模型,拥有280亿激活参数和2410亿总参数,在包含2.5万亿以上科学领域令牌的5万亿令牌上持续进行预训练。在训练后阶段,Intern-S1在InternBootCamp中先接受离线强化学习(Reinforcement Learning,RL)训练,然后再接受在线强化学习训练。在此过程中,我们提出了混合奖励(Mixture-of-Rewards,MoR)机制,以同时协同完成1000多项任务的强化学习训练。通过在算法、数据和训练系统方面的综合创新,Intern-S1在在线强化学习训练中取得了顶尖性能。在综合评估基准测试中,Intern-S1在开源模型的一般推理任务中展现出具有竞争力的性能,在科学领域显著优于开源模型,并且在分子合成规划、反应条件预测、晶体热力学稳定性预测等专业任务中超越了闭源的先进模型。我们的模型可在Huggingface。Huggingface链接:Paper page,论文链接:2508.15763

研究背景和目的

研究背景
近年来,开源基础模型在多个广泛关注的领域取得了显著进展,其性能逐渐接近闭源模型。

然而,在高价值但更具挑战性的科学专业领域,现有模型的表现仍然不尽如人意。这些领域不仅要求模型具备对多样化但低资源科学模态(如分子结构、时间序列信号等)的内在规律的理解和捕捉能力,还需要进行长期且严谨的推理过程,如假设验证和实验设计优化。现有的开源模型在科学任务上的进展显著落后于在流行领域(如数学和代码生成)的进展,与闭源模型之间存在较大差距,这限制了开源模型对前沿科学研究的贡献。

研究目的
为了缩小这一差距并探索迈向人工通用智能(AGI)的进一步路径,研究团队引入了Intern-S1,这是一个具备通用理解和推理能力的专业通用模型,专门用于分析多科学模态数据。Intern-S1旨在成为一个多模态科学推理的基础模型,通过集成创新算法、数据和训练系统,在科学任务上实现顶尖性能,甚至超越闭源模型,从而加速科学发现。

研究方法

1. 模型架构
Intern-S1采用了多模态混合专家(MoE)模型架构,拥有280亿激活参数和2410亿总参数。模型基于Qwen3-235B MoE模型,并针对科学模态进行了优化。具体来说,研究团队根据科学模态的表示形式将其分为三类,并采用不同策略将其投影到LLM的表示空间中:使用视觉变换器(ViT)编码可视化表示(如气象图像),提出了一种动态标记器处理线性离散表示(如分子结构),并利用特定设计的编码器处理领域特定表示(如时间序列信号)。

2. 数据准备
在预训练阶段,研究团队通过两条管道准备了大规模的科学领域预训练数据:一是通过回忆和过滤管道从网络数据中挖掘预训练数据,确保知识覆盖,将目标领域的数据纯度从约2%提高到50%以上;二是采用页面级PDF文档解析管道,以中等成本从PDF文档中获取高质量解析文档。这些管道为Intern-S1的持续预训练贡献了超过2.5万亿个科学数据标记。

3. 训练策略
Intern-S1的训练分为四个阶段:单模态预训练、多模态持续预训练、离线强化学习(RL)和在线强化学习。在RL阶段,研究团队提出了混合奖励框架(Mixture-of-Rewards, MoR),以协同处理超过1000个任务的RL训练。MoR通过统一奖励标量来协调不同形式反馈的任务,采用POLAR算法为创造性写作和聊天等难以验证的任务提供奖励标量,对于各种易于验证的任务,则采用不同的验证模型组合、规则和环境反馈来生成精确的奖励标量。

4. 基础设施优化
研究团队在XTuner工具包中发布了Intern-S1的训练基础设施,该工具包包括预训练和监督微调的并行计算策略,以及RL训练的并行计算策略。

具体优化措施包括使用完全分片数据并行(FSDP)进行模型参数分布,采用FP8精度进行矩阵乘法运算,以及开发特定的内核来减少MoE计算中的内存和计算开销。

研究结果

1. 性能表现
在综合评估基准上,Intern-S1在开源模型中表现出顶尖的通用推理能力,并在科学领域显著优于开源模型,甚至在某些专业任务上超越了闭源的顶尖模型,如分子合成规划、反应条件预测和晶体热力学稳定性预测。具体来说,在科学相关文本基准测试中,Intern-S1在SmolInstruct、ChemBench和MatBench三个数据集上取得了最佳整体成绩;在多模态科学基准测试中,Intern-S1在四个数据集(SFE、MicroVQA、MSEarthMCQ和XLRS-Bench)上取得了最佳整体成绩。

2. 强化学习效率
通过集成MoR框架和其他优化措施,Intern-S1在RL训练中的效率显著提高,训练时间减少了10倍,同时保持了高性能表现。这表明MoR框架在处理多样化任务时的有效性和可扩展性。

研究局限

1. 数据覆盖和纯度
尽管研究团队通过多种策略提高了科学领域数据的纯度和覆盖度,但某些特定领域的数据仍然有限,这可能影响模型在这些领域的表现。此外,网络数据的固有噪声和偏差也可能对模型训练产生一定影响。

2. 模型规模和效率
尽管Intern-S1在参数规模和性能上取得了显著进展,但庞大的模型规模也带来了计算资源和能效方面的挑战。如何在保持高性能的同时降低模型规模和计算成本,是未来研究需要解决的问题。

3. 任务多样性和复杂性
尽管MoR框架在处理多样化任务时表现出色,但随着任务数量和复杂性的增加,如何有效协调和优化不同任务的奖励信号,仍然是一个待解决的问题。

未来研究方向

1. 扩大数据覆盖和纯度
未来研究应继续探索更有效的数据挖掘和过滤技术,以进一步提高科学领域数据的纯度和覆盖度。同时,考虑利用无监督或自监督学习方法,从海量未标注数据中提取有用信息。

2. 优化模型架构和效率
研究更高效的模型架构和压缩技术,以降低模型规模和计算成本。例如,探索模型剪枝、量化和知识蒸馏等方法,以在保持高性能的同时减少模型参数量和计算量。

3. 增强任务多样性和复杂性处理
进一步优化MoR框架,以更好地处理任务多样性和复杂性增加的情况。例如,引入更复杂的奖励信号协调机制,或者开发新的RL算法,以更好地适应多样化任务的需求。

4. 跨领域迁移学习
探索跨领域迁移学习的方法,使模型能够从一个领域学到的知识迁移到其他相关领域。这将有助于进一步提高模型的泛化能力和应用范围,推动科学研究的全面发展。

5. 开放合作和社区参与
鼓励开放合作和社区参与,共同推动科学领域基础模型的研究和发展。通过共享数据、模型和工具,促进科学研究的透明度和可重复性,加速科学发现的进程。

http://www.dtcms.com/a/348905.html

相关文章:

  • 0824 MLIR和AST相关资料
  • 复杂工业场景识别率↑18.3%!陌讯多模态OCR算法实战解析
  • 虚幻引擎5(UE5)Android端游戏开发全流程指南:从环境配置到项目发布
  • Qt工具栏中图标槽函数没有响应的问题分析
  • 【JVM内存结构系列】三、堆内存深度解析:Java对象的“生存主场”
  • 【数据分享】地级市能源利用效率(超效率SBM、超效率CCR)(2006-2023)
  • Vue中 this.$emit() 方法详解, 帮助子组件向父组件传递事件
  • 纯血鸿蒙下的webdav库
  • vue中 computed vs methods
  • 【C++闯关笔记】STL:string的学习和使用(万字精讲)
  • 开发软件安装记录
  • Kubernetes v1.34 前瞻:资源管理、安全与可观测性的全面进化
  • golang6 条件循环
  • R语言rbind()和cbind()使用
  • 信贷策略域——信贷产品策略设计
  • 【数据结构】排序算法全解析
  • 【链表 - LeetCode】206. 反转链表【带ACM调试】
  • HTTP URL 详解:互联网资源的精准地址
  • 当AI遇上终端:Gemini CLI的技术魔法与架构奥秘
  • 在 vue3 和 vue2 中,computed 计算属性和 methods 方法区别是什么
  • 打响“A+H”双重上市突围战,云天励飞实力如何?
  • JUC并发编程07 - wait-ify/park-un/安全分析
  • 《CF1120D Power Tree》
  • Spirng Cloud Alibaba主流组件
  • 【ElasticSearch】springboot整合es案例
  • 企业出海第一步:国际化和本地化
  • springBoot如何加载类(以atomikos框架中的事务类为例)
  • JavaScript数据结构详解
  • Docker知识点
  • 【数据分享】中国地势三级阶梯矢量数据