【AI论文】ScienceBoard:评估现实科学工作流程中的多模态自主代理
摘要:大型语言模型(LLMs)的影响已经超出了自然语言处理,极大地促进了跨学科研究的发展。 最近,各种基于LLM的代理已经被开发出来,以协助科学发现跨越多个方面和领域的进步。 其中,能够像人类一样与操作系统交互的计算机使用代理正在为自动化科学问题解决和解决研究人员工作流程中的例行问题铺平道路。 认识到这些代理的变革潜力,我们引入了ScienceBoard,它包含两个互补的贡献:(i)一个逼真的多领域环境,具有动态和视觉丰富的科学工作流程,集成了专业软件,代理可以通过不同的界面自主交互,以加速复杂的研究任务和实验; 以及(ii)一个具有挑战性的基准,由人类策划的169个高质量、经过严格验证的现实任务组成,涵盖了生物化学、天文学和地理信息学等领域的科学发现工作流程。 对具有最先进骨干(例如GPT-4o、Claude 3.7、UI-TARS)的代理的广泛评估表明,尽管取得了一些有希望的结果,但它们仍然无法可靠地协助科学家完成复杂的工作流程,总体成功率仅为15%。 深入分析进一步为解决当前智能体局限性提供了有价值的见解,并提供了更有效的设计原则,为构建更有能力的智能体进行科学发现铺平了道路。 我们的代码、环境和基准测试位于 Github。Huggingface链接:Paper page,论文链接:2505.19897
研究背景和目的
研究背景
随着科学研究的不断深入和复杂化,科学家们面临着越来越多的数据处理、实验模拟和结果分析等任务。传统的科学研究方法往往依赖于科学家的个人经验和手动操作,这不仅效率低下,而且容易出错。近年来,大型语言模型(LLMs)和视觉语言模型(VLMs)的发展为自动化科学研究提供了新的可能性。这些模型能够处理自然语言、理解图像,并生成相应的文本或图像输出,从而在多个领域展现出强大的应用潜力。
特别是在计算机使用代理(Computer-Using Agents)方面,这些代理能够模拟人类与操作系统的交互,执行复杂的任务,如软件操作、数据分析和实验模拟等。然而,尽管LLMs和VLMs在多个领域取得了显著进展,但在科学发现领域,尤其是需要高度专业知识和复杂操作的科学工作流程中,这些模型的应用仍面临诸多挑战。
研究目的
本研究旨在通过引入ScienceBoard这一平台,评估多模态自主代理在现实科学工作流程中的表现。ScienceBoard是一个专门为科学发现设计的多模态环境,集成了专业软件,并提供了一个包含169个高质量、经过严格验证的现实任务的基准测试。这些任务涵盖了生物化学、天文学、地理信息学等多个科学领域,旨在全面评估代理在复杂科学研究任务中的表现。
本研究的主要目的包括:
- 评估现有LLMs和VLMs在科学工作流程中的性能:通过ScienceBoard平台,对现有的先进模型(如GPT-4o、Claude 3.7等)进行评估,了解它们在科学发现任务中的表现。
- 探索多模态输入对代理性能的影响:研究不同观察模式(如纯文本、截图、a11ytree等)对代理性能的影响,为未来代理设计提供指导。
- 提出改进代理性能的策略:通过深入分析代理在任务中的失败案例,提出改进策略,如分离规划和执行、增强代理的领域知识等。
- 推动科学发现领域的自动化进程:通过构建ScienceBoard平台,为科学发现领域的自动化研究提供基础设施和基准测试,推动该领域的进一步发展。
研究方法
ScienceBoard平台构建
- 环境设置:ScienceBoard平台基于Ubuntu虚拟机构建,集成了多种科学软件,如ChimeraX(用于分子结构分析)、Celestia(用于天体模拟)等。这些软件通过图形用户界面(GUI)和命令行界面(CLI)与代理进行交互。
- 任务设计:基准测试包含169个任务,覆盖了生物化学、天文学、地理信息学等多个领域。每个任务都经过精心设计,旨在模拟真实科学研究中的挑战。
- 评估指标:采用细粒度的评估方法,基于虚拟机的最终状态、I/O状态和中间步骤来评估任务的完成情况。同时,引入了人类性能作为对比基准。
代理实现与评估
- 代理实现:使用了多种先进的LLMs和VLMs作为代理的骨干模型,包括GPT-4o、Claude 3.7、Qwen2.5-VL等。同时,还使用了专门的GUI动作模型,如OS-Atlas-Pro-7B、UGround-V1-7B等。
- 观察模式:代理通过不同的观察模式感知环境,包括纯文本(a11ytree)、截图、截图+a11ytree和Set-of-Marks等。
- 评估过程:代理在ScienceBoard平台上执行任务,评估系统记录代理的行为并评估任务的完成情况。评估结果包括成功率、失败原因分析等。
研究结果
代理性能评估
- 整体成功率:实验结果显示,即使是最先进的模型(如GPT-4o和Claude 3.7),在ScienceBoard基准测试中的整体成功率也仅为15%左右。这表明现有模型在复杂科学工作流程中的表现仍然有限。
- 不同领域的表现:代理在代数和生物化学任务中表现相对较好,但在地理信息系统和天文学任务中表现较差。这主要是由于这些领域涉及更多的GUI交互和复杂的视觉元素,对代理的视觉理解和空间推理能力提出了更高要求。
- 观察模式的影响:多模态输入(如截图+a11ytree)显著提高了代理的性能。这表明结合视觉和文本信息有助于代理更好地理解任务环境和执行任务。
失败原因分析
- 规划与执行分离不足:许多代理在规划任务时表现良好,但在执行具体动作时出现错误。这表明分离规划和执行可能有助于提高代理的性能。
- 视觉理解能力有限:在涉及复杂视觉元素的任务中,代理的视觉理解能力成为瓶颈。这要求未来的代理设计需要更加注重视觉推理和空间理解能力的提升。
- 领域知识缺乏:代理在执行需要特定领域知识的任务时表现不佳。这表明增强代理的领域知识是提高其在科学工作流程中表现的关键。
研究局限
- 评估范围的局限性:尽管ScienceBoard平台涵盖了多个科学领域和多种任务类型,但仍然无法完全代表所有科学发现任务。未来的研究需要进一步扩大评估范围,以更全面地评估代理的性能。
- 人类性能作为基准的局限性:虽然人类性能作为对比基准提供了有价值的参考,但人类科学家在执行任务时可能受到多种因素的影响(如经验、疲劳等),这可能导致评估结果存在一定的偏差。
- 环境设置的局限性:ScienceBoard平台基于虚拟机构建,与真实科学研究环境仍存在一定差异。这可能影响代理在真实环境中的表现。
未来研究方向
- 增强代理的视觉理解和空间推理能力:未来的研究应致力于提升代理在复杂视觉环境中的理解和推理能力,以更好地应对涉及GUI交互和复杂视觉元素的任务。
- 融合领域知识:通过引入领域知识库或构建专门的领域模型,增强代理在特定领域的知识和理解能力。这将有助于代理更准确地执行需要特定领域知识的任务。
- 探索新的代理架构和算法:尝试采用新的代理架构和算法,如强化学习、迁移学习等,以提高代理在复杂任务中的适应性和性能。
- 推动科学发现领域的自动化进程:通过构建更加完善和高效的评估平台和基准测试,推动科学发现领域的自动化进程。这将有助于减轻科学家的工作负担,提高科学研究的效率和质量。
总之,本研究通过引入ScienceBoard平台,对多模态自主代理在现实科学工作流程中的表现进行了全面评估。实验结果表明,尽管现有模型在简单任务中表现出色,但在复杂科学工作流程中仍面临诸多挑战。未来的研究应致力于提升代理的视觉理解、空间推理和领域知识融合能力,以推动科学发现领域的自动化进程。