当前位置: 首页 > news >正文

NeurIPS2025丨MIT提出自动化科学发现工具,AutoSciDACT对天文/物理/生物医学等异常数据强敏感

古往今来,科学发现常带有几分偶然性,例如青霉素从发霉的培养皿中意外诞生,宇宙微波背景辐射源于天线捕捉到的「异常噪声」,这些不经意的观察结果,最终都成为推动人类文明进步的关键驱动力。如今,在「数据密集型」的科研环境中,海量跨领域数据中藏着更多奇特且难以解释的观察结果,理论上让偶然科学发现的契机实现倍增。但矛盾的是,要从复杂、海量的科研数据中精准捕捉到「新发现」,其难度远胜于大海捞针。

传统科学发现的方法多依赖于科学家们的直觉和专业知识,且需要通过观察、研究、假设、实验、论证等一系列繁杂流程,才能确定「新发现」是否真正具有科学价值。但如今科研数据量呈指数级增长,数据维度也愈加复杂,想要再仅凭一双慧眼识得「新发现」已近乎天方夜谭。尽管近来基于人工智能和大语言模型的自动化科学探究方法已崭露成效,但由于缺乏能能实现严格、自动化假设检验和验证的集成框架, 这类方法也仍难免「心有余而力不足」。

针对科学发现面临的挑战,来自麻省理工学院(MIT)、威斯康星大学麦迪逊分校(UW-Madison)以及美国国家科学基金会人工智能与基本相互作用研究所(IAIFI)的团队,提出一种名为 AutoSciDACT(Automated Scientific Discovery with Anomalous Contrastive Testing)的方法,可用于自动化检测科学数据中的「新发现」,从而简化科学探究。 研究人员通过在天文学、物理学、生物医学、图像学等真实数据集和一个合成数据集上对其进行了验证,结果表明该方法在所有领域中对少量注入的异常数据都具有很强的敏感性。

相关研究成果以「AutoSciDACT: Automated Scientific Discovery through Contrastive Embedding and Hypothesis Testing」为题,收录于 NeurIPS 2025。

研究亮点:

  • AutoSciDACT 是一个用于检测科学数据新颖性的端到端通用框架,具备跨领域可迁移能力;

  • 将科学模拟数据、人工标注数据、专家知识整合进对比式降维流程,设计了系统性流程;

  • 构建了统计严谨的框架,用于量化观测到的异常的显著性,从统计学角度判断异常是否具有科学意义;

  • 在 4 个差异显著的科学领域进行了真实数据验证,效果显著具有说服力和推广价值。

在这里插入图片描述

论文地址:

https://openreview.net/forum?id=vKyiv67VWa

关注公众号,后台回复「AutoSciDACT」获取完整 PDF

更多 AI 前沿论文:
https://hyper.ai/papers

数据集:多样化、跨领域的数据集验证 AutoSciDACT 卓越性能

为严谨地验证 AutoSciDACT 的卓越性能,研究人员在 5 个完全不同领域的数据集上对其进行了测试, 这些数据集包含了来自天文学、物理学、生物医学、图像学四个差异显著的领域,以及一个合成构建的数据集。

天文学数据集方面, 团队选择了激光干涉引力波天文台(LIGO)在华盛顿州汉福德和路易斯安那州利文斯顿记录的引力波数据作为天文基准,时间跨度为 2019 年 4 月至 2020 年 3 月的第三次观测运行。这些数据由来自两个通道(每个干涉仪一个通道)的 50 毫秒时间序列信号构成,采样频率为 4096 Hz(每个通道 200 次测量)。不同类别的数据包含了「纯噪音」、「仪器干扰信号」、「已知天体物理信号」,以及一类被隐藏的「白噪音爆发(WNB)」信号(作为异常)。预训练时排除 WNB 信号,后续将其注入数据,检验模型能否从引力波信号中识别出该种未见过的信号。

物理学数据集方面,团队选择的粒子物理基准是 JETCLASS 数据集,这是一个包含模拟「喷注」的大型数据集,来自大型强子对撞机(LHC)的质子-质子碰撞。研究采用了其中一个子集,其中包括来自量子色动力学(QCD)过程(夸克/胶子)、顶夸克衰变(t → bqq′),以及 W/Z 矢量玻色子衰变(V → qq′)的喷注。此外还保留了来自增强型希格斯玻色子衰变为底夸克的信号喷注(H → bb¯)。团队使用 Particle Transformer(ParT)作为对比编码器,这是一种适用于粒子物理学的 Transformer 架构变体。

在这里插入图片描述

心脏组织、肝组织和非酒精性脂肪肝的示例图

生物医学方面, 团队使用了公开可用的染色组织样本的光学显微镜图像,参考样本包含七类小鼠组织(脑、心、肾、肝、肺、胰腺、脾脏)和一类大鼠正常肝组织。研究目标是检测由非酒精性脂肪肝(NAFLD)引起的异常小鼠肝组织。输入样本为从全切片图像中提取的 256 x 256 像素分辨率的组织切片,采用马松三色染色法。骨干网络采用 EfficientNet-B0。

图像学方面, 团队使用了 CIFAR-10 图像数据集(共计 50,000 张),随机选择第一类为异常类,在剩余九类上进行预训练。在发现阶段,团队使用 CIFAR-5m 中的 100,000 张图像来补充 CIFAR-10 测试集,并增加可用于假设检验的数据点数量。编码器主干使用带有预训练权重的 ResNet-50,仅将最后的全连接层替换为稍大的 MLP,并在 CIFAR 对比嵌入任务上对其进行微调。

合成数据集方面, 其主要作用是展示 AutoSciDACT 的核心能力,验证其不受真实科学数据集特定细节的影响。合成数据集由 X⊂R^D+M 组成,其中包含 D 个有意义的维度和 M 个无信息的噪声维度。噪声维度从 0-1 均匀分布生成,有意义的维度则由 N 个高斯聚类构成,聚类的均值呈 0-1 均匀分布,协方差(0,0.5 均匀分布)均随意生成。之后对全维度随机旋转,隐藏原本的有效区分变量。用对比嵌入方法训练,仅用 N-1 个聚类做训练数据,留 1 个聚类作为待检测的「信号」,训练用的基础模型为简单的多层感知器(MLP)。

除此之外,补充验证中还涉及用于识别蝴蝶杂交种的基因组数据集、LHC 希格斯玻色子四轻子衰变真实数据等其他数据集,进一步验证模型的跨领域推广能力。总而言之,这些不同的数据集均以「背景数据」+「异常信号数据」构建,分别用于模型预训练和检测模型能否检测到新颖事物,且验证结果都表明 AutoSciDACT 作为科学数据新颖性检测通用流程的有效性,以及其跨领域推广能力。

模型架构:「预训练」+「发现」双阶段流程打造科学发现新方法

AutoSciDACT 的核心是通过「预训练-发现」两个步骤, 将低维特征嵌入与统计检验结合,进而从高维科学数据中挖掘出具有统计显著性的「新颖信号」。

在这里插入图片描述

科学方法(上)与 AutoSciDACT 流程(下)的对比

具体来说,预训练阶段解决的是高维数据冗余问题,它主要将原始科学数据中可能包含的数百或数千维度的输入特征压缩为低维向量,并保留数据的关键语义特征——即科学意义上的核心信息,为后续分析奠定基础。

在实现方面,预训练管道的主干是一个经过对比学习训练的编码器 fθ : X → Rᵈ,它可以将原始数据从高维输入空间 X 映射到 Rᵈ 中的低维表示。对比目标的设计是为最大化相似输入(正对)之间的对齐,同时在学习空间中分离不同输入(负对)。基础框架使用的是 SimCLR,它训练编码器 fθ 和投影头 gϕ,训练完成后仅保留编码器 fθ 用于输出最终低维嵌入。 实际采用监督对比学习(SupCon),它利用标记的训练数据来创建来自同一类的正对和来自不同类的负对,损失函数为 SupCon 损失,可结合领域知识设计数据增强策略补充正对构建。 此外,还可选择加入监督交叉熵损失 LCE,总损失为 L=LSupCon+λCELCE(λCE 取值 0.1-0.5,确保分类目标不占主导)。

发现阶段则是在 NPLM(New Physics Learning Machine)异常检测和假设检验框架中使用前一步得到的低维嵌入, 搜索数据中可能存在的「新颖信号」,并通过统计检验量化其显著性。

在这一阶段,研究人员使用嵌入向量 fθ 来处理未见过的数据集,并在低维空间中搜索偏离背景分布的异常簇、密度扭曲或离群点。搜索过程采用一种经典的科学假设检验,即将由已知背景组成的参考数据集 R 与成分未知的观测数据集 D 进行比较,试图接受或拒绝零假设,即 R 和 D 具有相同的分布。通过 NPLM 算法(基于 Neyman 等人提出的经典似然比检验)检验,该模型与具有表现力的习得嵌入向量相结合,便能够对「新颖信号」具有极高的敏感性。

值得一提的是,预训练降维至关重要,因为包括 NPLM 在内的任何统计检验方法,其效能都会随着数据维度升高而显著下降,即维度越高,需要的样本变量就越大,这样才能检测到有统计意义的小信号,但实际科学研究中样本量往往难以满足这种高维度需求。因此,只有将高维数据进行压缩,才能让 NPLM 等工具有效发挥作用,从而实现具有统计学意义上的异常发现,使其更具科学价值。

实验结果:多维度、宽领域对比彰显 AutoSciDACT 可迁移性、跨领域能力

研究人员使用相同的方式在每个数据集上对 AutoSciDACT 进行了训练和评估,仅在预训练阶段进行微小调整以适应每个数据集的具体情况。

所有编码器的嵌入维度均为 d=4,嵌入结果进行可视化处理,如下图所示。另外实验设置了三类对比基准,包括监督基准(supervised)、理想监督基准(ideal supervised)以及马氏距离基准(Mahalanobis Baseline)。

在这里插入图片描述

物理学和天文学数据集的对比嵌入

如下图所示,结果表明,NPLM 能检测出具有高度统计显著性的偏差(Z≳3 或 p≲10⁻³),且信号占比可低至 1%。两个有监督基线在充分了解信号在嵌入空间中分布的情况下,为信号敏感性提供了一个合理的上限,在某些情况下,NPLM 的性能接近了这一上限。超过大约 5σ 后,一些趋势会失效,但在这种显著性水平下(p∼10⁻⁷),发现结果是机器明确的。

在这里插入图片描述

实验结果

另外除合成数据外,在所有其他数据集中,NPLM 的性能均显著优于马氏距离基线, 这是因为它能够对输入空间中的各种扭曲进行建模。

对于 LIGO 和 JETClass 数据集,所提方法在 Z 分数为 3 时接近有监督上限,这在各自领域堪比或超过了所有异常检测算法。虽然天文学和粒子物理学长期以来一直利用统计上演进的异常检测技术,但将其应用于组织学,说明了科学学科间方法的迁移性。

在组织学方面,实验表明了利用标签信息构建的嵌入空间优于仅基于数据增强构建的嵌入空间。 借助 AutoSciDACT,研究人员引入一种新方法,能够检测可能仅存在于小部分组织中的局部异常,这种能力对于疾病的早期检测和指导病理学家对有毒化合物的判断都至关重要。

数据爆炸增长的时代,「AI 科学家」已走入现实

AI 浪潮正滚滚而来,大有颠覆一切的势头。科学探索作为科研领域的最前沿,在 AI 赋能下正经历着前所未有的变革,成为被 AI 浪潮深度重塑的核心领域。

除了上述论文提到的 AutoSciDACT 之外 ,在相同的领域,谷歌、斯坦福大学等团队同样也提出了可以模仿人类科学家的 AI co-scientist, 它能够像人类一样提出想法、讨论质疑并优化改进。具体来说,这是一个基于 Gemini 2.0构建的多智能体系统,能够帮助科学家发现新的、原创性的知识,并基于已有证据,结合科学记提供的研究目标和指导,提出可证明具有创新性的研究假设和方案。
论文题目: Towards an AI co-scientist
论文地址: https://arxiv.org/abs/2502.18864

不仅如此,AI 搞科研的能力还在持续拓展,甚至能够从「自动想研究电子」到「写出完整科研论文」。来自牛津大学、哥伦比亚大学的团队就提出了这样一个 AI 科学家,这是首个全自动科学发现的综合框架, 可使先进的大语言模型能够独立开展研究并传播其研究成果。简单来说,这个 AI 科学家能够生成新颖的研究思路、编写代码、执行实验、可视化结果,并通过撰写完整的科学论文来描述其发现,然后运行模拟评审过程进行评估。
论文题目: The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery
论文地址: https://arxiv.org/abs/2408.06292

而就在今年上半年,AI 科学家又迎来了关键升级,进化到 AI Scientist-v2 版本。与前代版本相比,AI Scientist-v2 不再依赖人类便携的代码模板,它能在不同的机器学习领域有效泛化。 它采用了一种由专门的试验管理智能体负责的新型渐进式智能体树搜索方法,并整合视觉-语言模型(VLM)反馈循环来增强人工智能评审组件,以迭代优化图表的内容和美观度。研究人员通过向一个经过同行评审的 ICLR 研讨会提交三篇完全自主撰写的手稿来评估 AI Scientist-v2,结果得到极大肯定,一篇手稿收获足够高的分数,已超过人类平均阈值,标志着完全由人工智能生成的论文首次成功通过同行评审。
论文题目: The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search
论文地址: https://arxiv.org/abs/2504.08066

不难看出,从辅助假设提出到全流程自主科研,从单一领域验证到跨学科广泛适配,AI 与科学探索正在深度融合、进化。这些系统不仅打破了传统科学发现的效率瓶颈,同时也推动科学发现从「经验主导」向「数据驱动」转型。未来,随着人机协同模式的神话,AI 将为科研界开启高效化的发现新篇章,同时为推动全球文明进入注入新动能。

http://www.dtcms.com/a/605163.html

相关文章:

  • Java: 为PDF批量添加图片水印实用指南
  • 使用 Python 将 PDF 转换为 PNG
  • docker desktop 限制wsl使用内存空间
  • 学校网站的建设论文WordPress订阅下载插件
  • 内连接与隐式内连接:SQL连接的本质解析
  • 内存网盘 - Go语言实现的WebDAV内存文件系统
  • 【复习408】操作系统进程描述与控制详解
  • 实战1: worldskills3.vmem
  • redis-manger管理平台
  • 基于SpringBoot与Vue的海外理财系统设计与实现
  • 测开学习DAY28
  • android短视频sdk,灵活集成,快速上线!
  • Android AIDL 的详细讲解和实践指南
  • 制作网站首页教案网站建设外包兼职平台
  • 荆门网站制作网站建设ktv
  • 适合实现多生产者单消费者(MPSC)队列的常见数据结构及其优缺点
  • 【高级机器学习】5. Dictionary learning and Non-negative matrix factorisation
  • PPTX 格式的底层数据结构
  • 前端错误监控与上报:Sentry 接入与自定义告警规则
  • 27.Telnet
  • 多级缓存体系与热点对抗术--速度是用户体验的王道,而缓存是提升速度的银弹
  • CPU 缓存 高并发探索
  • 郑州三牛网站建设企业邮箱号码从哪里查
  • 《C++在量化、KV缓存与推理引擎的深耕》
  • php网站建立教程wordpress 合并js
  • [MSSQL] 读写分离(主从备份)
  • 潮州市住房和城乡建设局网站石英手表网站
  • Spring Boot 应用的云原生 Docker 化部署实践指南
  • tekla 使用笔记 切管 分割指定长度的管
  • 算法(二)滑动窗口