当前位置: 首页 > news >正文

Arc Institute提出首个AIVC虚拟细胞模型STATE

细胞对扰动的反应是理解生物机制和选择潜在药物靶点的基石。尽管计算模型在预测扰动效应方面比实验方法具有巨大潜力,但它们目前难以将实验观察到的细胞背景下的效应推广到未观察到的背景中。当前深度学习方法在跨细胞背景泛化扰动效应时,并未持续优于简单的线性模型。这主要是由于单细胞扰动数据集中掩盖真实扰动效应的两个主要噪声源:一是研究群体内未被实验协变量解释的生物异质性;二是不同扰动数据集之间的技术或实验变异。为了解决这些挑战并推动虚拟细胞模型的发展,2025年6月24日Arc Institute联合斯坦福、UCSF等顶尖机构发布了其第一代虚拟细胞模型STATE,这是一种灵活且富有表达力的机器学习架构,用于建模细胞异质性和跨不同数据集的扰动效应 。STATE模型是一个多尺度模型,包含两个互补的模块: State Embedding (SE) 模型和State Transition (ST) 模型 。STATE能够利用超过1.67亿个观测细胞数据训练其嵌入模型,并利用超过1亿个扰动数据训练其转换模型。

1: STATE模型是什么?

STATE是一种多尺度机器学习架构,旨在预测细胞对扰动的转录组响应,同时解决细胞异质性和跨数据集的技术变异问题。如图1所示,STATE由两个核心模块组成:

  1. State Embedding (SE) 模型:通过自监督学习生成细胞嵌入,捕获细胞状态的转录组特征,增强模型的泛化能力。
  2. State Transition (ST) 模型:基于Transformer架构,学习跨细胞集的扰动效应,利用自注意力机制建模细胞间的异质性。

 

 

1.1: State Embedding (SE) 模块设计与训练

State Embedding (SE) 模块是一种大规模的预训练细胞基础模型,其核心任务是在海量观测性单细胞数据上学习细胞状态的泛化表达表示。具体来说,SE 将每个单细胞的基因表达谱映射到一个向量空间,使得相似类型的细胞聚集在一起,不同类型的细胞分布开来,同时对技术噪声保持鲁棒。Arc Institute 发布的实现中,SE 模块包含约6亿(600M)可训练参数,是一个密集的双向 Transformer 模型。

模型架构:

SE 模块的架构由一个Transformer 编码器(encoder)和一个专用解码器(decoder)组成。编码器采用双向注意力(bidirectional self-attention)机制,对输入的单细胞表达向量进行处理。每个细胞的输入是经过log 归一化处理的基因表达谱向量。

  • 编码器(Encoder): 双向Transformer,由若干层自注意力模块和前馈网络层堆叠而成。每层的输入包含当前细胞在前一层的隐藏表示,编码器通过自注意力机制捕捉不同基因之间的复杂相关性和上下文信息。编码器的输出是一个细胞嵌入向量,代表该单细胞的状态在高维空间中的表示。
  • 解码器(Decoder): 一个专门设计的多层感知机(MLP)。解码器的目标是从编码器生成的细胞嵌入和目标基因嵌入(learned gene embedding)中预测出原始的基因表达值。解码器接收编码后的细胞向量和某一基因的嵌入向量,将其结合后经过多层全连接网络输出该基因的表达预测值。

训练目标与数据:

SE 模块的训练目标是自监督地重构输入的单细胞表达谱。模型通过最小化输入表达和重建表达之间的误差来更新参数。Arc Institute 将近1.67亿个来源多样的人类单细胞表达谱用于训练 SE 模型,这些数据涵盖了不同的组织、细胞系、物种和实验技术。训练过程中,仅保留每个细胞的19,790个人类蛋白编码基因表达值,并将每个细胞的总 UMI 数标准化到10,000。训练批次通常包含来自多种数据源的细胞,以确保学习到的嵌入对不同数据集的噪声和偏差具有鲁棒性。

作用与优势:

通过大规模预训练,SE 模块学到的细胞嵌入能够有效捕获细胞类型特异性的转录组模式,并对技术噪声高度鲁棒。在下游扰动建模任务中,当原始扰动数据较少或噪声较大时,SE 提供的平滑嵌入空间有助于稳定模型训练。SE 的另一个优势是其“通用性”,可为未见过的细胞类型提供合理的初始嵌入,从而支持零样本预测。

1.2: State Transition (ST) 模块设计与训练

State Transition (ST) 模块是 State 模型的核心,用于学习细胞群体在外部干预下的表达变化规律。ST 模型采用了双向 Transformer架构,输入是一个细胞集合以及对应的扰动标签,输出则是相应的扰动后细胞群的表达分布。

模型架构与输入输出:

在ST 模型中,每个训练样本由一组未扰动细胞和一个扰动标识组成。模型利用自注意力机制在这些细胞之间进行信息交互,以捕获群体内不同细胞之间的关联和异质性。

  • 输入: 一个细胞集合(unperturbed cell populations)和相应的扰动(perturbation)标签。集合中的每个细胞可以由其原始的基因表达谱向量表示,或者由 SE 模型生成的细胞嵌入向量表示。
  • 输出: 对应的扰动后细胞集合的表达(或嵌入)分布。如果输入是原始表达,则ST 模型直接输出每个细胞在扰动后的转录组预测;如果输入是嵌入向量,则 ST 首先预测扰动后的细胞嵌入,然后通过一个多层感知机(MLP)将其解码回基因表达空间。
  • Transformer 结构: ST 模型使用双向 Transformer,每一层包括多头自注意力机制(multi-head self-attention)和前馈神经网络(feed-forward network),能够灵活捕获细胞集合中的远程依赖和群体结构。

训练目标与损失函数:

ST 模型的训练目标是从群体分布层面学习扰动效应,而非单独学习每个细胞的变化。研究者使用了最大均值差异(Maximum Mean Discrepancy, MMD)损失来衡量模型预测的扰动后分布与真实观测分布之间的差异。MMD 损失通过计算两组点云在再生核希尔伯特空间(RKHS)中分布均值的差距来量化分布偏差,从而驱动模型学习使预测分布尽量与真实分布对齐。实验证明,在保持其他条件不变的情况下,增加输入细胞集的大小能够显著降低验证损失,且集合级的自注意力设计对于捕捉扰动引起的细胞异质性至关重要。

训练数据构造与批次策略:

ST 模型的训练依赖于大规模的单细胞扰动数据集。Arc Institute 整合了来自多个来源的实验数据,包括Tahoe-100M(1 亿级细胞,1000 多种小分子扰动)、Parse-PBMC(约 970 万细胞,多种刺激条件)等,并统一预处理后用于训练。在构造训练样本时,研究人员将相同实验或相同细胞环境下的未扰动细胞集作为输入,与对应的相同条件下扰动后细胞集配对。在数据 batching 时,还会将细胞集按照相同扰动类型、细胞系、批次等共享协变量进行分组。

推理(Inference):

STATE模型能够对扰动实验进行模拟,并支持下游分析,如表达量化、差异基因表达分析和扰动效应大小估计。

2: STATE模型的在AIVC问题中的效果咋样?

模型在扰动预测中的性能对比

根据量化指标,STATE 模型在预测细胞扰动效应方面优于现有基线模型的性能。其科学意义在于,STATE 展现出突破性的预测精度,能够更准确地识别扰动引起的基因表达变化和差异表达基因,这不仅意味着模型能够捕捉到更深层次的生物学规律,也为科学家更有效地筛选药物靶点、预测药物副作用以及优化实验设计提供了高可信度的支持。

B 模型的整体架构和预测能力

STATE 通过整合细胞状态嵌入(SE)和状态转换(ST)模块,构建一个统一的框架来预测细胞对基因编辑或药物等扰动的响应。其科学意义在于,STATE 能够同时建模细胞群体的异质性,并学习如何将从已知细胞背景中学到的扰动效应泛化到未曾见过的细胞类型和实验条件中,从而为系统性地理解和预测复杂生物系统中的细胞行为提供强大的工具。

模型的内部机制或可解释性分析

通过可视化注意力机制、细胞嵌入空间聚类等方式揭示STATE 模型如何学习和利用生物学信息。其科学意义在于,这张图增强了模型的可解释性,帮助科学家理解模型做出特定预测的内在逻辑,例如如何捕捉细胞群体中的相互作用或如何组织细胞的生物学状态;这不仅有助于建立科学家对人工智能工具的信任,也可能从中发现传统方法难以捕捉的新的生物学见解或细胞亚群间的关键关联,从而指导未来的实验验证和模型改进。

3: STATE的未来展望

Arc Institute表示,STATE仅仅是其AIVC虚拟细胞一系列模型中的第一个版本,随着虚拟细胞训练数据的增长,其预测准确性将会随之提高。未来的研究方向可能包括进一步探索STATE在细胞系统中的应用,例如在不同实验条件和细胞背景下对细胞状态和行为进行建模。STATE模型作为细胞状态和行为的基础模型,具有跨越不同细胞背景和实验条件的扩展性 。其ST模型能够独特地学习跨细胞群体的扰动效应,同时保持单细胞分辨率,从而捕获未被已知实验或生物协变量解释的残余异质性 。这为更深入地理解细胞生物学和开发更精确的治疗方法提供了广阔的前景。

参考资料:

https://arcinstitute.org/news/virtual-cell-model-state

https://arcinstitute.org/manuscripts/State 

https://github.com/ArcInstitute/state 

 

http://www.dtcms.com/a/272681.html

相关文章:

  • 上海交大医学院张维拓老师赴同济医院做R语言训练营培训
  • 从Debug中学习MiniGPT4
  • 在Vue中如何对组件进行销毁在进行挂载
  • 模型训练之数据标注-Labelme的使用教程
  • 5款工具高效制作插图,PPT设计新选择!
  • 货车车架和悬架设计cad【7张】+设计说明书
  • leetcode 3440. 重新安排会议得到最多空余时间 II 中等
  • 《PyQt6-3D:开启Python 3D编程新世界 2》
  • 【TCP/IP】8. 传输层协议
  • hive小文件问题
  • 二层环路避免-STP技术
  • Linux【大数据运维】下制作Redis绿色免安装包(一)
  • 企业网络安全的“金字塔”策略:构建全方位防护体系的核心思路
  • upload-labs靶场通关详解:第20关 /.绕过
  • 以下哪种类型在Golang中不是内置类型?
  • zookeeper etcd区别
  • Keepalived+LVS实现LNMP网站的高可用部署
  • 登录为图片验证时,selenium通过token直接进入页面操作
  • Java 导出word 实现饼状图导出--可编辑数据
  • CIEDE2000 色差公式C++及MATLAB实现
  • 【零基础学AI】第35讲:策略梯度方法 - 连续控制任务实战
  • Swift 图论实战:DFS 算法解锁 LeetCode 323 连通分量个数
  • 快速搭建服务器,fetch请求从服务器获取数据
  • ReentrantLock 与 Synchronized 的区别
  • 给MySQL做定时备份,一天3次
  • method_name字段是什么
  • 单片机基础(STM32-DAY2(GPIO))
  • Linux驱动06 --- UDP
  • 飞书AI技术体系
  • web 系统对接飞书三方登录完整步骤实战使用示例