深度学习与线性模型在扰动预测上的比较
近年来,基于深度学习的基础模型研究有望通过学习单细胞数据的表征来预测基因扰动的效应。本篇研究将五个基础模型和另外两个深度学习模型与特意设计的简单基线模型进行了对比,以预测单基因或双基因扰动后的转录组变化。结果显示,没有任何一个模型的表现优于这些基线模型,这凸显了严谨基准测试的重要性。
Deep-learning-based gene perturbation effect prediction does not yet outperform simple linear baselines,Nature Methods,2025
目录
- 主要结果
-
- 双基因扰动
- 单基因扰动
- 双重扰动的实验设置
- 单基因扰动的实验设置
主要结果
LLM在知识表征方面的成功,促使人们尝试将基础模型的概念应用于生物学领域。已有多个基于数百万个单细胞转录组数据训练的单细胞基础模型被发表。最近的两个模型——scGPT和scFoundation——声称能够预测由基因扰动引起的基因表达变化。
在本研究中,作者将这些模型的性能与GEARS、CPA以及特意设计的简单基线模型进行了基准测试对比。为了提供更多视角,还纳入了三个单细胞基础模型——scBERT、Geneformer和UCE,这些模型并非专门为此任务设计,但通过与将细胞嵌入映射到基因表达空间的线性解码器结合,可重新用于该任务。在图中,用星号标记了它们的结果。
双基因扰动
首先评估了对双重扰动后表达变化的预测。使用了Norman等人的数据,在该数据中,通过CRISPR激活系统在K562细胞中上调了100个单独基因和124对基因(扩展数据图1)。这224种扰动以及无扰动对照的表型,是19264个基因经对数转换的RNA测序表达值。

- 扩展图1:
- a)包含数据规模和扰动数量的表格。
- b)每个数据集上扰动的UMAP图(按每个扰动的均值聚合)。无扰动的对照条件位置以红色显示,并标记了随机选择的部分扰动。
- c)每个扰动的靶基因表达变化。箭头的起点表示无扰动时的表达量,箭头的终点表示扰动后的表达量。对于Norman数据集中被多次靶向的基因,我们展示了其扰动后的平均表达量。
作者在所有100个单一扰动和62个双重扰动上对模型进行了微调,并在剩余的62个双重扰动上评估了预测误差。为了保证结果的稳健性,作者使用不同的随机分组重复了整个分析五次。
为了进行比较,作者纳入了两个简单的基线模型:(1)“无变化”模型(no change),该模型始终预测与对照条件相同的表达;(2)“加性”模型(additive),对于每个双重扰动,该模型预测单个对数倍变化(LFC)的总和。这两个模型都不使用双重扰动数据。
所有模型的预测误差都显著高于加性基线(图1a、b)。这里的预测误差是1000个表达量最高的基因的预测表达值与观测表达值之间的L2距离。还检查了其他汇总统计量,如皮尔逊 delta 度量,得到了相同的总体结果(扩展数据图2)。

- 图1:
- a)62种双重扰动在五次训练-测试分割中的预测误差的蜂群图。预测误差通过n = 1000个表达量最高的基因的预测表达谱与观测表达谱之间的L2距离来衡量。红色水平线表示每个模型的均值,对于表现最佳的模型,其均值线用虚线延伸。
- b)62种双重扰动中一个示例的观测表达量与预测表达量的散点图。数字表示通过L2距离和皮尔逊delta(R2)衡量的误差。

- 扩展图2:a)皮尔逊delta度量计算的是减去对照条件下的表达量后,预测值与观测值之间的相关性。“无变化”模型的预测值均为零,因此无法计算其相关性。红色水平线表示每个模型的均值,虚线表示表现最佳模型的相关性。
单基因扰动
GEARS、scGPT 和 scFoundation 还声称能够预测未见过的扰动的效应。GEARS 利用共享的基因本体论注释从训练数据中进行外推,而基础模型则被认为在预训练过程中已经学习了基因之间的关系,从而能够预测未见过的扰动。
为了对这一功能进行基准测试,作者使用了 Replogle 等人的两个 CRISPR 干扰数据集(分别来自 K562 和 RPE1 细胞)以及 Adamson 等人的一个数据集(来自 K562 细胞)(扩展数据图 1)。
作为基线,作者设计了一个简单的线性模型。该模型用一个 K K K维向量表示每个读出基因,用一个 L L L维向量表示每个扰动。这些向量被收集到矩阵 G G G和 P P P中,其中矩阵 G G G的每一行对应一个读出基因,矩阵 P P P的每一行对应一个扰动。 G G G和 P P P既可以作为训练数据的降维嵌入获得(详见方法部分),也可以由外部来源提供(见下文)。然后,给定一个基因表达值的数据矩阵 Y t r a i n Y_{train} Ytrain(每行对应一个读出基因,每列对应一个扰动,即单细胞数据的每个条件的伪bulk数据), K × L K×L K×L的矩阵 W W W可通过以下方式求得:
a r g m i n w ∥ Y t r a i n − ( G W P T + b ) ∥ 2 2 \underset{w}{argmin}\left\| Y_{train }-\left(G W P^{T}+b\right)\right\| _{2}^{2} wargmin
