当前位置：首页 > news >正文

理解虚拟细胞：初学者指南

news 2025/9/19 8:13:03

原文来自：https://dirtyhands.hashnode.dev/understanding-the-virtual-cell-challenge-a-beginners-guide-to-predicting-gene-expression

什么是虚拟细胞挑战？

想象一下，你无需踏入实验室，就能预测细胞在调整某个基因后的状态！这就是 Arc 研究所 2025 年举办的虚拟细胞挑战赛的精彩世界。它就像一场游戏，你的 AI 模型扮演着“细胞算命”的角色，猜测基因沉默会如何改变细胞的活性。这篇博客将深入分析这项挑战，重点关注验证数据，并提供一些简单的例子，帮助你入门！

介绍

科学家可以使用 CRISPR 等工具来调整这些基因，以研究疾病或药物。但这需要时间和金钱。这项挑战要求我们构建 AI 模型来虚拟模拟这些变化，从而节省精力并加快发现速度：

目标：预测沉默一个基因会如何影响干细胞（H1 胚胎干细胞系）中的所有其他基因。
数据：获得训练数据（已知结果）和验证集（待解决的新难题）。

训练数据 adata_training.h5ad
这是训练模型的主要数据，这是一个很大的文件（15GB）。它包含了221,273个细胞，18,080个基因。下面是一些关键的元数据：

obs：对于每个细胞，都有观测，包括target_gene（被扰动的gene名，non-targeting代表对照细胞）。guide_id（用于扰动的特定引导 RNA）。batch（实验批次）。
var：对于每个gene，有一个gene_id。

在obs中，还有cell barcode，这是一个简短DNA序列，比如AAACAAGCAACCTTGT

对于non-target的细胞：non-target标识了 38,176 个对照细胞。这些是健康、未受干扰的细胞，可作为重要的基准。模型需要观察“非靶向”细胞才能理解什么是“正常”。只有这样，它才能理解当基因被靶向时细胞发生了多大的变化。

对于guide_id：这是用于靶向基因的分子工具（向导RNA）的更具体的标识符。有时，为了确保效果可靠，会使用多个不同的向导RNA来靶向同一个基因。

对于batch：来自不同批次的细胞在实验室条件下可能存在细微差异，而不是生物学差异。我们需要模型识别并忽略这些技术差异，仅关注由基因扰动引起的真实生物学变化。

核心数据X：这是数据集的核心。它是一个庞大的表格，包含 221,273 行（细胞）和 18,080 列（基因）。表格中的每个数字代表单个细胞中特定基因的表达水平。数字越大，基因越活跃。大多数人认为他们的 scRNA-seq 矩阵是原始的，其实不然。

首先了解UMI（Unique Molecular Identifier），它是在单细胞 RNA 测序（scRNA-seq）文库制备过程中添加到每个 RNA 分子的短随机条形码（例如 8-12 个核苷酸）。如果 Cell 1 中的 GeneA = 50 UMI → 则意味着存在大约 50 个 GeneA RNA 分子。

我们可以用表格表示：
tab1