当前位置: 首页 > news >正文

C2S-Scale方法解读

fig1

目录

  • 数据收集
  • 细胞句子转换
  • 多任务提示格式化
  • C2S-Scale架构和预训练
  • Scaling evaluation
  • Post-training methods
    • 有监督微调-SFT
    • 强化学习
  • 下游任务
    • 细胞类型注释
    • 细胞生成
    • 细胞嵌入
    • 单细胞bulk整合
    • 簇标注-Cluster Captioning
    • 数据集解读
    • 空间生态位预测-Spatial niche prediction
    • 问答任务

数据收集

为构建C2S-Scale预训练语料库,C2S-Scale 整合了一个包含超过5000万个人类和小鼠组织单细胞转录组图谱的大规模数据集。这些单细胞RNA测序(scRNA-seq)数据集来源于成熟的公共存储库,包括 CellxGene 和 HCA 数据门户。数据集涵盖广泛的生物学背景,包括相关注释和文本数据,如细胞类型和组织注释、疾病状态、实验条件以及相关生物学论文和摘要。C2S-Scale 按照既定规范对scRNA-seq数据应用了标准预处理流程,包括质量控制、归一化和对数转换。对于每个数据集,在将原始转录组数据转换为“细胞句子”后,保留所有可用注释(包括细胞类型、组织类型、疾病状态、供体ID、发育阶段、物种及相关论文),以构建自然语言提示。这形成了一个将转录组数据与自然语言数据关联的多模态训练语料库。

细胞句子转换

为了将高维单细胞基因表达数据适配为与自然语言处理兼容的格式,C2S 将表达谱转换为称为“细胞句子”的文本表示。对于每个细胞,设 X ∈ R D X \in \mathbb{R}^{D} XRD 为表达向量,其中 X k X_k Xk 表示基因 k k k 在该细胞中的归一化表达值。针对 X X X 的细胞句子构建方式为:按基因在细胞内的表达水平进行排序,并取表达量最高的 K K K 个基因。若 S S S 是根据 X X X 中表达水平降序排列的从 1 到 D D D 的索引列表,则:
eq1

基因名称以自然语言形式呈现,形成可被 LLM 解读的“句子”。在此框架下,无需扩展或修改语言模型的词汇表,可允许任何大语言模型架构根据其现有词汇对基因名称进行标记化处理。这具有两个主要优势:(i)通过避免架构修改,C2S框架可直接适用于任何大语言模型架构;(ii)大语言模型能够识别基因名称,并关联在自然语言数据自监督预训练过程中获取的该基因先验知识,这已被证明对大规模预训练大语言模型至关重要(GenePT)。

将细胞句子转换为文本序列时,通过保留基因表达的排序顺序来保留潜在的生物学信息。基因在细胞句子中的排名与(归一化)表达水平之间存在强线性关系(在对数空间中),这验证了这种转换的保真度。两个单细胞RNA测序(scRNA-seq)数据集的这一关系如补充图9所示。在排名和原始表达之间拟合的线性模型可以根据基因的排名预测原始基因表达值, R 2 R^{2} R2为85%,表明转换为细胞句子的过程中信息损失极少。这种可互换性使我们能够利用 LLM 的优势,同时保留转换回基因表达向量以用于传统单细胞分析方法的能力。训练期间使用的每个scRNA-seq数据集的线性模型参数将被保存,以便在推理过程中实现从细胞句子到表达值的可逆转换

多任务提示格式化

通过自然语言操作,C2S-Scale为预测性和生成性单细胞分析任务提供了多样化的输入和输出上下文,包括细胞类型和组织注释、多细胞生成任务以及数据集解读任务。为构建特定任务的提示,每个提示将一个或多个细胞的“细胞句子”表示与任务特定指令相结合,引导模型执行特定任务。

对于预测性任务,细胞句子信息作为输入提示的一部分,响应包含目标元数据标签。例如,在细胞类型注释任务中,输入可能包含细胞句子和自然语言提示(如“预测该细胞的细胞类型:”),输出为细胞类型标签。

对于生成性任务,流程则相反:输入提示中给出元数据条件,输出响应包含细胞句子。自然语言提示中提供的元数据可包括细胞类型、组织注释、扰动条件、生物学摘要和文本以及疾病状态,以提供额外的生物学背景或条件。

C2S-Scale架构和预训练

Transformer中的词嵌入
C2S-Scale框架使用基于Transformer架构的大语言模型(LLMs)对细胞句子进行建模,并以自然语言执行单细胞分析。语言模型将输入文本序列表示为称为“词嵌入”的高维向量序列,这些向量适用于神经网络处理。细胞句子中的每个词对应一个基因名称,该基因名称会使用与模型主干架构关联的预训练分词器进一步拆分为标记(token)。通过复用与大语言模型关联的现有分词器,避免了引入新词汇,并保持了与模型预训练知识的兼容性。

经过token化的基因名称通过与模型一同训练的嵌入层嵌入到向量空间中。这些嵌入捕获了基因的语义信息,这些信息既包含生物学背景,也融入了语言模型的先验知识。这种表示使Transformer能够解读和处理编码在细胞句子中的复杂基因表达模式。

注意力机制
现代语言模型架构的核心是注意力机制,它使模型能够识别并聚焦于输入序列的关键组成部分。Transformer模型中使用的主要方法——自注意力(self-attention),用于计算标记(token)之间的注意力分数。这一机制使模型能够根据任务权衡细胞句子中不同基因的重要性。注意力机制还通过将细胞句子与细胞类型或组织标签等额外上下文元数据共同纳入关注范围,促进了对这些元数据的整合。

Transformer架构
大语言模型(LLMs)采用仅解码器的Transformer架构,这是因其在序列数据建模和生成任务中已被验证的能力。Transformer由堆叠的模块组成,每个模块包含一个自注意力层,其后是带有残差连接和层归一化的前馈网络。这种模块化设计使其能够在广泛的任务中实现可扩展且高效的学习。

关键架构组件包括:

  1. 自注意力层:这些层计算输入序列中所有标记(token)之间的关系,使模型能够捕捉基因表达数据中的长程依赖关系。
  2. 前馈网络:每个注意力层之后连接一个前馈网络,通过非线性变换增强特征提取能力。
  3. 残差连接和层归一化:这些组件可稳定训练过程并促进梯度流动,使模型能够有效扩展至大参数规模。

预训练目标
大语言模型的预训练目标为下一个标记预测,这是生成式语言建模中的一项基础任务。在此框架下,模型学习基于序列中所有前文标记预测下一个标记,从而捕捉输入数据中的复杂依赖关系和语义关联。对于细胞句子,该目标涉及根据前文基因的表达水平预测排序序列中的下一个基因名称,同时在提供上下文元数据(如细胞类型或组织注释)时将其纳入建模。尽管此前如Geneformer等研究也对基因进行排序并采用掩码建模目标预测序列中的基因,但其形式并非自然语言,且缺乏生成式大语言模型核心的自回归框架。相比之下,C2S通过自然语言建模训练模型理解基因表达模式及其层级结构,使其通过自回归生成自然整合生物学背景。下一个标记预测的序列特性与下游生成任务(如细胞句子生成和注释)无缝契合,确保模型在应用于单细胞分析时能生成连贯且具有生物学意义的输出。

训练设置
如前所述,预训练基于超过5000万个单细胞转录组及其关联元数据和文本注释的语料库进行。采用多任务学习对预测性任务和生成性任务进行联合优化,使模型能够全面理解与自然语言关联的单细胞数据。训练过程中使用了现代优化器和技术(如AdamW和梯度检查点),以高效管理参数规模从10亿到270亿的模型的计算资源。C2S首先使用Huggingface和PyTorch训练参数规模达10亿的大语言模型,随后使用Jax和基于TPU的计算资源训练参数规模从20亿到270亿的模型。

Scaling evaluation

为评估C2S-Scale模型的规模扩展表现,C2S基于Gemma 2和Pythia架构,对参数范围从4.1亿到270亿的模型进行了基准测试。C2S在包含500个测试样本的保留集上评估了模型性能,这些样本覆盖多项单细胞任务,包括细胞类型注释、组织分类、数据集解读和条件样本生成。C2S对完全微调版本和LoRA微调变体均进行了评估,以考察不同计算预算下的规模扩展行为。

对于细胞类型注释和数据集解读等预测性任务,使用BERTScore测量生成输出与参考输出之间的语义相似度,以此评估响应质量。对于条件细胞生成等生成性任务,通过计算生成的细胞句子与目标细胞句子之间的基因重叠率来评估模型性能

Post-training methods

有监督微调-SFT

预训练完成后,需在特定任务数据集上对C2S-Scale进行微调,使模型适应单细胞分析的下游应用。在此阶段,使用细胞类型注释、组织水平分类和细胞生成等任务的有标签数据对模型进行训练。监督微调阶段同样采用下一个标记预测任务,并根据下游任务对自然语言提示进行格式化处理。

为保持效率并最大程度减少过拟合,我们采用参数高效微调技术,包括LoRA(低秩自适应)和轻量级适配器层。这些方法允许在冻结大部分预训练权重的同时,对模型参数的一个子集进行微调。这种方式能够使模型快速适应特定任务,而无需大量计算资源或大规模标记数据集。

强化学习

为进一步提升生成性和解释性任务的性能,我们借助强化学习(RL)技术,通过奖励建模使大语言模型(LLM)的输出符合预期标准。具体而言,采用基于奖励的GRPO方法,该方法根据与任务特定标准相关的梯度信号直接更新模型参数,从而使C2S的输出在生物学准确性和可解释性方面达到一致。

GRPO流程始于使用监督微调(SFT)模型为每个训练样本生成多个候选输出。随后根据质量对这些候选输出进行排序:在传统自然语言处理场景中,通常使用人类偏好排序。但在C2S-Scale中,我们依赖领域特定标准和自动化指标(如BERTScore,用于评估与参考答案的语义相似度),以及针对问答等任务评估响应的生物学合理性。通过针对这些排序输出进行优化,GRPO对模型进行微调,使其更倾向于生成得分更高(即质量更高且更符合生物学逻辑)的答案。

与其他强化学习方法(如近端策略优化算法PPO)相比,GRPO提供了更简化的工作流程:它无需单独的奖励模型,而是将奖励信号(此处为基于生物BERT或领域特定的指标)直接纳入梯度更新中。这种直接整合简化了对齐过程,使其对C2S-Scale等大规模模型特别高效。通过将优化聚焦于生物学相关指标,GRPO能够在专门的单细胞任务中实现持续改进,确保C2S-Scale以符合专家预期和高质量生物学洞见的方式稳步优化其输出。

下游任务

细胞类型注释

在细胞类型注释任务中,我们对模型进行微调,以在免疫组织数据集和肺部数据集上预测细胞类型标签。我们将每个数据集中80%的细胞用于训练,保留20%用于评估。向C2S-Scale提供一个细胞句子和自然语言提示(例如“预测该细胞的细胞类型:”)。C2S-Scale使用与预训练阶段相同的下一个标记预测目标对此任务进行微调,以自然语言形式预测细胞类型标签。其他单细胞特征模型(scFMs)则根据每个模型的推荐策略,在预训练Transformer权重的基础上使用预测头进行调优。

细胞生成

对于细胞生成任务,我们对模型进行微调,使其在免疫组织和肺部数据集上进行无条件或条件生成细胞表达。在条件生成时,模型会接收包含相关元数据的自然语言提示;而在无条件生成时,模型不接收任何信息,其任务是生成一个由K个基因组成的细胞句子,表征该条件下细胞的表达情况。例如,为了条件生成B细胞,可能会向模型提供如下提示:“生成按表达量降序排列的1000个基因列表,这些基因代表人类B细胞类型的细胞。”

细胞嵌入

对于细胞嵌入任务,我们使用在C2S多模态语料库上训练的C2S-Scale基础模型(如C2S-Scale 1B),无需任何特定数据集微调即可对细胞进行嵌入。嵌入细胞时,我们首先按照细胞类型预测任务的相同方式为C2S-Scale格式化输入提示。但与解码标记预测不同的是,我们提取C2S-Scale模型最后一层的最后隐藏状态,并对潜在特征进行平均池化,以形成输入提示的嵌入表示。值得注意的是,这一过程不仅适用于单细胞上下文,也适用于自然语言提示中包含不同元数据和条件组件的多细胞上下文,使C2S-Scale成为适用于转录组和语言输入的多功能嵌入模型。

单细胞bulk整合

多模态整合对于捕捉生物系统的复杂性至关重要,因为不同的数据模态为细胞功能提供了互补的视角。每种模态都有其独特的优势与局限——有些模态以稀疏性为代价提供高分辨率数据,另一些则覆盖范围更广但缺乏单细胞层面的细节。因此,能够整合多模态数据的模型可以更全面、更可靠地理解细胞行为,进而提升生物学分析中的可解释性和预测能力。

为评估这一点,我们设计了一项简单的单细胞与bulk RNA测序整合任务。利用文献中的sc肺组织数据,通过聚合供体、细胞类型和批次信息构建了伪 bulk 样本。对于每个伪 bulk 样本,从相同条件中随机抽取十个单细胞样本以构建样本对。使用每个模型分别对每个单细胞和伪bulk样本进行嵌入,并计算配对的单细胞与bulk样本之间的余弦相似度。参考GLUE,使用“比真实匹配更接近的样本比例”(FOSCTTM)来评估每个模型的性能。FOSCTTM值为0对应完美模型(匹配对的余弦相似度高于任何其他样本对),而FOSCTTM接近0.5则意味着匹配对之间的余弦相似度与随机样本对的余弦相似度相当。

FOSCTTM(​​Fraction of Samples Closer Than the True Match​​)是一种用于评估单细胞数据整合或配准(alignment)质量的指标,特别适用于衡量​​跨数据集的细胞匹配准确性​​(例如,同一细胞在不同批次或技术下的匹配效果)。其核心思想是:对于每个细胞,计算在整合后的嵌入空间中,有多少其他样本比其真实匹配(true match)更接近它。分数越低,表示匹配效果越好。
eq1

簇标注-Cluster Captioning

为生成簇标注数据集,选取了30个单细胞RNA测序(scRNA-seq)数据集,并进行了标准的预处理、聚类和差异表达分析。随后,提示GPT-4o基于细胞类型、组织类型、生物体、疾病、前三差异表达基因及相关论文全文为每个簇生成五条标注。最终从345个不同聚类中获得了包含1,723条标注的数据集。为生成最终训练数据,从每个簇中随机抽取两个细胞构建训练提示,并将该簇的一条标注作为目标输出。C2S-Scale模型通过监督微调进行优化,采用下一个标记预测的学习目标,学习率为 1 × 1 0 − 5 1×10^{-5} 1×105,权重衰减为0.01,batch size为64。所有模型均在相同的保留测试集上进行评估,该测试集包含训练数据中未出现的簇。

数据集解读

对于数据集层面的解读任务,作者创建了两个用于数据集解读的测试集:(i) 训练分布数据集解读测试集,其中单细胞RNA测序(scRNA-seq)数据和论文摘要来自从CellxGene收集的613个scRNA-seq数据集,这些数据集是C2S-Scale训练语料库的一部分;(ii) 分布外(OOD)评估集,其中的论文和数据完全未被C2S-Scale模型接触过。通过对来自训练语料库和分布外数据的scRNA-seq研究进行数据集层面的解读评估,为撰写有意义的scRNA-seq数据解读创建了一个具有挑战性的泛化基准。

每个数据集解读样本的创建方式为:从给定scRNA-seq数据集中同一组织和供体的样本中随机抽取5至20个细胞,将多细胞上下文信息格式化为提示语,要求模型生成生物学摘要以描述数据。数据摘要的真实标签取自该scRNA-seq研究相关论文的摘要;为增加样本中生物学摘要的多样性,我们使用GPT-3.5-Turbo-1106为每个数据集摘要生成500种变体,避免模型简单记忆数百条数据集摘要。对于每个多细胞上下文,从变体中选择一条摘要作为真实目标摘要。

为创建训练语料分布数据集解读测试集,我们首先从训练语料中收集保留的摘要生成样本。这些样本为多细胞上下文及模型在训练期间未见过的样本(因它们属于C2S-Scale语料的保留验证集和测试集),但由于每个数据集仅包含1篇摘要,保留样本仍会包含与模型已见过的训练集摘要生成样本相似的信息。我们从CellxGene收集的613个数据集中各抽取5个保留的摘要生成样本,最终得到包含3065个数据集解读样本的测试集。

对于分布外数据集解读测试集,通过从CellxGene下载两个新数据集来构建新的摘要生成样本,这些数据集要么是近期发布的(在C2S-Scale初始语料收集期之后),要么经核实不属于C2S-Scale训练语料库:比如胰腺组织数据集和人类视网膜数据集。我们从每个数据集中构建了200个样本,并再次为每个数据集的摘要生成50种变体,以进一步增加摘要语言的多样性。

空间生态位预测-Spatial niche prediction

使用了CosMx空间分子成像仪人类肝脏数据集,该数据集提供了来自两名不同供体的正常和肝细胞癌肝脏组织的带注释空间分辨单细胞数据。该数据集涵盖约180平方毫米肝脏组织中超过80万个单细胞,对一组1000个精选基因的表达进行了测量。数据处理过程中过滤掉了在少于三个细胞中表达的基因和表达少于50个基因的细胞,随后将其归一化至总计数1×10⁴并应用以10为底的对数变换。空间坐标被保存以定义细胞邻域并辅助空间分析。我们将邻域定义为0.02像素的半径(约20微米),此半径的选择旨在最大化可纳入模型上下文的细胞数量。数据集根据空间坐标划分为训练集和测试集,以防止数据集之间的空间信息泄漏。

为了在空间和多细胞关系上训练C2S-Scale,我们设计了以下任务:

  1. 生态位标签预测:给定单个细胞的细胞句子,预测该细胞的生态位标签注释。
  2. 条件邻居生成:给定来自某个邻域的多个细胞句子,生成一个属于同一邻域的新细胞句子。
  3. 空间邻域预测:给定多个细胞句子,预测这些细胞是否来自同一邻域。
  4. 相同生态位预测:给定多个细胞句子,预测这些细胞是否均具有相同的生态位标签或属于不同生态位。

为构建提示,细胞句子从相应的数据划分中随机抽样。多细胞上下文的创建方式为:对于正样本,取抽样细胞邻域内的所有细胞;对于负样本,则取邻域外同等数量的随机抽样细胞。此外,为增强模型对细胞通讯的理解,我们纳入了来自CellPhoneDB和BioGRID的基因互作元数据。对数据进行了筛选,仅保留涉及CosMx数据中1000个基因的互作关系,且仅包含编码细胞外蛋白的基因(通过MatrixDB确定)。

问答任务

我们首先使用GPT-4.5模型从每篇手稿的三个部分——摘要、讨论和结果——以及该研究的抽样数据中生成问答对。每个单细胞RNA测序(scRNA-seq)研究贡献20个问答对,总共约1600个问答对用于监督微调(SFT)。我们以 1 × 1 0 − 5 1×10^{-5} 1×105的学习率和100个热身步骤进行监督微调。

在监督微调(SFT)之后,应用梯度惩罚优化(GRPO)进一步提升回答质量。为构建GRPO训练集,从未见研究中额外收集600个样本,每个样本通过提示SFT模型生成32个候选答案。随后,使用BioBERT模型针对GPT-4.5提供的真实答案为每个候选答案计算奖励分数,以捕捉其生物学合理性。这些基于BioBERT的分数作为主要奖励信号,引导GRPO的更新步骤并优化模型参数,使模型更倾向于生成生物学准确、上下文相关的回答。在GRPO训练中,我们设置 β = 0.03 \beta=0.03 β=0.03,并使用 5 × 1 0 − 7 5×10^{-7} 5×107的学习率。最后,我们在从未见研究中提取的新测试集上评估经GRPO优化的模型,并将其性能与常用大语言模型(LLM)进行比较。


GPT4.5从文献生成QA,与C2S候选答案输入BioBERT,用相似度作为奖励分数。


相关文章:

  • 信奥赛-刷题笔记-栈篇-T2-P3056括号调整问题0518
  • LeetCode算 法 实 战 - - - 双 指 针 与 移 除 元 素、快 慢 指 针 与 删 除 有 序 数 组 中 的 重 复 项
  • LeetCode 394. 字符串解码详解:Java栈实现与逐行解析
  • 【甲方安全建设】Python 项目静态扫描工具 Bandit 安装使用详细教程
  • 【QGIS二次开发】空间分析-10
  • 力扣1991:找到数组的中间位置(前缀和)
  • SOC-ESP32S3部分:快速烧录上手使用
  • OpenCL C C++核心对象与属性对比
  • BiRefNet V3版 - 一个高精度的高分辨率图像抠图模型,AI“抠图之王” 支持50系显卡 本地一键整合包下载
  • 【第三十六周】LoRA 微调方法
  • AM32电调学习解读七:其他代码文件介绍
  • 001 嵌入式软件开发工程师实习篇面试——首战总结
  • ‘https://start.aliyun.com/‘ 的初始化失败 请检查 URL、网络和代理设置。
  • NHANES指标推荐:UHR
  • Vue.js教学第五章:计算属性与侦听器详解
  • Google Gen AI Python SDK 开发教程
  • 代码案例分析
  • 内容中台智能推荐系统构建与演进
  • 大学之大:墨西哥国立自治大学2025.5.18
  • 串口通讯协议学习
  • 知名中医讲师邵学军逝世,终年51岁
  • 又一例!易方达基金张坤卸任副总职务,将专注于投资管理工作
  • 遭车祸罹难的村医遇“身份”难题:镇卫生院否认劳动关系,家属上诉后二审将开庭
  • 大陆非遗项目打铁花、英歌舞将在台演出
  • 中国物流集团等10家央企11名领导人员职务任免
  • “多规合一”改革7年成效如何?自然资源部总规划师亮成绩单