当前位置：首页 > news >正文

【论文阅读笔记】VeloCycle

news 2025/9/27 9:19:52

文章目录

- 流形
- 似然
- 贝叶斯模型
- 变分分布（SVI）
- 变分分布（LRMN）
- 模型实现
- 估算恒定细胞周期速度的近似点
- 数据集

流形

通过单细胞RNA测序(scRNA-seq)，得到一个细胞的基因数 $\sim 10^4$
$u_c$ ， $s_c$ 表示未剪切mRNA和已剪切mRNA的表达量，记 $y_c = (u_c, s_c)$ ， $uc,sc∈Nnu_c, s_c \in \mathbb{N}^n$
每个细胞的潜在坐标 $x$ 映射到通过确定性函数 $s (x)$ （其中 s 表示“剪接”）描述的剪接基因表达水平流形 $M$
根据问题的生物学结构选择流形拓扑。例如，给定一个周期性过程，如细胞周期，我们可以取 $\in S_1$ 来体现周期性。
每个细胞 $c$ 的测量值将通过真实的噪声模型与 $M$ 上的相应位置相关联。在scRNA-seq的情形下，相关的噪声模型由负二项分布（NB）组成：
$Ygc∼NB[yg(xc),αg]yg(xc)=E[Ygc]=(sg(xc),ug(xc))αg=(αgs,αgu)Y_{gc} \sim NB[y_g(x_c), \alpha_g] \\ y_g(x_c) = \mathbb{E}[Y_{gc}] = (s_g(x_c), u_g(x_c)) \\ \alpha_g = (\alpha^s_g, \alpha^u_g)$
$c$ 是细胞， $g$ 是基因。这里假设了 $αg\alpha_g$ 与 $x$ 独立。
在高维基因表达空间中，我们希望有一个描述RNA速度 $ds~dt\frac{d\tilde{s}}{dt}$ 的速率方程，该方程取决于剪接和非剪接RNA计数的预测：
$ds~gdt=F(s~g,u~g)=βgu~g−γgs~g\frac{d \tilde{s}_g}{d t} = F(\tilde{s}_g, \tilde{u}_g) = \beta_g \tilde{u}_g - \gamma_g \tilde{s}_g$
其中， $s~g\tilde{s}_g$ 和 $u~g\tilde{u}_g$ 分别是时间依赖的估计的剪接和未剪接RNA水平， $βg\beta_g$ 和 $γg\gamma_g$ 是基因依赖的RNA剪接和降解速率。
方程中的 $F$ 不显式依赖时间，剪接和降解速率被视为常数。
假设：存在一个自洽且确定性的方程描述潜在空间 x(t) 的动力学：
$dxdt=V(x)\frac{dx}{dt} = V(x)$
其中 $V (x)$ 是潜在空间中的向量场。于是 $s~,u~\tilde{s}, \tilde{u}$ 通过 $x$ 传递成为时间依赖的：
$s~(t)=s(x(t))u~(t)=u(x(t))\tilde{s}(t) = s(x(t)) \\ \tilde{u}(t) = u(x(t))$
由上述假设可以得到流形限制条件下的RNA速度：
$dsg(x(t))dt=(∇xsg)⋅V(x(t))=βgug(x(t))−γgsg(x(t)),∀g\frac{ds_g(x(t))}{dt} = (\nabla_x s_g) \cdot V(x(t)) = \beta_g u_g(x(t)) - \gamma_g s_g(x(t)), \ \forall g$
这里使用了链式法则。这个式子将左侧的低维流形拓扑与右侧的生物学连接起来。
$βg\beta_g$ 和 $γg\gamma_g$ 是基因特异性剪接和降解率。值得注意的是，控制基因动力学的参数（ $β$ 和 $γ$ ）原则上也可能取决于 $x$ 。
$∇xs\nabla_x s$ 形成了切空间的 $m$ 维基， $V (x (t))$ 提供了速度向量在该基中的分量。
我们可以通过这个式子估算生物过程的实际持续时间：
$Δts0,s1=∫Γs0s11sds=∫Γx0x11V(x)dx=Δtx0,x1\Delta t_{s_0, s_1} = \int_{\Gamma^{s_1}_{s_0}} \frac{1}{s} ds = \int_{\Gamma^{x_1}_{x_0}} \frac{1}{V(x)} dx = \Delta t_{x_0, x_1}$
其中 $Γx0x1\Gamma^{x_1}_{x_0}$ 是连接两个点 $x_0$ 和 $x_1$ 的轨迹 $x (t)$ ，并使用了轨迹变量 $s (x)$ 的变化。
假设 $M$ 在拓扑上是一个圆，将坐标 $x$ 写成 $φ∈S1\varphi \in S^1$ ，于是动力学方程变成：
$ddtsg(φ(t))=ddφsg(φ)ω(φ)=βgug−γgsgE[sgc]=sg(φc)=exp⁡(∑fvgfζ~f(φc))\frac{d}{dt} s_g(\varphi(t)) = \frac{d}{d\varphi} s_g(\varphi) \omega(\varphi) = \beta_g u_g - \gamma_g s_g \\ E[s_{gc}] = s_g(\varphi_c) = \exp\left(\sum_f v_{gf} \tilde{\zeta}_f(\varphi_c)\right)$
其中我们假设 $βg\beta_g$ 和 $γg\gamma_g$ 在细胞周期内是常数。
典型的细胞周期基因表现出只能用少数谐波描述的特征，因此，在展开中，我们将考虑 $k$ 个傅里叶分量（在实践中，默认使用一个谐波）。又由于 $s(φ)s(\varphi)$ 是正的，记：
$log⁡(sg(φc))=∑fvgfζ~f(φc)vg=(ag0ag1bg1⋯agkbgk)⊤ζ~(φ)=(1cos⁡(φ)sin⁡(φ)⋯cos⁡(kφ)sin⁡(kφ))⊤\log(s_g(\varphi_c)) = \sum_f v_{gf} \tilde{\zeta}_f(\varphi_c) \\ v_g = \begin{pmatrix} a_g^0 & a_g^1 & b_g^1& \cdots & a_g^k & b_g^k \end{pmatrix}^\top \\ \tilde{\zeta}(\varphi) = \begin{pmatrix} 1 & \cos(\varphi) & \sin(\varphi) & \cdots & \cos(k\varphi) & \sin(k\varphi) \end{pmatrix}^\top$
这里 $v_g$ 是用实数表示的基因傅里叶参数的向量。使用链式法则后得到 $u(φ)u(\varphi)$ ：
$ddtsg(φ(t))=ω(φ)sg(φ)∑fvgfddφζ~f(φ)log⁡(ug(φ))=−log⁡(βg)+log⁡(ω(φ)∑fvgf∂φζ~f(φ)+γg)+log⁡(sg(φ))∀gE[ugc]=ug(φ)=sg(φ)βg(ω(φ)∑fvgf∂φζ~f(φ)+γg)\frac{d}{dt} s_g(\varphi(t)) = \omega(\varphi) s_g(\varphi) \sum_f v_{gf} \frac{d}{d \varphi} \tilde{\zeta}_f(\varphi) \\ \log(u_g(\varphi)) = -\log(\beta_g) + \log(\omega(\varphi) \sum_f v_{gf}\partial_\varphi \tilde{\zeta}_f(\varphi) + \gamma_g) + \log(s_g(\varphi)) \ \ \ \forall g \\ E[u_{gc}] = u_g(\varphi) = \frac{s_g(\varphi)}{\beta_g}(\omega(\varphi) \sum_f v_{gf} \partial_{\varphi}\tilde{\zeta}_f(\varphi) + \gamma_g)$

似然

可以根据剪接 RNA ( $S_c$ ) 和未剪接 RNA ( $U_c$ ) 的计数数据，计算每个细胞的似然函数。
全联合似然函数 $P({(Sc,Uc)}∣θ)P(\left\{(S_c, U_c)\right\} | \theta)$ 由以下表达式组成：
$P({(Sc,Uc)}∣θ)=∏gcP(Sgc,Ugc∣ω(φ),φc,vg,βg,γg,αg)P(Sgc,Ugc∣θ)=Ps(Sgc∣vg,αgs,φc)×Pu(Ugc∣ω(φ),βg,γg,vg,φc,αgu)Ps(Sgc∣…)=NB(sg(φc)=F[vg,φc],αgs)P(Ugc∣…)=NB(ug(φc)=G[ω(φc),βg,γg,vg,φc],αgu)P(\left\{(S_c, U_c)\right\} | \theta) = \prod_{gc} P(S_{gc}, U_{gc} | \omega(\varphi), \varphi_c, v_g, \beta_g, \gamma_g, \alpha_g) \\ P(S_{gc}, U_{gc} | \theta) = P_s(S_{gc} | v_g, \alpha_g^s, \varphi_c) \times P_u(U_{gc} | \omega(\varphi), \beta_g, \gamma_g, v_g, \varphi_c, \alpha_g^u) \\ P_s(S_{gc} | \ldots) = \text{NB}(s_g(\varphi_c)=F[v_g, \varphi_c], \alpha_g^s) \\ P(U_{gc} | \ldots) = \text{NB}(u_g(\varphi_c)=G[\omega(\varphi_c), \beta_g, \gamma_g, v_g, \varphi_c], \alpha_g^u)$
其中 $θ\theta$ 表示参数， $F, G$ 表示 $s_g, u_g$ 与其他量的依赖关系。

贝叶斯模型

通过结合生物学定义的先验（priors）和从数据中得出的经验贝叶斯先验，近似计算联合后验概率分布 $P(θ∣Sc,Uc)P(\theta | S_c, U_c)$ ：
$P(θ∣Sc,Uc)=P(Sc,Uc∣θ)P(θ)P(Sc,Uc)=∏gcP(Sgc∣θ)P(Ugc∣θ)P(θ)∫∏gcP(Sgc∣θ)P(Ugc∣θ)P(θ)dθP(\theta | S_c, U_c) = \frac{P(S_c, U_c | \theta) P(\theta)}{P(S_c, U_c)} = \frac{\prod_{gc} P(S_{gc} | \theta) P(U_{gc} | \theta) P(\theta)}{\int \prod_{gc} P(S_{gc} | \theta) P(U_{gc} | \theta) P(\theta) d\theta}$
其中先验 $P(θ)P(\theta)$ 为：
$vωt∼N([0,0,0],[32,0.052,0.052])log⁡(γg)∼N(0,0.52)log⁡(βg)∼N(2,32)αg∼Gamma(1.0,2.0)vgt∼N(μgtv,σgtv2)φxyc=ProjNormal(φxc,φyc)v\omega_t \sim \mathcal{N}([0, 0, 0], [3^2, 0.05^2, 0.05^2]) \\ \log(\gamma_g)\sim \mathcal{N}(0, 0.5^2) \\ \log(\beta_g) \sim \mathcal{N}(2, 3^2) \\ \alpha_g \sim \text{Gamma}(1.0, 2.0) \\ v_{gt} \sim \mathcal{N}(\mu_{gt}^v, {\sigma_{gt}^v}^{2}) \\ \varphi xy_c = \text{ProjNormal}(\varphi x_c, \varphi y_c)$
通过经验贝叶斯（Empirical Bayes）设置以下参数：
$μgtv=[log⁡(meanc(Sgc)),0,0]σgtv=[12⋅stdc(Sgc+1)14⋅stdc(Sgc+1)14⋅stdc(Sgc+1)]φxc=ϵcos⁡(Φc)φyc=ϵsin⁡(Φc)\mu_{gt}^v = [\log(\text{mean}c(S{gc})), 0, 0] \\ \sigma_{gt}^v = \begin{bmatrix} \frac{1}{2} \cdot \text{std}_c(S{gc} + 1)\\ \ \frac{1}{4} \cdot \text{std}_c(S{gc} + 1)\\ \ \frac{1}{4} \cdot \text{std}_c(S{gc} + 1) \end{bmatrix}\\ \varphi x_{c} = \epsilon \cos(\Phi_c) \\ \varphi y_{c} = \epsilon \sin(\Phi_c)$
其中 $Φc=tan⁡−1(ω2c,ω1c)\Phi_c=\tan^{-1}(\omega_{2c}, \omega_{1c})$

变分分布（SVI）

变分分布 $P({vωt,{φc},{vgt},{βg},{γg},{αg})P(\{v\omega_{ t}, \{\varphi_c\}, \{v_{gt}\}, \{\beta_g\}, \{\gamma_g\}, \{\alpha_g\})$ 被分解为多个独立分量的乘积，其形式为：
$P({vωt,{φc},{vgt},{βg},{γg},{αg})=∏cP(vωt)P(φc)P(vgt)P(βg)P(γg)P(αg)P(\{v\omega_{ t}, \{\varphi_c\}, \{v_{gt}\}, \{\beta_g\}, \{\gamma_g\}, \{\alpha_g\}) = \prod_c P(v\omega_{ t}) P(\varphi_c)P(v_{gt}) P(\beta_g)P(\gamma_g) P(\alpha_g)$
变分分布参数化如下：
$P(vωt)∼N(μvωt^,σvωt^2)P(vgt)∼N(μvgv^,σvgv2^)P(αg)=Delta(αg^)P(log⁡(γg))∼N(μlog⁡γg^,σlog⁡γg2^)P(log⁡(βg))∼N(μlog⁡βg^,σlog⁡βg2^)P(φxyc)∼N([φxc^,φyc^],[1,1])P(v\omega _{t}) \sim \mathcal{N}(\widehat{\mu v\omega_t}, \widehat{\sigma v\omega_t}^2) \\ P(v_{gt}) \sim \mathcal{N}(\widehat{\mu_{v_g}^v}, \widehat{\sigma_{v_g}^v{ }^2}) \\ P(\alpha_g) = \text{Delta}(\widehat{\alpha_g}) \\ P(\log(\gamma_g)) \sim \mathcal{N}(\widehat{\mu_{\log \gamma_g}}, \widehat{\sigma_{\log \gamma_g}^2}) \\ P(\log(\beta_g)) \sim \mathcal{N}(\widehat{\mu_{\log \beta_g}}, \widehat{\sigma_{\log \beta_g}^2}) \\ P(\varphi xy_c) \sim \mathcal{N}([\widehat{\varphi x_c}, \widehat{\varphi y_c}], [1, 1])$

变分分布（LRMN）

低秩多变量正态（LRMN）模型考虑了观测数据之间的相关结构，基于变分推断（VI）构造的变分分布，观察到的联合后验由 MCMC 采样估计。具体而言，我们允许协方差和建立速度场 $vωtv_{\omega t}$ 以及动力学参数 $βg\beta_g$ 和 $γg\gamma_g$ 之间的关系。
后验因子分解如下：
$P({νωt},{φc},{νgt},{βg},{γg},{αg})=P({γg},{νωt})∏gP(βg∣γg)P(αg)∏tP(νωt)P(νgt)∏cP(φc)\begin{align*} P\left(\{\nu \omega_t\}, \{\varphi_c\}, \{\nu_{gt}\}, \{\beta_g\}, \{\gamma_g\}, \{\alpha_g\} \right) &= P\left(\{\gamma_g\}, \{\nu \omega_t\}\right) \prod_g P(\beta_g \mid \gamma_g) P(\alpha_g) \prod_t P(\nu \omega_t) P(\nu_{gt}) \prod_c P(\varphi_c) \end{align*}$
具体公式是：
$x≡[log⁡(γ1),log⁡(γ2),…,log⁡(γng),νω0,νω1,…,νωnt−1]Σ=F^F^⊤+diag(d^)where F^∈R(ng+nt)×k,with k=5P({log⁡(γg)},{νωt})=P(x)=MultivariateNormal(m^,Σ)μlog⁡βg∣γ=μ^log⁡βg+ρ^g⋅μ^log⁡βg⋅log⁡(γg)−μ^log⁡γgσlog⁡γgwith ρ^g∈[0,1]σlog⁡βg∣γ=μ^log⁡βg1−ρ^g2P(log⁡(βg)∣log⁡(γg))=N(μlog⁡βg∣γ,σlog⁡βg∣γ2)P(φc)=N([φ^xc,φ^yc],[1,1])P(νgt)=N(μ^gtν,σ^gtν2)P(αg)=Delta(αg^)\mathbf{x} \equiv \left[ \log(\gamma_1), \log(\gamma_2), \ldots, \log(\gamma_{n_g}), \nu \omega_0, \nu \omega_1, \ldots, \nu \omega_{n_t-1} \right] \\ \boldsymbol{\Sigma} = \hat{\mathbf{F}} \hat{\mathbf{F}}^\top + \mathrm{diag}(\hat{\mathbf{d}}) \quad \text{where } \hat{\mathbf{F}} \in \mathbb{R}^{(n_g+n_t) \times k}, \text{ with } k = 5 \\ P(\{\log(\gamma_g)\}, \{\nu \omega_t\}) = P(\mathbf{x}) = \text{MultivariateNormal}(\hat{\mathbf{m}}, \boldsymbol{\Sigma}) \\ \mu_{\log \beta_g | \gamma} = \hat{\mu}_{\log \beta_g} + \hat{\rho}_g \cdot \hat{\mu}_{\log \beta_g} \cdot \frac{ \log(\gamma_g) - \hat{\mu}_{\log \gamma_g} }{ \sigma_{\log \gamma_g} } \quad \text{with } \hat{\rho}_g \in [0,1] \\ \sigma_{\log \beta_g | \gamma} = \widehat{\mu}_{\log \beta_g} \sqrt{1 - \widehat{\rho}_g^2} \\ P(\log(\beta_g) \mid \log(\gamma_g)) = \mathcal{N}(\mu_{\log \beta_g | \gamma}, \sigma_{\log \beta_g | \gamma}^2) \\ P(\varphi_c) = \mathcal{N}([\widehat{\varphi} \mathbf{x}_c, \widehat{\varphi} y_c], [1,1]) \\ P(\nu_{gt}) = \mathcal{N}(\widehat{\mu}_{gt}^{\nu}, \widehat{\sigma}_{gt}^{\nu 2}) \\ P(\alpha_g) = \text{Delta}(\widehat{\alpha_g})$

模型实现

模型实现旨在估算联合后验概率分布的近似值，涉及角细胞周期速度 ( $vωtv\omega_t$ )，和 $S^1$ 流形上的参数（）。该实现分两个步骤进行：流形学习和速度学习。
在流形学习中，我们估计每个细胞沿细胞周期流形 ( $ϕ\phi$ ) 的位置，以及每个基因的傅里叶级数（ $v$ ）。
所有变量初始化为先验的均值。先验均值通过以下两种方式确定：
- 使用数据的前两个主成分 ( $ϕ\phi$ )，这是一种降维方法，提取数据的低维结构。
- 使用每个基因剪接表达量 ( $v$ ) 的均值和标准差 ( $s . d .$ )，以反映基因表达的统计特性。
  剪接计数 (ElogS) 的期望值从真实数据和负二项分布 (NB) 建模得出，允许捕捉表达数据的离散性和过分散性。
为适应不同数据集或批次间平均表达水平的差异，模型引入了第一个基因谐波系数的偏移项 ( $Δv\Delta v$ )。
速度学习的目标是基于流形学习的结果，估算傅里叶系数、角速度 ( $vωv_\omega$ ) 以及速度动力学参数 ( $γ\gamma$ 和 $β\beta$ )。
所有变量初始化为先验的均值。特别地：
- 角速度 ( $vωv\omega$ ) 的先验均值假设为零，反映了对零细胞周期速度的假设。
- 其他变量（如傅里叶系数和动力学参数）也初始化为先验均值，具体取决于流形学习阶段的估计结果。
- 为了确保模型输出满足生物学意义上的正值约束，特别是在方程 (10) 中 ( $ω(ϕ)∑fvgf∂ϕζf(ϕ)+γg\omega(\phi) \sum_f v_{gf} \partial_\phi\zeta_f(\phi) + \gamma_g$ )，学习过程中引入了 ReLU 函数。
我们使用SVI求解VeloCycle模型，并应用ClippedAdam优化器和ELBO损失函数，从第一次到最后一次训练迭代，学习率从0.03衰减到0.005。
提供了提前终止选项：如果前 100 次迭代的均值损失与前 10 次迭代的均值损失相差小于五个单位，则停止训练。
速度动力学参数 $γ\gamma$ 和 $β\beta$ 受到生物学约束的限制：
- $γg\gamma_g$ 的范围为 [0.5, 1.5] h $^{-1}$ ，表示基因特定的动力学速率。
- 周期 $2\pi/\omega_0$ 的范围为 [6, 50] h，反映细胞周期的生物学合理时间范围。
速度谐波系数的先验均值设为0，标准差为 3.0，反映了对无初始速度的假设，同时允许较大的变异性以适应数据变化。所有先验可以通过 ‘velocycle.preprocessing’ 套件中的函数修改，并通过 Pyro 模型对象的元参数 (‘mp’) 项集成。
执行MCMC时，使用No-U-Turn（NUTS）核，从SVI首先获得的平均后验估计开始。

估算恒定细胞周期速度的近似点

模型通过求解一阶微分方程 $ddtsg(t)=βgug−γgsg\frac{d}{dt}s_g(t) = \beta_g u_g - \gamma_g s_g$ 来获得初始洞察，其中 $γg\gamma_g$ 是基因依赖的降解率， $βg\beta_g$ 和 $u_g$ 分别是与基因相关的参数。
假设未剪接读数 $u_g(t)$ 遵循单谐波周期函数，即 $ug(t)=u0g(1+ϵcos⁡(ωt−φ0g))u_g(t) = u_{0g} (1 + \epsilon \cos(\omega t - \varphi_{0g}))$ ，其中 $ω\omega$ 表示细胞周期速度， $φ0g\varphi_{0g}$ 是相位偏移， $ϵ\epsilon$ 是幅度。
基于上述假设，剪接读数 $s_g(t)$ 具有相同的函数形式，但幅度和相位经过调整，即 $sg(t)=s0g(1+ϵ′cos⁡(ωt−φig))s_g(t) = s_{0g} (1 + \epsilon' \cos(\omega t - \varphi_{ig}))$ 。其中， $ϵ′=ϵcos⁡(Δφg)\epsilon' = \epsilon \cos(\Delta \varphi_g)$ ， $Δφg=(φg−φ0g)\Delta \varphi_g = (\varphi_g - \varphi_{0g})$ ，且 $tan⁡(Δφg)=ωγg−1\tan(\Delta \varphi_g) = \omega \gamma_g^{-1}$ 。这表明相位差和幅度调整与细胞周期速度 $ω\omega$ 和降解率 $γg\gamma_g$ 相关。
假设存在多个条件（或重复实验），且寿命 $τg=γg−1\tau_g = \gamma_g^{-1}$ 与条件无关，观察到关系 $δcg=tan⁡(Δφcg)=ωcτg\delta_{cg} = \tan(\Delta \varphi_{cg}) = \omega_c \tau_g$ 。这表示相切值 $δcg\delta_{cg}$ 可看作细胞周期速度 $ωc\omega_c$ 与寿命 $τg\tau_g$ 的乘积。
通过奇异值分解 (SVD)， $δcg\delta_{cg}$ 可以分解为秩-1 矩阵形式，即 $δcg=ucdvg+\delta_{cg} = u_c d v_g +$ 更高秩项，其中 $u_c$ 和 $v_g$ 分别是条件和基因的向量， $d$ 是标量。
基于 SVD，结果可进一步表达为条件特定的细胞周期速度 $ωc\omega_c$ ，以逆平均半衰期单位（记为 $ωc∗\omega_c^*$ ）表示，即 $ωc∗=ucdvg\omega_c^* = u_c d v_g$ 。其中 $v_g$ 是基因的平均值。
周期长度以平均半衰期单位表示为 $Tc∗=2πωc∗T_c^* = \frac{2\pi}{\omega_c^*}$ ，反映了细胞周期的周期性特性。