Nature子刊 |HERGAST:揭示超大规模空间转录组数据中的精细空间结构并放大基因表达信号
近日,上海交通大学俞章盛教授团队在Nature子刊Nature Communications发表文章《Unveiling fine-scale spatial structures and amplifying gene expression signals in ultra-large ST slices with HERGAST》。该研究提出了HERGAST (High-resolution Enhanced Relational Graph Attention Network for ST),一个用于超大规模和超高分辨率空间转录组数据中空间结构识别和信号放大的系统,用于克服现有空间组学计算方法的局限性。
一、研究背景
空间转录组学技术彻底改变了我们对组织内基因表达组织的理解,为细胞异质性和组织结构提供了宝贵的见解。近年来,空间转录组学技术正向高分辨率平台过渡,如Visium HD和Xenium,这大大增加了数据的大小和稀疏性,给描绘空间组织结构、识别细胞类型和检测空间特异性基因表达带来了计算上的挑战。现有的计算方法在处理这些超大规模和超高分辨率技术产生的数据时,往往会遇到计算效率低、内存消耗大、过平滑以及生物信号稀释等问题。
二、算法核心
HERGAST的核心思想是采用“分而治之”的策略。HERGAST将整个组织切片分割成可处理的小块,在这些小块上迭代训练一个先进的模型,然后在整个切片上进行推断,并基于模型的输出进行下游分析,作者将这个策略框架称为“分-迭-治”(Divide-Iterate-Conquer, DIC)。
HERGAST的核心创新在于以下三点:
- DIC框架:将整个ST切片分割为可处理的小块(patches),通过迭代训练模型后整合全局结果,显著降低了计算资源需求。实验表明,DIC使传统图神经网络方法(如STAGATE)的扩展能力提升8倍,可处理高达64万个点的数据。
- 异质图网络:为避免数据分割导致的“过平滑”问题,HERGAST构建了结合局部空间邻近性和全局基因表达相似性的异质图网络。通过交叉注意力机制动态学习不同关系的权重,实现局部与全局空间特征的自适应融合。
- 信号增强:模型解码器通过空间分布关系重构基因表达谱,有效放大了原始数据中微弱的生物学信号(如低表达基因),同时避免引入虚假模式。
图一 HERGAST算法原理
三、主要结果
1. 空间聚类精度:10%以上的性能提升
基于人类肺细胞图谱HLCA生成的模拟数据对模型进行了系统评估,结果发现,HERGAST在调整兰德指数(ARI)、标准化互信息(NMI)等四项指标上均显著优于现有方法。
(1)在64万个点的复杂模拟组织中,HERGAST的ARI达0.67,而PCA仅为0.286,STAGATE(DIC)为0.427。
(2)在稀疏数据场景下(50%随机丢失数据点),传统基于空间邻域关系的图网络模型ARI从0.549骤降至0.271,而HERGAST仅从0.664降至0.613,证明其对数据稀疏性的强鲁棒性。
图二HERGAST在模拟数据中的性能表现
2. 真实数据验证:肿瘤微环境的高分辨率解析
(1)CosMx SMI肺癌数据
- HERGAST以ARI=0.53领先于其他方法,精准匹配NanoString提供的细胞类型注释。
- 敏感性分析显示,在推荐参数范围内,HERGAST始终排名第一,而STAGATE(DIC)和conST分别因过平滑和结果混乱而失效。
(2)Visium HD结直肠癌数据
- 肿瘤-基质边界清晰化:HERGAST成功分离肿瘤与基质区域,而PCA的结果中两者严重混杂。
- SPP1+巨噬细胞的发现:HERGAST唯一识别出围绕钙化区域的SPP1+巨噬细胞簇,经HE染色和病理学家验证为吞噬细胞,这些细胞与肿瘤细胞形成腺样结构,可能通过CXCL9:SPP1信号轴影响免疫微环境。
- 免疫通路富集:高表达基因的Meta分析揭示肿瘤区域内免疫应答相关通路显著激活。
图三 使用肺癌数据验证HERGAST等方法性能
图四 使用结直肠癌数据验证HERGAST等方法性能
3. 基因表达信号增强:高灵敏度与特异性
(1)模拟数据验证
- 在添加高斯噪声的零膨胀泊松分布(ZIP)数据中,HERGAST将噪声数据与真实模式的相关系数从0.37提升至0.89,且能清晰分离高/低表达区域的分布。
- 阴性对照实验显示,对完全随机的输入数据,重构后仍无虚假空间模式,证明其特异性。
(2)Xenium乳腺癌数据
- 关键基因的空间模式放大:HERGAST重构后的表达谱清晰显示:
- ERBB2/ESR1/PGR三阳性区域,与乳腺癌分子分型一致。
- EGFR与ESR1的空间排斥:EGFR+细胞集中于DCIS区域的坏死边缘,而ESR1+细胞呈弥散分布,提示二者可能参与不同的肿瘤侵袭机制。
- 淋巴结节标记基因增强:在正常结肠组织中,HERGAST精准放大淋巴结标记基因信号,且仅限真实表达区域,避免假阳性。
图五 HERGAST高精度增强关键分子特征
四、总结
HERGAST通过DIC框架的工程优化与异质图网络的理论创新,解决了超大规模空转数据的三大核心挑战:
- 计算瓶颈:支持百万级点的高效分析;
- 过平滑问题:通过全局-局部关系融合保留精细结构;
- 信号稀释:增强低表达基因的生物学信号。
其在肿瘤免疫微环境解析和空间标志物发现中的应用,为精准医学提供了新工具。未来,结合多模态数据(如病理图像)将进一步拓展其潜力。
论文链接:Unveiling fine-scale spatial structures and amplifying gene expression signals in ultra-large ST slices with HERGAST | Nature Communications
Github:https://github.com/GYQ-form/HERGAST