香港科技大学提出融合神经网络框架,高效预测蛋白质序列的多金属结合位点
金属离子在生命过程中扮演着不可或缺的角色,锌作为路易斯酸参与水解酶催化,铁是呼吸链中电子传递的关键载体,镁则为 RNA 折叠成稳定三级结构的必需品。尽管蛋白质数据库中积累了大量高分辨率的金属蛋白结构,但通过实验方法鉴定金属-蛋白质相互作用仍然耗时费力且成本高昂。因此,基于残基水平的金属结合位点计算预测已成为一种有效的替代策略。
现有方法中,基于序列的多金属预测器深受架构限制,基于结构的预测器依赖于计算成本高昂的程序,这些都制约了其实际应用。尽管出现了利用蛋白质语言模型这一具有良好准确性的预测方法,但其庞大的计算资源需求和较长的推理时间依旧限制了实用化。
针对于此,香港科技大学的研究团队提出了一个融合神经网络框架,用于预测蛋白质序列中的多金属结合位点。 该框架采用两阶段架构,结合卷积神经网络(CNN)与融合网络,通过引入不平衡感知损失函数、集成评估和模块化架构,有效地解决了不同金属正负样本之间的类别不平衡,及复杂的金属间相互作用。结构无关的设计使得无需结构输入,便能在大型数据集上实现快速、稳健、高质量的整体预测,极大推进了金属-蛋白质相互作用挖掘的潜力。
相关研究以「A Modular Fusion Neural Network Approach to Efficiently Predict Multi-Metal Binding Sites in Protein Sequences」为题,发表于 bioRxiv。
研究亮点:
-
结合 CNN 与融合网络的两阶段融合神经网络框架;
-
通过引入加权二元交叉熵损失函数,有效处理了金属结合位点预测中的类别不平衡问题。
论文地址:
https://go.hyper.ai/Y7DNU
关注公众号,后台回复「多金属结合位点」获取完整 PDF
更多 AI 前沿论文:
https://hyper.ai/papers
构建稳定且具有代表性的数据集
研究团队为了构建一个适用于训练和评估的高质量数据集,在现有 MbPA 数据库的基础上进行了二次处理。 首先在 MbPA 数据库中检索出一个全面的金属结合蛋白数据集,从中筛选能够结合锌(Zn)、铁(Fe)和镁(Mg)的蛋白质共计 91,593 条,并保留了其经过验证的结合位点信息及对应的金属离子。在此基础上,研究团队进一步完成了序列标准化和整数编码(统一长度 500 氨基酸)、结合位点的多标签标注、分层抽样划分(15% 测试集、85% 开发集)以及类别不平衡处理。此处的类别不平衡处理,是研究团队为了解决类别不平衡的同时实现对金属特定预测器,所开展的三阶段预处理独立训练,其实施流程为:金属特定标签生成-正样本统计-加权二元交叉熵损失。
- MbPA(金属结合蛋白图谱)是一个金属结合蛋白资源库,目前该数据库收录了 106,373 个条目及 440,187 个位点,涉及 54 种金属离子和 8,169 个物种。
能够结合各种金属离子的蛋白质数据子集
两阶段深度学习框架与模块化融合
研究团队提出了一个基于序列的两阶段深度学习框架,用于高效预测蛋白质序列中的多金属结合位点。整体思路是先针对单一金属离子训练独立的预测模型,生成单残基概率图。再通过一个轻量级融合网络整合这些图谱,以模拟金属间的依赖关系并最终优化预测性能。
第一阶段,分别针对 Zn、Fe 和 Mg 对每种单金属采用了一维卷积神经网络(Single-metal CNN)来预测特定金属离子的位置关联概率。每条蛋白质序列在经过前文提到的处理后被统一为长度 500 来表示,整数编码残基被映射到 64 维可训练向量的嵌入层中,随后经过四个 Conv1D 层操作(卷积核数量:512、256、128、64,卷积核大小:15、7、5、3),激活函数统一采用 ReLU。研究团队在卷积层后加入了丢弃率设为 0.3 的 Dropout 层,经过卷积特征提取与正则化处理后,序列特征被输入到一个按时间分布(Time Distributed)的全连接层,该层使用 sigmoid 激活函数逐位输出预测结合概率。
总体框架
第二阶段,研究团队设计了一个多金属集成融合网络(Fusion network), 将 3 种金属的预测结果拼接成一个形状为(Lmax, M)的张量,其中 Lmax = 500 个氨基酸,M = 3 个金属通道。该张量被输入到一个具有 256 个隐藏单元和 ReLU 激活的完全连接层,从而在每个残基层学习金属特定特征之间的非线性相互作用。随后引入了丢弃率为 0.2 的 Dropout 层,用于规范融合权重并防止过度拟合。最终在密集层采用 M 个 sigmoid 输出,为每个残基提供精确的 Zn、Fe 和 Mg 的结合概率。该融合网络使用标准二元交叉熵作为损失函数,结合 Adam 优化器进行训练,从而学会了如何纠正相关误差,提升了整体的准确性。
除此之外框架的独特点在于,完全依赖蛋白质序列数据,从而消除了对于结构的依赖。 使整个流程能够在单张 NVIDIA A800 GPU 上于一小时内完成,其高效性有助于加速实验进程和实时参数调整。
多维度全面实验评估
研究团队采用了多维度指标进行了实验评估, 包括精确率、召回率、F1 分数、马修斯相关系数(MCC),将决策阈值 τ 应用于预测的结合概率:如果残基的预测概率超过 τ,则将其归为金属结合位点,否则归为非金属结合位点。相比只看单一数值的评估方式,这种组合指标体系能够更好地反映框架在类别不平衡情况下的真实性能。
下图(a),展示了每种金属和宏观平均 F1 分数与决策阈值 τ 的关系。结果显示 Fe 的预测表现出色,当 τ 值在 0.25 到 0.60 之间时,F1 分数超过 0.81。Zn 与 Mg 的单金属模型在 τ = 0.25–0.50 和 0.25–0.60 区间,F1 分数也均超过 0.79。整体而言,当阈值设定在 0.40–0.45 时,宏平均 F1 分数达到峰值 0.855,为平衡所有金属于精确度和召回率的最优选择。图(b)给出的 MCC 与阈值的关系曲线,也进一步表明了在严重类别不平衡的情况下,框架仍然能够实现良好平衡。
图(c)展示了三类金属的精确率-召回率曲线,Fe 的预测在较高召回率水平下依旧保持较高的精确率,说明能适用于全面的位点筛选。Zn 和 Mg 的预测指数也表现较为良好,表明了该框架对于需要中等高召回率和持续精确率应用,具有良好的鲁棒性。
最后,图(d)展示了在 τ = 0.40 与 0.45 这两个最佳阈值下,不同金属预测的精确率、召回率与 F1 分数。结果可见,该框架能够针对不同金属的特点实现灵活调节,既可用于覆盖率优先的筛查场景,也能满足高精度的实验验证需求。
为了评估每个架构组件的贡献,研究团队还进行了系统的消融实验,验证了两个核心设计原则: (1)加权二元交叉熵损失函数对于处理金属结合位点预测中的类别不平衡问题至关重要。(2)融合网络架构增强了预测一致性并捕获了单个模型无法独立利用的跨金属关系。
从最基础的单个 CNN 层出发平均 F1 仅为 0.265,随着卷积层数的增加性能显著提升,三层 CNN 将平均 F1 提升至 0.840,验证了分层特征提取的关键作用。引入 Dropout 后 F1 升至 0.856,防止了过度拟合并提高泛化能力。针对类别不平衡问题,研究团队设计的加权二元交叉熵损失函数,在不牺牲整体精度的情况下显著提升了召回率。最后加入融合层,平均 F1 再提升至 0.859,同时融合层有效地模拟了金属间的依赖关系,提高了残基水平预测的准确性和鲁棒性。
消融实验结果
加速金属-蛋白质相互作用挖掘的新引擎
这种新型框架的提出推动了金属蛋白注释的前进,也逐渐成为加速解析金属–蛋白质相互作用的重要引擎。在生物学领域中,探究「金属-蛋白质相互作用」的重要性不言而喻,这一研究方向也受到了万众瞩目,来自不同研究团队的学者们正在尝试从多种角度积极探索新的思路与工具。以下列举了 2 项高质量成果:
由瑞士洛桑联邦理工学院开发了两种工具——Metal3D 和 Metal1D,用于改进锌离子在蛋白质结构中的位置预测,其中 Metal3D 框架可以通过修改训练数据实现扩展至其他金属。相关研究以「Metal3D: a general deep learning framework for accurate metal ion location prediction in proteins」为题,发表于 Nature Communications。
论文地址:
https://www.nature.com/articles/s41467-023-37870-6
以「Interpretable Multimodal Learning for Tumor Protein-Metal Binding: Progress, Challenges, and Perspectives」为题发表于 arXiv 的一篇研究,系统总结了目前使用机器学习来预测肿瘤蛋白质-金属结合的最新进展和持续面临的挑战,还提出了两个有望实现高效金属药物设计的方向:整合蛋白质-蛋白质相互作用数据,为金属结合提供了结构洞察;以及预测金属结合后肿瘤蛋白质的结构变化。
论文地址:
https://arxiv.org/abs/2504.03847
参考链接:
1.https://pubs.acs.org/doi/10.1021/cr300014x