当前位置: 首页 > news >正文

DiffBP: generative diffusion of 3D molecules for target protein binding

DiffBP:用于靶向蛋白质结合的 3D 分子生成扩散模型

 药物发现中的关键问题

  • 自回归生成的局限性:逐个生成原子(先元素类型,再三维坐标),忽略原子间全局相互作用,导致生成分子违反物理规则(如尺寸不合理、亲和力低)。
  • 物理机制的缺失:真实分子中原子间通过能量函数耦合(如键合、疏水作用),需基于联合概率分布建模,而非顺序条件分布。

DiffBP 的核心方法与创新 

非自回归的扩散生成框架
  • 目标:以目标蛋白质的三维结合位点为条件,一次性生成全原子分子的元素类型和坐标,避免顺序生成的偏差。
  • 技术路径
  • 扩散模型:对原子坐标添加高斯噪声(连续变量扩散),对元素类型采用 “吸收态” 扩散(离散变量扩散),通过逆向去噪过程还原合理分子结构。
  • 等变图神经网络(EGNN):捕捉蛋白质与分子间的几何对称性,确保生成分子在平移和旋转下的不变性,公式如下:

 

其中,能量函数 E 描述原子间相互作用,通过 EGNN 学习蛋白质上下文的特征。

物理驱动的优化目标
  • 损失函数设计
    • 位置去噪损失(Lpos):最小化预测坐标与真实坐标的误差,基于扩散模型的噪声预测机制;
    • 类型去噪损失(Ltype):通过交叉熵损失恢复被掩蔽的原子类型;
    • 相交损失(Lreg):避免生成原子嵌入蛋白质内部,确保分子位于结合口袋的合理区域。

 

实验验证与性能对比

1. 数据集与基线模型
  • 数据集:CrossDocked2020,包含蛋白质口袋结构与配体结合数据,分为训练集和测试集。
  • 基线模型:3DSBDD、Pocket2Mol、GraphBP(均为自回归模型)。
关键评估指标
  • 亲和力指标
    • 配体效率(LE):相同尺寸分子中,生成分子比参考分子亲和力更高的比例,反映模型的最大性能;
    • 平均结合间隙百分比(MPBG):生成分子与参考分子亲和力的平均差距,衡量整体性能。
  • 化学属性指标
    • QED(类药性)、SA(合成可及性)、Sim(多样性)、LPSK(Lipinski 规则合规性)。

 

 

 

 

  • 靶点:(a) 为 AKT1 ,(b) 为 CDK 。
  • 数据类别:Actives(活性分子 )、Generation(生成分子 ),展示结合亲和力的核密度分布,Affinity (Act) 和 Affinity (Gen) 分别是活性分子和生成分子的平均结合亲和力及标准差,用于对比生成分子与活性分子的亲和力分布差异 。

表1

  • 方法:3DSBDD、Pocket2Mol、GraphBP、DiffBP ,对比不同方法生成分子的亲和力相关指标。
  • 指标:Ratio(不同尺寸分子占比 )、MPBG(平均结合间隙百分比 )、LE(配体效率 ),按分子尺寸(Small、Medium、Large、Overall )分类,体现各方法在不同尺寸分子生成及亲和力表现上的差异,如 DiffBP 生成中分子占比 75.19% ,MPBG 低、LE 高,性能更优 。

 表2

  • 方法:3DSBDD、Pocket2Mol、GraphBP、DiffBP ,对比不同方法生成分子的类药性指标。
  • 指标:QED(定量类药估计 )、SA(合成可及性评分 )、Sim(平均 Tanimoto 相似度,反映多样性 )、LPSK(满足 Lipinski 五规则的比例 ),加粗为排名前二的指标,用于评估生成分子的类药性、合成难度、多样性等,如 Pocket2Mol 的 QED 和 LPSK 表现突出,DiffBP 在多指标间更平衡 。 这些数据用于验证 DiffBP 等模型在分子生成任务中的性能,对比不同方法的优劣。

 

针对(a)AKT1 和(b)CDK2 的生成分子、随机选取分子以及活性分子的 T - SNE(t 分布随机邻域嵌入)图。使用摩根指纹作为化学描述符对分子进行编码。编码值经过标准化后,通过 T - SNE 转化为二维特征 。

 

由 DiffBP 针对靶点 ADRB1 和 DRD3 可控设计的分子。随着比例(Mask Ratio)增加,活性分子(Actives)与重新设计的分子(Re - designed)之间的差异愈发显著 。图中展示了不同比例(0.1、0.3、0.5 )下,两种靶点对应的活性分子和重新设计分子的结构,还列出了诸如 QED(定量估计药物性,用于评估分子成药潜力 )、SA(合成可达性,反映分子合成难易程度 )、\(\Delta G_{bind}\)(结合自由能变化,衡量分子与靶点结合强度 )、Ginna Aff(可能是特定的亲和力评估指标 )等参数,用于对比分析活性分子和重新设计分子在成药相关属性及与靶点结合特性等方面的差异 。

选取 AKT1(蛋白激酶 Bα )、CDK2(细胞周期蛋白依赖性激酶 2 )两个经典药物靶点,验证 DiffBP 的泛化性。二者在细胞生理过程(生存、生长、代谢、周期调控)中起关键作用,功能失调与癌症、糖尿病等疾病相关,是药物研发焦点。

实验中,为每个靶点准备 100 个实验验证活性分子,并用 DiffBP 生成 100 个分子。结合亲和力核密度估计(图 1 )显示,生成分子的亲和力分布与活性分子高度接近,部分甚至更优,证明 DiffBP 可生成靶向结合能良好的分子。

类药性指标(表 3 )表明,DiffBP 生成分子的 QED、LPSK 略优于实际活性配体,说明模型学习到药物分子特征;但合成可达性(SA )较低,需药物化学家优化。此外,生成分子内部相似度低、多样性高,既契合苗头化合物发现需求,也导致分布呈 “长尾” 形态(活性分子分布 “峰高尾短” )。

化学空间分布可视化(图 2 )中,DiffBP 生成分子与活性分子的分布更贴近。以 AKT1 为例,活性分子呈多聚类,DiffBP 不仅覆盖聚类中心,还探索边缘空间,部分分子偏离中心,展现挖掘未开发化学空间的潜力;而 GEOM - DRUG 随机分子分布差异显著,佐证 DiffBP 生成分子更精准模拟活性分子、适配蛋白结构。综上,DiffBP 可生成类活性分子特征的结合态分子,提升实际药物设计价值。

 

关于蛋白质 - 配体相互作用模式的可视化图

  • 靶点(Target):(a) 为 ADRB1(β - 1 肾上腺素能受体 ),对应蛋白结构编号 2vt4 ;(b) 为 DRD2(多巴胺受体 D2 ),对应蛋白结构编号 3pbl 。
  • 分子类型:Reference(参考分子 )、DiffBP(由 DiffBP 模型生成的分子 )。
  • 内容:展示了蛋白 - 配体相互作用模式,以及不同相互作用类型的频率和分布,通过柱状图呈现 Frequency(频率 )和 Probability(概率 ),还给出了 JSD(杰弗里斯 - 散度,用于衡量分布差异 )数值,如 ADRB1 对应的 JSD 为 0.3092 ,DRD2 对应的 JSD 为 0.1410 ,用于对比参考分子和 DiffBP 生成分子的相互作用模式差异 。

 

相关文章:

  • 利用Seagate service获得system shell
  • 什么样的登录方式才是最安全的?
  • 安全大模型智驱网络和数据安全效能跃迁
  • [Java基础] stream流中Collectors.toMap报空指针异常情况
  • CentOS7.9 查询运维安全日志,排查恶意用户
  • Oraclede 的体系结构
  • V837s-调整内核dmesg内容ring buffer大小
  • 调用支付宝接口响应40004 SYSTEM_ERROR问题排查
  • 标准 IO 流- Rust 标准输入 stdin 与 C/C++ 标准输入(Standard I/O Input)对比分析
  • iview组件库:自定义方法去控制Tree树形数据的根节点与叶节点的关联性
  • Vim 高亮命令完整学习笔记
  • 看板任务描述不清如何解决
  • Blogx项目配置文件读取流程详解
  • coze的基本使用
  • 【使用LLM搭建系统】7 搭建一个带评估的端到端问答系统
  • 第6章 方法 笔记
  • 自动化三维扫描检测赋能汽车铸造件高效检测
  • 【Flash 芯片 MTD 专栏】Flash芯片识别异常导致mtd子系统分区创建失败
  • 「Java基本语法」运算符与表达式
  • Brooks SLA5810 SLAMf10-20橡胶密封压力控制器Models SLA5810/20 and SLAMf10/20
  • 网站维护流程图/线上推广平台
  • kuler网站/地推放单平台
  • 苏州市城市建设局网站/公司网站建设公司
  • 建立相适应的政府债务管理机制/seo快速排名是什么
  • 青州做网站的电话/舆情网站
  • 已有域名怎么建设网站/深圳全网推广排名