当前位置: 首页 > news >正文

Protein FID:AI蛋白质结构生成模型评估新指标

一、引言:蛋白质生成模型面临的评估挑战

近年来,AI驱动的蛋白质结构生成模型取得了令人瞩目的进展,但如何有效评估这些模型的质量却一直是一个悬而未决的问题。虽然实验验证仍然是金标准,但计算机模拟评估对于快速开发和比较机器学习模型至关重要。然而,尽管最先进的模型在当前评估指标上表现卓越,但它们在实际设计应用中的成功率仍然相对有限。例如,有研究报告显示生成结构的实验成功率仅为3%,而计算机模拟评分却远高于此。

MIT CSAIL的Felix Faltings等研究人员在论文《Protein FID: Improved Evaluation of Protein Structure Generative Models》中提出了一个革命性的评估指标——Protein FID (Frechet Inception Distance),该指标能够在有意义的潜在空间中衡量分布相似性,为蛋白质结构生成模型的评估提供了新的视角。

二、现有评估指标的局限性

目前,蛋白质设计领域最常用的体外评估指标包括可设计性(designability)、新颖性(novelty)和多样性(diversity)。

可设计性指的是一个结构是否存在一个能够折叠成该结构的序列。在实践中,可设计性是通过生成基于给定结构的序列,然后检查这些序列是否能够折叠回原始结构来评估的。多样性则通过考察模型生成的输出之间的差异性来评估,通常是通过查看输出空间中不同聚类的数量。而新颖性则检查模型产生的记忆样本的数量。

然而,这些指标都没有捕捉到模型对训练数据中代表的设计空间的采样情况。例如,一个模型可能会生成高度多样化、新颖且可设计的蛋白质,但却从不生成任何β折叠结构,而β折叠结构可能对解决某些设计问题至关重要。事实上,许多生成模型被观察到过度采样α螺旋,而牺牲了其他二级结构。如下图所示,即使是在PDB数据库中的天然蛋白质,其可设计性也只有80%左右,远低于当前生成模型声称的接近99%的可设计性。

图片

图1:PDB蛋白质的可设计性。按长度划分的PDB条目中可设计结构的比例,包括由ProteinMPNN设计的序列和天然序列。红色水平线表示整个集合的平均值。

由图1可见,在所有长度范围内,约有四分之一的PDB结构不被认为是可设计的。即使对于较短的蛋白质,可设计性也远低于生成模型所达到的水平,而当考虑原生蛋白质序列而不是由ProteinMPNN生成的序列时,这个数字甚至更低。这表明像Multiflow这样声称在类似长度范围内达到99%可设计性的最先进蛋白质结构生成模型可能过度优化了这一指标。

参考链接:https://mp.weixin.qq.com/s/-4DMDXmpc-QAHE2OKHk-QQ

http://www.dtcms.com/a/268370.html

相关文章:

  • Redis-主从复制-分布式系统
  • 算法学习day15----蓝桥杯--进制转换
  • Web攻防-XMLXXE无回显带外SSRF元数据DTD实体OOB盲注文件拓展
  • 大数据Hadoop之——Flink1.17.0安装与使用(非常详细)
  • 桥梁桥拱巡检机器人cad+【4张】设计说明书+绛重+三维图
  • 了解微服务
  • JVM的内存区域划分,类加载器和GC
  • Modbus 与 BACnet 协议互操作:工业协议转换方案(一)
  • JavaSE -- 泛型详细介绍
  • 【机器学习笔记 Ⅱ】2 神经网络中的层
  • HCIA-生成数协议(STP)
  • Debezium日常分享系列之:Debezium管理平台
  • 【Elasticsearch入门到落地】15、DSL排序、分页及高亮
  • golang 协程 如何中断和恢复
  • WHAT - 依赖管理工具 CocoaPods
  • 从小白到进阶:解锁linux与c语言高级编程知识点嵌入式开发的任督二脉(1)
  • 如何确保Kafka集群的高可用?
  • 【MySQL】DTS机制对触发器时间的影响
  • Python-可视化学习笔记
  • 【机器学习笔记Ⅰ】3 代价函数
  • 空调和烘干机的使用
  • pyhton基础【23】面向对象进阶四
  • 爬虫的笔记整理
  • 在Ubuntu 24.04上部署Zabbix 7.0对服务器进行监控
  • Grok 4 最新技术评测与发布指南
  • 位置编码和RoPE
  • 光纤的最小弯曲半径是多少?
  • 商业秘密攻防战:技术信息与经营信息的界定之道
  • 基于Flask和机器学习开发的米其林餐厅数据可视化平台
  • 爬虫-request模块使用