当前位置: 首页 > news >正文

AI蛋白质设计学习主线

一,蛋白质设计——序列分析

1.获得同源序列

1)了解不同蛋白质序列库,如UniRef90,UniClust30,Pfam等

2)了解不同工具原理并使用:NCBI BLAST,Jackhmmer,HHblits

3)给定一条蛋白质序列,比对序列库,生成多序列比对(MSA)

从AlphaFold2的经典代码仓库中找到它的生成MSA的代码并学习(alphafold/alphafold/data/tools/jackhmmer.py)

2.对MSA进行频率分析

1)使用python的文本文件操作实现

2)使用python中biopython包实现

3)绘制序列Logo,可视化的展示每个位点的氨基酸频率和保守性

3.序列的同源性计算和进化树的绘制

1)不同同源性的计算方法及应用情景,氨基酸序列的identity和Similarity,BLOSUM62的介绍

2)进化树的绘制

4.基于序列相似性阈值划分训练集和测试集

1)为什么要做?避免数据泄露

2)选择相似性度量方法

3)相似性矩阵的计算

4)划分数据集

5.大规模蛋白质序列的聚类分析和去冗余

1)为什么要做?防止过度学习某一类序列特征,消除序列偏差;也能防止训练过程中数据泄露

2)聚类方法的选择,CD-HIT、MMseq2和Linclust

3)选择代表序列,去冗余

4)实际复现S2ALM这一模型文章中的聚类方法

二,蛋白质设计——结构分析

1.蛋白质结构预测方法

1)从CASP比赛结果来简述蛋白质结构预测方法的发展。

基于能量函数 -> 接触图的应用 -> 端到端的预测结构(AlphaFold2)

2)AlphaFold2的模型相比于以前的方法有什么改进

3)将基于MSA和基于模板的方法整合,使用注意力机制进行MSA信息和模板信息的相互交流

4)以前提取MSA信息为计算协方差矩阵 ,AlphaFold2创造性的直接将MSA信息作为输入,将图像识别的算法转变成了自然语言处理算法,减少了中间处理过程中的信息损失

5)AlphaFold3相比于AlphaFold2改进了什么,还有什么不足

6)扩展到了多种生物分子的复合物结构预测,包括蛋白质-DNA、蛋白质-RNA、蛋白质-小分子,并使用扩散模型

7)复合物组装与动态预测缺陷,抗体-抗原复合物结构准确度有待提高。

8)运行网页server上的AlphaFold3预测结构

9)如何使用AlphaFold3预测蛋白质的糖基化,不同糖基化的类型的输入方法。

10)AlphaFold3输出结果分析,各项置信度指标的含义,以及如何判断预测的准确度,如pLDDT,ipTM,PTM,PAE

11)本地部署和运行ColabFold,由于AlphaFold3在安装过程中需要下载大量资源,且不能商用

2.蛋白质结构分析和可视化

1)pdb文件的解读,每一行中的内容代表什么含义。

2)用 pymol 可视化蛋白质结构

a)pymol的基础操作讲解

b)如何将实验值投影到结构图的颜色上,如何画出发表文章中好看的图

3)计算蛋白质结构中两个氨基酸的距离

a)使用python的文本文件操作实现

b)使用python中biopython包实现

3.蛋白质结构相关物理性质的计算

1)二级结构的分类和计算

2)溶剂可及表面积(SASA)的讲解及计算

3)蛋白质表面电荷分布的计算

4.结构快速比对工具Foldseek介绍及使用

1)Foldseek原理讲解,3Di字母表,结构信息的序列化编码

2)结构相似性搜索实战,从蛋白质结构数据库中搜索相似结构

3)根据结构相似性阈值聚类

4)聚类输出结果的讲解和处理

三,蛋白质的大语言模型及应用

1.基础知识讲解

1)介绍蛋白质的语言模型(26字母语言模型->20氨基酸字母表,上下文依赖->氨基酸的共进化)

2)为什么要开发蛋白质大语言模型?

1. 相比于结构或功能信息,序列信息更加海量;

2. 蛋白质序列通过进化而来,可以学习蛋白质基本规律,折叠,共进化等

3)模型架构和基础理论:transformer,多头注意力机制,Bert,GPT,T5等

2.基于Bert架构的蛋白质语言模型

1) ESM系列(ESM-1b、ESM-1v、ESM2、ESMC)

2)ESMFold:无需MSA信息的结构预测

3)使用抗体序列库训练的语言模型:Ablang,AntiBERTy

3.类似GPT的生成模型ProGen

1)36层Transformer解码器架构,包含12亿参数

2)引入“控制标签”(如蛋白质家族ID、功能属性)作为输入,生成蛋白质序列空间以外的新的蛋白质序列

3)成功生成新的溶菌酶

4.多模态的蛋白质语言模型ESM3

1)模型架构融合序列,结构和功能信息

2)相比于ESMFold,单体结构预测精度更好

3)基于多模态提示(序列、结构、功能关键词)设计新的蛋白质序列

4)ESM3的安装,生成序列,快速结构预测。

5.蛋白质语言模型的应用和实战演练

1)获得序列embedding以构建下游模型(Cell systmes等文章举例)

2)使用不同的蛋白质语言模型,零样本的预测蛋白质突变效应

3)给定少量的突变效应数据作为训练数据,训练模型,预测新的突变效应值

四,蛋白质设计实战应用(实践)

1.基础知识讲解

1)三类方法在不同程度上探索蛋白质序列空间:

a)蛋白质定向进化(directed evolution)

b)固定蛋白质主链的序列设计(Fix-backbone protein design)

c)蛋白质的从头设计(De novo protein design)

2)关键数据库:RCSB PDB, SCOPe, CATH, UniRef, BFD等

3)常见概念和名词: rotamer, scaffold, motif,domain,backbone,side-chain,apo和holo结构

2.从David baker(2024年因蛋白质设计的贡献获得诺贝尔化学奖)的工作看蛋白质设计方法的发展

1)基于能量函数Rosettta的从头设计,Longxing Cao的Nature文章

2)幻化(Hallucination)生成,将蛋白质三维结构预测模型应用于蛋白质设计

3)ProteinMPNN(从结构生成序列);

4)LigandMPNN(结合配体的蛋白质设计);

5)ThermoMPNN(热稳定性优化的蛋白质设计)

6)Rfdiffusion(只设计backbone结构,扩散模型);

7)Rfdiffusion finetuned by antibody

8)Protien Generator:序列和结构的协同设计

3.其他蛋白质设计方法,了解模型原理,优劣,应用

1)设计结构

ProteinSGM(Nat. Comput. Sci):结合Rosetta MinMover优化结构

2)设计序列

a)ProGen(Cell Syst.):对蛋白质功能和家族的可控生成

b)ProtGPT2(Nat. Commun.):生成多样且符合自然规律的蛋白质序列

3)序列和结构的协同设计

a)Protpardelle(PNAS):叠加态(superposition state)概念

b)Chroma(Nature)

c)VibeGen:结合蛋白质动力学特征

4.不同蛋白质设计模型的系统比较

1)无条件单体生成:

a)在生成时间、序列与结构的合理性、序列与结构多样性等方面比较

b)方法选择的建议

2)基于motif的TEV蛋白酶的设计:不同方法设计的酶活性比较

5.不同的蛋白质设计方法的实操

1)Rfdiffusion+ProteinMPNN生成序列,AphaFold2筛选序列。

学会各个包的安装,不同参数的选择,结合的hotspot位点选择。

2)计算SAP(Spatial Aggregation Propensity)的值,

选择3-6个氨基酸作为hotspot,即结合位点;这里需要使用Rosetta进行计算,首先将安装rosetta,准备蛋白,再计算每一个氨基酸的SAP值,将SAP数值映射到结构上。选择hotspot位点。

a)Rfdiffusion结构设计,生成~10000个蛋白质主链结构

根据上面挑选得到的hotspot位点

b)ProteinMPNN-FastRelax进行序列设计,每一个主链结构两个对应的序列,共设计~20000个序列,再通过ProteinMPNN-FastRelax设计序列

c)筛选:使用AlphaFold2预测设计结构,预测的置信度pAE<10,预测结构与设计结构的RMSD<1A,从中挑选95个进行实验验证

3)BindCraft——序列生成和筛选的自动化实现

BindCraft相比于Rfdiffusion+ProteinMPNN更加用户友好,一站式设计流程,序列的生成和筛选自动化实现。将讲解其中参数的设计和选择,如过滤序列条件、生成氨基酸的偏好性等

4)Protein Generator、Chroma、Protpardelle生成序列的实现

五,深度学习酶设计实战应用

1.基础知识讲解

酶的过渡态理论,theozyme,fitness landscape,epistasis

2.从Frances H. Arnold(2018年因在酶的定向进化领域的贡献获得诺贝尔化学奖)的工作看酶的定向进化方法的发展

1.传统定向进化实验流程

2.MLDE(Mechine Learning Directed Evolution), 学习序列与酶性能之间的映射关系,推荐新的突变组合(PNAS文章)

3.ftMLDE(focused training MLDE),主动学习流程,构建informative的训练数据(Cell Systems文章)

3.酶的从头设计

1.从头设计Diels-Alder催化酶

a)基于Rosetta的Inside-out策略(Science文章)

b)通过Foldit蛋白质折叠游戏改善结构问题(Nat. Biotechnol.文章);

c)Foldit蛋白质折叠游戏的实践

2.从头设计荧光素酶,Family-wide hallucination,基于该酶家族的结构幻化出新的结构(Nature文章)

3.RFdiffusion+PLACER从头设计丝氨酸水解酶(Science文章)

4.利用预测结构的相似性,挖掘序列的新酶功能(cell文章)

1.InterPro数据库中下载数据

2.TM-score计算结构距离

3.UPGMA结构聚类,画出进化树

4.挑选序列

六,深度学习抗体设计实战

1.抗体基础知识讲解:

1)VDJ重排,germline,CDR区域,表位(epitope/paratope),抗体亲和力成熟,抗体的可开发性等概念介绍

2)不同抗体编号方案(Kabat,Chothia,IMGT)讲解,使用python自动化对抗体序列编号,并识别CDR区域

3)抗体药物开发的基本流程

2.抗体亲和力成熟

1)Efficient evolution,基于序列的语言模型推荐突变点(Nat. Biotechnol.文章)

2)了解语言模型推荐突变点的原理

3)安装package和模型参数

4)运行以推荐突变点

5)Structure evolution,基于结构的语言模型推荐突变点(Science文章)

6)了解inverse folding推荐突变点原理

7)安装package和模型参数

8)DiffAb,扩散模型同时生成CDR区的序列和结构

9)GSK、阿斯利康、诺和诺德等在抗体亲和力成熟上的工作

10)Chai2从头生成抗体

3.Adaptyv EGFR Binder比赛——设计EGFR的更高亲和力binder

1)比赛排名靠前的抗体/蛋白是如何设计的

a)第一轮比赛,排名第一的方法:BindCraft

b)第二轮比赛,排名第一的方法:Cradle,在Cetuximab的基础上,用的LLM,突变了10个FR的氨基酸

c)第二轮比赛,排名第二的方法:对一个纳米抗体进行人源化改造

d)第二轮比赛,排名第三的方法:保留与结合重要的氨基酸,生成其它氨基酸RFdiffusion+inverse folding

2)不同的筛选指标能否正确区分出可表达蛋白和不可表达蛋白、可结合蛋白和不可结合蛋白

3)抗体可开发性优化

4)抗体可开发性优化在药物开发过程中的意义,

5)衡量抗体可开发性要考虑的因素,如免疫原性、自聚集性、结合特异性、稳定性等等

6)抗体性质预测的模型实践,展示在小样本的情景下训练机器学习/深度学习模型

7)数据处理,划分数据集

8)模型构建,将构建两类模型

9)基于特征工程的机器学习模型(随机森林,XGboost,ElasticNet等);学习根据蛋白质序列和结构信息构建常见特征

10)使用语言模型获得序列embedding的深度学习模型

11)模型训练和评价:绘制训练曲线,训练集和测试集的评价指标随epoch的变化,GridSearchCV交叉验证调参等

12)模型的可解释性,特征重要性分析

参考:https://mp.weixin.qq.com/s/0RWPPt2pmgOvBlymdk0ndA

http://www.dtcms.com/a/326051.html

相关文章:

  • 【智能的起源】人类如何模仿,简单的“刺激-反应”机制 智能的核心不是记忆,而是发现规律并能迁移到新场景。 最原始的智能:没有思考,只有简单条件反射
  • 首涂模板第45套主题2.0修正版苹果CMS模板奇艺主题二开源码
  • 解决 VS Code 右键菜单丢失问题
  • calamine读取xlsx文件的方法比较
  • Spring Boot 2.0 升级至 3.5 JDK 1.8 升级至 17 全面指南
  • 计算机视觉CS231n学习(7)
  • 【Altium designer】解决报错“Access violation at address...“
  • 【代码随想录day 17】 力扣 617.合并二叉树
  • python魔法方法__str__()介绍
  • 【Lua】题目小练9
  • 从零构建自定义Spring Boot Starter:打造你的专属开箱即用组件
  • 爬虫与数据分析入门:从中国大学排名爬取到数据可视化全流程
  • Go语言构建高性能AI分析网关:原理与实战
  • 设计模式笔记_结构型_组合模式
  • React(四):事件总线、setState的细节、PureComponent、ref
  • Jenkins 搭建鸿蒙打包
  • 【k8s】k8s中的几个概念性问题
  • day48 力扣739. 每日温度 力扣496.下一个更大元素 I 力扣503.下一个更大元素II
  • 轻量级解决方案:如何高效处理Word转PDF?
  • k8s的calico是什么作用,举例一下
  • 【2025最新版】PDF24 Creator,PDF编辑,合并分割,格式转换全能工具箱,本地离线版本,完全免费!
  • 【C语言强化训练16天】--从基础到进阶的蜕变之旅:Day1
  • 【12-激活函数】
  • 【PRML】分类
  • 普通大学本科生如何入门强化学习?
  • 算法73. 矩阵置零
  • MySQL权限管理和MySQL备份
  • 银行客户经营:用企业微信精准破解触达断层、效率瓶颈、数据孤岛三个痛点
  • GPT-5 全面解析与最佳实践指南
  • 容器 K8S Docker Kata 学习(一)