AI蛋白质设计学习主线
一,蛋白质设计——序列分析
1.获得同源序列
1)了解不同蛋白质序列库,如UniRef90,UniClust30,Pfam等
2)了解不同工具原理并使用:NCBI BLAST,Jackhmmer,HHblits
3)给定一条蛋白质序列,比对序列库,生成多序列比对(MSA)
从AlphaFold2的经典代码仓库中找到它的生成MSA的代码并学习(alphafold/alphafold/data/tools/jackhmmer.py)
2.对MSA进行频率分析
1)使用python的文本文件操作实现
2)使用python中biopython包实现
3)绘制序列Logo,可视化的展示每个位点的氨基酸频率和保守性
3.序列的同源性计算和进化树的绘制
1)不同同源性的计算方法及应用情景,氨基酸序列的identity和Similarity,BLOSUM62的介绍
2)进化树的绘制
4.基于序列相似性阈值划分训练集和测试集
1)为什么要做?避免数据泄露
2)选择相似性度量方法
3)相似性矩阵的计算
4)划分数据集
5.大规模蛋白质序列的聚类分析和去冗余
1)为什么要做?防止过度学习某一类序列特征,消除序列偏差;也能防止训练过程中数据泄露
2)聚类方法的选择,CD-HIT、MMseq2和Linclust
3)选择代表序列,去冗余
4)实际复现S2ALM这一模型文章中的聚类方法
二,蛋白质设计——结构分析
1.蛋白质结构预测方法
1)从CASP比赛结果来简述蛋白质结构预测方法的发展。
基于能量函数 -> 接触图的应用 -> 端到端的预测结构(AlphaFold2)
2)AlphaFold2的模型相比于以前的方法有什么改进
3)将基于MSA和基于模板的方法整合,使用注意力机制进行MSA信息和模板信息的相互交流
4)以前提取MSA信息为计算协方差矩阵 ,AlphaFold2创造性的直接将MSA信息作为输入,将图像识别的算法转变成了自然语言处理算法,减少了中间处理过程中的信息损失
5)AlphaFold3相比于AlphaFold2改进了什么,还有什么不足
6)扩展到了多种生物分子的复合物结构预测,包括蛋白质-DNA、蛋白质-RNA、蛋白质-小分子,并使用扩散模型
7)复合物组装与动态预测缺陷,抗体-抗原复合物结构准确度有待提高。
8)运行网页server上的AlphaFold3预测结构
9)如何使用AlphaFold3预测蛋白质的糖基化,不同糖基化的类型的输入方法。
10)AlphaFold3输出结果分析,各项置信度指标的含义,以及如何判断预测的准确度,如pLDDT,ipTM,PTM,PAE
11)本地部署和运行ColabFold,由于AlphaFold3在安装过程中需要下载大量资源,且不能商用
2.蛋白质结构分析和可视化
1)pdb文件的解读,每一行中的内容代表什么含义。
2)用 pymol 可视化蛋白质结构
a)pymol的基础操作讲解
b)如何将实验值投影到结构图的颜色上,如何画出发表文章中好看的图
3)计算蛋白质结构中两个氨基酸的距离
a)使用python的文本文件操作实现
b)使用python中biopython包实现
3.蛋白质结构相关物理性质的计算
1)二级结构的分类和计算
2)溶剂可及表面积(SASA)的讲解及计算
3)蛋白质表面电荷分布的计算
4.结构快速比对工具Foldseek介绍及使用
1)Foldseek原理讲解,3Di字母表,结构信息的序列化编码
2)结构相似性搜索实战,从蛋白质结构数据库中搜索相似结构
3)根据结构相似性阈值聚类
4)聚类输出结果的讲解和处理
三,蛋白质的大语言模型及应用
1.基础知识讲解
1)介绍蛋白质的语言模型(26字母语言模型->20氨基酸字母表,上下文依赖->氨基酸的共进化)
2)为什么要开发蛋白质大语言模型?
1. 相比于结构或功能信息,序列信息更加海量;
2. 蛋白质序列通过进化而来,可以学习蛋白质基本规律,折叠,共进化等
3)模型架构和基础理论:transformer,多头注意力机制,Bert,GPT,T5等
2.基于Bert架构的蛋白质语言模型
1) ESM系列(ESM-1b、ESM-1v、ESM2、ESMC)
2)ESMFold:无需MSA信息的结构预测
3)使用抗体序列库训练的语言模型:Ablang,AntiBERTy
3.类似GPT的生成模型ProGen
1)36层Transformer解码器架构,包含12亿参数
2)引入“控制标签”(如蛋白质家族ID、功能属性)作为输入,生成蛋白质序列空间以外的新的蛋白质序列
3)成功生成新的溶菌酶
4.多模态的蛋白质语言模型ESM3
1)模型架构融合序列,结构和功能信息
2)相比于ESMFold,单体结构预测精度更好
3)基于多模态提示(序列、结构、功能关键词)设计新的蛋白质序列
4)ESM3的安装,生成序列,快速结构预测。
5.蛋白质语言模型的应用和实战演练
1)获得序列embedding以构建下游模型(Cell systmes等文章举例)
2)使用不同的蛋白质语言模型,零样本的预测蛋白质突变效应
3)给定少量的突变效应数据作为训练数据,训练模型,预测新的突变效应值
四,蛋白质设计实战应用(实践)
1.基础知识讲解
1)三类方法在不同程度上探索蛋白质序列空间:
a)蛋白质定向进化(directed evolution)
b)固定蛋白质主链的序列设计(Fix-backbone protein design)
c)蛋白质的从头设计(De novo protein design)
2)关键数据库:RCSB PDB, SCOPe, CATH, UniRef, BFD等
3)常见概念和名词: rotamer, scaffold, motif,domain,backbone,side-chain,apo和holo结构
2.从David baker(2024年因蛋白质设计的贡献获得诺贝尔化学奖)的工作看蛋白质设计方法的发展
1)基于能量函数Rosettta的从头设计,Longxing Cao的Nature文章
2)幻化(Hallucination)生成,将蛋白质三维结构预测模型应用于蛋白质设计
3)ProteinMPNN(从结构生成序列);
4)LigandMPNN(结合配体的蛋白质设计);
5)ThermoMPNN(热稳定性优化的蛋白质设计)
6)Rfdiffusion(只设计backbone结构,扩散模型);
7)Rfdiffusion finetuned by antibody
8)Protien Generator:序列和结构的协同设计
3.其他蛋白质设计方法,了解模型原理,优劣,应用
1)设计结构
ProteinSGM(Nat. Comput. Sci):结合Rosetta MinMover优化结构
2)设计序列
a)ProGen(Cell Syst.):对蛋白质功能和家族的可控生成
b)ProtGPT2(Nat. Commun.):生成多样且符合自然规律的蛋白质序列
3)序列和结构的协同设计
a)Protpardelle(PNAS):叠加态(superposition state)概念
b)Chroma(Nature)
c)VibeGen:结合蛋白质动力学特征
4.不同蛋白质设计模型的系统比较
1)无条件单体生成:
a)在生成时间、序列与结构的合理性、序列与结构多样性等方面比较
b)方法选择的建议
2)基于motif的TEV蛋白酶的设计:不同方法设计的酶活性比较
5.不同的蛋白质设计方法的实操
1)Rfdiffusion+ProteinMPNN生成序列,AphaFold2筛选序列。
学会各个包的安装,不同参数的选择,结合的hotspot位点选择。
2)计算SAP(Spatial Aggregation Propensity)的值,
选择3-6个氨基酸作为hotspot,即结合位点;这里需要使用Rosetta进行计算,首先将安装rosetta,准备蛋白,再计算每一个氨基酸的SAP值,将SAP数值映射到结构上。选择hotspot位点。
a)Rfdiffusion结构设计,生成~10000个蛋白质主链结构
根据上面挑选得到的hotspot位点
b)ProteinMPNN-FastRelax进行序列设计,每一个主链结构两个对应的序列,共设计~20000个序列,再通过ProteinMPNN-FastRelax设计序列
c)筛选:使用AlphaFold2预测设计结构,预测的置信度pAE<10,预测结构与设计结构的RMSD<1A,从中挑选95个进行实验验证
3)BindCraft——序列生成和筛选的自动化实现
BindCraft相比于Rfdiffusion+ProteinMPNN更加用户友好,一站式设计流程,序列的生成和筛选自动化实现。将讲解其中参数的设计和选择,如过滤序列条件、生成氨基酸的偏好性等
4)Protein Generator、Chroma、Protpardelle生成序列的实现
五,深度学习酶设计实战应用
1.基础知识讲解
酶的过渡态理论,theozyme,fitness landscape,epistasis
2.从Frances H. Arnold(2018年因在酶的定向进化领域的贡献获得诺贝尔化学奖)的工作看酶的定向进化方法的发展
1.传统定向进化实验流程
2.MLDE(Mechine Learning Directed Evolution), 学习序列与酶性能之间的映射关系,推荐新的突变组合(PNAS文章)
3.ftMLDE(focused training MLDE),主动学习流程,构建informative的训练数据(Cell Systems文章)
3.酶的从头设计
1.从头设计Diels-Alder催化酶
a)基于Rosetta的Inside-out策略(Science文章)
b)通过Foldit蛋白质折叠游戏改善结构问题(Nat. Biotechnol.文章);
c)Foldit蛋白质折叠游戏的实践
2.从头设计荧光素酶,Family-wide hallucination,基于该酶家族的结构幻化出新的结构(Nature文章)
3.RFdiffusion+PLACER从头设计丝氨酸水解酶(Science文章)
4.利用预测结构的相似性,挖掘序列的新酶功能(cell文章)
1.InterPro数据库中下载数据
2.TM-score计算结构距离
3.UPGMA结构聚类,画出进化树
4.挑选序列
六,深度学习抗体设计实战
1.抗体基础知识讲解:
1)VDJ重排,germline,CDR区域,表位(epitope/paratope),抗体亲和力成熟,抗体的可开发性等概念介绍
2)不同抗体编号方案(Kabat,Chothia,IMGT)讲解,使用python自动化对抗体序列编号,并识别CDR区域
3)抗体药物开发的基本流程
2.抗体亲和力成熟
1)Efficient evolution,基于序列的语言模型推荐突变点(Nat. Biotechnol.文章)
2)了解语言模型推荐突变点的原理
3)安装package和模型参数
4)运行以推荐突变点
5)Structure evolution,基于结构的语言模型推荐突变点(Science文章)
6)了解inverse folding推荐突变点原理
7)安装package和模型参数
8)DiffAb,扩散模型同时生成CDR区的序列和结构
9)GSK、阿斯利康、诺和诺德等在抗体亲和力成熟上的工作
10)Chai2从头生成抗体
3.Adaptyv EGFR Binder比赛——设计EGFR的更高亲和力binder
1)比赛排名靠前的抗体/蛋白是如何设计的
a)第一轮比赛,排名第一的方法:BindCraft
b)第二轮比赛,排名第一的方法:Cradle,在Cetuximab的基础上,用的LLM,突变了10个FR的氨基酸
c)第二轮比赛,排名第二的方法:对一个纳米抗体进行人源化改造
d)第二轮比赛,排名第三的方法:保留与结合重要的氨基酸,生成其它氨基酸RFdiffusion+inverse folding
2)不同的筛选指标能否正确区分出可表达蛋白和不可表达蛋白、可结合蛋白和不可结合蛋白
3)抗体可开发性优化
4)抗体可开发性优化在药物开发过程中的意义,
5)衡量抗体可开发性要考虑的因素,如免疫原性、自聚集性、结合特异性、稳定性等等
6)抗体性质预测的模型实践,展示在小样本的情景下训练机器学习/深度学习模型
7)数据处理,划分数据集
8)模型构建,将构建两类模型
9)基于特征工程的机器学习模型(随机森林,XGboost,ElasticNet等);学习根据蛋白质序列和结构信息构建常见特征
10)使用语言模型获得序列embedding的深度学习模型
11)模型训练和评价:绘制训练曲线,训练集和测试集的评价指标随epoch的变化,GridSearchCV交叉验证调参等
12)模型的可解释性,特征重要性分析
参考:https://mp.weixin.qq.com/s/0RWPPt2pmgOvBlymdk0ndA