当前位置：首页 > news >正文

AI蛋白质设计学习主线

news 2025/8/12 8:24:41

一，蛋白质设计——序列分析

1.获得同源序列

1)了解不同蛋白质序列库，如UniRef90，UniClust30，Pfam等

2)了解不同工具原理并使用：NCBI BLAST，Jackhmmer，HHblits

3)给定一条蛋白质序列，比对序列库，生成多序列比对（MSA）

从AlphaFold2的经典代码仓库中找到它的生成MSA的代码并学习（alphafold/alphafold/data/tools/jackhmmer.py）

2.对MSA进行频率分析

1)使用python的文本文件操作实现

2)使用python中biopython包实现

3)绘制序列Logo，可视化的展示每个位点的氨基酸频率和保守性

3.序列的同源性计算和进化树的绘制

1)不同同源性的计算方法及应用情景，氨基酸序列的identity和Similarity，BLOSUM62的介绍

2)进化树的绘制

4.基于序列相似性阈值划分训练集和测试集

1)为什么要做？避免数据泄露

2)选择相似性度量方法

3)相似性矩阵的计算

4)划分数据集

5.大规模蛋白质序列的聚类分析和去冗余

1)为什么要做？防止过度学习某一类序列特征，消除序列偏差；也能防止训练过程中数据泄露

2)聚类方法的选择，CD-HIT、MMseq2和Linclust

3)选择代表序列，去冗余

4)实际复现S2ALM这一模型文章中的聚类方法

二，蛋白质设计——结构分析

1.蛋白质结构预测方法

1)从CASP比赛结果来简述蛋白质结构预测方法的发展。

基于能量函数 -> 接触图的应用 -> 端到端的预测结构（AlphaFold2）

2)AlphaFold2的模型相比于以前的方法有什么改进

3)将基于MSA和基于模板的方法整合，使用注意力机制进行MSA信息和模板信息的相互交流

4)以前提取MSA信息为计算协方差矩阵，AlphaFold2创造性的直接将MSA信息作为输入，将图像识别的算法转变成了自然语言处理算法，减少了中间处理过程中的信息损失

5)AlphaFold3相比于AlphaFold2改进了什么，还有什么不足

6)扩展到了多种生物分子的复合物结构预测，包括蛋白质-DNA、蛋白质-RNA、蛋白质-小分子，并使用扩散模型

7)复合物组装与动态预测缺陷，抗体-抗原复合物结构准确度有待提高。

8)运行网页server上的AlphaFold3预测结构

9)如何使用AlphaFold3预测蛋白质的糖基化，不同糖基化的类型的输入方法。

10)AlphaFold3输出结果分析，各项置信度指标的含义，以及如何判断预测的准确度，如pLDDT，ipTM，PTM，PAE

11)本地部署和运行ColabFold，由于AlphaFold3在安装过程中需要下载大量资源，且不能商用

2.蛋白质结构分析和可视化

1)pdb文件的解读，每一行中的内容代表什么含义。

2)用 pymol 可视化蛋白质结构

a)pymol的基础操作讲解

b)如何将实验值投影到结构图的颜色上，如何画出发表文章中好看的图

3)计算蛋白质结构中两个氨基酸的距离

a)使用python的文本文件操作实现

b)使用python中biopython包实现

3.蛋白质结构相关物理性质的计算

1)二级结构的分类和计算

2)溶剂可及表面积（SASA）的讲解及计算

3)蛋白质表面电荷分布的计算

4.结构快速比对工具Foldseek介绍及使用

1)Foldseek原理讲解，3Di字母表，结构信息的序列化编码

2)结构相似性搜索实战，从蛋白质结构数据库中搜索相似结构

3)根据结构相似性阈值聚类

4)聚类输出结果的讲解和处理

三，蛋白质的大语言模型及应用

1.基础知识讲解

1)介绍蛋白质的语言模型（26字母语言模型->20氨基酸字母表，上下文依赖->氨基酸的共进化）

2)为什么要开发蛋白质大语言模型？

1. 相比于结构或功能信息，序列信息更加海量；

2. 蛋白质序列通过进化而来，可以学习蛋白质基本规律，折叠，共进化等

3)模型架构和基础理论：transformer，多头注意力机制，Bert，GPT，T5等

2.基于Bert架构的蛋白质语言模型

1) ESM系列（ESM-1b、ESM-1v、ESM2、ESMC）

2)ESMFold：无需MSA信息的结构预测

3)使用抗体序列库训练的语言模型：Ablang，AntiBERTy

3.类似GPT的生成模型ProGen

1)36层Transformer解码器架构，包含12亿参数

2)引入“控制标签”（如蛋白质家族ID、功能属性）作为输入，生成蛋白质序列空间以外的新的蛋白质序列

3)成功生成新的溶菌酶

4.多模态的蛋白质语言模型ESM3

1)模型架构融合序列，结构和功能信息

2)相比于ESMFold，单体结构预测精度更好

3)基于多模态提示（序列、结构、功能关键词）设计新的蛋白质序列

4)ESM3的安装，生成序列，快速结构预测。

5.蛋白质语言模型的应用和实战演练

1)获得序列embedding以构建下游模型（Cell systmes等文章举例）

2)使用不同的蛋白质语言模型，零样本的预测蛋白质突变效应

3)给定少量的突变效应数据作为训练数据，训练模型，预测新的突变效应值

四，蛋白质设计实战应用（实践）

1.基础知识讲解

1)三类方法在不同程度上探索蛋白质序列空间:

a)蛋白质定向进化（directed evolution）

b)固定蛋白质主链的序列设计（Fix-backbone protein design）

c)蛋白质的从头设计（De novo protein design）

2)关键数据库：RCSB PDB， SCOPe， CATH， UniRef， BFD等

3)常见概念和名词： rotamer， scaffold， motif，domain，backbone，side-chain，apo和holo结构

2.从David baker（2024年因蛋白质设计的贡献获得诺贝尔化学奖）的工作看蛋白质设计方法的发展

1)基于能量函数Rosettta的从头设计，Longxing Cao的Nature文章

2)幻化（Hallucination）生成，将蛋白质三维结构预测模型应用于蛋白质设计

3)ProteinMPNN（从结构生成序列）；

4)LigandMPNN（结合配体的蛋白质设计）；

5)ThermoMPNN（热稳定性优化的蛋白质设计）

6)Rfdiffusion（只设计backbone结构，扩散模型）；

7)Rfdiffusion finetuned by antibody

8)Protien Generator：序列和结构的协同设计

3.其他蛋白质设计方法，了解模型原理，优劣，应用

1)设计结构

ProteinSGM（Nat. Comput. Sci）：结合Rosetta MinMover优化结构

2)设计序列

a)ProGen（Cell Syst.）：对蛋白质功能和家族的可控生成

b)ProtGPT2（Nat. Commun.）：生成多样且符合自然规律的蛋白质序列

3)序列和结构的协同设计

a)Protpardelle（PNAS）：叠加态（superposition state）概念

b)Chroma（Nature）

c)VibeGen：结合蛋白质动力学特征

4.不同蛋白质设计模型的系统比较

1)无条件单体生成：

a)在生成时间、序列与结构的合理性、序列与结构多样性等方面比较

b)方法选择的建议

2)基于motif的TEV蛋白酶的设计：不同方法设计的酶活性比较

5.不同的蛋白质设计方法的实操

1)Rfdiffusion+ProteinMPNN生成序列，AphaFold2筛选序列。

学会各个包的安装，不同参数的选择，结合的hotspot位点选择。

2)计算SAP（Spatial Aggregation Propensity）的值，

选择3-6个氨基酸作为hotspot，即结合位点；这里需要使用Rosetta进行计算，首先将安装rosetta，准备蛋白，再计算每一个氨基酸的SAP值，将SAP数值映射到结构上。选择hotspot位点。

a)Rfdiffusion结构设计，生成~10000个蛋白质主链结构

根据上面挑选得到的hotspot位点

b)ProteinMPNN-FastRelax进行序列设计，每一个主链结构两个对应的序列，共设计~20000个序列，再通过ProteinMPNN-FastRelax设计序列

c)筛选:使用AlphaFold2预测设计结构，预测的置信度pAE<10，预测结构与设计结构的RMSD<1A，从中挑选95个进行实验验证

3)BindCraft——序列生成和筛选的自动化实现

BindCraft相比于Rfdiffusion+ProteinMPNN更加用户友好，一站式设计流程，序列的生成和筛选自动化实现。将讲解其中参数的设计和选择，如过滤序列条件、生成氨基酸的偏好性等

4)Protein Generator、Chroma、Protpardelle生成序列的实现

五，深度学习酶设计实战应用

1.基础知识讲解

酶的过渡态理论，theozyme，fitness landscape，epistasis

2.从Frances H. Arnold（2018年因在酶的定向进化领域的贡献获得诺贝尔化学奖）的工作看酶的定向进化方法的发展

1.传统定向进化实验流程

2.MLDE（Mechine Learning Directed Evolution），学习序列与酶性能之间的映射关系，推荐新的突变组合（PNAS文章）

3.ftMLDE（focused training MLDE），主动学习流程，构建informative的训练数据（Cell Systems文章）

3.酶的从头设计

1.从头设计Diels-Alder催化酶

a)基于Rosetta的Inside-out策略（Science文章）

b)通过Foldit蛋白质折叠游戏改善结构问题（Nat. Biotechnol.文章）；

c)Foldit蛋白质折叠游戏的实践

2.从头设计荧光素酶，Family-wide hallucination，基于该酶家族的结构幻化出新的结构（Nature文章）

3.RFdiffusion+PLACER从头设计丝氨酸水解酶（Science文章）

4.利用预测结构的相似性，挖掘序列的新酶功能（cell文章）

1.InterPro数据库中下载数据

2.TM-score计算结构距离

3.UPGMA结构聚类，画出进化树

4.挑选序列

六，深度学习抗体设计实战

1.抗体基础知识讲解：

1)VDJ重排，germline，CDR区域，表位（epitope/paratope），抗体亲和力成熟，抗体的可开发性等概念介绍

2)不同抗体编号方案（Kabat，Chothia，IMGT）讲解，使用python自动化对抗体序列编号，并识别CDR区域

3)抗体药物开发的基本流程

2.抗体亲和力成熟

1)Efficient evolution，基于序列的语言模型推荐突变点（Nat. Biotechnol.文章）

2)了解语言模型推荐突变点的原理

3)安装package和模型参数

4)运行以推荐突变点

5)Structure evolution，基于结构的语言模型推荐突变点（Science文章）

6)了解inverse folding推荐突变点原理

7)安装package和模型参数

8)DiffAb，扩散模型同时生成CDR区的序列和结构

9)GSK、阿斯利康、诺和诺德等在抗体亲和力成熟上的工作

10)Chai2从头生成抗体

3.Adaptyv EGFR Binder比赛——设计EGFR的更高亲和力binder

1)比赛排名靠前的抗体/蛋白是如何设计的

a)第一轮比赛，排名第一的方法：BindCraft

b)第二轮比赛，排名第一的方法：Cradle，在Cetuximab的基础上，用的LLM，突变了10个FR的氨基酸

c)第二轮比赛，排名第二的方法：对一个纳米抗体进行人源化改造

d)第二轮比赛，排名第三的方法：保留与结合重要的氨基酸，生成其它氨基酸RFdiffusion+inverse folding

2)不同的筛选指标能否正确区分出可表达蛋白和不可表达蛋白、可结合蛋白和不可结合蛋白

3)抗体可开发性优化

4)抗体可开发性优化在药物开发过程中的意义，

5)衡量抗体可开发性要考虑的因素，如免疫原性、自聚集性、结合特异性、稳定性等等

6)抗体性质预测的模型实践，展示在小样本的情景下训练机器学习/深度学习模型

7)数据处理，划分数据集

8)模型构建，将构建两类模型

9)基于特征工程的机器学习模型（随机森林，XGboost，ElasticNet等）；学习根据蛋白质序列和结构信息构建常见特征

10)使用语言模型获得序列embedding的深度学习模型

11)模型训练和评价：绘制训练曲线，训练集和测试集的评价指标随epoch的变化，GridSearchCV交叉验证调参等

12)模型的可解释性，特征重要性分析

参考：https://mp.weixin.qq.com/s/0RWPPt2pmgOvBlymdk0ndA

查看全文

http://www.dtcms.com/a/326051.html

【智能的起源】人类如何模仿，简单的“刺激-反应”机制智能的核心不是记忆，而是发现规律并能迁移到新场景。最原始的智能：没有思考，只有简单条件反射

首涂模板第45套主题2.0修正版苹果CMS模板奇艺主题二开源码

解决 VS Code 右键菜单丢失问题

calamine读取xlsx文件的方法比较

Spring Boot 2.0 升级至 3.5 JDK 1.8 升级至 17 全面指南

计算机视觉CS231n学习（7）

【Altium designer】解决报错“Access violation at address...“

【代码随想录day 17】力扣 617.合并二叉树

python魔法方法__str__()介绍

【Lua】题目小练9

从零构建自定义Spring Boot Starter：打造你的专属开箱即用组件

爬虫与数据分析入门：从中国大学排名爬取到数据可视化全流程

Go语言构建高性能AI分析网关：原理与实战

设计模式笔记_结构型_组合模式

React（四）：事件总线、setState的细节、PureComponent、ref

Jenkins 搭建鸿蒙打包

【k8s】k8s中的几个概念性问题

day48 力扣739. 每日温度力扣496.下一个更大元素 I 力扣503.下一个更大元素II

轻量级解决方案：如何高效处理Word转PDF？

k8s的calico是什么作用，举例一下

【C语言强化训练16天】--从基础到进阶的蜕变之旅:Day1

【12-激活函数】

【PRML】分类

普通大学本科生如何入门强化学习？

算法73. 矩阵置零

MySQL权限管理和MySQL备份

银行客户经营：用企业微信精准破解触达断层、效率瓶颈、数据孤岛三个痛点

GPT-5 全面解析与最佳实践指南

容器 K8S Docker Kata 学习（一）

一，蛋白质设计——序列分析

1.获得同源序列

2.对MSA进行频率分析

3.序列的同源性计算和进化树的绘制

4.基于序列相似性阈值划分训练集和测试集

5.大规模蛋白质序列的聚类分析和去冗余

二，蛋白质设计——结构分析

1.蛋白质结构预测方法

2.蛋白质结构分析和可视化

3.蛋白质结构相关物理性质的计算

4.结构快速比对工具Foldseek介绍及使用

三，蛋白质的大语言模型及应用

1.基础知识讲解

2.基于Bert架构的蛋白质语言模型

3.类似GPT的生成模型ProGen

4.多模态的蛋白质语言模型ESM3

5.蛋白质语言模型的应用和实战演练

四，蛋白质设计实战应用（实践）

1.基础知识讲解

2.从David baker（2024年因蛋白质设计的贡献获得诺贝尔化学奖）的工作看蛋白质设计方法的发展

3.其他蛋白质设计方法，了解模型原理，优劣，应用

4.不同蛋白质设计模型的系统比较

五，深度学习酶设计实战应用

1.基础知识讲解

2.从Frances H. Arnold（2018年因在酶的定向进化领域的贡献获得诺贝尔化学奖）的工作看酶的定向进化方法的发展

3.酶的从头设计

4.利用预测结构的相似性，挖掘序列的新酶功能（cell文章）

六，深度学习抗体设计实战

1.抗体基础知识讲解：

2.抗体亲和力成熟

3.Adaptyv EGFR Binder比赛——设计EGFR的更高亲和力binder

相关文章：