【小记】2024-2025生物计算类热点问题
本文整理了过去一年生物计算方向的热点问题,涵盖深度学习架构与蛋白质建模等关键能力,自用技术梳理,解释文字仅供参考。如有错误,请各位批评指正。
一、深度学习模型架构与原理
(考察对主流模型机制)
- Transformer基础
- Self-Attention:QKV计算序列文本间依赖关系的机制。
- Positional Encoding:为模型提供序列中元素的相对或绝对位置信息,常见为正余弦编码;RoPE (Rotary Position Embedding):通过在高维旋转空间中编码位置,使模型能够更好地捕捉相对顺序并泛化到不同长度。
- FFN (Feed-Forward Network):对每个位置表示进行非线性变换和特征提取,以增强表示表达能力。
- GPT vs BERT:GPT是自回归语言模型,BERT采用双向掩码语言建模,其Embedding 由 Token、Segment 和 Position 三部分组成。
- Transformer vs CNN:Transformer长于捕获长程依赖如全局上下文任务,CNN擅于提取局部特征如图像网格数据。
- 扩散模型 (Diffusion Model):通过逐步添加和去除噪声学习数据分布的生成模型。
- 多模态与视觉基础模型
- SAM (Segment Anything Model):零样本通用图像分割模型。
- CLIP (Contrastive Language-Image Pretraining):通过对比学习将图像和文本映射到共享嵌入空间,实现零样本分类与多模态检索。
- BLIP (Bootstrapping Language–Image Pre-training) /BLIP-2:在图像–文本预训练中引入自监督和对抗式目标以改善视觉语言理解。
- Agent:能感知环境、规划决策并执行动作的AI系统。
- 大模型高效微调技术:Full Fine-tuning, Prompt Tuning, Prefix Tuning, Adapter
- LoRA (Low-Rank Adaptation):在不更新原模型权重的情况下,添加低秩分解矩阵进行高效微调。
- LoRA变体:如QLoRA、DoRA、AdaLoRA
二、计算基础理论
(考察并行计算与数据建模的基本功)
- 并行计算:数据并行 (Data Parallelism)、模型并行 (Model Parallelism)、流水线并行 (Pipeline Parallelism)。
- 数据并行将模型复制到多设备上处理不同数据;
- 模型并行将模型按层或张量维度拆分;
- 流水并行将模型分段串行在不同设备上执行。
- 数据库范式
- 第一范式 (1NF):要求所有字段原子性且无重复分组。
- 第二范式 (2NF):满足1NF,且非主属性完全依赖于主键。
- 第三范式 (3NF):满足2NF,且消除传递依赖。
- 贝叶斯公式:P(A|B) = P(B|A) * P(A) / P(B)。
三、蛋白质计算核心前沿
(考察蛋白质序列与结构表征学习的前沿技术能力)
- 蛋白质大模型
- 序列模型:ESM一代二代、ProtTrans。
- 结构模型:AlphaFold 系列、OpenFold、ESMFold。
- 多模态/联合模型:ProtST、ESM3、DPLM2。
- 联合方向:将序列信息、结构信息(如距离图、角度、坐标)与功能注释共同输入模型进行预训练与预测。
- ESM 系列演进
- ESM-1b:大规模蛋白质语言模型。
- ESM-2:更大规模、更深架构、更高精度。ESM-2用RoPE取代ESM-1b使用的learned position embedding;ESM-1b 训练时使用 UniRef50 , ESM-2 在此基础上从 UniRef90 中挑选代表序列,训练中覆盖60M高多样性序列。
- ESM-3:纯语言模型驱动生成式蛋白质设计,引入隐式结构建模。结构Tokenization:将3D结构信息离散化为离散token。
- RFdiffusion 进展
- RFdiffusion:基于扩散模型的蛋白质设计。
- RFdiffusion-all-atom (RFAA):直接生成全原子坐标(主链+侧链)。
- RFdiffusion2:根据序列无关的功能基团几何直接生成并精准折叠酶。
- 构象重要性:构象决定蛋白功能与相互作用,是动态机制和设计优化的关键。
- FoldSeek:高效搜索蛋白质结构相似性的工具,将3D结构编码为离散token序列。
- AlphaFold2 vs AlphaFold3
- AlphaFold2:主要预测蛋白质单体/复合物结构。
- AlphaFold3:扩展预测蛋白质-配体、蛋白质-核酸等复合物。
- 旋转平移不变性:AlphaFold2 的 Evoformer 模块(IPA, Invariant Point Attention)对结构输入具有旋转平移不变性。
- 蛋白预测 Benchmark 任务:结构预测 (CASP/CAMEO)、功能注释与突变效应预测、相互作用预测、设计成功率评估。
- 不可导采样与反向传播:使用重参数化技巧 (Reparametrization) 或梯度估计器 (如Score Function / REINFORCE)。
- 分子-蛋白结合模拟:分子动力学模拟计算结合自由能 (ΔGbind, MM/PBSA, MM/GBSA)、分析结合模式与关键相互作用。
总结
未来前沿方向包括多模态联合表征与可控生物分子生成、跨尺度高效并行模拟、以及基于自主智能体的自动化设计与分析流程。未来可以持续关注模型可解释性、参数高效适配与大规模计算架构的融合与创新。