当前位置：首页 > news >正文

【小记】2024-2025生物计算类热点问题

news 2025/9/24 19:10:44

本文整理了过去一年生物计算方向的热点问题，涵盖深度学习架构与蛋白质建模等关键能力，自用技术梳理，解释文字仅供参考。如有错误，请各位批评指正。

一、深度学习模型架构与原理

（考察对主流模型机制）

Transformer基础
- Self-Attention：QKV计算序列文本间依赖关系的机制。
- Positional Encoding：为模型提供序列中元素的相对或绝对位置信息，常见为正余弦编码；RoPE (Rotary Position Embedding)：通过在高维旋转空间中编码位置，使模型能够更好地捕捉相对顺序并泛化到不同长度。
- FFN (Feed-Forward Network)：对每个位置表示进行非线性变换和特征提取，以增强表示表达能力。
- GPT vs BERT：GPT是自回归语言模型，BERT采用双向掩码语言建模，其Embedding 由 Token、Segment 和 Position 三部分组成。
- Transformer vs CNN：Transformer长于捕获长程依赖如全局上下文任务，CNN擅于提取局部特征如图像网格数据。
扩散模型 (Diffusion Model)：通过逐步添加和去除噪声学习数据分布的生成模型。
多模态与视觉基础模型
- SAM (Segment Anything Model)：零样本通用图像分割模型。
- CLIP (Contrastive Language-Image Pretraining)：通过对比学习将图像和文本映射到共享嵌入空间，实现零样本分类与多模态检索。
- BLIP (Bootstrapping Language–Image Pre-training) /BLIP-2：在图像–文本预训练中引入自监督和对抗式目标以改善视觉语言理解。
Agent：能感知环境、规划决策并执行动作的AI系统。
大模型高效微调技术：Full Fine-tuning, Prompt Tuning, Prefix Tuning, Adapter
- LoRA (Low-Rank Adaptation)：在不更新原模型权重的情况下，添加低秩分解矩阵进行高效微调。
- LoRA变体：如QLoRA、DoRA、AdaLoRA

二、计算基础理论

（考察并行计算与数据建模的基本功）

并行计算：数据并行 (Data Parallelism)、模型并行 (Model Parallelism)、流水线并行 (Pipeline Parallelism)。
- 数据并行将模型复制到多设备上处理不同数据；
- 模型并行将模型按层或张量维度拆分；
- 流水并行将模型分段串行在不同设备上执行。
数据库范式
- 第一范式 (1NF)：要求所有字段原子性且无重复分组。
- 第二范式 (2NF)：满足1NF，且非主属性完全依赖于主键。
- 第三范式 (3NF)：满足2NF，且消除传递依赖。
贝叶斯公式：P(A|B) = P(B|A) * P(A) / P(B)。

三、蛋白质计算核心前沿

（考察蛋白质序列与结构表征学习的前沿技术能力）

蛋白质大模型
- 序列模型：ESM一代二代、ProtTrans。
- 结构模型：AlphaFold 系列、OpenFold、ESMFold。
- 多模态/联合模型：ProtST、ESM3、DPLM2。
- 联合方向：将序列信息、结构信息（如距离图、角度、坐标）与功能注释共同输入模型进行预训练与预测。
ESM 系列演进
- ESM-1b：大规模蛋白质语言模型。
- ESM-2：更大规模、更深架构、更高精度。ESM-2用RoPE取代ESM-1b使用的learned position embedding；ESM-1b 训练时使用 UniRef50 ， ESM-2 在此基础上从 UniRef90 中挑选代表序列，训练中覆盖60M高多样性序列。
- ESM-3：纯语言模型驱动生成式蛋白质设计，引入隐式结构建模。结构Tokenization：将3D结构信息离散化为离散token。
RFdiffusion 进展
- RFdiffusion：基于扩散模型的蛋白质设计。
- RFdiffusion-all-atom (RFAA)：直接生成全原子坐标（主链+侧链）。
- RFdiffusion2：根据序列无关的功能基团几何直接生成并精准折叠酶。
构象重要性：构象决定蛋白功能与相互作用，是动态机制和设计优化的关键。
FoldSeek：高效搜索蛋白质结构相似性的工具，将3D结构编码为离散token序列。
AlphaFold2 vs AlphaFold3
- AlphaFold2：主要预测蛋白质单体/复合物结构。
- AlphaFold3：扩展预测蛋白质-配体、蛋白质-核酸等复合物。
- 旋转平移不变性：AlphaFold2 的 Evoformer 模块（IPA, Invariant Point Attention）对结构输入具有旋转平移不变性。
蛋白预测 Benchmark 任务：结构预测 (CASP/CAMEO)、功能注释与突变效应预测、相互作用预测、设计成功率评估。
不可导采样与反向传播：使用重参数化技巧 (Reparametrization) 或梯度估计器 (如Score Function / REINFORCE)。
分子-蛋白结合模拟：分子动力学模拟计算结合自由能 (ΔGbind, MM/PBSA, MM/GBSA)、分析结合模式与关键相互作用。