当前位置: 首页 > news >正文

【小记】2024-2025生物计算类热点问题

本文整理了过去一年生物计算方向的热点问题,涵盖深度学习架构与蛋白质建模等关键能力,自用技术梳理,解释文字仅供参考。如有错误,请各位批评指正。

一、深度学习模型架构与原理

(考察对主流模型机制)

  1. Transformer基础
    • Self-Attention:QKV计算序列文本间依赖关系的机制。
    • Positional Encoding:为模型提供序列中元素的相对或绝对位置信息,常见为正余弦编码;RoPE (Rotary Position Embedding):通过在高维旋转空间中编码位置,使模型能够更好地捕捉相对顺序并泛化到不同长度。
    • FFN (Feed-Forward Network):对每个位置表示进行非线性变换和特征提取,以增强表示表达能力。
    • GPT vs BERT:GPT是自回归语言模型,BERT采用双向掩码语言建模,其Embedding 由 Token、Segment 和 Position 三部分组成。
    • Transformer vs CNN:Transformer长于捕获长程依赖如全局上下文任务,CNN擅于提取局部特征如图像网格数据。
  2. 扩散模型 (Diffusion Model):通过逐步添加和去除噪声学习数据分布的生成模型。
  3. 多模态与视觉基础模型
    • SAM (Segment Anything Model):零样本通用图像分割模型。
    • CLIP (Contrastive Language-Image Pretraining):通过对比学习将图像和文本映射到共享嵌入空间,实现零样本分类与多模态检索。
    • BLIP (Bootstrapping Language–Image Pre-training) /BLIP-2:在图像–文本预训练中引入自监督和对抗式目标以改善视觉语言理解。
  4. Agent:能感知环境、规划决策并执行动作的AI系统。
  5. 大模型高效微调技术:Full Fine-tuning, Prompt Tuning, Prefix Tuning, Adapter
    • LoRA (Low-Rank Adaptation):在不更新原模型权重的情况下,添加低秩分解矩阵进行高效微调。
    • LoRA变体:如QLoRA、DoRA、AdaLoRA

二、计算基础理论

(考察并行计算与数据建模的基本功)

  1. 并行计算:数据并行 (Data Parallelism)、模型并行 (Model Parallelism)、流水线并行 (Pipeline Parallelism)。
    • 数据并行将模型复制到多设备上处理不同数据;
    • 模型并行将模型按层或张量维度拆分;
    • 流水并行将模型分段串行在不同设备上执行。
  2. 数据库范式
    • 第一范式 (1NF):要求所有字段原子性且无重复分组。
    • 第二范式 (2NF):满足1NF,且非主属性完全依赖于主键。
    • 第三范式 (3NF):满足2NF,且消除传递依赖。
  3. 贝叶斯公式:P(A|B) = P(B|A) * P(A) / P(B)。

三、蛋白质计算核心前沿

(考察蛋白质序列与结构表征学习的前沿技术能力)

  1. 蛋白质大模型
    • 序列模型:ESM一代二代、ProtTrans。
    • 结构模型:AlphaFold 系列、OpenFold、ESMFold。
    • 多模态/联合模型:ProtST、ESM3、DPLM2。
    • 联合方向:将序列信息、结构信息(如距离图、角度、坐标)与功能注释共同输入模型进行预训练与预测。
  2. ESM 系列演进
    • ESM-1b:大规模蛋白质语言模型。
    • ESM-2:更大规模、更深架构、更高精度。ESM-2用RoPE取代ESM-1b使用的learned position embedding;ESM-1b 训练时使用 UniRef50 , ESM-2 在此基础上从 UniRef90 中挑选代表序列,训练中覆盖60M高多样性序列。
    • ESM-3:纯语言模型驱动生成式蛋白质设计,引入隐式结构建模。结构Tokenization:将3D结构信息离散化为离散token。
  3. RFdiffusion 进展
    • RFdiffusion:基于扩散模型的蛋白质设计。
    • RFdiffusion-all-atom (RFAA):直接生成全原子坐标(主链+侧链)。
    • RFdiffusion2:根据序列无关的功能基团几何直接生成并精准折叠酶。
  4. 构象重要性:构象决定蛋白功能与相互作用,是动态机制和设计优化的关键。
  5. FoldSeek:高效搜索蛋白质结构相似性的工具,将3D结构编码为离散token序列。
  6. AlphaFold2 vs AlphaFold3
    • AlphaFold2:主要预测蛋白质单体/复合物结构。
    • AlphaFold3:扩展预测蛋白质-配体、蛋白质-核酸等复合物。
    • 旋转平移不变性:AlphaFold2 的 Evoformer 模块(IPA, Invariant Point Attention)对结构输入具有旋转平移不变性。
  7. 蛋白预测 Benchmark 任务:结构预测 (CASP/CAMEO)、功能注释与突变效应预测、相互作用预测、设计成功率评估。
  8. 不可导采样与反向传播:使用重参数化技巧 (Reparametrization) 或梯度估计器 (如Score Function / REINFORCE)。
  9. 分子-蛋白结合模拟:分子动力学模拟计算结合自由能 (ΔGbind, MM/PBSA, MM/GBSA)、分析结合模式与关键相互作用。

总结
未来前沿方向包括多模态联合表征与可控生物分子生成、跨尺度高效并行模拟、以及基于自主智能体的自动化设计与分析流程。未来可以持续关注模型可解释性、参数高效适配与大规模计算架构的融合与创新。

相关文章:

  • 10- AI大模型-LangChainV0.3应用(一) - 简介,模型调用,prompt模板,输出解析器
  • #Word“嵌入式”插图显示不全的解决教程
  • python打卡第50天
  • PG库创建自增ID
  • 操作系统的一些名词
  • UDP(Echoserver)
  • VUE element table 列合并
  • V837s-sdk buildroot文件系统设置串口登录密码
  • 【ModelArts】ModelArts一站式AI开发平台详解(一)
  • 豆包全新视频生成模型、视觉深度思考模型发布
  • 曼昆《经济学原理》第九版 第十五章垄断
  • 线程与进程(java)
  • 汽车生产虚拟实训中的技能提升与生产优化​
  • MongoDB(八) - MongoDB GridFS介绍及使用Python操作GridFS
  • Flowable详细介绍
  • Prometheus基础使用指南
  • 【论文阅读】多任务学习起源类论文《Multi-Task Feature Learning》
  • 线程与协程
  • 实现多路视频截图预览之后上传到后台系统
  • 配置Linux的网络为静态IP地址的一些方法
  • 网站建设实践鉴定/软文的目的是什么
  • tomcat做网站并发/semir是什么意思
  • 龙岗地区做网站公司/外链代发公司
  • h5网站开发公司/冯耀宗seo视频教程
  • 1000个免费邮箱账号/哈尔滨网络优化推广公司
  • 六安网络推广/优化一下