当前位置: 首页 > news >正文

【匹配】Smith-Waterman

Smith-Waterman

文章目录

  • Smith-Waterman
    • 1. 算法介绍
    • 2. 公式及原理
    • 3. 伪代码

1. 算法介绍

  • 背景与目标
    Smith–Waterman 算法由 Temple F. Smith 和 Michael S. Waterman 于1981年提出,是用于生物序列(如蛋白质或 DNA)的局部比对(local alignment)经典动态规划方法。其核心目标是:

    在允许插入、缺失(gap)和错配的情况下,找到两条序列中得分最高的局部片段比对。

  • 应用场景

    • 在长序列中发现高度相似的局部区域(例如功能域、保守motif)
    • 数据库搜索时比对查询序列与目标序列的最佳匹配子串
    • 模式识别与结构功能预测中局部相似性分析
  • 核心思路

    1. 矩阵初始化——大小为 ( m + 1 ) × ( n + 1 ) (m+1)\times(n+1) (m+1)×(n+1) 的得分矩阵 H H H,首行和首列均置 0;

    2. 递推填表——对每个位置 ( i , j ) (i,j) (i,j) 计算:

      • 对齐 a i a_i ai b j b_j bj(match/mismatch)
      • A A A 中插入 gap
      • B B B 中插入 gap
      • 或者不延续比对(得分置 0,终止局部比对)
    3. 寻找最优——记录矩阵中的最大值及其坐标 ( i ∗ , j ∗ ) (i^*,j^*) (i,j)

    4. 回溯——从 ( i ∗ , j ∗ ) (i^*,j^*) (i,j) 开始,根据递推来源回溯,直到遇到得分 0,获得局部最优对齐片段。


2. 公式及原理

2.1 符号与评分

  • 序列 A = a 1 a 2 ⋯ a m \mathbf{A}=a_1a_2\cdots a_m A=a1a2am B = b 1 b 2 ⋯ b n \mathbf{B}=b_1b_2\cdots b_n B=b1b2bn

  • 匹配/错配得分函数 s ( a i , b j ) s(a_i,b_j) s(ai,bj),常见如 BLOSUM 或简单的:

    s ( a i , b j ) = { + α , a i = b j , − β , a i ≠ b j . s(a_i,b_j)= \begin{cases} +\alpha, & a_i=b_j,\\ -\beta, & a_i\neq b_j. \end{cases} s(ai,bj)={+α,β,ai=bj,ai=bj.

  • 线性 gap penalty d > 0 d>0 d>0

2.2 初始化

H [ i , 0 ] = 0 , H [ 0 , j ] = 0 , ∀ 0 ≤ i ≤ m , 0 ≤ j ≤ n . H[i,0]=0,\quad H[0,j]=0,\quad \forall\,0\le i\le m,\,0\le j\le n. H[i,0]=0,H[0,j]=0,0im,0jn.

2.3 递推公式
对任意 1 ≤ i ≤ m 1\le i\le m 1im, 1 ≤ j ≤ n 1\le j\le n 1jn

H [ i , j ] = max ⁡ ⁣ { 0 , H [ i − 1 , j − 1 ] + s ( a i , b j ) , H [ i − 1 , j ] − d , H [ i , j − 1 ] − d . H[i,j] = \max\!\begin{cases} 0,\\ H[i-1,j-1] + s(a_i,b_j),\\ H[i-1,j] - d,\\ H[i,j-1] - d. \end{cases} H[i,j]=max 0,H[i1,j1]+s(ai,bj),H[i1,j]d,H[i,j1]d.

  • 其中, max ⁡ { 0 , … } \max\{0,\dots\} max{0,} 保证局部比对在得分为负时重置为 0,从而支持局部对齐。
  • 最大值 max ⁡ i , j H [ i , j ] \max_{i,j}H[i,j] maxi,jH[i,j] 对应最优局部对齐结束位置。

2.4 回溯(Traceback)
从得分最高的 ( i ∗ , j ∗ ) (i^*,j^*) (i,j) 出发,按下列优先顺序回溯:

  1. 如果 H [ i ∗ , j ∗ ] = H [ i ∗ − 1 , j ∗ − 1 ] + s ( a i ∗ , b j ∗ ) H[i^*,j^*] = H[i^*-1,j^*-1] + s(a_{i^*},b_{j^*}) H[i,j]=H[i1,j1]+s(ai,bj),对齐 a i ∗ a_{i^*} ai b j ∗ b_{j^*} bj
  2. 否则如果 H [ i ∗ , j ∗ ] = H [ i ∗ − 1 , j ∗ ] − d H[i^*,j^*] = H[i^*-1,j^*] - d H[i,j]=H[i1,j]d,对齐 a i ∗ a_{i^*} ai 与 gap;
  3. 否则对齐 gap 与 b j ∗ b_{j^*} bj
    重复直到遇到 H [ i , j ] = 0 H[i,j]=0 H[i,j]=0,此点即局部比对起点。

3. 伪代码

# 输入
#   A[1..m], B[1..n]: 待比对序列
#   s(a,b): 匹配得分函数
#   d: 线性 gap penalty
# 输出
#   aligned_A, aligned_B: 局部比对结果function SmithWaterman(A, B, s, d):m ← length(A); n ← length(B)# 1) 初始化矩阵 H (m+1)x(n+1),并记录最大得分位置for i in 0..m:H[i,0] ← 0for j in 0..n:H[0,j] ← 0max_score ← 0(end_i, end_j) ← (0, 0)# 2) 填表并追踪最大值for i in 1..m:for j in 1..n:match ← H[i-1,j-1] + s(A[i], B[j])delete ← H[i-1,j]   - dinsert ← H[i,j-1]   - dH[i,j] ← max(0, match, delete, insert)if H[i,j] > max_score:max_score ← H[i,j](end_i, end_j) ← (i, j)# 3) 回溯还原局部比对aligned_A, aligned_B ← empty stringsi, j ← end_i, end_jwhile i>0 and j>0 and H[i,j] > 0:if H[i,j] == H[i-1,j-1] + s(A[i], B[j]):aligned_A.prepend(A[i])aligned_B.prepend(B[j])i ← i-1; j ← j-1else if H[i,j] == H[i-1,j] - d:aligned_A.prepend(A[i])aligned_B.prepend('-')i ← i-1else:aligned_A.prepend('-')aligned_B.prepend(B[j])j ← j-1return aligned_A, aligned_B
  • 时间复杂度 O ( m × n ) O(m \times n) O(m×n)
  • 空间复杂度 O ( m × n ) O(m \times n) O(m×n)(可用带回溯链的优化或分块策略略减内存)

相关文章:

  • 【高频面试题】LRU缓存
  • JavaScript - 运算符之逗号操作符与逗号分隔符(逗号操作符概述、逗号操作符用法、逗号分隔符、逗号分隔符用法)
  • Miniconda介绍介绍和使用
  • Unix Bourne Shell
  • 已解决(亲测有效!):安装部署Docker Deskpot之后启动出现Docker Engine Stopped!
  • ollama 重命名模型
  • Vue.js---避免无限递归循环 调度执行
  • Elasticsearch 常用语法手册
  • [吾爱出品] 中医问诊辅助记录软件
  • ES常识8:ES8.X如何实现热词统计
  • CPU cache基本原理
  • 基于javaweb的JSP+Servlet家政服务系统设计与实现(源码+文档+部署讲解)
  • 2900. 最长相邻不相等子序列 I
  • Windows注册表备份与恢复指南
  • AI大模型:(二)2.5 人类对齐训练自己的模型
  • JDK 1.8 全解析:从核心特性到企业实战的深度实践
  • WEB安全--Java安全--LazyMap_CC1利用链
  • 技术更新频繁,团队如何适应变化
  • 使用Python开发经典俄罗斯方块游戏
  • 海外短剧H5/App开源系统搭建指南:多语言+国际支付+极速部署
  • 《日出》华丽的悲凉,何赛飞和赵文瑄演绎出来了
  • 四川内江警方通报一起持刀伤人致死案:因车辆停放引起,嫌犯被抓获
  • 马上评|中学生被操场地面烫伤,谁的“大课间”?
  • 工商银行杭州金融研修院原院长蒋伟被“双开”
  • 气候多米诺:厄尔尼诺与东南亚跨境害虫或威胁中国粮食安全
  • 宝通科技:与宇树合作已签约,四足机器人在工业场景落地是重点商业化项目