当前位置: 首页 > news >正文

【匹配】Needleman–Wunsch

Needleman-Wunsch

文章目录

  • Needleman-Wunsch
    • 1. 算法介绍
    • 2. 公式及原理
    • 3. 伪代码

1. 算法介绍

  • 背景与目标
    Needleman–Wunsch 算法由 Saul B. Needleman 和 Christian D. Wunsch 于1970年提出,是用于生物序列(如蛋白质或 DNA)全局比对(global alignment)的经典动态规划方法。其核心目标是:

    在允许插入、缺失(gap)和错配的情况下,找到两条序列从头到尾的最优比对,使得总体得分最大。

  • 应用场景

    • 两条全长蛋白质序列或 DNA 序列的全局比对
    • 构建进化距离矩阵、聚类与系统发生学分析
    • 作为后续更复杂比对(如多序列比对、局部比对)的基础
  • 核心思路

    1. 构建一个大小为 ( m + 1 ) × ( n + 1 ) (m+1)\times(n+1) (m+1)×(n+1) 的积分得分矩阵 F F F,其中 m , n m,n m,n 分别为两序列长度;
    2. 以线性或 affine gap penalty 设定缺口代价;
    3. 通过动态规划递推填表,计算从起点到任意 ( i , j ) (i,j) (i,j) 的最优比对得分;
    4. 从右下角回溯(traceback),还原最佳全局比对路径。

2. 公式及原理

2.1 符号与评分函数

  • 序列 A = a 1 a 2 ⋯ a m \mathbf{A}=a_1a_2\cdots a_m A=a1a2am B = b 1 b 2 ⋯ b n \mathbf{B}=b_1b_2\cdots b_n B=b1b2bn

  • 设定匹配/错配得分函数:

    s ( a i , b j ) = { + α , a i = b j ( match ) − β , a i ≠ b j ( mismatch ) s(a_i,b_j) = \begin{cases} +\alpha, & a_i = b_j \quad(\text{match})\\ -\beta, & a_i \neq b_j \quad(\text{mismatch}) \end{cases} s(ai,bj)={+α,β,ai=bj(match)ai=bj(mismatch)

  • 线性缺口惩罚:对于连续插入或删除长度为 k k k,惩罚为 − k ⋅ d -k\cdot d kd

2.2 初始化

F [ 0 , 0 ] = 0 , F [ i , 0 ] = − i ⋅ d ( i = 1 , … , m ) , F [ 0 , j ] = − j ⋅ d ( j = 1 , … , n ) . F[0,0] = 0,\quad F[i,0] = -i\cdot d\quad (i=1,\dots,m),\quad F[0,j] = -j\cdot d\quad (j=1,\dots,n). F[0,0]=0,F[i,0]=id(i=1,,m),F[0,j]=jd(j=1,,n).

2.3 递推公式
对任意 1 ≤ i ≤ m 1\le i\le m 1im, 1 ≤ j ≤ n 1\le j\le n 1jn

F [ i , j ] = max ⁡ ⁣ { F [ i − 1 , j − 1 ] + s ( a i , b j ) , F [ i − 1 , j ] − d , F [ i , j − 1 ] − d . F[i,j] = \max\!\begin{cases} F[i-1,\,j-1] + s(a_i,b_j),\\ F[i-1,\,j] - d,\\ F[i,\,j-1] - d. \end{cases} F[i,j]=max F[i1,j1]+s(ai,bj),F[i1,j]d,F[i,j1]d.

2.4 回溯(Traceback)
( i , j ) = ( m , n ) (i,j)=(m,n) (i,j)=(m,n) 开始:

  • 如果 F [ i , j ] = F [ i − 1 , j − 1 ] + s ( a i , b j ) F[i,j] = F[i-1,j-1] + s(a_i,b_j) F[i,j]=F[i1,j1]+s(ai,bj),则对齐 a i a_i ai b j b_j bj,移动 ( i , j ) → ( i − 1 , j − 1 ) (i,j)\to(i-1,j-1) (i,j)(i1,j1)
  • 否则若 F [ i , j ] = F [ i − 1 , j ] − d F[i,j] = F[i-1,j] - d F[i,j]=F[i1,j]d,则对齐 a i a_i ai 与 gap,移动 ( i , j ) → ( i − 1 , j ) (i,j)\to(i-1,j) (i,j)(i1,j)
  • 否则对齐 gap 与 b j b_j bj,移动 ( i , j ) → ( i , j − 1 ) (i,j)\to(i,j-1) (i,j)(i,j1)
    直到回到 ( 0 , 0 ) (0,0) (0,0)

3. 伪代码

# 输入
#   A[1..m], B[1..n]: 待比对序列
#   s(a,b): 匹配得分函数
#   d: 线性 gap penalty
# 输出
#   aligned_A, aligned_B: 两个同长的对齐序列function NeedlemanWunsch(A, B, s, d):m ← length(A); n ← length(B)# 1) 初始化矩阵 F 大小 (m+1)x(n+1)for i in 0..m:F[i,0] ← -i * dfor j in 0..n:F[0,j] ← -j * d# 2) 填表for i in 1..m:for j in 1..n:match ← F[i-1,j-1] + s(A[i], B[j])delete ← F[i-1,j]   - dinsert ← F[i,  j-1] - dF[i,j] ← max(match, delete, insert)# 3) 回溯还原比对i ← m; j ← naligned_A, aligned_B ← empty stringswhile i>0 or j>0:if i>0 and j>0 and F[i,j] == F[i-1,j-1] + s(A[i],B[j]):aligned_A.prepend(A[i])aligned_B.prepend(B[j])i ← i-1; j ← j-1else if i>0 and F[i,j] == F[i-1,j] - d:aligned_A.prepend(A[i])aligned_B.prepend('-')i ← i-1else:aligned_A.prepend('-')aligned_B.prepend(B[j])j ← j-1return aligned_A, aligned_B
  • 时间复杂度 O ( m × n ) O(m \times n) O(m×n)
  • 空间复杂度 O ( m × n ) O(m \times n) O(m×n)(可用带回溯链的 Hirschberg 算法降到 O ( m + n ) O(m+n) O(m+n)

相关文章:

  • 【yolo】如何在 YOLOv8 中添加负样本以减少误检
  • Springboot3自定义starter笔记
  • MarkitDown:AI时代的文档转换利器
  • 四维时空数据安全传输新框架:压缩感知与几何驱动跳频
  • 【iOS安全】Dopamine越狱 iPhone X iOS 16.6 (20G75) | 解决Jailbreak failed with error
  • 如何在多线程环境下避免快速失败异常?
  • GPU异步执行漏洞攻防实战:从CUDA Stream竞争到安全编程规范
  • NHANES指标推荐:OBS
  • 大数据架构选型分析
  • 深度学习中的提示词优化:梯度下降全解析
  • 前端缓存策略
  • Milvus(23):过滤
  • 中国近代史2
  • 工业场景轮式巡检机器人纯视觉识别导航的优势剖析与前景展望
  • uniapp 弹窗封装(上、下、左、右、中五个方位)
  • 【FFmpeg+SDL】使用FFmpeg捕获屏幕,SDL显示
  • win10下安装redis并设置开机自启动
  • 前端的面试笔记——JavaScript篇(二)
  • 口播视频怎么剪!利用AI提高口播视频剪辑效率并增强”网感”
  • MATLAB安装全攻略:常见问题与解决方案
  • 泉州围头湾一港区项目炸礁被指影响中华白海豚,官方:已叫停重新评估
  • 讲座预告|以危机为视角解读全球治理
  • 南京江宁区市监局通报:盒马一批次猕猴桃检出膨大剂超标
  • 证监会:2024年依法从严查办证券期货违法案件739件,作出处罚决定592件、同比增10%
  • 牛市早报|4月新增社融1.16万亿,降准今日正式落地
  • GDP逼近五千亿,向海图强,对接京津,沧州剑指沿海经济强市