线性dp练习(碱基配对)
大家都知道,基因可以看作一个碱基对序列。它包含了 4 种核苷酸,简记作 A, C, G, T
。生物学家正致力于寻找人类基因的功能,以利用于诊断疾病和发明药物。
在一个人类基因工作组的任务中,生物学家研究的是:两个基因的相似程度。因为这个研究对疾病的治疗有着非同寻常的作用。
题目描述
两个基因的相似度的计算方法如下:
对于两个已知基因,例如 AGTGATG
和 GTTAG
,将它们的碱基互相对应。当然,中间可以加入一些空碱基 -
,例如:
A-GGTTG-A-TT-AGG
这样,两个基因之间的相似度就可以用碱基之间相似度的总和来描述,碱基之间的相似度如下表所示:
ACGT-A5−1−2−1−3C−15−3−2−4G−2−35−2−2T−1−2−25−1-−3−4−2−1∗
那么相似度就是:(−3)+5+5+(−2)+(−3)+5+(−3)+5=9。因为两个基因的对应方法不唯一,例如又有:
A-GGTTGTAAT-GG
相似度为:(−3)+5+5+(−2)+5+(−1)+5=14。规定两个基因的相似度为所有对应方法中,相似度最大的那个。
输入格式
共两行。每行首先是一个整数 n,表示基因序列的长度;隔一个空格后是一个基因序列,序列中只含 A,C,G,T 四种字母。1≤n≤100。
输出格式
仅一行,即输入基因的相似度。
输入输出样例
输入 #1复制
7 AGTGATG 5 GTTAG
输出 #1复制
14
一、题目分析
1.dp 基本思路
就我做过的近百道黄绿难度的 dp 来说,dp 题基本这么几个步骤:
- 定义状态。
- 写出状态转移式。
- 根据状态转移式找出递推顺序。
- 处理递推的边界。
- 找出结果。
我讲解时不会就题论题,而是讲大部分黄绿难度的 dp 题的方法。
当然,dp 题十分灵活,不会看完这篇题解就会做,关键在于大量的练习。
2.状态定义
定义状态是 dp 最重要的步骤之一,状态定义得不好后面全都无法进行。
像这种线性动态规划,定义经常是“fi 表示前 i 个满足要求时的答案”。
因为这道题有两个串,很容易想到状态的定义是“fi,j 表示 a 串的前 i 个碱基和 b 串的前 j 个碱基的相似度”。
3.转移式
通常定义出状态之后转移式就十分好写了。转移式通常只需要考虑最后一点,比如这道题只用考虑最后一对碱基。
最后一对碱基只有以下3种可能:
- 非空碱基和非空碱基。
- 非空碱基和空碱基。
- 空碱基和非空碱基。
注:空碱基和空碱基不能匹配。
去掉最后一对碱基,转化成规模更小的同样的问题,就是转移式的意义。易得如下转移式:
fi,j=max(fi−1,j−1+dai,bj,fi−1,j+dai,5,fi,j−1+dbj,5)
其中 di,j 表示编号为 i 的碱基和编号为 j 的碱基的相似程度,编号为5的是空碱基,ai 表示第一个基因的第 i 个碱基,b 表示第二个基因的第 i 个碱基。
其中红色代表第一种情况的转移,绿色代表第二种,蓝色代表第三种。
如果还不能明白,就看下面的图吧:
4.递推顺序
这步通常挺简单的,看看下标是变大还是变小。如果你要滚动数组的话(这题好像不能用滚动数组),递推顺序就会难一些。
显然,转移时下标不会变大,为了无后效性,应该从小到大递推。至于先枚举 i 还是 j,并不重要。
5.边界
递推顺序找到,边界就很容易找到了。
既然下标都是不变或变小,那边界就是至少有一个下标为0。如果一个下标为0,另一个下标不为0,上面3种转移只有一种有效,即:
fi,0=fi−1,0+dai,5f0,i=f0,i−1+d5,bi
如果两个下标都为0,也就是 f0,0,三个转移都会失效。我们应该按照定义赋给它值:0个碱基和0个碱基的相似度应为0。所以得到最后一个式子:
f0,0=0
6.结果
这道题的结果很好找,就是 fla,lb(la,lb分别代表 a 的长度和 b 的长度),但是有些题的结果还得在多个数中找,比较麻烦。
7.实现
5个步骤的思维顺序如上,但是代码顺序略有不同,大概是这样的:
- 状态定义。
- 输入。
- 递推边界。
- 递推顺序。
- 状态转移式。
- 找出结果。
我经常在找出转移式后就迫不及待地写,结果代码中第二步就不行了,只能边写边想,最后代码十分混乱,bug 也不好找。所以最好把5个步骤做完再写代码。
#include<iostream>
#include<algorithm>
using namespace std;
int la,lb,a[110],b[110],f[110][110];//状态定义
int d[6][6]=
{
{0,0,0,0,0,0},
{0,5,-1,-2,-1,-3},
{0,-1,5,-3,-2,-4},
{0,-2,-3,5,-2,-2},
{0,-1,-2,-2,5,-1},
{0,-3,-4,-2,-1,0}
};
int main()
{
//开始输入
cin>>la;
for(int i=1;i<=la;i++)
{
char t;
cin>>t;
switch(t)
{
case'A':
a[i]=1;break;
case'C':
a[i]=2;break;
case'G':
a[i]=3;break;
case'T':
a[i]=4;break;
}
}
cin>>lb;
for(int i=1;i<=lb;i++)
{
char t;
cin>>t;
switch(t)
{
case'A':
b[i]=1;break;
case'C':
b[i]=2;break;
case'G':
b[i]=3;break;
case'T':
b[i]=4;break;
}
}
//输入结束
//开始处理边界
f[0][0]=0;//全局变量自动初始化为0,但是作为题解,还是写上好。
for(int i=1;i<=la;i++)
f[i][0]=f[i-1][0]+d[a[i]][5];
for(int i=1;i<=lb;i++)
f[0][i]=f[0][i-1]+d[5][b[i]];
//边界处理结束
//开始 dp
for(int i=1;i<=la;i++)
for(int j=1;j<=lb;j++)
f[i][j]=max(f[i-1][j-1]+d[a[i]][b[j]],max(f[i-1][j]+d[a[i]][5],f[i][j-1]+d[5][b[j]]));
//dp 结束
//开始输出结果
cout<<f[la][lb]<<endl;
//输出结果结束
return 0;
}