07 连锁不平衡和群体结构分析原理
连锁不平衡
• LD decay
• LD blocks
亲缘关系
• Kinship矩阵
群体结构
• PCA
• structure
连锁不平衡
连锁不平衡(linkage disequilibrium, LD)也叫等位基因关联,是指同一染色体上不同座位的两个等位基因共同出现的频率与随机组合出现的频率不一致的情况。
连锁:两个基因在同一条染色体上共同遗传
不平衡:共同遗传概率偏离期望值
一般通过pair-wise算法计算得到的LD系数(r
2 或
D’) 来评估LD的水平。
D’和 R2 计算公式
两个基因A B, 他们各自的等位基因为a b. 假设A B相互独立遗传,则后代群体中观察得到的单倍体基因型 AB 中出现的的概率为
PAB = PA* PB
实际观察得到群体中单倍体基因型 AB 同时出现的概率为PAB。 若这两对等位基因是非随机结合的,则PAB ≠PA* PB。D 值计算公式如下:
D = PAB- PA* PB
引入标准化后的D值, r2 和 D’ 均为一个0~1之间的数值,0表示两个座位完全不相关,1表示完全相关。
LD衰减分析
• 两个座位在基因组上离得越近,连锁就越强, r2或D’就越大。因此,随着标记间距离的增加,平均LD将降低,呈现衰减状态,称之为LD衰减图。一般使用 r2 值进行LD衰减分析。
• 作图方法:
① 计算同一条染色体上两两SNP之间的LD系数;
② 按照距离对LD系数进行分类求均值
③ 作图
LD衰减距离
• 平均LD系数降低到一定标准后,对应的物理距离。
– 降低到最大值一半
– 降低到0.2以下
– 降低到0.1以下
• LD衰减距离影响因素
– 群体类型,野生vs驯化
– 世代间隔
– 染色体相对位置
GWAS中估计标记的覆盖度,通过LD衰减距离和标记间平均距离的比较判断标记是否足够。
LD block
LD分析软件
LD系数计算
– Plink
– Haploview
– PopLDdecay
– LDBlockShow
亲缘关系矩阵
• 亲缘关系矩阵(kinship matrix)用来衡量不同个体之间亲缘关系程度,矩阵中的每个元素表示一对个体之间的亲缘关系系数。
– 基于系谱:根据已知的系谱信息,直接计算个体之间的亲缘关系系数
– 分子标记法:利用分子标记数据,来估算个体之间的亲缘关系系数
基于系谱-A矩阵
基于标记-G矩阵
• Genetic Relationship Matrix
• Centered_IBS
VanRaden (2008)
• GEMMA
• Normalized_IBS
Yang et al. 2010
Kinship 矩阵
• 软件:GCTA, plink, TASSEL, GEMMA,emmax,GAPIT,rMVP…
群体结构
群体遗传结构指遗传变异在群体中的一种非随机分布。按照地理分布或其他标准可将一个群体分为若干亚群,处于同一亚群内的个体亲缘关系较高,而亚群之间则亲缘关系稍远。
主成分分析
主成分分析(Principal Component Analysis,PCA):通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的重要变量,转换后的这组变量叫主成分。是一个从大量数据指标提取关键信息的过程。
群体分化 离群样本
软件:EIGENSOFT,Plink,GCTA,rMVP,GAPIT …
structure分析
Structure分析是一种基于群体遗传学模型的统计方法,用于推断群体遗传结构和个体来源。它使用贝叶斯法来估计个体基因型数据中的祖先群体成分。
structure分析过程
① 获得所有样本基因型
② 假设亚群个数K=1~n
③ 推断K=x时群体如何分群及血统构成
④ 选择似然值最大的K作为亚群个数
软件假设各位点独立,因此需要进行连锁不平衡过滤
结果为Q矩阵,Q值表示样本源于某个亚群的可能性。
最佳K值确定
Structure软件——计算deltaK值
Admixture软件——检查CV-error
ΔK =m(|L(K + 1) - 2 L(K) + L(K - 1)|)/s[L(K)])
Structure图示
R包:Pophelper