当前位置：首页 > news >正文

07 连锁不平衡和群体结构分析原理

news 2025/8/2 6:25:01

连锁不平衡

• LD decay
• LD blocks

亲缘关系

• Kinship矩阵

群体结构

• PCA
• structure

连锁不平衡

连锁不平衡(linkage disequilibrium, LD)也叫等位基因关联，是指同一染色体上不同座位的两个等位基因共同出现的频率与随机组合出现的频率不一致的情况。

连锁：两个基因在同一条染色体上共同遗传

不平衡：共同遗传概率偏离期望值

一般通过pair-wise算法计算得到的LD系数（r
2 或
D’）来评估LD的水平。

D’和 R2 计算公式

两个基因A B, 他们各自的等位基因为a b. 假设A B相互独立遗传，则后代群体中观察得到的单倍体基因型 AB 中出现的的概率为

PAB = PA* PB
实际观察得到群体中单倍体基因型 AB 同时出现的概率为PAB。若这两对等位基因是非随机结合的，则PAB ≠PA* PB。D 值计算公式如下：
D = PAB－ PA* PB
引入标准化后的D值, r2 和 D’ 均为一个0~1之间的数值，0表示两个座位完全不相关，1表示完全相关。

LD衰减分析

• 两个座位在基因组上离得越近，连锁就越强, r2或D’就越大。因此，随着标记间距离的增加，平均LD将降低，呈现衰减状态，称之为LD衰减图。一般使用 r2 值进行LD衰减分析。
• 作图方法：
① 计算同一条染色体上两两SNP之间的LD系数；
② 按照距离对LD系数进行分类求均值
③ 作图

LD衰减距离

• 平均LD系数降低到一定标准后，对应的物理距离。
– 降低到最大值一半
– 降低到0.2以下
– 降低到0.1以下
• LD衰减距离影响因素
– 群体类型，野生vs驯化
– 世代间隔
– 染色体相对位置
GWAS中估计标记的覆盖度，通过LD衰减距离和标记间平均距离的比较判断标记是否足够。

LD block

LD分析软件

LD系数计算
– Plink
– Haploview
– PopLDdecay
– LDBlockShow

亲缘关系矩阵

• 亲缘关系矩阵（kinship matrix）用来衡量不同个体之间亲缘关系程度，矩阵中的每个元素表示一对个体之间的亲缘关系系数。
– 基于系谱：根据已知的系谱信息，直接计算个体之间的亲缘关系系数
– 分子标记法：利用分子标记数据，来估算个体之间的亲缘关系系数

基于系谱-A矩阵

基于标记-G矩阵

• Genetic Relationship Matrix
• Centered_IBS
VanRaden (2008)
• GEMMA
• Normalized_IBS
Yang et al. 2010

Kinship 矩阵

• 软件：GCTA， plink, TASSEL, GEMMA，emmax，GAPIT，rMVP…

群体结构

群体遗传结构指遗传变异在群体中的一种非随机分布。按照地理分布或其他标准可将一个群体分为若干亚群，处于同一亚群内的个体亲缘关系较高，而亚群之间则亲缘关系稍远。

主成分分析

主成分分析（Principal Component Analysis，PCA）：通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的重要变量，转换后的这组变量叫主成分。是一个从大量数据指标提取关键信息的过程。

群体分化离群样本

软件：EIGENSOFT，Plink，GCTA，rMVP，GAPIT …

structure分析

Structure分析是一种基于群体遗传学模型的统计方法，用于推断群体遗传结构和个体来源。它使用贝叶斯法来估计个体基因型数据中的祖先群体成分。

structure分析过程

① 获得所有样本基因型
② 假设亚群个数K=1~n
③ 推断K=x时群体如何分群及血统构成
④ 选择似然值最大的K作为亚群个数
软件假设各位点独立，因此需要进行连锁不平衡过滤
结果为Q矩阵，Q值表示样本源于某个亚群的可能性。

最佳K值确定

Structure软件——计算deltaK值
Admixture软件——检查CV-error
ΔK =m(|L(K + 1) - 2 L(K) + L(K - 1)|)/s[L(K)]）

Structure图示

R包：Pophelper

本文内容搜集自网络，仅供个人学习使用，侵删！

http://www.dtcms.com/a/309604.html

相关文章：

理想I8对撞乘龙卡车，AI基于数学和物理的角度如何看？

应急响应（windows工具版）

echarts一个图例控制多个图表

Git 进阶使用

ansible 在EE 容器镜像中运行

C primer plus (第六版）第十章编程练习第7，8，9，10，11题

Linux基本服务——web服务解析

如何管理数据足迹，实现SAP S/4HANA的无缝迁移

Solana: 逐行解读 solana-test-validator 输出, 本地节点日志完全指南

oracle备库主机断电重启后IO异常报错

【C#学习Day16笔记】XML文件、事件Event 、Json数据

Sqlserver备份恢复指南-完整备份恢复

从零到英雄：掌握神经网络的完整指南

Qt Quick 自定义组件开发

江协科技STM32 11-4 SPI通信外设

Android SDK 版本差异与兼容方案：从适配到实践

gitlab 开发人员无法创建分支，管理员配置分支权限

flutter-boilerplate-project 学习笔记

嵌入式学习笔记-MCU阶段--DAY09

STM32-ESP8266Wi-Fi模块使用USART实现通信/创建AP和STA模式配置教程（寄存器版）

从0开始学习R语言--Day64--决策树回归

流式编程的中间操作

机器学习sklearn：随机森林的决策树

低通滤波器的原理以及作用

C# 引用外部项目

切比雪夫不等式

网页从点击到显示：前端开发视角下的旅程

在SQL SERVER 中如何用脚本实现每日自动调用存储过程

大模型开发框架LangChain之构建知识库

高速公路桥梁安全监测系统解决方案