01 全基因组关联分析原理
全基因组关联分析(GWAS)
全基因组关联分析(Genome wide association study,GWAS)是对多个个体在全基因组范围的遗传变异(如SNP)多态性进行检测,进而将基因型与表型进行相关性分析,挖掘性状相关基因。
本质是标记和目标位点的连锁不平衡。
连锁不平衡
连锁不平衡(linkage disequilibrium, LD)也叫等位基因关联,是指同一染色体上不同座位的两个等位基
因共同出现的频率与随机组合出现的频率不一致的情况。
连锁:两个基因在同一条染色体上共同遗传
不平衡:共同遗传概率偏离期望值
材料选择
自然群体
家系群体
表型数据
• 质量性状——单基因或少数基因控制
质量性状较稳定,不易受环境影响
• 数量性状——多基因控制
连续性状:表型指标从一个极端到另一个极端,连续变异,中间无明显界限或中断,如株高、产量
比例性状:表型为离散型,通过计数来确定,可能表型很大时可看成连续性状,如植株后代个数、穗粒数等
阈值性状:少数几种表型级别,但遗传上由多基因控制, 如动植物的抗病能力
基因型数据-SNP 芯片 vs WGS
• SNP芯片
– 模式生物
• 基于测序开发的标记
– SNP
– INDEL
– SV
– CNV
基因型数据-基于测序
• WGS
• 简化基因组
关联分析
0假设
备择假设
群体结构和亲缘关系的干扰
GWAS模型
一般线性模型
混合线性模型
不同模型结果
其他模型
GWAS曼哈顿图
QQ-plot
• QQ-plot:quantile-quantile plot ,分位数-分位数图,主要用于检查观测到的p-value和期望的p-value一致
性。进而推断GWAS使用的统计模型是否合理。
GWAS 分析常用软件
GWAS分析软件:
Plink、Tassel、Emmax、GEMMA、GAPIT、rMVP
GWAS绘图软件:
qqman(R包) CMplot(R包)
间接关联
LD plot
• 展示GWAS候选位点附近的连锁不平衡情况。
• 判断目标SNP与某个编码基因是否位于相同LD block中。
• 展示颜色为区域内两两SNP的r^2值或者D’值。
• 软件:LDBlockShow
样本量 vs PVE
例子
小麦 GWAS
物种:小麦
样本:768
性状:7个环境下12 个性状
测序
• 测序方案:GBS
• SNP个数: 327 609 ; 46.0 kb per SNP
群体结构和LD衰减
GWAS 分析
GWAS结果汇总
QTL等位基因分布及性状积累
查找候选基因
• F2群体内表型分布
• 基于KASP snp 进行表型差异统计
• 对基因进行表达验证确定候选基因
GWAS案例-芝麻
• 样本数:705
• 测序深度:2.6X
• SNP个数:1.8M
• 性状个数:169
芝麻果荚数
GWAS案例-棉花
• 样本数:215
• 测序深度:6X
• SNP个数:1,425,003
• 性状个数:20
棉花棕榈酸和棕榈油酸
GWAS案例-蓖麻
• 样本数: 505(279 GWAS分析 )
• 测序深度: 19.5 ×
• SNP个数: 2,314,859
• 性状个数:9
种子大小
A: seed length (SL, MLMM model),
B: seed width (SW, MLM model),
C: seed thickness (ST, MLM model),
D: seed area (SA, MLMM model).
F: single seed weight SSW, MLMM model