【群体结构ADMIXTURE之三】监督分群在祖先成分分析中的应用及原理
基于监督模型的群体结构分析原理与结果解读
核心目标
精确量化目标个体/群体基因组中来源于多个预定义祖先参考群体的遗传贡献比例。
与非监督模型的关键区别
维度 | 监督模型 | 非监督模型 |
---|---|---|
数据要求 | 需带标签的参考数据集 | 无标签数据 |
分析目的 | 将目标个体投影到已知群体框架 | 发现未知群体结构 |
结果输出 | 直接输出参考群体的概率/比例 | 输出未定义祖先群体的比例 |
监督血统分析原理流程
1. 构建参考面板
- 参考群体选择
- 遗传背景清晰、代表性强的“纯”群体(如西欧人、西非人)
- 每个群体需几十至几百个个体样本
- 数据质控
SNP位点需通过:- 缺失率过滤
- MAF筛选
- HWE检验
- LD修剪
2. 训练监督模型
常用算法原理
算法 | 核心机制 | 输出结果 |
---|---|---|
判别分析(LDA/QDA) | 最大化类间方差/类内方差比,构建判别坐标系 | 判别函数权重 + 群体中心坐标 |
支持向量机(SVM) | 寻找最大化分类间隔的超平面 | 决策函数 + 支持向量 |
随机森林 | 构建多决策树进行概率投票 | 类概率估计模型 |
3. 目标个体分析
- 判别分析流程
- 分类器流程
基因型向量输入 → 模型预测 → 输出各参考群体的概率值(总和为1)
4. 血统比例计算(判别分析)
- 距离转换法
w_k = 1 / d_k 或 exp(-d_k) # 距离→权重 ancestry_k = w_k / Σ(w) # 归一化得比例
- 贝叶斯后验概率法(推荐)
P(k|x) ∝ P(x|k)·P(k) # 后验概率直接作为比例
5. 可视化与解读
- 判别空间图:LD1 vs LD2散点图显示目标个体相对位置
- 血统比例图:柱状图展示各参考群体贡献比例
- 解读本质:反映基因组与参考群体的统计相似度,非精确生物学分割
关键优势与挑战
关键优势
结果可解释性强: 血统比例直接对应到生物学上明确定义的参考群体(如欧洲人、非洲人),无需像非监督模型那样去解释“祖先群体1”是什么。
对混合个体更精确: 当目标个体是多个祖先群体混合的后代时,监督模型利用已知参考群体信息,能更准确地量化混合比例。
计算效率高: 模型训练在参考面板上进行一次即可,分析目标个体时只需快速投影或预测。
避免过度细分: 不会发现与研究问题无关的细微结构(如家系结构),专注于研究者关心的特定祖先来源。
注意事项:
参考面板的质量是核心:
纯度: 参考群体必须尽可能“纯”(代表历史上的祖先状态),避免自身就是混合群体。否则会引入偏差(“垃圾进,垃圾出”)。
代表性: 必须包含目标个体所有可能的祖先来源群体。遗漏某个祖先群体会导致其贡献被错误地分配给其他群体。
样本量与SNP密度: 足够的样本量能准确刻画群体内部的遗传多样性;足够的SNP密度(通常是全基因组SNP芯片数据)提供分辨力。
模型假设:
离散祖先群体: 模型假设存在离散的、遗传上可区分的祖先群体。现实中群体结构可能是连续的(地理隔离模型)。
遗传变异的模式: 判别分析通常假设群体内基因型服从多维正态分布(在SNP数据上是一个近似)。随机森林等非参数方法对此假设依赖较少。
目标个体与参考面板的关系: 如果目标个体含有参考面板中不存在的独特祖先成分,模型会强制将其分配到已有的参考群体中,导致错误估计。
过度拟合风险: 如果参考群体内部变异很大或群体间差异很小,模型可能在训练集上表现好,但对新样本泛化能力差。交叉验证在训练参考模型时也很重要。
SNP位点选择: 通常会选择在参考群体间等位基因频率差异大(高Fst)的SNP位点作为特征,以提高分辨力(特征选择)。
总结:
监督群体结构分析(血统分析)的原理是:利用已知祖先背景的参考群体数据训练一个监督学习模型(如LDA或随机森林),学习区分这些参考群体的遗传特征模式;然后将目标个体的基因型数据投影到这个训练好的模型空间或直接应用模型进行预测,计算出目标个体的基因组与每个参考群体的相似度或归属概率,这个相似度或概率即被量化为该参考群体贡献的血统比例。 其结果的准确性极度依赖于参考面板的质量(纯度、代表性、样本量、SNP密度)。它是法医祖先推断、个人祖源检测、研究历史混合事件等应用中最主要的工具。
血统比例与预期不符的可能原因
一、参考面板的局限性(最核心原因)
祖先群体代表性不足:
遗漏祖先来源: 参考面板未包含您真实的祖先群体(如您的某位祖先来自未被采样的特定区域/族群)。
“代理群体”不准确: 参考面板中代表某一大区域的群体(如“东亚”)可能与您的真实祖先群体(如某个未采样的东南亚岛屿族群)遗传差异显著。
参考群体“纯度”问题:
参考群体自身是混合体: 被认为“纯”的参考群体可能历史上已混入其他血统(如现代欧洲人群可能含少量中东或亚洲成分)。模型会将这部分“杂质”误认为是该群体的固有特征。
采样偏差: 参考群体样本来自特定亚群(如仅采集城市居民),无法代表整个“标签”群体的遗传多样性。
遗传分辨率不足:
群体内部差异大: 某些大区域内部存在高度遗传分化(如非洲内部、美洲原住民部落间)。用单一“西非”或“美洲原住民”标签无法区分亚群,导致比例归属模糊。
亲缘群体难以区分: 遗传距离很近的群体(如北欧vs西欧、东亚不同民族)在有限SNP位点上可能无法被模型有效区分。
过时或不精确的群体标签:
将语言/文化群体标签等同于遗传群体(如“凯尔特人”在现代遗传上无法清晰界定)。
使用宽泛的地理标签(如“亚洲”)掩盖了精细结构。
二、目标个体的遗传特性与模型假设冲突
独特祖先成分:
您的祖先可能源于一个未被研究或遗传独特的孤立群体,其变异模式不在任何参考群体范围内。模型会强制将其分配到最“相似”的参考群体,导致比例扭曲。
近期混合与祖先重组:
模型假设祖先群体是离散且稳定的。若您是多代高度混合个体(如加勒比海、拉丁美洲裔),祖先片段高度碎片化,模型估计的“比例”是对碎片化DNA的统计平均,可能与近代家谱不符。
罕见的大片段祖先保留:可能偶然继承了某祖先的大片段DNA,导致该血统比例被高估。
高度近交或隔离群体:
来自长期隔离或高度近交群体(如小岛、宗教隔离社区)的个体,其遗传模式可能偏离参考群体的分布假设(如多维正态分布),导致模型预测偏差。
本质认知
血统比例是概率模型的统计输出,反映基因组与参考群体的相似度:
- ≠精确的生物学分割
- ≠近代家谱的完全映射