二、GP/GS流程图
一、GEBV(Genomic Estimated Breeding Value)
→ 基于全基因组 SNP 数据预测出来的遗传贡献值
→ 表示个体对后代的遗传潜力
→ 用途:→ 用于选种和育种决策(决定留哪只繁殖)→ 在个体还没长大或没繁殖之前,就能排序挑选二、GP(Genomic Prediction,基因组预测)
→ 是一种技术手段
→ 目标:用基因组数据预测 Y→ Y 可以是:→ 表型值(Phenotypic value)→ 直接测得的性状数值(如体重、背膘厚度、窝仔数)→ 用途:→ 作为训练数据(模型标签)→ 直接预测个体未来的性状→ 如果目标是卖肉,不做育种,可直接用表型选高体重猪→ 基因组估计育种值(GEBV)→ 预测个体对后代的遗传贡献→ 用途:→ 在没长大时预测潜力→ 用于种猪/种牛/种鸡的选育三、GS(Genomic Selection,基因组选择)
→ 是一种育种策略
→ 基于 GP 的输出(特别是 GEBV)
→ 再据此做选种决策(挑选最优个体繁殖)四、GP 与 GS 的关系
→ GP = 技术手段→ 输入:基因组 SNP 数据(X)→ 输出:表型值预测 / GEBV
→ GS = 战略决策→ 输入:GP 的结果(特别是 GEBV)→ 输出:选种方案(谁留下繁殖,谁淘汰)
→ 小结→ GP = 预测过程(算分数)→ GS = 策略(拿预测分数来做选择)→ GS 依赖 GP,但 GS ≠ GP→ GEBV 是 GP 的输出,GS 用 GEBV 来做决策📌 所以:不是 GEBV 流程就是 GS,而是 “用 GEBV 排序 + 挑种” 这一步才叫 GS。
采集样本:小猪出生时取少量耳组织。
DNA 芯片检测:获得全基因组几十万个 SNP 标记数据。
数据输入模型:将 SNP 数据转成特征向量。
训练好的 GP 模型:如 SVR、GBLUP、KRR 等。
输出预测值:预测表型值或 GEBV(育种值)。
基因组选择(GS):根据预测结果挑选最优种猪繁育下一代
一、GP/GS 特征处理
1. 原始特征(SNP 数据)
每个样本(猪)有 p 个 SNP 位点,每个位点通常编码为 0、1、2(表示不同基因型)
原始矩阵形状:m × p(m 是样本数,p 是 SNP 数量,几万维)
2. 预处理
居中(centering):每个 SNP 减去其平均值
标准化(scaling):让所有 SNP 特征有相似的量纲,避免大数值 SNP 主导模型
有时会做 LD 剪枝(去除高度相关的 SNP)来降维,但这不是删除所有无用特征,而是减少共线性
3. 特征全部保留
在 GBLUP、KRR、SVR 等方法里,不会删除大部分 SNP,因为微效应 SNP 叠加后仍然有用
二、特征权重
取决于模型类型:
GBLUP(线性混合模型)
思路:所有 SNP 的效应服从 a∼N(0,Gσg2)
通过混合模型解方程,得到每个 SNP 的加性效应(相当于权重)
这些权重可直接乘以 SNP 值得到育种值
KRR(核岭回归)
不直接算每个 SNP 的系数,而是构造 核矩阵 K(样本间的基因相似度)
模型解出的系数是样本的组合权重,本质是所有 SNP 的综合作用
SVR(支持向量回归)
通过优化目标(最小化损失 + 正则化)得到支持向量的系数
每个支持向量的系数隐含了对特征的贡献(如果用线性核可以直接看成特征权重)
LASSO / ENET
通过 L1/L2 正则化直接在训练中稀疏化权重
得到的系数向量就是每个 SNP 的权重(很多会变成 0)
三、权重应用
一旦有了特征权重(假设是 w1,w2,…,wp):
预测单个样本
取这个样本的 SNP 编码 x1,x2,…,xp
预测值 = 加权求和
y^=w1x1+w2x2+⋯+wpxp+b这里的 y^ 可以是预测表型值,也可以是预测 GEBV
预测整个数据集
对所有样本做矩阵乘法:
Y^=XWX 是 m × p 的 SNP 矩阵,W 是 p × 1 的权重向量
在 GS(基因组选择)中
把所有个体的预测值排序
挑出预测值最高的一批 → 留作种猪
四、类比
可以把这个过程想成:
把每个 SNP 看作“考试题目”
模型训练就是算出每道题的重要性(权重)
每头猪的 DNA 就是它的答卷(0/1/2)
用“重要性 × 答题情况”加总,算出它的总分(预测值)
GS 就是按分数选人(猪)