当前位置：首页 > news >正文

二、GP/GS流程图

news 2025/8/25 17:35:44

一、GEBV（Genomic Estimated Breeding Value）
→ 基于全基因组 SNP 数据预测出来的遗传贡献值
→ 表示个体对后代的遗传潜力
→ 用途：→ 用于选种和育种决策（决定留哪只繁殖）→ 在个体还没长大或没繁殖之前，就能排序挑选二、GP（Genomic Prediction，基因组预测）
→ 是一种技术手段
→ 目标：用基因组数据预测 Y→ Y 可以是：→ 表型值（Phenotypic value）→ 直接测得的性状数值（如体重、背膘厚度、窝仔数）→ 用途：→ 作为训练数据（模型标签）→ 直接预测个体未来的性状→ 如果目标是卖肉，不做育种，可直接用表型选高体重猪→ 基因组估计育种值（GEBV）→ 预测个体对后代的遗传贡献→ 用途：→ 在没长大时预测潜力→ 用于种猪/种牛/种鸡的选育三、GS（Genomic Selection，基因组选择）
→ 是一种育种策略
→ 基于 GP 的输出（特别是 GEBV）
→ 再据此做选种决策（挑选最优个体繁殖）四、GP 与 GS 的关系
→ GP = 技术手段→ 输入：基因组 SNP 数据（X）→ 输出：表型值预测 / GEBV
→ GS = 战略决策→ 输入：GP 的结果（特别是 GEBV）→ 输出：选种方案（谁留下繁殖，谁淘汰）
→ 小结→ GP = 预测过程（算分数）→ GS = 策略（拿预测分数来做选择）→ GS 依赖 GP，但 GS ≠ GP→ GEBV 是 GP 的输出，GS 用 GEBV 来做决策📌 所以：不是 GEBV 流程就是 GS，而是 “用 GEBV 排序 + 挑种” 这一步才叫 GS。

采集样本：小猪出生时取少量耳组织。
DNA 芯片检测：获得全基因组几十万个 SNP 标记数据。
数据输入模型：将 SNP 数据转成特征向量。
训练好的 GP 模型：如 SVR、GBLUP、KRR 等。
输出预测值：预测表型值或 GEBV（育种值）。
基因组选择(GS)：根据预测结果挑选最优种猪繁育下一代

一、GP/GS 特征处理

1. 原始特征（SNP 数据）

每个样本（猪）有 p 个 SNP 位点，每个位点通常编码为 0、1、2（表示不同基因型）
原始矩阵形状：m × p（m 是样本数，p 是 SNP 数量，几万维）

2. 预处理

居中（centering）：每个 SNP 减去其平均值
标准化（scaling）：让所有 SNP 特征有相似的量纲，避免大数值 SNP 主导模型
有时会做 LD 剪枝（去除高度相关的 SNP）来降维，但这不是删除所有无用特征，而是减少共线性

3. 特征全部保留

在 GBLUP、KRR、SVR 等方法里，不会删除大部分 SNP，因为微效应 SNP 叠加后仍然有用

二、特征权重

取决于模型类型：

GBLUP（线性混合模型）
- 思路：所有 SNP 的效应服从 a∼N(0,Gσg2)
- 通过混合模型解方程，得到每个 SNP 的加性效应（相当于权重）
- 这些权重可直接乘以 SNP 值得到育种值
KRR（核岭回归）
- 不直接算每个 SNP 的系数，而是构造 核矩阵 K（样本间的基因相似度）
- 模型解出的系数是样本的组合权重，本质是所有 SNP 的综合作用
SVR（支持向量回归）
- 通过优化目标（最小化损失 + 正则化）得到支持向量的系数
- 每个支持向量的系数隐含了对特征的贡献（如果用线性核可以直接看成特征权重）
LASSO / ENET
- 通过 L1/L2 正则化直接在训练中稀疏化权重
- 得到的系数向量就是每个 SNP 的权重（很多会变成 0）

三、权重应用

一旦有了特征权重（假设是 w1,w2,…,wp）：

预测单个样本
- 取这个样本的 SNP 编码 x1,x2,…,xp
- 预测值 = 加权求和
  y^=w1x1+w2x2+⋯+wpxp+b
- 这里的 y^ 可以是预测表型值，也可以是预测 GEBV
预测整个数据集
- 对所有样本做矩阵乘法：
  Y^=XW
- X 是 m × p 的 SNP 矩阵，W 是 p × 1 的权重向量
在 GS（基因组选择）中
- 把所有个体的预测值排序
- 挑出预测值最高的一批 → 留作种猪