一、基因组选择(GS)与基因组预测(GP)
🐷 基因组选择(GS)与基因组预测(GP)学习汇总
一、论文相关背景
论文题目:《Genomic selection in pig breeding: comparative analysis of machine learning algorithms》
核心研究内容:比较多种机器学习方法在猪基因组预测(GP)中的效果,推荐最优方法(Stacking、SVR、KRR-RBF)。
二、GS 与 GP 的概念
GS(Genomic Selection,基因组选择)
是一种 育种策略
通过基因组数据预测个体的遗传潜力(GEBV),再据此选种。
📌 类比:大学招生办 → 按成绩录取学生(挑选最优猪繁殖)。
GP(Genomic Prediction,基因组预测)
是一种 技术动作
用 SNP 数据预测表型值或 GEBV。
📌 类比:高考阅卷 → 根据答卷(SNP)给学生打分(预测值)。
三、GP 预测的目标
表型值(Phenotypic value)
实际测得的性状值:体重、背膘厚度、窝仔数、初生窝重等
用途:
作为训练数据的标签
直接评价个体当前表现
是估算 GEBV 的基础
基因组估计育种值(GEBV)
表示基因能传给后代的遗传效应
用途:
核心用于 选种和育种决策(挑选繁殖用个体)
预测下一代平均水平
📌 关系:
表型值 = 遗传效应 + 环境效应
GEBV ≈ 遗传效应部分(可遗传,能传递给下一代)
四、GP/GS 的典型流程
采集样本(取耳组织)
-> DNA 芯片检测(获得 p 个 SNP 特征)
-> 数据预处理(居中/标准化/LD 剪枝)
-> 构建 X 矩阵(m × p SNP 编码)
-> 选择模型(GBLUP / KRR / SVR / Stacking 等)
-> 模型训练(得到每个 SNP 的权重或样本权重)
-> 计算预测值 Ŷ(表型值 / GEBV)
-> 基因组选择(根据预测值挑选最佳个体)
五、特征处理与权重
不进行特征删除
普通 ML:特征选择(删掉不相关特征,得到 new_X)
GP/GS:通常 不删除 SNP,而是给不同 SNP 不同权重
因为很多 SNP 单独作用小,但累积作用大,删掉会丢信息
获取特征
GBLUP:用所有 SNP 构建基因关系矩阵,求解混合模型,得到 SNP 效应
KRR/SVR:用核函数综合所有 SNP 信息,得到样本权重
LASSO/ENET:直接做特征稀疏化,部分 SNP 权重变 0
随机森林 / 集成模型:通过树分裂或投票机制给 SNP 隐式权重
初步评估
单个样本:
y^=w1x1+w2x2+⋯+wpxp+b整个数据集:
Y^=XW预测值再作为选种依据
六、模型与 Y 的关系
预测目标 (Y) | 类型 | 常用模型 |
---|---|---|
连续型表型值(体重、窝仔数) | 回归 | GBLUP、KRR、SVR、RFR、Stacking、CNN、MLP |
GEBV(连续型) | 回归 | GBLUP(最经典)、SSGBLUP、KRR、SVR |
离散性状(抗病性 0/1) | 分类 | Logistic 回归、SVM 分类、随机森林、XGBoost |
多性状联合预测 | 多任务回归 | 多性状 GBLUP、多任务神经网络 |
七、小结
GS 是战略,GP 是技术
GP 预测表型/GEBV → GS 按分数选种。
表型值 vs GEBV
表型值:当前表现,受环境影响,用作训练标签
GEBV:遗传潜力,核心用于选种
特征处理
GP/GS 通常不删除 SNP,而是给不同特征分配权重
通过正则化或核函数让无关 SNP 权重接近 0
模型选择
连续性状 → 回归模型(GBLUP、SVR、KRR 等)
离散性状 → 分类模型
GP 用基因数据预测(表型/GEBV),GS 用预测结果选种。GP/GS 的核心在于如何建模 SNP 效应:不是删特征,而是合理分配权重。