当前位置: 首页 > news >正文

一、基因组选择(GS)与基因组预测(GP)

🐷 基因组选择(GS)与基因组预测(GP)学习汇总

一、论文相关背景

  • 论文题目:《Genomic selection in pig breeding: comparative analysis of machine learning algorithms》

  • 核心研究内容:比较多种机器学习方法在猪基因组预测(GP)中的效果,推荐最优方法(Stacking、SVR、KRR-RBF)。


二、GS 与 GP 的概念

  1. GS(Genomic Selection,基因组选择)

    • 是一种 育种策略

    • 通过基因组数据预测个体的遗传潜力(GEBV),再据此选种。

    • 📌 类比:大学招生办 → 按成绩录取学生(挑选最优猪繁殖)。

  2. GP(Genomic Prediction,基因组预测)

    • 是一种 技术动作

    • 用 SNP 数据预测表型值或 GEBV。

    • 📌 类比:高考阅卷 → 根据答卷(SNP)给学生打分(预测值)。


三、GP 预测的目标

  1. 表型值(Phenotypic value)

    • 实际测得的性状值:体重、背膘厚度、窝仔数、初生窝重等

    • 用途

      • 作为训练数据的标签

      • 直接评价个体当前表现

      • 是估算 GEBV 的基础

  2. 基因组估计育种值(GEBV)

    • 表示基因能传给后代的遗传效应

    • 用途

      • 核心用于 选种和育种决策(挑选繁殖用个体)

      • 预测下一代平均水平

📌 关系:
表型值 = 遗传效应 + 环境效应
GEBV ≈ 遗传效应部分(可遗传,能传递给下一代)


四、GP/GS 的典型流程

采集样本(取耳组织)
-> DNA 芯片检测(获得 p 个 SNP 特征)
-> 数据预处理(居中/标准化/LD 剪枝)
-> 构建 X 矩阵(m × p SNP 编码)
-> 选择模型(GBLUP / KRR / SVR / Stacking 等)
-> 模型训练(得到每个 SNP 的权重或样本权重)
-> 计算预测值 Ŷ(表型值 / GEBV)
-> 基因组选择(根据预测值挑选最佳个体)

五、特征处理与权重

  1. 不进行特征删除

    • 普通 ML:特征选择(删掉不相关特征,得到 new_X)

    • GP/GS:通常 不删除 SNP,而是给不同 SNP 不同权重

      • 因为很多 SNP 单独作用小,但累积作用大,删掉会丢信息

  2. 获取特征

    • GBLUP:用所有 SNP 构建基因关系矩阵,求解混合模型,得到 SNP 效应

    • KRR/SVR:用核函数综合所有 SNP 信息,得到样本权重

    • LASSO/ENET:直接做特征稀疏化,部分 SNP 权重变 0

    • 随机森林 / 集成模型:通过树分裂或投票机制给 SNP 隐式权重

  3. 初步评估

    • 单个样本:

      y^=w1x1+w2x2+⋯+wpxp+b
    • 整个数据集:

      Y^=XW
    • 预测值再作为选种依据


六、模型与 Y 的关系

预测目标 (Y)类型常用模型
连续型表型值(体重、窝仔数)回归GBLUP、KRR、SVR、RFR、Stacking、CNN、MLP
GEBV(连续型)回归GBLUP(最经典)、SSGBLUP、KRR、SVR
离散性状(抗病性 0/1)分类Logistic 回归、SVM 分类、随机森林、XGBoost
多性状联合预测多任务回归多性状 GBLUP、多任务神经网络

七、小结

  1. GS 是战略,GP 是技术

    • GP 预测表型/GEBV → GS 按分数选种。

  2. 表型值 vs GEBV

    • 表型值:当前表现,受环境影响,用作训练标签

    • GEBV:遗传潜力,核心用于选种

  3. 特征处理

    • GP/GS 通常不删除 SNP,而是给不同特征分配权重

    • 通过正则化或核函数让无关 SNP 权重接近 0

  4. 模型选择

    • 连续性状 → 回归模型(GBLUP、SVR、KRR 等)

    • 离散性状 → 分类模型


GP 用基因数据预测(表型/GEBV),GS 用预测结果选种。GP/GS 的核心在于如何建模 SNP 效应:不是删特征,而是合理分配权重。

http://www.dtcms.com/a/349255.html

相关文章:

  • 【K8s】整体认识K8s之namespace
  • OpenIM应用机器人自动应答
  • 基于陌讯视觉算法的扶梯大件行李识别技术实战:误检率↓79%的工业级解决方案
  • 大模型中的意图识别
  • DMA-API(alloc和free)调用流程分析(十)
  • 胸部X光片数据集:健康及肺炎2类,14k+图像
  • 【网络运维】Shell脚本编程:函数
  • 大件垃圾识别精准度↑90%!陌讯多尺度融合模型在智慧环卫的落地实践
  • 鸿蒙ArkTS 基础篇-03-对象
  • 【黑色星期五输出当年有几个】2022-10-23
  • 单词搜索+回溯法
  • Windows客户端部署和管理
  • Week 13: 深度学习补遗:RNN的训练
  • 青少年软件编程(python五级)等级考试试卷-客观题(2023年12月)
  • 2024年09月 Python(一级)真题解析#中国电子学会#全国青少年软件编程等级考试
  • 使用 LangGraph + Zep 打造一款有记忆的心理健康关怀机器人
  • 【LLIE专题】一种用于低光图像增强的空间自适应光照引导 Transformer(SAIGFormer)框架
  • 超级助理:百度智能云发布的AI助理应用
  • JUC之并发容器
  • 2025最新酷狗kgm格式转mp3,kgma格式转mp3,kgg格式转mp3
  • 《程序员修炼之道》第五六章读书笔记
  • 【云馨AI-大模型】AI热潮持续升温:2025年8月第三周全球动态
  • 复杂场景横幅识别准确率↑91%!陌讯多模态融合算法在智慧园区的实战解析
  • 删掉一个元素以后全为1的最长子数组-滑动窗口
  • 【Luogu】P4317 花神的数论题 (数位DP)
  • 深度学习周报(8.18~8.24)
  • ASCII码值,可打印的字符有
  • 文档目录索引
  • 详解无监督学习的核心原理
  • 基于实例教学的软件工程专业教学系统