当前位置: 首页 > news >正文

PGCP:用于比较基因组学的植物基因组综合数据库-文献精读144

PGCP: A comprehensive database of plant genomes for comparative phylogenomics

PGCP:用于比较基因组学的植物基因组综合数据库

https://biobigdata.nju.edu.cn/pgdatabase/home

随着测序和基因组组装技术的快速发展,成千上万的植物基因组已被测序、组装和注释(Marks et al., 2021;Xie et al., 2024),为植物的比较基因组学和进化研究提供了丰富而宝贵的资源。然而,这些基因组往往分散在不同的数据库中,导致高效的数据访问、整合和全面分析存在障碍。现有的植物基因组数据库,如Phytozome(Goodstein et al., 2012)和Ensembl Plants(Bolser et al., 2017),做出了重要贡献,但在范围上有所限制,通常仅覆盖有限数量的物种和少数代表性基因组。缺乏一个集中的平台来访问和分析各种植物基因组,使得进行大规模的比较研究变得具有挑战性,阻碍了保守和差异化基因组特征的识别,也妨碍了植物王国内更广泛进化和功能模式的发现。因此,亟需一个全面、用户友好且整合的数据平台,将来自多种植物物种的高质量基因组数据汇集在一起。

在此,我们介绍PGCP(植物基因组比较基因组学平台),这是一个综合性数据库,整合了植物系统发育树上广泛的基因组数据。PGCP整合了来自不同平台和已发布研究的719个公开可用的基因组,确保包括高质量的组装和完整的注释信息(图1a)。经过严格的质量控制后,我们从这些基因组中获得了共计26,600,642个蛋白质编码基因。为了增强数据一致性和可用性,我们对整个数据库中的基因组注释进行了统一和标准化的重建。基因和染色体的标识符(ID)被转换为PGCP特有的标识符,记录经过精心筛选,以保持数据的完整性和保密性。所有蛋白质编码基因进一步进行了各种功能属性的注释,包括使用iTAK预测转录因子(TFs)和转录调控因子(TRs)(Zheng et al., 2016)。此外,使用InterProScan(Jones et al., 2014)为基因本体(GO)术语和蛋白质结构域注释提供支持,从而为基因数据集提供了全面的功能性景观(图1b)。

植物基因组比较基因组学平台(PGCP)数据库概述

(a) 植物基因组数据的汇编,包括高质量的基因组序列和基因特征注释。 (b) 基因组数据集和蛋白质编码基因的各种功能注释的统计摘要。 (c) 通过OrthoFinder识别直系同源群,展示全面的系统基因组学分析,能够探索植物物种间的进化关系、基因家族动态和功能分化。 (d–i) “基因组视图”(d)、“基因注释视图”(e)、“BLAST工具”(f)、“功能富集分析”(g)、“同源性视图”(h)和“引物设计器”(i)的页面截图。

为了揭示广泛基因组数据集中的隐藏模式,我们使用OrthoFinder(Emms和Kelly,2019)进行了大规模的比较基因组学分析。在PGCP中收集的719个基因组中,我们识别出237,400个直系同源群,每个群组包含来自至少三个不同物种的基因。这个综合资源通过比较植物物种间的同源基因,追溯基因家族的起源和分化,突出适应性进化,识别贡献于特有物种特征的谱系特异性基因,并根据保守和差异化特征预测基因功能,从而使得探索复杂的进化关系成为可能(图1c)。这些分析为深入理解植物多样性的遗传基础提供了重要信息,揭示了植物王国中进化轨迹、适应性策略和功能创新。简而言之,整合这些直系同源群显著提升了PGCP数据库的实用性,使其成为推动进化研究的重要资源。

PGCP数据库还提供了广泛的可视化功能和强大的分析工具,帮助用户高效地探索丰富的基因组数据。

基因组视图和基因注释视图: “基因组视图”提供了关于基因组组装和注释的详细信息,并链接到内部基因组浏览器和外部数据库,以及可搜索的注释基因列表(图1d)。从该列表中,用户可以选择特定的基因,访问“基因注释视图”,该视图提供详细的序列信息、功能注释和同源关系,支持跨物种的基因功能、进化关系和比较分析的深入调查(图1e)。

多基因组BLAST工具: PGCP提供了强大的“BLAST工具”,使跨物种的序列搜索成为可能。用户可以从直观的物种关系树中轻松选择参考基因组进行比对,从而简化跨植物物种同源序列的识别过程。BLAST结果会保存1周,并可选择通过电子邮件接收详细结果,方便进行无缝且高效的跨基因组比较,满足多种研究需求(图1f)。

功能富集分析: 该平台提供了在线“功能富集分析”工具,用户可以对数据库中的任何物种进行功能分析。结果以富集图和富集路径图的形式呈现,提供了功能和通路的可视化概览。详细的表格数据也可以访问,支持深入探索(图1g)。

同源性视图用于染色体级基因组: “同源性视图”功能使用户能够同时比较最多五个基因组,使用SynVisio(Bandi和Gutwin,2020)显示所选基因组之间的同源性关系。这个工具对于研究结构变异甚至指示物种间的全基因组复制特别有用(图1h)。

引物设计器工具: “引物设计器”工具允许用户为PGCP中列出的任何基因组区域设计引物。该工具提供可视化选项,帮助选择最佳引物用于实验应用(图1i)。

总之,PGCP旨在提供一个广泛且易于访问的平台,整合来自多种植物物种的基因组数据,涵盖了研究较为深入的模式植物、重要农作物和多样化的野生植物。通过提供高分辨率基因组序列、注释和比较基因组学数据的统一库,PGCP促进了大规模的比较分析,使研究人员能够探索植物系统发育学、基因家族动态和植物王国中的功能基因组学。该数据库包括先进的分析工具,支持同源物种的识别、系统发育重建以及发现与适应性和农业性状相关的关键基因。作为一个统一的平台,PGCP被设计为植物生物学研究人员的基本资源,促进了对植物进化、多样性和驱动性状多样性的分子机制的新见解。未来,我们计划通过整合更多植物基因组资源,扩展PGCP数据库的内容,以增强其全面性。作为我们持续发展的组成部分,我们将致力于系统地纳入GWH(Ma et al., 2025)和其他相关数据库中的基因组,以为植物研究社区提供更广泛且最新的资源。

相关文章:

  • colmap编译到本地【Ubuntu22.04】
  • HarmonyOS5 运动健康app(二):健康跑步(附代码)
  • Text2SQL、Text2API基础
  • Java实现Pdf转Word
  • Excel大厂自动化报表实战(互联网金融-数据分析周报制作中)
  • 逆向入门(3)程序逆向篇-Acid Bytes.2
  • <teleport> 是 Vue 3 引入的一个内置组件,用于在 DOM 中移动组件的渲染位置,但保持组件的逻辑作用域不变
  • 【62 Pandas+Pyecharts | 智联招聘大数据岗位数据分析可视化】
  • 【舞蹈】FineDance
  • 黄仁勋在2025年巴黎VivaTech大会上的GTC演讲:AI工厂驱动的工业革命(下)
  • 新书速览|大模型核心技术与开发实践:基于Transformer、PyTorch及Hugging Face
  • Metasploit Framework(MSF)核心知识解析
  • 手机IP地址更换的影响与方法
  • Android 手机如何实现本地视频音频提取?实战教程来了
  • 弹性梁:绘图、分析与可视化-AI云计算数值分析和代码验证
  • 理解与建模弹性膜-AI云计算数值分析和代码验证
  • 【Pandas】pandas DataFrame droplevel
  • MoneyPrinterTurbo根据关键词自动生成视频
  • WebSocket 前端断连原因与检测方法
  • 家政维修平台实战25:工人接单
  • 建设职业技术学院网站/成都百度推广联系方式
  • 网站外链怎么看/百度下载app下载安装
  • 天津住房和城乡建设厅网站/淘宝关键词优化技巧
  • wordpress建站比较/2024年1月新冠高峰
  • 广州青菜篮农业有限公司网站建设项目/小红书seo排名
  • 黄石网站建设教程/做个小程序需要花多少钱