当前位置: 首页 > news >正文

从公共数据到医学研究:32 个生信数据库详解

在生物信息学研究中,高效利用数据库是提升研究效率的关键。本文整理了 4 类常用的生信数据库,涵盖公共数据、转录调控、植物研究及医学研究领域,包含各数据库的核心功能、网址及实用操作技巧,适合新手快速上手。

一、常用公共生信数据库

1. GSA 数据库

GSA 数据库被誉为我国自己的 “NCBI”,主要用于存储组学原始数据,功能类似 NCBI 的 SRA 数据库。

  • 主要优势:基于国内服务器,数据上传和下载的网速更快,沟通便捷,必要时还支持硬盘寄送服务,极大方便了数据传输。
  • 官方网址:CNCB - Home
  • 实用操作提示:可直接进行原始数据的提交与下载,查询公开信息也十分便捷,相比使用国外数据库能节省大量操作时间。

2. SRA 数据库

SRA 数据库是挖掘已发表测序数据、练习数据分析技能的重要工具。

  • 核心作用:作为 NCBI 旗下的 “数据仓库”,存储了大量已发布的高通量测序数据。
  • 官方网址:https://www.ncbi.nlm.nih.gov/sra
  • 实用操作提示:通过关键词搜索可快速找到目标数据,既能直接下载用于练习分析,也能进行深入的数据挖掘,是生信新手必须掌握的数据库之一。

3. GEO 数据库

GEO 数据库是基因表达数据的重要资源库,涵盖芯片和测序的基因表达谱数据。

  • 核心作用:用于存储基因表达数据,支持用户上传自有数据,也可下载他人数据进行二次分析。
  • 官方网址:https://www.ncbi.nlm.nih.gov/geo/
  • 实用操作提示:首页提供详细教程和工具,可查询数据集(目前已超 17 万个)和样本(500 多万个),查找数据时建议从 “Dataset” 入口进入。

4. KEGG pathway 数据库

KEGG pathway 数据库是通路分析的常用工具,能清晰梳理从基因到分子网络的关联。

  • 核心作用:存储代谢通路、调控通路图,助力基因功能的系统分析。
  • 官方网址:KEGG: Kyoto Encyclopedia of Genes and Genomes
  • 实用操作提示:通过搜索通路名或基因,可直接查看通路图,图中清晰标注了上下游关系,便于理解基因间的相互作用。

5. Wiki pathway 数据库

Wiki pathway 数据库是查找通路图的另一优质选择,相比 KEGG 更为灵活,关键词搜索功能便捷。

  • 核心作用:提供多种物种的通路图查询,涵盖细胞凋亡、信号通路等多种类型。
  • 官方网址:https://www.wikipathways.org/
  • 实用操作提示:在首页直接搜索关键词(如 “细胞凋亡”),可下载通路图,适用于 PPT 制作等场景。

6. Gene 数据库

Gene 数据库在查询基因基本信息方面具有优势,相比仅针对人类基因的工具,其覆盖物种更广泛。

  • 核心作用:提供不同物种的基因功能、位置及相关文献等信息。
  • 官方网址:https://www.ncbi.nlm.nih.gov/gene/
  • 实用操作提示:搜索基因名(如 BRCA1),可直观查看该基因在不同物种中的功能、同源基因等信息。

二、转录调控相关数据库

7. TRRUST 数据库

TRRUST 数据库是绘制转录调控网络的重要工具,可获取转录因子(TF)与靶基因的关系。

  • 核心作用:存储人和小鼠的转录调控关系,数据均来自文献挖掘,可靠性高。
  • 官方网址:TRRUST - Transcriptional Regulatory Relationships Unraveled by Sentence-based Text mining
  • 实用操作提示:可搜索单个基因,查看其调控的靶基因或调控它的上游基因;也支持批量输入基因,筛选关键调控因子。

8. STRING 数据库

STRING 数据库是分析蛋白互作网络的常用工具。

  • 核心作用:预测蛋白质之间的相互作用关系,辅助绘制互作网络图。
  • 官方网址:STRING: functional protein association networks
  • 实用操作提示:选择 “Multiple proteins” 选项,输入多个基因名(如差异基因)并指定物种,可直接生成互作网络图,还能通过调整参数查看不同可信度的互作关系。

9. JASPAR 数据库

JASPAR 数据库在预测转录因子结合位点方面表现出色,其提供的矩阵工具实用性强。

  • 核心作用:存储不同物种的转录因子结合基序(PFMs),涵盖脊椎动物、植物等多个类群。
  • 官方网址:JASPAR -A database of transcription factor binding profiles
  • 实用操作提示:选择目标物种(如人类),搜索转录因子名称,可直接下载结合位点矩阵,用于后续的结合位点预测分析。

10. miRBase 数据库

miRBase 数据库是 miRNA 研究的核心资源,信息覆盖全面。

  • 核心作用:存储 miRNA 序列及注释信息,同时提供靶标预测功能。
  • 官方网址:miRBase
  • 实用操作提示:搜索 miRNA 名称(如 hsa-miR-21),可查看其序列、物种分布情况,还能链接到相关的靶基因预测工具。

11. AnimalTFDB 数据库

AnimalTFDB 数据库专注于动物转录因子信息查询,分类清晰。

  • 核心作用:存储 183 种动物的转录因子(TF)和辅因子信息,详细标注了 DNA 结合域及家族分类。
  • 官方网址:http://bioinfo.life.hust.edu.cn/AnimalTFDB4/#/
  • 实用操作提示:在首页点击 “Browse”,可按物种或家族查找转录因子,同时获取其结合位点、相关通路等详细信息。

12. BioGRID 数据库

BioGRID 数据库收录的基因 / 蛋白互作关系均经过实验验证,数据可靠性高。

  • 核心作用:存储多种物种的基因互作数据,数据来源包括文献报道和实验结果。
  • 官方网址:BioGRID | Database of Protein, Chemical, and Genetic Interactions
  • 实用操作提示:搜索基因名,可查看其与其他基因的物理或功能互作关系,还能导出关系对用于绘制网络图。

13. hTFtarget 数据库

hTFtarget 数据库专注于人类转录因子的靶基因信息,结合数据可信度高。

  • 核心作用:存储 600 多个转录因子的 Chip-seq 数据,靶基因预测准确性高。
  • 官方网址:https://guolab.wchscu.cn/hTFtarget/#!/
  • 实用操作提示:点击 “TF” 模块,查找感兴趣的转录因子,还可按组织进行筛选,了解其在特定细胞中的调控基因。

14. GRNdb 数据库

GRNdb 数据库便于查询人和小鼠的转录调控网络,支持按组织 / 条件分类查询。

  • 核心作用:存储不同组织 / 条件下的转录因子 - 靶基因关系,助力研究特异性调控机制。
  • 官方网址:http://www.grndb.com/
  • 实用操作提示:在首页直接输入基因名,结果中可查看该基因在不同组织中被哪些因子调控,信息直观易懂。

三、植物研究相关数据库

15. JGI Phytozome 数据库

JGI Phytozome 数据库是植物基因组数据的集成平台,适用于比较基因组学研究。

  • 核心作用:存储大量植物基因组数据,注释标准统一,方便进行跨物种比较分析。
  • 官方网址:Phytozome
  • 实用操作提示:搜索物种名,可获取基因组组装、基因注释等信息,还能直接下载序列,避免了逐个查找物种基因组的繁琐。

16. Published Plant Genomes 数据库

Published Plant Genomes 数据库可查询已完成测序的植物基因组信息,呈现方式直观。

  • 核心作用:收录已发表的植物基因组数据,附带文献链接,便于追踪最新研究进展。
  • 官方网址:Plant Biotechnology Information (PlaBI)
  • 实用操作提示:点击 “Timeline” 可查看基因组发表时间,通过 “Taxonomy Tree” 可按分类查找,点击绿色标签可直接查看相关文献,方便追踪研究动态。

17. PlantTFDB 数据库

PlantTFDB 数据库涵盖从拟南芥到作物的多种植物转录因子信息。

  • 核心作用:存储绿色植物的转录因子信息,分类清晰,包含详细的功能注释。
  • 官方网址:PlantTFDB - Plant Transcription Factor Database @ CBI, PKU
  • 实用操作提示:搜索转录因子 ID 或通过 BLAST 比对序列,可查看其所属家族及同源基因信息。

18. PRGdb 数据库

PRGdb 数据库是植物抗病基因研究的专用资源库。

  • 核心作用:存储植物病原体识别基因(PRG),助力挖掘植物抗病机制。
  • 官方网址:http://prgdb.org/prgdb/
  • 实用操作提示:搜索物种或基因名,可获取抗病基因的序列、结构信息,还能链接到相关文献。

19. PCMDB 数据库

PCMDB 数据库提供 6 种模式植物的细胞标记基因,数据均经过实验验证。

  • 核心作用:存储拟南芥、水稻等植物的细胞标记基因,为实验研究提供参考。
  • 官方网址:PlantCellMarker
  • 实用操作提示:点击感兴趣的植物组织,可直接下载对应细胞类型的标记基因,在单细胞测序中用于细胞类型鉴定十分便捷。

20. PlantPhoneDB 数据库

PlantPhoneDB 数据库专注于植物细胞通讯的配受体对研究,数据可信度高。

  • 核心作用:存储拟南芥、水稻等植物的高可信度配受体对,包含单细胞 RNA-seq 分析结果。
  • 官方网址:PlantPhoneDB
  • 实用操作提示:搜索配体或受体,可查看其互作关系;也能下载数据,利用其提供的 R 包绘制细胞通讯图。

21. scPlantDB 数据库

scPlantDB 数据库收录了多种植物的单细胞转录组数据。

  • 核心作用:存储 17 个物种的 67 个单细胞转录组数据集,包含细胞类型注释和标记基因信息。
  • 官方网址:scPlantDB
  • 实用操作提示:按物种查找数据集,可直接查看细胞图谱,也能下载数据进行重新分析,省去了从头运行分析流程的时间。

22. Plant Single Cell Hub 数据库

Plant Single Cell Hub 数据库提供植物单细胞标记基因,均经过实验验证。

  • 核心作用:存储不同植物组织的细胞标记基因,附带原始测序数据下载功能。
  • 官方网址:Plant Single Cell Hub @ HZAU
  • 实用操作提示:点击 “Marker Genes”,按物种和组织进行查找,每个标记基因都有原位杂交或 GFP 验证支持,数据可靠性高。

四、医学研究相关数据库

23. Human Protein Atlas

Human Protein Atlas 数据库呈现人类蛋白在细胞 / 组织中的分布情况,信息直观。

  • 核心作用:存储蛋白在各种组织、细胞中的表达及定位信息。
  • 官方网址:The Human Protein Atlas
  • 实用操作提示:搜索基因名(如 ACE2),可查看其在不同器官中的表达水平,还能获取免疫组化图,为机制研究提供参考。

24. HGNC 数据库

HGNC 数据库致力于统一人类基因命名,避免命名混乱。

  • 核心作用:为人类基因提供唯一官方名称,涵盖蛋白编码基因、非编码 RNA 等。
  • 官方网址:Home | HUGO Gene Nomenclature Committee
  • 实用操作提示:搜索基因别名或 ID,可获取官方推荐名称,确保文章中基因名的准确性。

25. MalaCards 数据库

MalaCards 数据库是查询疾病相关信息的综合平台,实现一站式检索。

  • 核心作用:存储疾病的差异基因、症状、药物等信息,助力全面了解疾病。
  • 官方网址:https://www.malacards.org/
  • 实用操作提示:搜索疾病名,可获取相关基因、通路及最新文献,为综述写作提供丰富素材。

26. GeneCards 数据库

GeneCards 数据库提供人类基因的详细信息,整合了多种数据类型。

  • 核心作用:整合人类基因的功能、表达、互作等多方面数据。
  • 官方网址:https://www.genecards.org/
  • 实用操作提示:输入基因名(如 MDM2),点击 “GO” 可查看其功能分类、相关疾病,还能链接到其他数据库进行深入分析。

27. GEPIA2 数据库

GEPIA2 数据库支持无代码分析 TCGA 和 GTEx 数据,在线绘图便捷。

  • 核心作用:分析癌症和正常组织的基因表达差异,支持生存分析、共表达分析等。
  • 官方网址:GEPIA 2
  • 实用操作提示:选择 “Expression Analysis”,输入基因名,可直接查看其在癌症和正常组织中的表达差异,还能绘制生存曲线。

28. LncRNADisease 数据库

LncRNADisease 数据库专注于 lncRNA 与疾病的关联研究。

  • 核心作用:存储 lncRNA、circRNA 与疾病的关联信息,数据均有文献支持。
  • 官方网址:LncRNADisease3
  • 实用操作提示:输入 lncRNA 名(如 CCAT2),可查看其相关的疾病,附带文献出处,数据可信度高。

29. HOCOMOCO 数据库

HOCOMOCO 数据库提供人和小鼠的转录因子结合基序,数据经过整理优化。

  • 核心作用:存储转录因子结合基序,辅助预测转录因子与 DNA 的结合关系。
  • 官方网址:HOmo sapiens COmprehensive MOdel COllection
  • 实用操作提示:选择人类或小鼠物种,查找目标转录因子,可查看其结合基序 LOGO,为 motif 分析提供支持。

以上 32 个生信数据库覆盖了生信研究的主要方向,掌握这些数据库的使用方法,能显著提升研究效率。建议收藏本文,以便在需要时快速查阅使用。

http://www.dtcms.com/a/288368.html

相关文章:

  • [实战]巴特沃斯滤波器全流程解析:从数学原理到硬件实现
  • 磁盘阵列技术的功能与分类
  • 【面试题】大厂高压面经实录丨第三期
  • Python Pandas读取Excel表格中数据并根据时间字段筛选数据
  • 软件警告弹窗与兼容性问题
  • HD Video Converter Factory pro 高清视频转换器 v27.7.0 绿色中文便携版
  • centos7使用docker-compose部署项目
  • 《Linux 环境下 NTP 时间同步与 SSH 免密登录配置实战》
  • 树的基础知识总结
  • 移动硬盘无法读取怎么办?数据还可以抢救回来
  • STC增强型单片机寄存器 PWM EEPROM TMOD TCON
  • 数据结构的文件操作
  • scalelsd 笔记 线段识别 本地部署 模型架构
  • Spring7个事务传播行为和5个隔离级别
  • Java-Lambda表达式
  • 【Linux】Linux中重定向 及 dup2 详细讲解
  • Stream API
  • 2023 年 5 月青少年软编等考 C 语言八级真题解析
  • 本地安装部署Unstructured-api
  • ADC选型设计
  • SpringBoot项目打包加部署方案
  • Datawhale 7月学习
  • SCSAI工业智能体的核心特征
  • Xss-labs 1-8以及利用python自动sq8注入
  • linux cpu频率和AVS调压等级
  • 板子 5.29--7.19
  • 函数式编程和命令式编程
  • Python爬虫实战:研究psd-tools库相关技术
  • UI 程序退出卡顿问题分析:从真实案例深入理解退出清理路径负载问题
  • 【工具变量】地级市城市包容性绿色增长数据(2011-2023年)