从公共数据到医学研究:32 个生信数据库详解
在生物信息学研究中,高效利用数据库是提升研究效率的关键。本文整理了 4 类常用的生信数据库,涵盖公共数据、转录调控、植物研究及医学研究领域,包含各数据库的核心功能、网址及实用操作技巧,适合新手快速上手。
一、常用公共生信数据库
1. GSA 数据库
GSA 数据库被誉为我国自己的 “NCBI”,主要用于存储组学原始数据,功能类似 NCBI 的 SRA 数据库。
- 主要优势:基于国内服务器,数据上传和下载的网速更快,沟通便捷,必要时还支持硬盘寄送服务,极大方便了数据传输。
- 官方网址:CNCB - Home
- 实用操作提示:可直接进行原始数据的提交与下载,查询公开信息也十分便捷,相比使用国外数据库能节省大量操作时间。
2. SRA 数据库
SRA 数据库是挖掘已发表测序数据、练习数据分析技能的重要工具。
- 核心作用:作为 NCBI 旗下的 “数据仓库”,存储了大量已发布的高通量测序数据。
- 官方网址:https://www.ncbi.nlm.nih.gov/sra
- 实用操作提示:通过关键词搜索可快速找到目标数据,既能直接下载用于练习分析,也能进行深入的数据挖掘,是生信新手必须掌握的数据库之一。
3. GEO 数据库
GEO 数据库是基因表达数据的重要资源库,涵盖芯片和测序的基因表达谱数据。
- 核心作用:用于存储基因表达数据,支持用户上传自有数据,也可下载他人数据进行二次分析。
- 官方网址:https://www.ncbi.nlm.nih.gov/geo/
- 实用操作提示:首页提供详细教程和工具,可查询数据集(目前已超 17 万个)和样本(500 多万个),查找数据时建议从 “Dataset” 入口进入。
4. KEGG pathway 数据库
KEGG pathway 数据库是通路分析的常用工具,能清晰梳理从基因到分子网络的关联。
- 核心作用:存储代谢通路、调控通路图,助力基因功能的系统分析。
- 官方网址:KEGG: Kyoto Encyclopedia of Genes and Genomes
- 实用操作提示:通过搜索通路名或基因,可直接查看通路图,图中清晰标注了上下游关系,便于理解基因间的相互作用。
5. Wiki pathway 数据库
Wiki pathway 数据库是查找通路图的另一优质选择,相比 KEGG 更为灵活,关键词搜索功能便捷。
- 核心作用:提供多种物种的通路图查询,涵盖细胞凋亡、信号通路等多种类型。
- 官方网址:https://www.wikipathways.org/
- 实用操作提示:在首页直接搜索关键词(如 “细胞凋亡”),可下载通路图,适用于 PPT 制作等场景。
6. Gene 数据库
Gene 数据库在查询基因基本信息方面具有优势,相比仅针对人类基因的工具,其覆盖物种更广泛。
- 核心作用:提供不同物种的基因功能、位置及相关文献等信息。
- 官方网址:https://www.ncbi.nlm.nih.gov/gene/
- 实用操作提示:搜索基因名(如 BRCA1),可直观查看该基因在不同物种中的功能、同源基因等信息。
二、转录调控相关数据库
7. TRRUST 数据库
TRRUST 数据库是绘制转录调控网络的重要工具,可获取转录因子(TF)与靶基因的关系。
- 核心作用:存储人和小鼠的转录调控关系,数据均来自文献挖掘,可靠性高。
- 官方网址:TRRUST - Transcriptional Regulatory Relationships Unraveled by Sentence-based Text mining
- 实用操作提示:可搜索单个基因,查看其调控的靶基因或调控它的上游基因;也支持批量输入基因,筛选关键调控因子。
8. STRING 数据库
STRING 数据库是分析蛋白互作网络的常用工具。
- 核心作用:预测蛋白质之间的相互作用关系,辅助绘制互作网络图。
- 官方网址:STRING: functional protein association networks
- 实用操作提示:选择 “Multiple proteins” 选项,输入多个基因名(如差异基因)并指定物种,可直接生成互作网络图,还能通过调整参数查看不同可信度的互作关系。
9. JASPAR 数据库
JASPAR 数据库在预测转录因子结合位点方面表现出色,其提供的矩阵工具实用性强。
- 核心作用:存储不同物种的转录因子结合基序(PFMs),涵盖脊椎动物、植物等多个类群。
- 官方网址:JASPAR -A database of transcription factor binding profiles
- 实用操作提示:选择目标物种(如人类),搜索转录因子名称,可直接下载结合位点矩阵,用于后续的结合位点预测分析。
10. miRBase 数据库
miRBase 数据库是 miRNA 研究的核心资源,信息覆盖全面。
- 核心作用:存储 miRNA 序列及注释信息,同时提供靶标预测功能。
- 官方网址:miRBase
- 实用操作提示:搜索 miRNA 名称(如 hsa-miR-21),可查看其序列、物种分布情况,还能链接到相关的靶基因预测工具。
11. AnimalTFDB 数据库
AnimalTFDB 数据库专注于动物转录因子信息查询,分类清晰。
- 核心作用:存储 183 种动物的转录因子(TF)和辅因子信息,详细标注了 DNA 结合域及家族分类。
- 官方网址:http://bioinfo.life.hust.edu.cn/AnimalTFDB4/#/
- 实用操作提示:在首页点击 “Browse”,可按物种或家族查找转录因子,同时获取其结合位点、相关通路等详细信息。
12. BioGRID 数据库
BioGRID 数据库收录的基因 / 蛋白互作关系均经过实验验证,数据可靠性高。
- 核心作用:存储多种物种的基因互作数据,数据来源包括文献报道和实验结果。
- 官方网址:BioGRID | Database of Protein, Chemical, and Genetic Interactions
- 实用操作提示:搜索基因名,可查看其与其他基因的物理或功能互作关系,还能导出关系对用于绘制网络图。
13. hTFtarget 数据库
hTFtarget 数据库专注于人类转录因子的靶基因信息,结合数据可信度高。
- 核心作用:存储 600 多个转录因子的 Chip-seq 数据,靶基因预测准确性高。
- 官方网址:https://guolab.wchscu.cn/hTFtarget/#!/
- 实用操作提示:点击 “TF” 模块,查找感兴趣的转录因子,还可按组织进行筛选,了解其在特定细胞中的调控基因。
14. GRNdb 数据库
GRNdb 数据库便于查询人和小鼠的转录调控网络,支持按组织 / 条件分类查询。
- 核心作用:存储不同组织 / 条件下的转录因子 - 靶基因关系,助力研究特异性调控机制。
- 官方网址:http://www.grndb.com/
- 实用操作提示:在首页直接输入基因名,结果中可查看该基因在不同组织中被哪些因子调控,信息直观易懂。
三、植物研究相关数据库
15. JGI Phytozome 数据库
JGI Phytozome 数据库是植物基因组数据的集成平台,适用于比较基因组学研究。
- 核心作用:存储大量植物基因组数据,注释标准统一,方便进行跨物种比较分析。
- 官方网址:Phytozome
- 实用操作提示:搜索物种名,可获取基因组组装、基因注释等信息,还能直接下载序列,避免了逐个查找物种基因组的繁琐。
16. Published Plant Genomes 数据库
Published Plant Genomes 数据库可查询已完成测序的植物基因组信息,呈现方式直观。
- 核心作用:收录已发表的植物基因组数据,附带文献链接,便于追踪最新研究进展。
- 官方网址:Plant Biotechnology Information (PlaBI)
- 实用操作提示:点击 “Timeline” 可查看基因组发表时间,通过 “Taxonomy Tree” 可按分类查找,点击绿色标签可直接查看相关文献,方便追踪研究动态。
17. PlantTFDB 数据库
PlantTFDB 数据库涵盖从拟南芥到作物的多种植物转录因子信息。
- 核心作用:存储绿色植物的转录因子信息,分类清晰,包含详细的功能注释。
- 官方网址:PlantTFDB - Plant Transcription Factor Database @ CBI, PKU
- 实用操作提示:搜索转录因子 ID 或通过 BLAST 比对序列,可查看其所属家族及同源基因信息。
18. PRGdb 数据库
PRGdb 数据库是植物抗病基因研究的专用资源库。
- 核心作用:存储植物病原体识别基因(PRG),助力挖掘植物抗病机制。
- 官方网址:http://prgdb.org/prgdb/
- 实用操作提示:搜索物种或基因名,可获取抗病基因的序列、结构信息,还能链接到相关文献。
19. PCMDB 数据库
PCMDB 数据库提供 6 种模式植物的细胞标记基因,数据均经过实验验证。
- 核心作用:存储拟南芥、水稻等植物的细胞标记基因,为实验研究提供参考。
- 官方网址:PlantCellMarker
- 实用操作提示:点击感兴趣的植物组织,可直接下载对应细胞类型的标记基因,在单细胞测序中用于细胞类型鉴定十分便捷。
20. PlantPhoneDB 数据库
PlantPhoneDB 数据库专注于植物细胞通讯的配受体对研究,数据可信度高。
- 核心作用:存储拟南芥、水稻等植物的高可信度配受体对,包含单细胞 RNA-seq 分析结果。
- 官方网址:PlantPhoneDB
- 实用操作提示:搜索配体或受体,可查看其互作关系;也能下载数据,利用其提供的 R 包绘制细胞通讯图。
21. scPlantDB 数据库
scPlantDB 数据库收录了多种植物的单细胞转录组数据。
- 核心作用:存储 17 个物种的 67 个单细胞转录组数据集,包含细胞类型注释和标记基因信息。
- 官方网址:scPlantDB
- 实用操作提示:按物种查找数据集,可直接查看细胞图谱,也能下载数据进行重新分析,省去了从头运行分析流程的时间。
22. Plant Single Cell Hub 数据库
Plant Single Cell Hub 数据库提供植物单细胞标记基因,均经过实验验证。
- 核心作用:存储不同植物组织的细胞标记基因,附带原始测序数据下载功能。
- 官方网址:Plant Single Cell Hub @ HZAU
- 实用操作提示:点击 “Marker Genes”,按物种和组织进行查找,每个标记基因都有原位杂交或 GFP 验证支持,数据可靠性高。
四、医学研究相关数据库
23. Human Protein Atlas
Human Protein Atlas 数据库呈现人类蛋白在细胞 / 组织中的分布情况,信息直观。
- 核心作用:存储蛋白在各种组织、细胞中的表达及定位信息。
- 官方网址:The Human Protein Atlas
- 实用操作提示:搜索基因名(如 ACE2),可查看其在不同器官中的表达水平,还能获取免疫组化图,为机制研究提供参考。
24. HGNC 数据库
HGNC 数据库致力于统一人类基因命名,避免命名混乱。
- 核心作用:为人类基因提供唯一官方名称,涵盖蛋白编码基因、非编码 RNA 等。
- 官方网址:Home | HUGO Gene Nomenclature Committee
- 实用操作提示:搜索基因别名或 ID,可获取官方推荐名称,确保文章中基因名的准确性。
25. MalaCards 数据库
MalaCards 数据库是查询疾病相关信息的综合平台,实现一站式检索。
- 核心作用:存储疾病的差异基因、症状、药物等信息,助力全面了解疾病。
- 官方网址:https://www.malacards.org/
- 实用操作提示:搜索疾病名,可获取相关基因、通路及最新文献,为综述写作提供丰富素材。
26. GeneCards 数据库
GeneCards 数据库提供人类基因的详细信息,整合了多种数据类型。
- 核心作用:整合人类基因的功能、表达、互作等多方面数据。
- 官方网址:https://www.genecards.org/
- 实用操作提示:输入基因名(如 MDM2),点击 “GO” 可查看其功能分类、相关疾病,还能链接到其他数据库进行深入分析。
27. GEPIA2 数据库
GEPIA2 数据库支持无代码分析 TCGA 和 GTEx 数据,在线绘图便捷。
- 核心作用:分析癌症和正常组织的基因表达差异,支持生存分析、共表达分析等。
- 官方网址:GEPIA 2
- 实用操作提示:选择 “Expression Analysis”,输入基因名,可直接查看其在癌症和正常组织中的表达差异,还能绘制生存曲线。
28. LncRNADisease 数据库
LncRNADisease 数据库专注于 lncRNA 与疾病的关联研究。
- 核心作用:存储 lncRNA、circRNA 与疾病的关联信息,数据均有文献支持。
- 官方网址:LncRNADisease3
- 实用操作提示:输入 lncRNA 名(如 CCAT2),可查看其相关的疾病,附带文献出处,数据可信度高。
29. HOCOMOCO 数据库
HOCOMOCO 数据库提供人和小鼠的转录因子结合基序,数据经过整理优化。
- 核心作用:存储转录因子结合基序,辅助预测转录因子与 DNA 的结合关系。
- 官方网址:HOmo sapiens COmprehensive MOdel COllection
- 实用操作提示:选择人类或小鼠物种,查找目标转录因子,可查看其结合基序 LOGO,为 motif 分析提供支持。
以上 32 个生信数据库覆盖了生信研究的主要方向,掌握这些数据库的使用方法,能显著提升研究效率。建议收藏本文,以便在需要时快速查阅使用。