当前位置：首页 > news >正文

生物信息学（101计划核心教程）Chapter4

news 2025/11/12 7:39:30

第四章生物信息资源

4.1 生物数据库简介

生物数据库是生命科学发展不可或缺的信息资源，也是合成生物学、生物医药与生物技术产业赖以发展的基础。生物数据库的建设、维护与安全关系人口健康、生物安全和可持续发展，是国家重要战略资源。

生物数据库类型种类繁多。根据存储数据内容的不同，可以分为DNA数据库、RNA数据库、蛋白质数据库、物种特异性数据库、其他数据库等。或基于数据获取的规模和复杂性程度，可细分为一级数据库和二级数据库，或者用户针对性更强的专用数据库等。

DNA数据库

RNA数据库

蛋白质数据库

生物数据库期刊

4.2国际主要数据中心

随着生命科学蓬勃发展，生物信息数据体量呈指数级递增，组学数据资源的收集管理已成为生物信息研究领域的基础需求。建立数据资源库和生物信息数据中心，是能够最有效地管理和使用海量生物大数据的有效途径。

中国国家生物信息中心

CNCB-NGDC多组学数据库资源体系建设情况（见书中下图）

CNCB-NGDC的代表性资源

虽然我国的各大科研院所和高校已经建立了类型丰富的生物数据库，但与领域内国际顶尖生物数据库相比，在基础设施、数据汇交管理、好用易用性等方面仍存在差距，尤其在数据库的权威性、完整性、多维度、使用界面友好度、数据上传与下载快捷性、不同数据库智能关联性、人工智能辅助应用等方面存在较大差距。

美国国家生物技术信息中心

NCBI的主要目标是为科学家、医组学的广泛资源和工具,其代表性资源（可见下图）

现今，美国国家生物技术信息中心主要针对的是生物技术和生物医学领域的数据，致力于创立自动化系统用于储存和分析相关数据和知识，促进科研和医疗团体对这些数据库进行数据获取与使用，协调国内外生物数据信息的收集与整合。

欧洲生物信息学研究所

EMBL-EBI的代表性资源

这些资源和服务使得研究人员能够更好地利用生物信息学和基因组学的方法来解决生命科学中的问题

日本 DNA 数据库中心

DDBJ Sequence Read Archive（DRA）   2008   归档测序原始数据和比对信息的公共存储库
DDBJ（DDBJ）   2008   归档组装 / 注释的核苷酸序列
Japanese Genotype-Phenotype Archive（JGA）   2013   归档人类个体水平的基因型和表型信息，并提供数据的受控访问
NBDC Human Database（NHA）   2016   归档人类相关的基因组、遗传信息、临床信息、影像等数据，并提供数据的公开 / 受控访问
Genomie Expression Archive（GEA）   2018   归档芯片和高通量测序实验中的功能基因组学数据
MetaboBank（MetaboBank）   2020   归档从质谱、核磁共振和成像质谱获得的代谢组学数据的公共存储库

4.3代表性生物数据库

快速回顾一下按照4.1的分类的一些代表性生物数据库（见书中梳理如下），并对其中序列数据库、结构数据库以及互作数据库进行梳理：

4.3.1 序列数据库

在生物信息学研究中，序列数据库是连接 “核酸 / 蛋白质序列” 与 “生物学功能” 的核心桥梁。从基因组注释到蛋白质功能解析，一系列专业数据库构成了研究的 “基础设施”。

1. Ensembl：多物种基因组注释与可视化的 “百科全书”

Ensembl 是综合性生物信息学研究项目，最初聚焦脊椎动物基因组，后拓展至线虫、酵母、拟南芥、水稻等模式生物。随着测序技术发展，其收录的基因组数据持续扩容，功能也从单纯的序列注释拓展至比较基因组学、变异与调控注释等方向。

核心价值：

基因组注释的 “全景图”：提供基因结构、转录本变体、调控元件等详细注释；
比较基因组学工具：支持多物种基因组序列比对，揭示物种进化关系与功能保守性；
基因组可视化标杆：其基因组浏览器是展示基因组结构、变异位点、基因表达模式的 “黄金工具”。

3. GO 数据库：基因功能注释的 “通用语言”

基因本体（Gene Ontology, GO）数据库旨在建立跨物种的基因 / 蛋白功能语义标准，解决生物领域术语不统一导致的数据交流障碍。它从三个维度定义功能：

分子功能（MF）：基因产物的分子级活动（如 “催化”“结合”）；
细胞成分（CC）：基因产物在细胞中的定位（如 “细胞核”“线粒体”）；
生物过程（BP）：基因参与的生物学事件（如 “细胞周期”“免疫应答”）。

GO 通过 “term” 定义功能标签，标签间以is_a、part_of、regulates等关系构建有向无环网络，形成功能层级结构（如书中下图）。

核心价值：

功能注释的 “翻译器”：让不同物种的基因功能具有统一表述（如人类 “TP53” 与小鼠 “Trp53” 可通过 GO 术语关联）；
功能富集分析的 “引擎”：通过统计基因集的 GO 术语分布，揭示其核心生物学功能（如肿瘤组织中 “细胞增殖” 相关 GO 术语显著富集）；
多组学数据的 “粘合剂”：整合基因组、转录组、蛋白质组数据，解析 “序列 - 功能 - 表型” 的关联。

5. 蛋白质结构域与无序区域：专精化研究的 “利器”

除了上述通用数据库，还有一批聚焦蛋白质特定特征的专精数据库，助力细分领域研究：

PRINTS 基于蛋白质的保守结构域和模体，通过多序列比对提取 “高保守序列片段”，形成蛋白质家族的 “指纹”。可应用于蛋白质家族识别、结构域功能预测（如通过 PRINTS 判断某蛋白是否属于 “激酶家族”）。

蛋白质无序区域是缺乏规则三维结构的序列片段，却在信号转导、分子识别、蛋白互作中发挥关键作用：

DisProt：专注记录蛋白质无序区域的序列与功能；
MobiDB：进一步区分 “固有无序区域” 与 “可折叠区域”，提供实验与计算数据（如序列长度、结构域界限、疾病关联）。

4.3.2 结构数据库

在生物信息学领域，结构数据库是解析生物大分子（核酸、蛋白质）三维结构与功能关系的核心资源。从实验测定的结构到 AI 预测的模型，从结构分类到功能域注释，一系列专业数据库构成了 “结构 - 功能 - 应用” 的研究闭环。

1. 核酸结构数据库：解析核酸构象与调控的 “透视镜”

核酸（DNA、RNA）的三维结构直接决定其功能（如基因调控、催化活性），以下数据库聚焦核酸结构研究：

核酸数据库（Nucleic Acid Database, NDB）

功能：存储 DNA、RNA 的三维结构信息，整合生物分子结晶学和核磁共振数据。
价值：助力研究核酸的构象变化、分子间相互作用（如 DNA - 蛋白质结合、RNA 折叠）。
应用场景：解析基因启动子的三维构象对转录的调控机制、研究 RNA 病毒的基因组结构与侵染性的关联。

核小体数据库（Nucleome Data Bank, NDB）

功能：专注染色质的空间结构、基因组亚结构及基因表达调控相关信息。
价值：揭示染色质三维组织与基因表达的关系（如增强子与启动子的远距离互作）。
应用场景：研究肿瘤细胞中染色质结构异常对癌基因激活的影响、解析表观遗传修饰如何通过染色质结构调控基因表达。

2. 蛋白质结构与功能域数据库：从序列到结构的 “解码器”

蛋白质的结构域、功能位点是其执行生物学功能的核心单元，以下数据库专注于蛋白质结构与功能的关联分析：

InterPro：蛋白质功能注释的 “超级整合平台”

功能：整合多个蛋白质数据库（Coils、Pfam、PRINTS 等），提供蛋白质家族归纳、结构域预测、功能位点注释。
价值：通过统一接口实现蛋白质序列的 “一站式” 功能解析，去除数据冗余，提升注释效率。
应用场景：新发现蛋白质的功能预测（如从宏基因组序列中注释未知蛋白的结构域与功能）、差异表达蛋白的功能富集分析（结合结构域信息揭示核心通路）。

Pfam：蛋白质家族的 “分子指纹库”

功能：以多序列比对和隐马尔可夫模型（HMM）构建蛋白质家族，分类为家族、结构域、重复、模体。
价值：从序列层面识别蛋白质的保守结构域，为功能预测提供核心依据。
应用场景：鉴定蛋白质的功能模块（如激酶的催化结构域）、分析蛋白质家族的进化关系（通过结构域的保守性推断同源性）。

PROSITE：蛋白质功能模式的 “识别器”

功能：识别蛋白质序列中的保守域、结构域和功能模体，附带详细的序列、功能、结构描述。
价值：从氨基酸序列直接推断蛋白质的功能特征（如酶的活性位点、蛋白互作界面）。
应用场景：药物靶点的筛选（识别具有特定功能模体的蛋白质）、突变对蛋白质功能的影响预测（如活性位点突变是否导致功能丧失）。

3. 蛋白质结构分类数据库：结构同源性的 “分类器”

蛋白质结构的分类是理解其进化关系与功能保守性的关键，以下数据库构建了结构分类的 “层级体系”：

CATH：基于结构特征的层级分类

分类层级：Class（全 α、全 β、α+β、低二级结构）→ Architecture → Topology → Homologous Superfamily。
价值：从结构特征出发，系统归类蛋白质结构域，揭示结构与功能的关联规律。
应用场景：未知结构蛋白质的结构类型预测、蛋白质结构进化的宏观分析（如不同物种中同一 Class 结构的分布）。

SCOP：基于进化关系的结构分类