MaayanLab Cloud Enrichr 不用编程 也能做富集分析 (TF)/miRNA 疾病与表型关联 药物与化合物关联 全自动的网站
MaayanLab Cloud Enrichr(maayanlab.cloud/Enrichr/enrich):功能、使用与优势解析
Enrichr 是由 MaayanLab(美国Icahn School of Medicine at Mount Sinai) 开发的经典在线功能富集分析工具,其核心网址(maayanlab.cloud/Enrichr/enrich)提供直观的网页交互界面,专为基因/蛋白列表的功能注释、通路富集及生物学意义解读设计,是生命科学领域(尤其是转录组学、蛋白质组学研究)最常用的工具之一。
MaayanLab Cloud Enrichr 不用编程 也能做富集分析 (TF)/miRNA 疾病与表型关联 药物与化合物关联 全自动的网站
一、核心功能:解决“基因列表背后有什么生物学意义”
Enrichr 的核心价值是将“一堆基因/蛋白ID”转化为“可解释的生物学功能”,主要通过多维度数据库富集分析实现,覆盖从基础功能到疾病、药物的全场景需求,具体功能模块如下:
功能类别 | 核心内容 | 典型应用场景 |
---|---|---|
基因本体(GO)富集 | 分为3个子集: - BP(Biological Process):生物过程(如“细胞凋亡”“DNA修复”) - CC(Cellular Component):细胞组分(如“线粒体基质”“细胞膜”) - MF(Molecular Function):分子功能(如“ATP结合”“蛋白激酶活性”) | 初步解析差异表达基因(DEGs)参与的基础生物学活动,例如“肿瘤相关DEGs是否富集‘细胞周期调控’BP”。 |
通路(Pathway)富集 | 整合主流通路数据库: - KEGG(经典代谢/信号通路,如“PI3K-Akt信号通路”) - Reactome(动态信号通路,侧重通路间关联) - WikiPathways(社区贡献的通路,覆盖更多物种/疾病) | 挖掘基因列表涉及的核心信号通路,例如“药物处理后DEGs是否富集‘自噬相关通路’”。 |
疾病与表型关联 | 关联疾病/表型数据库: - DisGeNET(基因-疾病关联,如“TP53与肺癌”) - OMIM(孟德尔遗传病数据库) - GWAS Catalog(全基因组关联研究结果,如“基因位点与高血压关联”) | 分析基因列表与特定疾病的关联性,例如“癌症驱动基因列表是否富集‘乳腺癌相关基因’”。 |
药物与化合物关联 | 整合药物数据库: - DrugBank(已批准药物-靶点关联) - DGIdb(药物-基因相互作用,含禁忌/敏感信息) - LINCS L1000(药物处理后的基因表达特征匹配) | 预测调控目标基因的潜在药物,例如“寻找可逆转‘炎症相关DEGs’的候选药物”。 |
转录调控关联 | 链接转录因子(TF)/miRNA数据库: - JASPAR(TF结合位点 motif 富集) - miRTarBase(miRNA-靶基因关联,含实验验证数据) | 解析基因列表受哪些TF/miRNA调控,例如“DEGs是否受p53(TF)或let-7(miRNA)调控”。 |
其他特色富集 | 包括: - 蛋白-蛋白相互作用(PPI)网络模块 - 组织/细胞类型特异性基因富集(如“是否富集肝细胞特异性基因”) - 文献挖掘关联(基因在文献中常被提及的生物学过程) | 拓展分析维度,例如“验证DEGs是否在特定细胞类型(如T细胞)中高表达”。 |
二、使用流程:3步完成富集分析(无需编程)
Enrichr 界面简洁,操作门槛极低,即使无生物信息学基础也能快速上手,核心流程如下:
1. 准备输入数据(关键步骤)
- 输入内容:基因/蛋白列表(支持多种ID格式,无需统一),例如:
- 基因名(如
TP53
、MYC
) - Ensembl ID(如
ENSG00000141510
) - RefSeq ID(如
NM_000546
) - 蛋白ID(如
P04637
)
- 基因名(如
- 输入要求:
- 无需排序,每行1个ID,或用逗号/空格分隔(建议直接粘贴Excel中的列数据);
- 基因数量无严格限制(推荐10-5000个,过少易导致富集结果不显著,过多易出现假阳性);
- 支持“背景基因列表”(可选,用于排除物种/样本特异性干扰,例如用“全基因组基因”作为背景)。
2. 选择数据库并提交
-
- 在网页左侧“Step 1: Enter Genes”粘贴基因列表,选择物种(默认人类,支持小鼠、大鼠、果蝇等常见模式生物);
-
- 点击“Submit”提交,系统自动完成ID转换(若输入格式不统一,会自动匹配为标准基因名);
-
- 在跳转的“Results”页面,点击左侧“Enrichment Analysis”下的目标数据库(如“GO Biological Process 2023”“KEGG Pathways 2023”),系统实时计算富集结果。
3. 解读结果(核心指标需关注)
富集结果以表格形式呈现,关键指标解读如下,需重点关注 “Adjusted P-value” 和 “Combined Score”:
结果列名 | 含义 | 解读要点 |
---|---|---|
Term | 富集到的功能/通路名称(如“GO:0006915~apoptotic process”) | 直接对应生物学意义,需优先看名称是否与研究方向相关。 |
P-value | 原始P值(Fisher精确检验计算),反映富集的统计学显著性 | P值<0.05为“显著富集”,但需结合调整后P值(避免多重检验假阳性)。 |
Adjusted P-value | 校正后的P值(常用Benjamini-Hochberg方法) | 核心指标,Adjusted P-value<0.05(或<0.01)才认为是“可靠的显著富集”。 |
Combined Score | 综合评分(= -log10(P-value) × log2(Fold Enrichment)) | 同时考虑显著性和富集倍数,Score越高,富集结果越“强”(推荐优先关注Score高的Term)。 |
Genes | 该Term中包含的输入基因(如“TP53, BAX, CASP3”) | 验证目标基因是否确实参与该功能/通路,避免“假阳性富集”(如仅1个基因匹配的Term需谨慎)。 |
三、核心优势:为何成为“富集分析首选工具”
Enrichr 能广泛应用,核心在于其数据更新及时、物种覆盖广、易用性强、结果可复现四大优势:
-
数据库更新频繁,覆盖度高
团队会定期更新整合的数据库(如每年更新GO、KEGG版本),目前已整合超过100个数据库,涵盖基础功能、通路、疾病、药物、调控等全维度,且支持“数据库版本选择”(如“GO BP 2021”“GO BP 2023”),确保结果与最新研究同步。 -
物种支持全面,满足多领域需求
除了最常用的人类(Homo sapiens) 和小鼠(Mus musculus),还支持大鼠、果蝇、斑马鱼、酵母、拟南芥等20+物种,兼顾动物实验、植物研究、微生物研究等场景。 -
零代码操作,结果可视化友好
- 无需安装软件或编写代码(如R/Python),网页端直接完成分析;
- 结果支持多种可视化导出:柱状图、点图、热图(可调整颜色、尺寸),且支持导出为PNG、SVG(矢量图,适合论文排版);
- 提供“结果链接”(可保存或分享),支持30天内重复查看或重新分析。
-
结果可复现,支持批量分析
- 每次分析会生成唯一的“Enrichr ID”,可通过该ID重现历史结果(满足科研可复现性要求);
- 支持批量输入多个基因列表(需按格式分隔),同时完成多组数据的富集分析(适合差异分组比较,如“对照组vs处理组1vs处理组2”)。
四、使用注意事项(避坑指南)
- ID格式需规范:虽支持多种ID,但尽量避免混合格式(如同时粘贴基因名和Ensembl ID),建议先用工具(如Ensembl Biomart)将ID统一为“基因名”(最通用)。
- 背景基因需合理:默认背景是“全基因组基因”,但如果研究的是“特定组织(如肝脏)”或“特定细胞系(如HeLa)”,建议上传该组织/细胞系的“表达基因列表”作为背景,减少假阳性。
- 结果需结合研究背景:避免仅依赖“Adjusted P-value<0.05”筛选结果,需结合自身研究方向(如研究癌症则优先关注“肿瘤相关通路”),同时排除“通用功能”(如“蛋白质代谢”,几乎所有基因列表都可能富集)。
- 小基因列表需谨慎:若输入基因<10个,可能因统计效力不足导致“无显著富集结果”,建议扩大基因筛选范围(如放宽差异表达基因的Fold Change阈值)。
五、典型应用场景举例
- 转录组学(RNA-seq):对差异表达基因(DEGs)做GO/KEGG富集,分析“药物处理后细胞中显著变化的通路”;
- 基因组学(ChIP-seq):对TF结合的靶基因做富集,解析“该TF调控的生物学过程”;
- 疾病研究:对“疾病相关易感基因”(如GWAS筛选的基因)做DisGeNET富集,验证“这些基因是否与目标疾病(如糖尿病)强关联”;
- 药物研发:对“药物作用靶点基因”做DGIdb富集,寻找“与该靶点相互作用的已批准药物”(用于老药新用研究)。
综上,Enrichr 是一款“上手快、功能全、结果可靠”的功能富集工具,尤其适合初学者或需要快速解读基因列表的研究者。若需更复杂的个性化分析(如自定义数据库、批量自动化分析),也可结合其提供的 API接口(支持R/Python调用)进一步拓展使用场景。