TWAS / FUSION
FUSION 是一套用于执行转录组范围和调控组范围关联研究(TWAS 和 RWAS)的工具。它通过构建功能/分子表型的遗传成分的预测模型,并使用 GWAS 汇总统计数据预测和测试该成分与疾病的关联,目标是识别 GWAS 表型与仅在参考数据中测量的功能表型之间的关联。
1.主要功能与特点
- TWAS 方法:基于基因表达的预测模型,识别基因表达与疾病之间的关联。
- RWAS 方法:基于染色质可及性等调控组学数据,识别调控变异与疾病之间的关联。
- 预计算模型:提供来自多个研究的预计算预测模型,方便用户进行分析。
- 支持多种数据类型:包括单组织基因表达、多组织基因表达(如 GTEx v8)、跨组织表达(如 sCCA 方法)、肿瘤/正常组织表达(如 TCGA 数据)等。
- 灵活的分析流程:用户可以使用预计算的模型,也可以自行计算预测模型。
2.安装与依赖
- 软件包下载:从 GitHub 下载 FUSION 软件包。
- LD 参考数据:下载 1000 Genomes LD 参考数据。
- 依赖库:
- R 包:
optparse
、RColorBrewer
、plink2R
。 - 如果计算自己的权重,还需要
glmnet
、methods
,以及 GCTA 和 PLINK2。 - 如果使用 BSLMM,需要安装 GEMMA。
- R 包:
3.典型分析流程
- 准备 GWAS 汇总统计数据:需符合 LD-score 格式,包含 SNP、A1、A2 和 Z 分数等字段。
- 准备表达权重文件:从预计算的权重文件中选择,或自行计算权重。
- 运行 FUSION 分析:使用
FUSION.assoc_test.R
脚本,指定 GWAS 数据、权重文件、参考 LD 数据等参数。 - 结果输出:生成包含基因-疾病关联统计量(如 TWAS Z 分数和 P 值)的输出文件。
典型分析流程是使用 FUSION 工具进行转录组范围关联研究(TWAS)的标准步骤。以下是一个详细的典型分析流程,以使用 PGC(精神病基因组学联盟)精神分裂症(SCZ)GWAS 汇总统计数据和 GTEx 全血数据为例:
3.1 安装 FUSION 软件
- 从 GitHub 下载 FUSION 软件包:
wget https://github.com/gusevlab/fusion_twas/archive/master.zip unzip master.zip cd fusion_twas-master
- 下载并解压 1000 Genomes LD 参考数据:
其主要目的是:
提供 SNP 之间的连锁不平衡信息,用于基因表达预测和 GWAS 数据的匹配。
支持 IMPG 算法填补缺失的 GWAS 统计信息。
提高分析的统计效能,确保 TWAS 分析的准确性和可靠性。wget https://data.broadinstitute.org/alkesgroup/FUSION/LDREF.tar.bz2 tar xjvf LDREF.tar.bz2
- 下载并安装 plink2R 库:
目的:能够在 R 中有效地读取和处理 PLINK 文件,进而进行后续的遗传分析。wget https://github.com/gabraham/plink2R/archive/master.zip unzip master.zip
- 在 R 中安装必要的库:
install.packages(c('optparse', 'RColorBrewer')) install.packages('plink2R-master/plink2R/', repos = NULL)
3.2 准备 GWAS 汇总统计数据
- 下载 PGC 精神分裂症 GWAS 汇总统计数据:
wget https://data.broadinstitute.org/alkesgroup/FUSION/SUM/PGC2.SCZ.sumstats
3.3 准备表达权重文件
- 创建权重目录并下载 GTEx 全血表达权重:
mkdir WEIGHTS cd WEIGHTS wget https://data.broadinstitute.org/alkesgroup/FUSION/WGT/GTEx.Whole_Blood.tar.bz2 tar xjf GTEx.Whole_Blood.tar.bz2
3.4. 运行 FUSION 分析
3.4.1 检查输入文件
- 确保 GWAS 汇总统计数据符合 LD-score 格式:
- 包含
SNP
(SNP 标识符)、A1
(效应等位基因)、A2
(其他等位基因)、Z
(Z 分数)等字段。
- 包含
- 确保权重文件路径正确,权重文件格式为
*.RDat
。
3.4.2 运行 FUSION 分析脚本
- 在 FUSION 目录下运行以下命令,对第 22 号染色体进行分析:
参数说明:Rscript FUSION.assoc_test.R \ --sumstats PGC2.SCZ.sumstats \ --weights ./WEIGHTS/GTEx.Whole_Blood.pos \ --weights_dir ./WEIGHTS/ \ --ref_ld_chr ./LDREF/1000G.EUR. \ --chr 22 \ --out PGC2.SCZ.22.dat
--sumstats
:GWAS 汇总统计数据文件路径。--weights
:权重文件列表文件路径。--weights_dir
:权重文件所在目录。--ref_ld_chr
:按染色体分的 LD 参考数据文件前缀。--chr
:分析的染色体编号。--out
:输出文件路径。
3.5 分析结果解释
3.5.1 输出文件
- 输出文件
PGC2.SCZ.22.dat
包含以下内容:FILE
:权重文件路径。ID
:基因标识符。CHR
:染色体编号。P0
和P1
:基因的起始和结束位置。HSQ
:基因的遗传力。BEST.GWAS.ID
和BEST.GWAS.Z
:该基因所在区域中 GWAS 最显著的 SNP 及其 Z 分数。EQTL.ID
和EQTL.Z
:该基因所在区域中最佳 eQTL 的 SNP 及其 Z 分数。TWAS.Z
和TWAS.P
:TWAS Z 分数和 P 值,是主要的统计量。
3.5.2 结果解释
- TWAS Z 分数:表示基因表达与疾病之间的关联强度。如果 Z 分数显著(例如 P 值小于阈值),则表明基因表达与疾病之间存在显著关联。
- TWAS P 值:表示关联的显著性水平。例如,P 值小于 5e-8 表示基因表达与疾病之间的关联在全基因组水平上显著。
- 遗传力(HSQ):表示基因表达的遗传力,即基因表达的遗传变异对表型变异的贡献比例。
3.6 后处理分析
3.6.1 提取显著关联
- 提取第 22 号染色体上转录组范围显著的关联:
cat PGC2.SCZ.22.dat | awk 'NR == 1 || $NF < 0.05/2058' > PGC2.SCZ.22.top
3.6.2 进行联合/条件检验
- 使用
FUSION.post_process.R
脚本进行联合和条件检验:
参数说明:Rscript FUSION.post_process.R \ --sumstats PGC2.SCZ.sumstats \ --input PGC2.SCZ.22.top \ --out PGC2.SCZ.22.top.analysis \ --ref_ld_chr ./LDREF/1000G.EUR. \ --chr 22 \ --plot --locus_win 100000
--input
:TWAS 分析结果文件。--out
:输出文件路径。--plot
:生成可视化图表。--locus_win
:定义基因所在区域的窗口大小(以碱基对为单位)。
3.6.3 结果解释
- 联合检验:识别在同一区域内多个基因表达与疾病的联合关联。
- 条件检验:识别在控制其他基因表达后,某个基因表达与疾病的独立关联。
- 可视化图表:包括曼哈顿图、散点图等,展示 GWAS 信号与预测基因表达的关系。
3.7 进一步分析
3.7.1 细映射(Fine-mapping)
- 使用 FOCUS 方法对多个 TWAS 关联进行细映射,识别因果基因。
3.7.2 估计基因表达介导的遗传力
- 使用 MESC 工具估计疾病遗传力中由基因表达介导的部分。
3.7.3 条件显著性检验(Permutation Test)
- 使用
--perm
参数进行置换检验,评估 TWAS 关联是否由随机共定位引起。
3.7.4 多参考面板的联合检验(Omnibus Test)
- 使用
--omnibus
参数对来自多个参考面板的预测结果进行联合检验。
3.7.5 共定位分析(Colocalization Analysis)
- 使用
--coloc_P
参数与 COLOC 软件接口进行共定位分析。
4.输出结果解读
- TWAS Z 分数:表示基因表达与疾病关联的统计量,是主要关注指标。
- TWAS P 值:表示关联的显著性。
- 其他指标:包括基因的遗传力(heritability)、最佳 GWAS SNP、最佳 eQTL 等信息。
5.预计算模型下载
- 单组织基因表达:如 NTR 外周血、YFS 全血等。
- GTEx v8 多组织表达:提供多种组织的基因表达权重,分为“显著遗传力基因”和“所有基因”两种版本。
- 跨组织表达(sCCA):基于 GTEx 数据的稀疏典型相关分析(sCCA)生成的跨组织特征权重。
- TCGA 肿瘤/正常表达:基于 TCGA 数据的肿瘤 RNA-seq 数据生成的种系基因表达模型。
- 多情境(CONTENT)表达:基于 GTEx 组织和 CLUES 单细胞数据的情境特异性权重。
6.自定义权重计算
- 输入数据:需要 PLINK 格式的基因型数据(bed/bim/fam 文件)和基因表达数据。
- 运行脚本:使用
FUSION.compute_weights.R
脚本,指定输入文件、临时文件路径、输出路径等参数。 - 支持的模型:包括 BLUP、BSLMM、LASSO、Elastic Net 和 top1 等。
7.后处理分析
- 联合/条件检验:使用
FUSION.post_process.R
脚本,对 TWAS 结果进行联合检验和条件分析,识别独立的关联信号。 - 可视化:生成曼哈顿图、散点图等,展示 GWAS 信号与预测基因表达的关系。
- 其他分析:如多参考面板的联合检验(omnibus test)、与 COLOC 软件的接口进行共定位分析等。
8.常见问题解答(FAQ)
- 数据匹配:确保 GWAS 数据、权重文件和参考 LD 数据的 SNP 一致。
- LD 参考面板:可以使用自己的 LD 参考面板,但需要与权重文件的 SNP 匹配。
- 结果验证:推荐通过外部研究进行验证,或使用基因风险评分进行聚合分析。
- 效应方向解释:TWAS 效应方向表示基因表达与疾病表型的遗传协方差关系。