当前位置: 首页 > news >正文

TWAS / FUSION

FUSION 是一套用于执行转录组范围和调控组范围关联研究(TWAS 和 RWAS)的工具。它通过构建功能/分子表型的遗传成分的预测模型,并使用 GWAS 汇总统计数据预测和测试该成分与疾病的关联,目标是识别 GWAS 表型与仅在参考数据中测量的功能表型之间的关联。

1.主要功能与特点

  • TWAS 方法:基于基因表达的预测模型,识别基因表达与疾病之间的关联。
  • RWAS 方法:基于染色质可及性等调控组学数据,识别调控变异与疾病之间的关联。
  • 预计算模型:提供来自多个研究的预计算预测模型,方便用户进行分析。
  • 支持多种数据类型:包括单组织基因表达、多组织基因表达(如 GTEx v8)、跨组织表达(如 sCCA 方法)、肿瘤/正常组织表达(如 TCGA 数据)等。
  • 灵活的分析流程:用户可以使用预计算的模型,也可以自行计算预测模型。

2.安装与依赖

  • 软件包下载:从 GitHub 下载 FUSION 软件包。
  • LD 参考数据:下载 1000 Genomes LD 参考数据。
  • 依赖库
    • R 包:optparseRColorBrewerplink2R
    • 如果计算自己的权重,还需要 glmnetmethods,以及 GCTA 和 PLINK2。
    • 如果使用 BSLMM,需要安装 GEMMA。

3.典型分析流程

  1. 准备 GWAS 汇总统计数据:需符合 LD-score 格式,包含 SNP、A1、A2 和 Z 分数等字段。
  2. 准备表达权重文件:从预计算的权重文件中选择,或自行计算权重。
  3. 运行 FUSION 分析:使用 FUSION.assoc_test.R 脚本,指定 GWAS 数据、权重文件、参考 LD 数据等参数。
  4. 结果输出:生成包含基因-疾病关联统计量(如 TWAS Z 分数和 P 值)的输出文件。
    典型分析流程是使用 FUSION 工具进行转录组范围关联研究(TWAS)的标准步骤。以下是一个详细的典型分析流程,以使用 PGC(精神病基因组学联盟)精神分裂症(SCZ)GWAS 汇总统计数据和 GTEx 全血数据为例:
3.1 安装 FUSION 软件
  • 从 GitHub 下载 FUSION 软件包:
    wget https://github.com/gusevlab/fusion_twas/archive/master.zip
    unzip master.zip
    cd fusion_twas-master
    
  • 下载并解压 1000 Genomes LD 参考数据:
    其主要目的是:
    提供 SNP 之间的连锁不平衡信息,用于基因表达预测和 GWAS 数据的匹配。
    支持 IMPG 算法填补缺失的 GWAS 统计信息。
    提高分析的统计效能,确保 TWAS 分析的准确性和可靠性。
    wget https://data.broadinstitute.org/alkesgroup/FUSION/LDREF.tar.bz2
    tar xjvf LDREF.tar.bz2
    
  • 下载并安装 plink2R 库:
    目的:能够在 R 中有效地读取和处理 PLINK 文件,进而进行后续的遗传分析。
    wget https://github.com/gabraham/plink2R/archive/master.zip
    unzip master.zip
    
  • 在 R 中安装必要的库:
    install.packages(c('optparse', 'RColorBrewer'))
    install.packages('plink2R-master/plink2R/', repos = NULL)
    
3.2 准备 GWAS 汇总统计数据
  • 下载 PGC 精神分裂症 GWAS 汇总统计数据:
    wget https://data.broadinstitute.org/alkesgroup/FUSION/SUM/PGC2.SCZ.sumstats
    
3.3 准备表达权重文件
  • 创建权重目录并下载 GTEx 全血表达权重:
    mkdir WEIGHTS
    cd WEIGHTS
    wget https://data.broadinstitute.org/alkesgroup/FUSION/WGT/GTEx.Whole_Blood.tar.bz2
    tar xjf GTEx.Whole_Blood.tar.bz2
    

3.4. 运行 FUSION 分析

3.4.1 检查输入文件
  • 确保 GWAS 汇总统计数据符合 LD-score 格式:
    • 包含 SNP(SNP 标识符)、A1(效应等位基因)、A2(其他等位基因)、Z(Z 分数)等字段。
  • 确保权重文件路径正确,权重文件格式为 *.RDat
3.4.2 运行 FUSION 分析脚本
  • 在 FUSION 目录下运行以下命令,对第 22 号染色体进行分析:
    Rscript FUSION.assoc_test.R \
    --sumstats PGC2.SCZ.sumstats \
    --weights ./WEIGHTS/GTEx.Whole_Blood.pos \
    --weights_dir ./WEIGHTS/ \
    --ref_ld_chr ./LDREF/1000G.EUR. \
    --chr 22 \
    --out PGC2.SCZ.22.dat
    
    参数说明:
    • --sumstats:GWAS 汇总统计数据文件路径。
    • --weights:权重文件列表文件路径。
    • --weights_dir:权重文件所在目录。
    • --ref_ld_chr:按染色体分的 LD 参考数据文件前缀。
    • --chr:分析的染色体编号。
    • --out:输出文件路径。

3.5 分析结果解释

3.5.1 输出文件
  • 输出文件 PGC2.SCZ.22.dat 包含以下内容:
    • FILE:权重文件路径。
    • ID:基因标识符。
    • CHR:染色体编号。
    • P0P1:基因的起始和结束位置。
    • HSQ:基因的遗传力。
    • BEST.GWAS.IDBEST.GWAS.Z:该基因所在区域中 GWAS 最显著的 SNP 及其 Z 分数。
    • EQTL.IDEQTL.Z:该基因所在区域中最佳 eQTL 的 SNP 及其 Z 分数。
    • TWAS.ZTWAS.P:TWAS Z 分数和 P 值,是主要的统计量。
3.5.2 结果解释
  • TWAS Z 分数:表示基因表达与疾病之间的关联强度。如果 Z 分数显著(例如 P 值小于阈值),则表明基因表达与疾病之间存在显著关联。
  • TWAS P 值:表示关联的显著性水平。例如,P 值小于 5e-8 表示基因表达与疾病之间的关联在全基因组水平上显著。
  • 遗传力(HSQ):表示基因表达的遗传力,即基因表达的遗传变异对表型变异的贡献比例。

3.6 后处理分析

3.6.1 提取显著关联
  • 提取第 22 号染色体上转录组范围显著的关联:
    cat PGC2.SCZ.22.dat | awk 'NR == 1 || $NF < 0.05/2058' > PGC2.SCZ.22.top
    
3.6.2 进行联合/条件检验
  • 使用 FUSION.post_process.R 脚本进行联合和条件检验:
    Rscript FUSION.post_process.R \
    --sumstats PGC2.SCZ.sumstats \
    --input PGC2.SCZ.22.top \
    --out PGC2.SCZ.22.top.analysis \
    --ref_ld_chr ./LDREF/1000G.EUR. \
    --chr 22 \
    --plot --locus_win 100000
    
    参数说明:
    • --input:TWAS 分析结果文件。
    • --out:输出文件路径。
    • --plot:生成可视化图表。
    • --locus_win:定义基因所在区域的窗口大小(以碱基对为单位)。
3.6.3 结果解释
  • 联合检验:识别在同一区域内多个基因表达与疾病的联合关联。
  • 条件检验:识别在控制其他基因表达后,某个基因表达与疾病的独立关联。
  • 可视化图表:包括曼哈顿图、散点图等,展示 GWAS 信号与预测基因表达的关系。

3.7 进一步分析

3.7.1 细映射(Fine-mapping)
  • 使用 FOCUS 方法对多个 TWAS 关联进行细映射,识别因果基因。
3.7.2 估计基因表达介导的遗传力
  • 使用 MESC 工具估计疾病遗传力中由基因表达介导的部分。
3.7.3 条件显著性检验(Permutation Test)
  • 使用 --perm 参数进行置换检验,评估 TWAS 关联是否由随机共定位引起。
3.7.4 多参考面板的联合检验(Omnibus Test)
  • 使用 --omnibus 参数对来自多个参考面板的预测结果进行联合检验。
3.7.5 共定位分析(Colocalization Analysis)
  • 使用 --coloc_P 参数与 COLOC 软件接口进行共定位分析。

4.输出结果解读

  • TWAS Z 分数:表示基因表达与疾病关联的统计量,是主要关注指标。
  • TWAS P 值:表示关联的显著性。
  • 其他指标:包括基因的遗传力(heritability)、最佳 GWAS SNP、最佳 eQTL 等信息。

5.预计算模型下载

  • 单组织基因表达:如 NTR 外周血、YFS 全血等。
  • GTEx v8 多组织表达:提供多种组织的基因表达权重,分为“显著遗传力基因”和“所有基因”两种版本。
  • 跨组织表达(sCCA):基于 GTEx 数据的稀疏典型相关分析(sCCA)生成的跨组织特征权重。
  • TCGA 肿瘤/正常表达:基于 TCGA 数据的肿瘤 RNA-seq 数据生成的种系基因表达模型。
  • 多情境(CONTENT)表达:基于 GTEx 组织和 CLUES 单细胞数据的情境特异性权重。

6.自定义权重计算

  • 输入数据:需要 PLINK 格式的基因型数据(bed/bim/fam 文件)和基因表达数据。
  • 运行脚本:使用 FUSION.compute_weights.R 脚本,指定输入文件、临时文件路径、输出路径等参数。
  • 支持的模型:包括 BLUP、BSLMM、LASSO、Elastic Net 和 top1 等。

7.后处理分析

  • 联合/条件检验:使用 FUSION.post_process.R 脚本,对 TWAS 结果进行联合检验和条件分析,识别独立的关联信号。
  • 可视化:生成曼哈顿图、散点图等,展示 GWAS 信号与预测基因表达的关系。
  • 其他分析:如多参考面板的联合检验(omnibus test)、与 COLOC 软件的接口进行共定位分析等。

8.常见问题解答(FAQ)

  • 数据匹配:确保 GWAS 数据、权重文件和参考 LD 数据的 SNP 一致。
  • LD 参考面板:可以使用自己的 LD 参考面板,但需要与权重文件的 SNP 匹配。
  • 结果验证:推荐通过外部研究进行验证,或使用基因风险评分进行聚合分析。
  • 效应方向解释:TWAS 效应方向表示基因表达与疾病表型的遗传协方差关系。

相关文章:

  • JDBC演进之路:从基础操作到高效连接池
  • Kubernetes生产实战(十七):负载均衡流量分发管理实战指南
  • 动态路由EIGRP的配置
  • uniapp|实现商品分类与列表数据联动,左侧菜单右侧商品列表(瀑布流、高度自动计算、多端兼容)
  • Git Github Tutorial
  • uniapp-商城-49-后台 分类数据的生成(方法加精)
  • 【大模型】使用 LLaMA-Factory 进行大模型微调:从入门到精通
  • C32-编程案例用函数封装获取两个数的较大数
  • 分书问题的递归枚举算法
  • 数据分析-图2-图像对象设置参数与子图
  • QMK键盘固件开发全解析:QMK 固件开发的最新架构和规范(2025最新版)
  • OCP开闭原则
  • Linux系列:聊一聊 SystemV 下的进程间共享内存
  • 第十八节:图像梯度与边缘检测-Scharr 算子
  • 【Pandas】pandas DataFrame corr
  • cv_area_center()
  • 【ESP32+vscode】问题记录
  • 抖音视频去水印怎么操作
  • Harness: 全流程 DevOps 解决方案,让持续集成如吃饭般简单
  • 图像处理篇---MJPEG视频流处理
  • 巴基斯坦总理:希望通过和平对话方式解决与印方问题
  • 体验中国传统文化、采购非遗文创,波兰游客走进上海市群艺馆
  • 巴基斯坦称回应挑衅,对印度发起军事行动
  • 印度外交秘书:“朱砂行动”不针对军事设施,无意升级事态
  • 菲护卫艇企图侵闯中国黄岩岛领海,南部战区:依法依规跟踪监视、警告驱离
  • 媒体起底“速成洋文凭”灰产链,专家:我们要给学历“祛魅”