TCGA数据集下载工具gdc-client下载慢解决方案
文章目录
- 前言
- gdc-client工具安装
- 数据下载步骤
- 引用链接
前言
使用TCGA数据集,一般直接下载很难成功下载,大部分需要使用官方的GDC-Client下载工具。
gdc-client工具安装
下载地址:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
下完之后,是一个压缩包,需要自己进行解压缩。解压缩之后只有一个gdc-client.exe文件。
这个时候需要打开环境变量,如下图
双击PATH之后,进入到下面页面,点击新建,输入gdc-client.exe所在的目录。
找到gdc-client.exe所在的目录,创建一个与gdc-client.exe同级的文件。
创建my-dtt-config.dtt文件,可以先写成txt的形式,用记事本打开,添加完下面的内容之后(全部复制即可)再改回dtt形式。
[download]
dir = .
save_interval = 1073741824
http_chunk_size = 4096
no_segment_md5sums =False
no_file_md5sum = False
no_verify = True
no_related_files = False
no_annotations = False
no_auto_retry = False
retry_amoumt = 6
wait_time = 25.0
latest = False
server =https://api.gdc.cancer.gov
n_processes = 4
数据下载步骤
需要去TCGA官网找到想要下载的数据集,这边以乳腺癌为例.
找到你要下载的数据集,也可以搜索栏搜索,找到之后勾选。
点击Save New Cohort,会让你输入一个名字,随便即可。
选中你刚才创建的Cohort,这边我选的是CESC。
然后点击Repository。
在这边你可以选择你想要下载的关于乳腺癌的各种数据,这边以乳腺癌的WSI为例。在右侧栏中找到下面的内容并勾选:
Experimental Strategy:Tissue Slide
Data Type:Slide Image
上面就是svs的数据集,你可以全部下载,也可以下载一部分,这边就下载2个为例。点击左侧的购物车,就会加入到队列中。
添加完之后,回到购物车,如下图。
把下载完的这个文件放到和gdc-client.exe同目录下。
然后win+R,输入cmd,打开终端。
进入到gdc-clinet.exe所在的文件夹下,输入gdc-client.exe download --config gdc-client.dtt -m gdc_manifest.txt命令行,即可下载数据集,此时这个数据集被下载到与gdc-client.exe同目录下。
此时下载的速度是很快的,不会有限制,不用科学上网,如果很慢就换个网络,我是用自己的流量测试的很快。
引用链接
https://www.jianshu.com/p/bea374ce82b3