上一篇文章簡單的探索了一下怎么在TCGA數(shù)據(jù)庫里找到自己想要的數(shù)據(jù),也具體的說明了一下如何下載少量的數(shù)據(jù)锐锣。那么問題來了腌闯,如果我想下載的文件有幾十個,甚至上百上千怎么辦雕憔?總不能一個一個下載吧姿骏,所以這里講一下怎么批量下載數(shù)據(jù)。
首先還是進入TCGA的網(wǎng)站斤彼,按照上一篇文章里講的怎么過濾你想要的文件分瘦,這里舉個例子:
看到好幾百的文件彈出來后不要著急拜马,因為這些文件不是所有的你都要下載渗勘。這里舉例,下載RNA-seq的FPKM標準化后的文件俩莽,這時你需要往上拉旺坠,在網(wǎng)頁的上面左上角看到有file和case的選項,像這樣:
現(xiàn)在你是在case的篩選條件里選的扮超,這時你需要點擊Files取刃,根據(jù)files的類型再篩選你想要的:
在左邊的篩選欄里,我選擇了"RNA-seq","HTseq-FPKM"出刷,然后會顯示所有符合你要求的文件了璧疗。
點擊購物車,有一個選項是:"add All files to the Cart"馁龟,選這個崩侠,就像這樣:
然后網(wǎng)頁右上角的Cart里就會顯示有22個文件,點擊進入購物車:
這里是你所有選擇的文件坷檩。點擊藍色框框里的"Download"却音,選擇Manifest:
這時會下載一個txt文件,可以看一下這個txt文件里都有什么:
接下來矢炼,你需要一個軟件了系瓢,就是大名鼎鼎的gdc-client軟件,這是一個官方軟件句灌,那么在哪里下載這個軟件呢夷陋?請看這里:
找到這個:
選擇你的電腦系統(tǒng),這里我的是linux系統(tǒng)(選擇Ubuntu_x64)肌稻,其他系統(tǒng)還請自行摸索或查閱其他文章(windows系統(tǒng)請參閱:使用官方gdc-client軟件下載TCGA數(shù)據(jù)),復制下載地址匕荸,然后:
#下載
$ wget https://gdc.cancer.gov/system/files/authenticated%20user/0/gdc-client_v1.4.0_Ubuntu_x64.zip
#解壓
$ unzip gdc-client_v1.4.0_Ubuntu_x64.zip
#加入環(huán)境變量
$ echo 'export PATH=~/Downloads/gdc_client' >> ~/.bashrc
$ source ~/.bashrc
查看是否安裝完畢:
$ ./gdc-client --help
/tmp/_MEIXOjxtt/cryptography/hazmat/primitives/constant_time.py:26: CryptographyDeprecationWarning: Support for your Python version is deprecated. The next version of cryptography will remove support. Please upgrade to a 2.7.x release that supports hmac.compare_digest as soon as possible.
#這里是使用方法
usage: gdc-client [-h] [--version] {download,upload,settings} ...
The Genomic Data Commons Command Line Client
optional arguments:
-h, --help show this help message and exit
--version show program's version number and exit
#這個軟件只有三個命令
commands:
{download,upload,settings}
for more information, specify -h after a command
download download data from the GDC
upload upload data to the GDC
settings display default settings
有了軟件爹谭,有了你剛才下載的文件列表,然后就可以下載了:
$ gdc-client download -m gdc_manifest_20191230_210713.txt -d ~/Downloads/TCGA_RNA_seq
#這里download是命令榛搔,-m的意思是下載manifest诺凡,后面接著的是你的文件列表的txt文件名稱,-d是你下載的文件要儲存的地方
#然后會彈出來一串下面這些東西
/tmp/_MEIqNAu77/cryptography/hazmat/primitives/constant_time.py:26: CryptographyDeprecationWarning: Support for your Python version is deprecated. The next version of cryptography will remove support. Please upgrade to a 2.7.x release that supports hmac.compare_digest as soon as possible.
100% [############################################################################################################] Time: 0:00:01 0.95 B/s
100% [############################################################################################################] Time: 0:00:01 0.88 B/s
100% [############################################################################################################] Time: 0:00:01 0.91 B/s
100% [############################################################################################################] Time: 0:00:01 0.91 B/s
100% [############################################################################################################] Time: 0:00:01 0.91 B/s
100% [############################################################################################################] Time: 0:00:01 0.98 B/s
100% [############################################################################################################] Time: 0:00:00 610.83 kB/s
100% [############################################################################################################] Time: 0:00:00 660.70 kB/s
100% [############################################################################################################] Time: 0:00:00 541.43 kB/s
100% [############################################################################################################] Time: 0:00:00 721.83 kB/s
Successfully downloaded: 22
#下載好會告訴你成功下載了多少個文件践惑,你可以看一下是不是你選擇的文件數(shù)目
當然還有其他的一些批量下載方法腹泌,有興趣的可以多了解一下,參考文章:
(1)TCGA數(shù)據(jù)庫-腫瘤基因組圖譜
(2)TCGA 數(shù)據(jù)庫
(3)TCGA下載系列教程終章