如何批量下載TCGA里的數(shù)據(jù)(gdc-client方法)

上一篇文章簡單的探索了一下怎么在TCGA數(shù)據(jù)庫里找到自己想要的數(shù)據(jù),也具體的說明了一下如何下載少量的數(shù)據(jù)锐锣。那么問題來了腌闯,如果我想下載的文件有幾十個,甚至上百上千怎么辦雕憔?總不能一個一個下載吧姿骏,所以這里講一下怎么批量下載數(shù)據(jù)。

首先還是進入TCGA的網(wǎng)站斤彼,按照上一篇文章里講的怎么過濾你想要的文件分瘦,這里舉個例子:

這里我的篩選條件是TCGA數(shù)據(jù)庫,project選擇的是TCGA-HNSC畅卓,primary site選擇base of mouth擅腰,疾病類型是squamous cell neoplasma。根據(jù)你的篩選條件篩選好后翁潘,可以看到右邊的文件列表里有好多文件趁冈,而這些并不是你都需要的。

看到好幾百的文件彈出來后不要著急拜马,因為這些文件不是所有的你都要下載渗勘。這里舉例,下載RNA-seq的FPKM標準化后的文件俩莽,這時你需要往上拉旺坠,在網(wǎng)頁的上面左上角看到有file和case的選項,像這樣:

現(xiàn)在你是在case的篩選條件里選的扮超,這時你需要點擊Files取刃,根據(jù)files的類型再篩選你想要的:

在左邊的篩選欄里,我選擇了"RNA-seq","HTseq-FPKM"出刷,然后會顯示所有符合你要求的文件了璧疗。

點擊購物車,有一個選項是:"add All files to the Cart"馁龟,選這個崩侠,就像這樣:

然后網(wǎng)頁右上角的Cart里就會顯示有22個文件,點擊進入購物車:

這里是你所有選擇的文件坷檩。點擊藍色框框里的"Download"却音,選擇Manifest:

這時會下載一個txt文件,可以看一下這個txt文件里都有什么:

這是你要下載的所有文件的信息

接下來矢炼,你需要一個軟件了系瓢,就是大名鼎鼎的gdc-client軟件,這是一個官方軟件句灌,那么在哪里下載這個軟件呢夷陋?請看這里:

網(wǎng)頁右上角部分有一個:GDC Data Transfer Tool,點擊它

找到這個:

選擇你的電腦系統(tǒng),這里我的是linux系統(tǒng)(選擇Ubuntu_x64)肌稻,其他系統(tǒng)還請自行摸索或查閱其他文章(windows系統(tǒng)請參閱:使用官方gdc-client軟件下載TCGA數(shù)據(jù)),復制下載地址匕荸,然后:

#下載
$ wget https://gdc.cancer.gov/system/files/authenticated%20user/0/gdc-client_v1.4.0_Ubuntu_x64.zip
#解壓
$ unzip gdc-client_v1.4.0_Ubuntu_x64.zip
#加入環(huán)境變量
$ echo 'export PATH=~/Downloads/gdc_client' >> ~/.bashrc
$ source ~/.bashrc

查看是否安裝完畢:

$ ./gdc-client --help
/tmp/_MEIXOjxtt/cryptography/hazmat/primitives/constant_time.py:26: CryptographyDeprecationWarning: Support for your Python version is deprecated. The next version of cryptography will remove support. Please upgrade to a 2.7.x release that supports hmac.compare_digest as soon as possible.

#這里是使用方法
usage: gdc-client [-h] [--version] {download,upload,settings} ...

The Genomic Data Commons Command Line Client

optional arguments:
  -h, --help            show this help message and exit
  --version             show program's version number and exit

#這個軟件只有三個命令
commands:
  {download,upload,settings}
                        for more information, specify -h after a command
    download            download data from the GDC
    upload              upload data to the GDC
    settings            display default settings

有了軟件爹谭,有了你剛才下載的文件列表,然后就可以下載了:

$ gdc-client download -m gdc_manifest_20191230_210713.txt -d ~/Downloads/TCGA_RNA_seq
#這里download是命令榛搔,-m的意思是下載manifest诺凡,后面接著的是你的文件列表的txt文件名稱,-d是你下載的文件要儲存的地方
#然后會彈出來一串下面這些東西
/tmp/_MEIqNAu77/cryptography/hazmat/primitives/constant_time.py:26: CryptographyDeprecationWarning: Support for your Python version is deprecated. The next version of cryptography will remove support. Please upgrade to a 2.7.x release that supports hmac.compare_digest as soon as possible.
100% [############################################################################################################] Time: 0:00:01   0.95  B/s 
100% [############################################################################################################] Time: 0:00:01   0.88  B/s 
100% [############################################################################################################] Time: 0:00:01   0.91  B/s 
100% [############################################################################################################] Time: 0:00:01   0.91  B/s 
100% [############################################################################################################] Time: 0:00:01   0.91  B/s 
100% [############################################################################################################] Time: 0:00:01   0.98  B/s 
100% [############################################################################################################] Time: 0:00:00 610.83 kB/s 
100% [############################################################################################################] Time: 0:00:00 660.70 kB/s 
100% [############################################################################################################] Time: 0:00:00 541.43 kB/s 
100% [############################################################################################################] Time: 0:00:00 721.83 kB/s 
Successfully downloaded: 22
#下載好會告訴你成功下載了多少個文件践惑,你可以看一下是不是你選擇的文件數(shù)目

當然還有其他的一些批量下載方法腹泌,有興趣的可以多了解一下,參考文章:
(1)TCGA數(shù)據(jù)庫-腫瘤基因組圖譜
(2)TCGA 數(shù)據(jù)庫
(3)TCGA下載系列教程終章

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
禁止轉載尔觉,如需轉載請通過簡信或評論聯(lián)系作者凉袱。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市侦铜,隨后出現(xiàn)的幾起案子专甩,更是在濱河造成了極大的恐慌,老刑警劉巖钉稍,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件涤躲,死亡現(xiàn)場離奇詭異,居然都是意外死亡贡未,警方通過查閱死者的電腦和手機种樱,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來俊卤,“玉大人嫩挤,你說我怎么就攤上這事●埃” “怎么了俐镐?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長哺哼。 經(jīng)常有香客問我佩抹,道長,這世上最難降的妖魔是什么取董? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任棍苹,我火速辦了婚禮,結果婚禮上茵汰,老公的妹妹穿的比我還像新娘枢里。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布栏豺。 她就那樣靜靜地躺著彬碱,像睡著了一般。 火紅的嫁衣襯著肌膚如雪奥洼。 梳的紋絲不亂的頭發(fā)上巷疼,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天,我揣著相機與錄音灵奖,去河邊找鬼嚼沿。 笑死,一個胖子當著我的面吹牛瓷患,可吹牛的內容都是我干的骡尽。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼擅编,長吁一口氣:“原來是場噩夢啊……” “哼攀细!你這毒婦竟也來了?” 一聲冷哼從身側響起爱态,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤辨图,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后肢藐,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體故河,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年吆豹,在試婚紗的時候發(fā)現(xiàn)自己被綠了鱼的。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡痘煤,死狀恐怖凑阶,靈堂內的尸體忽然破棺而出冤留,到底是詐尸還是另有隱情嘁扼,我是刑警寧澤,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布柬祠,位于F島的核電站蘸拔,受9級特大地震影響师郑,放射性物質發(fā)生泄漏。R本人自食惡果不足惜调窍,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一宝冕、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧邓萨,春花似錦地梨、人聲如沸菊卷。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽洁闰。三九已至,卻和暖如春万细,著一層夾襖步出監(jiān)牢的瞬間渴庆,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工雅镊, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人刃滓。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓仁烹,卻偏偏與公主長得像,于是被迫代替她去往敵國和親咧虎。 傳聞我的和親對象是個殘疾皇子卓缰,可洞房花燭夜當晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內容