1.進入TCGA官網(wǎng)
https://portal.gdc.cancer.gov/
選擇repository
根據(jù)需求勾選左側(cè)的各種分類生兆,一般先選cases肌割,再選files
勾選完成后點manifest
下載臨床信息
不改變cases的選擇,清空files躬存,只勾選data category 中的clinical毯焕,和data format中的xml挽拂,同樣下載manifest文件
在后續(xù)用下載得到的miRNA表達數(shù)據(jù)結(jié)合臨床信息進行生存分析的時候有用
2.用winscp把文件傳到Ubuntu虛擬機(或服務(wù)器)上
簡略教程http://www.reibang.com/p/42ce4d56c67e
3.Ubuntu虛擬機操作
從官網(wǎng)下載GDC-client
wget https://gdc.cancer.gov/files/public/file/gdc-client_v1.6.0_Ubuntu_x64-py3.7_0.zip
#這里直接運行會有個報錯我忘記下來了垒玲,大意就是說這個網(wǎng)站安全證書有問題問你要不要繼續(xù)唱歧,如果繼續(xù)的話運行另一行命令
#按照提示改成這樣
wget --no-check-certificate https://gdc.cancer.gov/files/public/file/gdc-client_v1.6.0_Ubuntu_x64-py3.7_0.zip
然后解壓
unzip gdc-client_v1.6.0_Ubuntu_x64-py3.7_0.zip
根據(jù)提示查看使用方法
./gdc-client --help
./gdc-client download --help
從剛剛下載的manifest文件下載數(shù)據(jù)
./gdc-client download -m gdc_manifest.2020-11-13.txt
查看樣本生存情況(用臨床數(shù)據(jù))
./gdc-client download -m gdc_manifest.2020-11-13-clinical.txt -d xml/
#這里新建了一個xml目錄用來存放xml格式的臨床文件朦乏,把臨床數(shù)據(jù)下載到這個指定目錄
然后發(fā)現(xiàn)gdc沒法用球及,是因為沒有編譯到環(huán)境變量里,只能在當(dāng)前目錄使用這個命令呻疹,所以來編譯環(huán)境變量
在linux系統(tǒng)普通用戶目錄(cd /home/xxx)或root用戶目錄(cd /root)下吃引,用指令ls -al可以看到4個隱藏文件
我使用的bio-linux系統(tǒng),所以去cd /home/manager/下找
加入環(huán)境變量
echo 'export PATH=/home/manager/biotools/gdc-client' >> /home/manager/.bashrc
source /home/manager/.bashrc
但是接下來又出現(xiàn)一堆問題
查了發(fā)現(xiàn)biolinux用的是zsh而不是bash
echo $SHELL
接下來是令人崩潰的無數(shù)的踩坑填坑時間刽锤,沒有遇到此類問題的朋友不用看這段廢話了
然后應(yīng)該是把命令加入./zshrc
但是繼續(xù)往下發(fā)現(xiàn)問題越來越多
比如bash和zsh的比較啊安裝完整版的oh-my-zsh啊啥的
不知不覺已經(jīng)偏離最開始的目的很久了-镊尺。-
我只是想試試TCGA下載數(shù)據(jù)啊喂
作為退堂鼓十級表演藝術(shù)家我決定這個問題咱們先放一放……
切回普通的Ubuntu試試……
然后切回去也不是一帆風(fēng)順
我忘記了有一點
biolinux相當(dāng)于人家已經(jīng)配置好了
但我的沒有
想用winscp傳數(shù)據(jù)的時候被拒絕了
然后解決過程http://www.reibang.com/p/fd2207970cf0
OK數(shù)據(jù)傳輸問題解決了于是我開始在Ubuntu上練習(xí)上述步驟
環(huán)境變量這步又出問題了——沒有./bashrc這個隱藏文件夾?并思?庐氮?
解決辦法……還在尋找中
4.查看生存情況
$ grep -i vital_status */*xml | grep -v Alive | wc
290 3484 101636
$ grep -i vital_status */*xml|grep Alive |cut -d"." -f 3|sort -u |wc
363 363 4719