一逼友、下載gdc_client
可以使用wget+unzip組合下載插掂,或者直接去官網(wǎng)下載,選擇對(duì)應(yīng)版本牺荠。
https://gdc.cancer.gov/files/public/file/gdc-client_v1.6.1_OSX_x64.zip
使用wget下載時(shí)可能會(huì)出現(xiàn)網(wǎng)站安全證書有問(wèn)題的報(bào)錯(cuò)骚灸,添加--no-check-certificate重新運(yùn)行即可糟趾。
二、下載manifest、clinical文件
進(jìn)入TCGA官網(wǎng)https://protal.gdc.cancer.gov/义郑,選擇repository蝶柿。
根據(jù)需求勾選分類,先選cases非驮,再選files交汤,選好后點(diǎn)擊manifest下載。
不改變cases劫笙,清空f(shuō)iles芙扎,只勾選data category 中的clinical,和data format中的xml填大,同樣下載manifest文件戒洼。
將兩個(gè)文件都放到gdc_client所在目錄,clinical文件需要自己改一下文件名避免重名允华,或者按自己喜歡的方式命名圈浇,只要可以區(qū)分就行。
三靴寂、下載數(shù)據(jù)
cd /path to gdc_client
./gdc-client download -m gdc_manifest.2022-10-28.txt
可以打開一個(gè)結(jié)果文件夾查看磷蜀,我這里下的是mirna定量數(shù)據(jù),從左到右的列分別為id百炬,counts數(shù)蠕搜,RPM,cross-mapped收壕。
查看樣本生存情況
./gdc-client download -m gdc_manifest.2022-10-28_clinical.txt -d xml/
結(jié)果發(fā)現(xiàn)報(bào)錯(cuò),猜測(cè)可能是這一步新建了xml文件夾轨蛤,但是gdc_client沒(méi)有添加到環(huán)境變量里蜜宪,所以只能在當(dāng)前目錄使用,于是編譯環(huán)境變量祥山。圃验。。
添加環(huán)境變量前不知道自己用的是bash還是zsh的小伙伴可以切到root或者/home/manager/目錄下去找缝呕,OS系統(tǒng)的話就是~目錄澳窑。
我的是zshrc,所以:
echo 'export PATH=/path to gdc-client' >> ~.zshrc
source ~/.zshrc
一切看起來(lái)都是那么正常供常,重新運(yùn)行查看樣本生存情況一步摊聋,嗯...還是一樣的報(bào)錯(cuò)——語(yǔ)法錯(cuò)誤:無(wú)效或缺失編碼聲明...不知道什么意思,然后求助百度栈暇,竟然是因?yàn)榫W(wǎng)速/網(wǎng)絡(luò)問(wèn)題麻裁,可以選擇更換網(wǎng)絡(luò)或者在不同時(shí)間段多試幾次。。煎源。
好了色迂,那從TCGA批量下載數(shù)據(jù)就是這樣,數(shù)據(jù)量大的小伙伴手销,還需要上傳服務(wù)器歇僧,如果只需要個(gè)別project數(shù)據(jù),可以直接在官網(wǎng)篩選下載锋拖。