前序
還有1個(gè)多月就要畢業(yè)了副签,而在此之前需要順利完成自己的畢設(shè)遥椿,因?yàn)閷?duì)純生物方向一點(diǎn)也不感興趣,所以課題方向選的是生信—TCGA數(shù)據(jù)的利用淆储,雖說本科專業(yè)與生物相關(guān)冠场,但在整個(gè)大學(xué)期間基本就是在不掛科的情況下盡可能地與生物對(duì)著干,所以大學(xué)四年過后么本砰,就有一種雖學(xué)生物碴裙、但毫不懂生物的狀態(tài)。為了能夠順利拿到畢業(yè)證,經(jīng)過這段時(shí)間的“刻苦鉆研”也算是多少對(duì)于這方面有點(diǎn)了解舔株,因此特地寫個(gè)系列來鞏固一下這方面知識(shí)的掌握莺琳。
對(duì)于數(shù)據(jù)的利用的第一步就是獲取數(shù)據(jù),對(duì)于數(shù)據(jù)的下載與利用载慈,在這里我下載TCGA數(shù)據(jù)的主要方法就是通過官網(wǎng)的下載工具gdc-client進(jìn)行下載的惭等;
數(shù)據(jù)獲取到本地
1,打開在搜索欄中搜索“TCGA”,然后找到官方網(wǎng)站點(diǎn)進(jìn)去办铡,TCGA官網(wǎng)如下圖所示:
頁面下滑找到進(jìn)入數(shù)據(jù)庫入口:Access TCGA Data咕缎,點(diǎn)進(jìn)去:
2,點(diǎn)擊上面的「Repository」(倉庫)料扰,接下來就是根據(jù)自己的需要在頁面的左側(cè)的「Files」和「Cases」進(jìn)行數(shù)據(jù)篩選;
下面我列了兩張圖焙蹭,一張是TCGA數(shù)據(jù)庫中的數(shù)據(jù)類型列表晒杈,一張是關(guān)于TCGA癌癥簡稱、英文名字及中文名字:
3孔厉,數(shù)據(jù)篩選完之后網(wǎng)頁的右邊會(huì)有‘購物車’(cart)的圖案拯钻,根據(jù)自己需要,將需要的文件加入到cart中撰豺,添加方式有兩種選擇:
第一種是:「Add all files to the Cart」(將文件全部加入)粪般;
第二種是:自己想要添加哪個(gè)圖案,點(diǎn)擊左邊的“購物車”圖案即可污桦;
4亩歹,文件選擇完之后,點(diǎn)擊頁面右上角處的Cart:
5凡橱,接下來就是進(jìn)行數(shù)據(jù)下載小作,因?yàn)槲沂鞘褂霉倬W(wǎng)的工具進(jìn)行下載的所以需要下載兩個(gè)文件:
一個(gè)是「Manifest」(一個(gè)txt文本,是數(shù)據(jù)下載入口稼钩,并不是數(shù)據(jù)本身)顾稀;
一個(gè)是左邊的「Metadata」(這個(gè)下載之后是個(gè)json文件,是為了之后進(jìn)行數(shù)據(jù)清洗作準(zhǔn)備的)坝撑;
當(dāng)然也可以直接從網(wǎng)站上直接下載數(shù)據(jù)静秆,但這種方式的弊端就是不穩(wěn)定,數(shù)據(jù)中斷時(shí)無法續(xù)傳巡李;
把文件下載到本地后抚笔,是這個(gè)樣子:
6,接下在需要下載官方下載工具「gdc-client」:鏈接地址:gdc-client下載工具击儡,根據(jù)自己系統(tǒng)進(jìn)行下載即可塔沃,工具下載完之后不需要安裝就可以直接使用,但是下載數(shù)據(jù)是在命令行中進(jìn)行的,為了方便需要把安裝工具配置到系統(tǒng)中的「環(huán)境變量」
下載工具的「環(huán)境變量」配置
第一步蛀柴,找到工具所在的安裝目錄螃概,復(fù)制安裝地址:
第二步,打開電腦的控制面板鸽疾,我的是win10吊洼,直接快捷鍵:win +R 打開運(yùn)行框,輸入control即可制肮;然后點(diǎn)擊面板右上角的「大圖標(biāo)」冒窍,找到「系統(tǒng)」
第三步,進(jìn)入系統(tǒng)的面板時(shí)候點(diǎn)擊左邊的「高級(jí)系統(tǒng)配置」>「環(huán)境變量」>?「path」 >?「編輯」>「新建」豺鼻;之后就輸入第一步種復(fù)制的安裝地址综液,點(diǎn)擊確定退出即可;
第四步儒飒,就是進(jìn)行驗(yàn)證谬莹,win+R打開運(yùn)行框,輸入cmd命令進(jìn)入命令行桩了,然后在命令行中輸入「gdc-client」出現(xiàn)如下圖情況附帽,即代表環(huán)境配置成功成功;
工具下載
利用工具進(jìn)行下載井誉,打開命令行:輸入以下命令:
下載過程如下圖所示蕉扮,后續(xù)就是等待數(shù)據(jù)下載完成,
數(shù)據(jù)下載完成之后颗圣,是TCGA中的選取每一個(gè)數(shù)據(jù)txt文本分別創(chuàng)造了一個(gè)相應(yīng)的文件夾喳钟,每個(gè)文件夾中都有一個(gè)對(duì)應(yīng)的gz格式的安裝包
至此,TCGA的數(shù)據(jù)下載基本介紹完了欠啤,接下來一篇文章就是介紹數(shù)據(jù)的整合荚藻,清洗,為后續(xù)的分析做準(zhǔn)備洁段。
想要獲取更多優(yōu)質(zhì)內(nèi)容应狱,關(guān)注微信公眾號(hào) :程序員大飛;讓我們一起成長祠丝!