對(duì)于研究cancer相關(guān)的小伙伴們耗啦,相信你們?cè)诳次墨I(xiàn)的過(guò)程中,經(jīng)郴牛可以看到有些作者利用TCGA數(shù)據(jù)庫(kù)里的數(shù)據(jù)進(jìn)行分析帜讲、整合,得到很多有意思的思路椒拗。那么TCGA數(shù)據(jù)庫(kù)是個(gè)啥似将?里面有寫(xiě)什么東西?我也很好奇蚀苛,所以決定來(lái)學(xué)習(xí)一下這個(gè)數(shù)據(jù)庫(kù)的相關(guān)知識(shí)和使用在验。
這里有幾篇參考文章:
1.TCGA數(shù)據(jù)庫(kù)簡(jiǎn)介--生信修煉手冊(cè)
2.醫(yī)學(xué)生信(一) TCGA和GEO介紹
3.TCGA數(shù)據(jù)庫(kù)-腫瘤基因組圖譜
Q1:TCGA數(shù)據(jù)庫(kù)是什么?
TCGA: The Cancer Genome Atlas Program堵未。 翻譯過(guò)來(lái)的意思是:癌癥基因組圖譜計(jì)劃腋舌。顧名思義,這個(gè)數(shù)據(jù)庫(kù)是收錄癌癥患者相關(guān)信息的渗蟹。目前收錄了來(lái)自20000個(gè)病人块饺,33個(gè)癌癥的數(shù)據(jù)。
官方網(wǎng)站:https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga
打開(kāi)長(zhǎng)這樣:
Q2:TCGA數(shù)據(jù)庫(kù)里都儲(chǔ)存了什么信息雌芽?
1授艰、臨床樣本信息:Biospecimen、Clinical
2世落、測(cè)序數(shù)據(jù):RNA sequencing淮腾, MicroRNA sequencing, DNA sequencing,SNP-based platforms谷朝,Array-based DNA methylation sequencing篮灼,Reverse-phase array(RPPA)∨墙可以說(shuō)包括了基因組,轉(zhuǎn)錄組髓堪,表觀遺傳送朱,蛋白組等各個(gè)組學(xué)數(shù)據(jù)。
NOTE: 這里面不是所有的信息都可以下載的干旁,有些你可以下載到驶沼,有些卻不能。測(cè)序數(shù)據(jù)共分為四層:level1争群、level2回怜、level3、level4换薄,其中玉雾,level3、level4的數(shù)據(jù)一般都開(kāi)放下載的轻要,level1是最原始的數(shù)據(jù)复旬,level2是做了進(jìn)一步的處理的,這些數(shù)據(jù)一般是不開(kāi)放的冲泥,需要申請(qǐng)才能下載驹碍。
Q3:這個(gè)網(wǎng)站收集的數(shù)據(jù)那么多,我怎么知道應(yīng)該去哪兒找到我想要的數(shù)據(jù)凡恍?
上面簡(jiǎn)單的說(shuō)了一下這個(gè)數(shù)據(jù)庫(kù)里有什么志秃,那么這些數(shù)據(jù)應(yīng)該在哪里下載?上面的官方網(wǎng)站向下拉嚼酝,你會(huì)看到這些:
點(diǎn)擊"Access TCGA Data"這一塊浮还,然后會(huì)轉(zhuǎn)到下面這個(gè)頁(yè)面:
那么我們需要的數(shù)據(jù)都在哪里呢?
根據(jù)網(wǎng)上的教程:使用GDC在線查看TCGA數(shù)據(jù)革半, 這個(gè)數(shù)據(jù)庫(kù)為了方便管理大量的數(shù)據(jù)碑定,建立了一個(gè)統(tǒng)一的數(shù)據(jù)模型,如下所示:
最高層級(jí)為program,對(duì)應(yīng)不同的數(shù)據(jù)來(lái)源又官,如TCGA, TARGET等延刘;第二層為project, 代表一系列患者對(duì)應(yīng)的;第三層為case,代表的是同一個(gè)患者的所有相關(guān)數(shù)據(jù)六敬,包括SNV, CNV碘赖,基因表達(dá)譜等多種數(shù)據(jù),需要注意的是case和sample是一對(duì)多的關(guān)系,一個(gè)患者可以取多份樣本普泡;最后一層是每個(gè)case相關(guān)的數(shù)據(jù)播掷,即Files, 數(shù)據(jù)類型是多種多樣的,包括序列撼班,基因表達(dá)譜歧匈,SNV, CNV, 甲基化,臨床信息等多種數(shù)據(jù)砰嘁。
那么根據(jù)教程里的件炉,下面就來(lái)探索一下這個(gè)網(wǎng)站。首先試著點(diǎn)擊上面打開(kāi)的網(wǎng)頁(yè)里綠色方塊的"Projects":
可以看到左邊有一欄可以供你選擇矮湘,那么按照課程說(shuō)的斟冕,最高級(jí)是Program,這里可以看到有TCGA缅阳、TARGET磕蛇、GENIE等等數(shù)據(jù)庫(kù)來(lái)源可以選擇。那么接下來(lái)就是projects了(Primary Site)十办,你可以選擇疾病類型秀撇,比如腎、腸向族、乳腺之類的捌袜。比如這里,我在projects里輸入的是head and neck炸枣,然后program我選擇的是TCGA數(shù)據(jù)庫(kù)虏等,那么根據(jù)我的過(guò)濾條件,得到這樣的結(jié)果:
然后點(diǎn)擊TCGA-HNSC适肠,就可以看到summary信息:
再往下拉霍衫,你會(huì)看到對(duì)應(yīng)每一種的primary site有多少例case:
Q4:大概知道了我想要的數(shù)據(jù)在哪里了,那么如何下載侯养?
還是根據(jù)課程里的走敦跌,你可以從以下3個(gè)方面來(lái)查看和篩選數(shù)據(jù):
(1)Cases
(2)Genes
(3)Mutations
這里以case為例。剛才我找到了13個(gè)primary site的case逛揩,比如說(shuō)我只想要第一種:base of tongue的case數(shù)據(jù)柠傍。那么點(diǎn)擊"24",會(huì)彈出下面的頁(yè)面:
點(diǎn)擊第一個(gè)case:TCGA-CV-7406:
那么在這個(gè)頁(yè)面辩稽,你可以看到一些測(cè)序的信息惧笛,在Experimental strategy一欄里。比如我對(duì)RNA-seq的信息感興趣逞泄,可以點(diǎn)開(kāi)看一下:
這里你就可以看出來(lái)患整,有些文件是open的拜效,你可以下載,而有些則是controlled的各谚,是沒(méi)法下載的紧憾,需要申請(qǐng)。那么仔細(xì)一看這些可以下載的數(shù)據(jù)昌渤,有的是htseq.count赴穗,有的是FPKM,還有的是FPKM-UQ膀息,這些都代表什么意思呢望抽?
教程里(醫(yī)學(xué)生信(一) TCGA和GEO介紹)告訴我們了,根據(jù)這張圖履婉,你就大概知道這些可以下載的數(shù)據(jù)都經(jīng)過(guò)哪些處理了:
那么知道了自己想下載的數(shù)據(jù)在哪里,你只需要點(diǎn)擊你選擇的那一行的購(gòu)物車的圖標(biāo)斟览,就可以下載啦毁腿。這是對(duì)于少量數(shù)據(jù)下載的方式,如果你需要下載特別多的數(shù)據(jù)苛茂,有另外的方法可以進(jìn)行已烤。