TCGA數(shù)據(jù)庫(kù)的初次了解

對(duì)于研究cancer相關(guān)的小伙伴們耗啦，相信你們?cè)诳次墨I(xiàn)的過(guò)程中，經(jīng)郴牛可以看到有些作者利用TCGA數(shù)據(jù)庫(kù)里的數(shù)據(jù)進(jìn)行分析帜讲、整合，得到很多有意思的思路椒拗。那么TCGA數(shù)據(jù)庫(kù)是個(gè)啥似将？里面有寫(xiě)什么東西？我也很好奇蚀苛，所以決定來(lái)學(xué)習(xí)一下這個(gè)數(shù)據(jù)庫(kù)的相關(guān)知識(shí)和使用在验。

這里有幾篇參考文章：
1.TCGA數(shù)據(jù)庫(kù)簡(jiǎn)介--生信修煉手冊(cè)
2.醫(yī)學(xué)生信(一) TCGA和GEO介紹
3.TCGA數(shù)據(jù)庫(kù)-腫瘤基因組圖譜

Q1：TCGA數(shù)據(jù)庫(kù)是什么？
TCGA: The Cancer Genome Atlas Program堵未。翻譯過(guò)來(lái)的意思是：癌癥基因組圖譜計(jì)劃腋舌。顧名思義，這個(gè)數(shù)據(jù)庫(kù)是收錄癌癥患者相關(guān)信息的渗蟹。目前收錄了來(lái)自20000個(gè)病人块饺，33個(gè)癌癥的數(shù)據(jù)。

官方網(wǎng)站：https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga

打開(kāi)長(zhǎng)這樣：

Q2：TCGA數(shù)據(jù)庫(kù)里都儲(chǔ)存了什么信息雌芽？
1授艰、臨床樣本信息：Biospecimen、Clinical
2世落、測(cè)序數(shù)據(jù)：RNA sequencing淮腾， MicroRNA sequencing， DNA sequencing，SNP-based platforms谷朝，Array-based DNA methylation sequencing篮灼，Reverse-phase array(RPPA)∨墙可以說(shuō)包括了基因組，轉(zhuǎn)錄組髓堪，表觀遺傳送朱，蛋白組等各個(gè)組學(xué)數(shù)據(jù)。

NOTE: 這里面不是所有的信息都可以下載的干旁，有些你可以下載到驶沼，有些卻不能。測(cè)序數(shù)據(jù)共分為四層：level1争群、level2回怜、level3、level4换薄，其中玉雾，level3、level4的數(shù)據(jù)一般都開(kāi)放下載的轻要，level1是最原始的數(shù)據(jù)复旬，level2是做了進(jìn)一步的處理的，這些數(shù)據(jù)一般是不開(kāi)放的冲泥，需要申請(qǐng)才能下載驹碍。

Q3：這個(gè)網(wǎng)站收集的數(shù)據(jù)那么多，我怎么知道應(yīng)該去哪兒找到我想要的數(shù)據(jù)凡恍？
上面簡(jiǎn)單的說(shuō)了一下這個(gè)數(shù)據(jù)庫(kù)里有什么志秃，那么這些數(shù)據(jù)應(yīng)該在哪里下載？上面的官方網(wǎng)站向下拉嚼酝，你會(huì)看到這些：

點(diǎn)擊"Access TCGA Data"這一塊浮还，然后會(huì)轉(zhuǎn)到下面這個(gè)頁(yè)面：

那么我們需要的數(shù)據(jù)都在哪里呢？

根據(jù)網(wǎng)上的教程：使用GDC在線查看TCGA數(shù)據(jù)革半，這個(gè)數(shù)據(jù)庫(kù)為了方便管理大量的數(shù)據(jù)碑定，建立了一個(gè)統(tǒng)一的數(shù)據(jù)模型，如下所示：

最高層級(jí)為program,對(duì)應(yīng)不同的數(shù)據(jù)來(lái)源又官，如TCGA, TARGET等延刘；第二層為project, 代表一系列患者對(duì)應(yīng)的；第三層為case,代表的是同一個(gè)患者的所有相關(guān)數(shù)據(jù)六敬，包括SNV, CNV碘赖，基因表達(dá)譜等多種數(shù)據(jù)，需要注意的是case和sample是一對(duì)多的關(guān)系，一個(gè)患者可以取多份樣本普泡；最后一層是每個(gè)case相關(guān)的數(shù)據(jù)播掷，即Files, 數(shù)據(jù)類型是多種多樣的，包括序列撼班，基因表達(dá)譜歧匈，SNV, CNV, 甲基化，臨床信息等多種數(shù)據(jù)砰嘁。

那么根據(jù)教程里的件炉，下面就來(lái)探索一下這個(gè)網(wǎng)站。首先試著點(diǎn)擊上面打開(kāi)的網(wǎng)頁(yè)里綠色方塊的"Projects"：

可以看到左邊有一欄可以供你選擇矮湘，那么按照課程說(shuō)的斟冕，最高級(jí)是Program，這里可以看到有TCGA缅阳、TARGET磕蛇、GENIE等等數(shù)據(jù)庫(kù)來(lái)源可以選擇。那么接下來(lái)就是projects了（Primary Site）十办，你可以選擇疾病類型秀撇，比如腎、腸向族、乳腺之類的捌袜。比如這里，我在projects里輸入的是head and neck炸枣，然后program我選擇的是TCGA數(shù)據(jù)庫(kù)虏等，那么根據(jù)我的過(guò)濾條件，得到這樣的結(jié)果：

然后點(diǎn)擊TCGA-HNSC适肠，就可以看到summary信息：

再往下拉霍衫，你會(huì)看到對(duì)應(yīng)每一種的primary site有多少例case:

Q4：大概知道了我想要的數(shù)據(jù)在哪里了，那么如何下載侯养？
還是根據(jù)課程里的走敦跌，你可以從以下3個(gè)方面來(lái)查看和篩選數(shù)據(jù)：
（1）Cases
（2）Genes
（3）Mutations
這里以case為例。剛才我找到了13個(gè)primary site的case逛揩，比如說(shuō)我只想要第一種：base of tongue的case數(shù)據(jù)柠傍。那么點(diǎn)擊"24"，會(huì)彈出下面的頁(yè)面：

點(diǎn)擊第一個(gè)case:TCGA-CV-7406：

那么在這個(gè)頁(yè)面辩稽，你可以看到一些測(cè)序的信息惧笛，在Experimental strategy一欄里。比如我對(duì)RNA-seq的信息感興趣逞泄，可以點(diǎn)開(kāi)看一下：

這里你就可以看出來(lái)患整，有些文件是open的拜效，你可以下載，而有些則是controlled的各谚，是沒(méi)法下載的紧憾，需要申請(qǐng)。那么仔細(xì)一看這些可以下載的數(shù)據(jù)昌渤，有的是htseq.count赴穗，有的是FPKM，還有的是FPKM-UQ膀息，這些都代表什么意思呢望抽？

教程里（醫(yī)學(xué)生信(一) TCGA和GEO介紹）告訴我們了，根據(jù)這張圖履婉，你就大概知道這些可以下載的數(shù)據(jù)都經(jīng)過(guò)哪些處理了：

那么知道了自己想下載的數(shù)據(jù)在哪里，你只需要點(diǎn)擊你選擇的那一行的購(gòu)物車的圖標(biāo)斟览，就可以下載啦毁腿。這是對(duì)于少量數(shù)據(jù)下載的方式，如果你需要下載特別多的數(shù)據(jù)苛茂，有另外的方法可以進(jìn)行已烤。

最后編輯于：2020.08.09 04:42:04

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

禁止轉(zhuǎn)載，如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者妓羊。

人面猴
序言：七十年代末胯究，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子躁绸，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 206,126評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件惫搏，死亡現(xiàn)場(chǎng)離奇詭異笤妙，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)淹父，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)株婴，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人暑认，你說(shuō)我怎么就攤上這事困介。” “怎么了蘸际？”我有些...
開(kāi)封第一講書(shū)人閱讀 152,445評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵座哩，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我粮彤，道長(zhǎng)八回，這世上最難降的妖魔是什么酷愧？我笑而不...
開(kāi)封第一講書(shū)人閱讀 55,185評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮缠诅，結(jié)果婚禮上溶浴，老公的妹妹穿的比我還像新娘。我一直安慰自己管引，他們只是感情好士败，可當(dāng)我...
茶點(diǎn)故事閱讀 64,178評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著褥伴，像睡著了一般谅将。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上重慢，一...
開(kāi)封第一講書(shū)人閱讀 48,970評(píng)論 1贊 284
城市分裂傳說(shuō)
那天饥臂，我揣著相機(jī)與錄音，去河邊找鬼似踱。笑死隅熙，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的核芽。我是一名探鬼主播囚戚，決...
沈念sama閱讀 38,276評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼轧简！你這毒婦竟也來(lái)了驰坊？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 36,927評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤哮独，失蹤者是張志新（化名）和其女友劉穎拳芙，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體皮璧，經(jīng)...
沈念sama閱讀 43,400評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡态鳖，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,883評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了恶导。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片浆竭。...
茶點(diǎn)故事閱讀 37,997評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖惨寿，靈堂內(nèi)的尸體忽然破棺而出邦泄，到底是詐尸還是另有隱情，我是刑警寧澤裂垦，帶...
沈念sama閱讀 33,646評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布顺囊，位于F島的核電站，受9級(jí)特大地震影響蕉拢，放射性物質(zhì)發(fā)生泄漏特碳。R本人自食惡果不足惜诚亚，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,213評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望午乓。院中可真熱鬧站宗，春花似錦、人聲如沸益愈。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,204評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)蒸其。三九已至敏释，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間摸袁，已是汗流浹背钥顽。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,423評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留靠汁，地道東北人蜂大。一個(gè)月前我還...
沈念sama閱讀 45,423評(píng)論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像膀曾，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子阳啥，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,722評(píng)論 2贊 345

TCGA數(shù)據(jù)庫(kù)的初次了解

推薦閱讀更多精彩內(nèi)容