1. 什么是TCGA?TCGA中有哪些數(shù)據(jù)野宜?
TCGA的全稱是The Cancer Genome Atlas, 這個(gè)項(xiàng)目始于2005年扫步,它旨在使用基因測序和生物信息學(xué)編目與癌癥有關(guān)的基因突變。TCGA通過利用高通量基因組分析技術(shù)匈子,來幫助我們更好地理解癌癥的遺傳學(xué)基礎(chǔ)河胎,從而提升我們對于癌癥的診斷能力和對癌癥的治療、預(yù)防虎敦。
TCGA受美國癌癥研究所(National Cancer Institute)下的癌癥基因組中心和美國人類基因組研究所監(jiān)管游岳。
TCGA包括主要進(jìn)行測序的基因組表征中心(genome characterization centers, GCCs)和負(fù)責(zé)測序數(shù)據(jù)分析的基因組數(shù)據(jù)分析中心(genome data analysis centers, GDACs)政敢,到目前為止TCGA共有39種癌癥的相關(guān)測序數(shù)據(jù),涉及29種癌癥器官胚迫,1萬多個(gè)腫瘤樣本喷户,27萬多份文件。
2. 那么可以從TCGA中下載到哪些類型的數(shù)據(jù)呢访锻?
TCGA的數(shù)據(jù)類型主要有以下幾種:
(1) Clinical: 包括病人的一般情況褪尝、診治情況、TNM分期期犬、腫瘤病理河哑、生存情況等。
(2) mRNA表達(dá)數(shù)據(jù): 通過mRNA芯片或者RNAseq測得的mRNA表達(dá)量
(3)microRNA: microRNA芯片或者microRNA-Seq測得的microRNA表達(dá)量
(4) Copy number variation: SNP芯片得到的腫瘤組織比對正常組織的染色體上各片段的比值
(5) Mutation: 腫瘤組織測序結(jié)果相對參考基因組的核苷酸突變龟虎,包括插入和缺失等變化
(6) Protein: 蛋白芯片測序得到的約200種常見癌癥相關(guān)蛋白的表達(dá)量
(7) Mythelation: 甲基化芯片測得的DNA甲基化數(shù)據(jù)璃谨,主要為27和450兩種芯片的數(shù)據(jù)
其中mRNA-Seq,miRNA-Seq以及Methylation Array被廣泛使用鲤妥。
3.mRNA-Seq數(shù)據(jù)分為3種:
HTSeq-Counts睬罗;HTSeq-FPKM;HTSeq-FPKM-UQ旭斥。
前兩個(gè)比較好理解容达,第三個(gè)跟第二個(gè)的區(qū)別在于不同的標(biāo)準(zhǔn)化方法,公式可參考https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/
4.TCGA數(shù)據(jù)等級:
level1:原始數(shù)據(jù)
level2:處理過的數(shù)據(jù)
level3:經(jīng)過分割垂券、解釋的數(shù)據(jù)
level4:感興趣的區(qū)域或概要
總而言之花盐,前面2個(gè)層級的數(shù)據(jù)一般是拿不到的,需要權(quán)限菇爪,一般也只有國外的PI才能申請到(聽說的)算芯,我們一般拿到的open數(shù)據(jù)就屬于那種已經(jīng)標(biāo)準(zhǔn)化后的數(shù)據(jù)。
5.TCGA樣本分類:
除了要知道數(shù)據(jù)等級外凳宙,我們還需要了解TCGA的樣本分類熙揍,比如哪個(gè)是正常樣本,哪個(gè)是腫瘤樣本
一般我們可以看到樣品名稱如:TCGA-19-2619-10A氏涩,我們需要關(guān)注的是最后一位10A届囚,一般來說01代表癌癥樣本,11代表癌旁樣本是尖。其實(shí)從01-09是tumor意系,癌癥樣本;10-29是normal饺汹,癌旁樣本蛔添。只是其中分的比較細(xì)。具體可參考官網(wǎng)