前面小編給大家詳細介紹過TCGA這個數(shù)據(jù)庫厅贪,以及如何從這個數(shù)據(jù)庫下載羞福,合并表達譜數(shù)據(jù)幻碱。然后做差異表達分析答渔,以及構建ceRNA網(wǎng)絡关带。
最近發(fā)現(xiàn),TCGA的RNAseq數(shù)據(jù)好像更新了沼撕。應該就是在2022年4月初這幾天發(fā)生的事情宋雏。我們來看看具體有那些差別。我們還是以CHOL這套數(shù)據(jù)為例务豺,來講解一下如何下載和處理新版TCGA中的RNAseq數(shù)據(jù)磨总。miRNA的數(shù)據(jù)并沒有變化。
1.打開TCGA官網(wǎng)https://portal.gdc.cancer.gov/笼沥。在搜索框輸入chol蚪燕,選擇第一個PR(project),TCGA-CHOL
2.在跳轉的頁面中奔浅,點擊RNA-Seq后面的數(shù)字
3. 在新打開的頁面中馆纳,點擊左上角的Files
4.接下來就是不一樣的地方了,可以看到在workflow type里面沒有HTSeq-Counts了汹桦,取而代之的是STAR-Counts鲁驶。我們就選擇這個STAR-Counts。
你會發(fā)現(xiàn)STAR-Counts里面有88個文件舞骆,其中44個是Gene Expression Quantification钥弯,這是我們合并表達譜所需要的文件。剩下的44文件是Splice Junction Quantification督禽,這個主要是檢測新的轉錄本或者融合的文件寿羞。另外這44個文件屬于controlled文件,需要申請權限才能下載赂蠢。
5.勾選Gene Expression Quantification绪穆,然后點擊右邊的Add All Files to Cart。
6. 這個時候在我們的購物車(右上角)里面就會出現(xiàn)剛才選擇的44個文件虱岂。
我們需要下載這里的sample sheet玖院,點擊Sample Sheet。下載下來的文件打開內(nèi)容如下第岖,可以看到新版TCGA的counts文件的名字不再是帶有htseq.counts.gz后綴的壓縮文件难菌,變成了star_gene_counts.tsv為后綴的文本文件。
還需要下載所有的包含表達譜數(shù)據(jù)的star_gene_counts.tsv文件蔑滓。點擊Download, 點擊下拉框中的Cart郊酒。會下載一個壓縮文件遇绞。
解壓后會是44個文件夾
每個文件夾里面會有一個star_gene_counts.tsv,我們可以隨便打開一個看一下燎窘,這個文件的內(nèi)容跟老版本的完全不一樣摹闽,包含的信息更多。甚至包含了RNA類型褐健,這樣就能很容易的區(qū)分mRNA和lncRNA了付鹿,另外還包含的基因的名字,再也不用擔心ID轉換問題了蚜迅。
這里除了有STAR-counts舵匾,還有TPM,F(xiàn)PKM和FPKM_UQ谁不。這幾個數(shù)據(jù)的具體計算方法可以參考TCGA官方文檔https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/
STAR-counts的計算比較直截了當坐梯,就是有幾條reads比對到相應的基因上面,counts就是幾刹帕。
TPM吵血,F(xiàn)PKM和FPKM_UQ的定義如下。
FPKM
The fragments per kilobase of transcript per million mapped reads (FPKM) calculation aims to control for transcript length and overall sequencing quantity.
Upper Quartile FPKM
The upper quartile FPKM (FPKM-UQ) is a modified FPKM calculation in which the protein coding gene in the 75th percentile position is substituted for the sequencing quantity. This is thought to provide a more stable value than including the noisier genes at the extremes.
TPM
The transcripts per million calculation is similar to FPKM, but the difference is that all transcripts are normalized for length first. Then, instead of using the total overall read count as a normalization for size, the sum of the length-normalized transcript values are used as an indicator of size.
TPM轩拨,F(xiàn)PKM和FPKM_UQ的計算方法如下践瓷。
官網(wǎng)上還給出了詳細的例子來幫助大家理解計算過程
Examples
Sample 1: Gene A
Gene length: 3,000 bp
1,000 reads mapped to Gene A
1,000,000 reads mapped to all protein-coding regions
Read count in Sample 1 for 75th percentile gene: 2,000
Number of protein coding genes on autosomes: 19,029
Sum of length-normalized transcript counts: 9,000,000
FPKM for Gene A = 1,000 * 10^9 / (3,000 * 50,000,000) = 6.67
FPKM-UQ for Gene A = 1,000) * 10^9 / (3,000 * 2,000 * 19,029) = 8.76
TPM for Gene A = (1,000 * 1,000 / 3,000) * 1,000,000 / (9,000,000) = 37.04
今天的分享就先到這里院喜,后面我們會給大家介紹如何合并新版本TCGA數(shù)據(jù)庫中的counts得到表達譜矩陣亡蓉。