TCGA數(shù)據(jù)庫悄咪咪更新了—RNAseq沒有HTSeq-Counts了

前面小編給大家詳細介紹過TCGA這個數(shù)據(jù)庫厅贪,以及如何從這個數(shù)據(jù)庫下載羞福,合并表達譜數(shù)據(jù)幻碱。然后做差異表達分析答渔,以及構建ceRNA網(wǎng)絡关带。

?如何合并TCGA表達譜數(shù)據(jù)

?零代碼合并TCGA表達譜數(shù)據(jù)

?零代碼TCGA差異表達分析

?R代碼TCGA差異表達分析

?一文掌握ceRNA網(wǎng)絡構建

最近發(fā)現(xiàn),TCGA的RNAseq數(shù)據(jù)好像更新了沼撕。應該就是在2022年4月初這幾天發(fā)生的事情宋雏。我們來看看具體有那些差別。我們還是以CHOL這套數(shù)據(jù)為例务豺,來講解一下如何下載和處理新版TCGA中的RNAseq數(shù)據(jù)磨总。miRNA的數(shù)據(jù)并沒有變化。

1.打開TCGA官網(wǎng)https://portal.gdc.cancer.gov/笼沥。在搜索框輸入chol蚪燕,選擇第一個PR(project),TCGA-CHOL

2.在跳轉的頁面中奔浅,點擊RNA-Seq后面的數(shù)字

3. 在新打開的頁面中馆纳,點擊左上角的Files

4.接下來就是不一樣的地方了,可以看到在workflow type里面沒有HTSeq-Counts了汹桦,取而代之的是STAR-Counts鲁驶。我們就選擇這個STAR-Counts。

你會發(fā)現(xiàn)STAR-Counts里面有88個文件舞骆,其中44個是Gene Expression Quantification钥弯,這是我們合并表達譜所需要的文件。剩下的44文件是Splice Junction Quantification督禽,這個主要是檢測新的轉錄本或者融合的文件寿羞。另外這44個文件屬于controlled文件,需要申請權限才能下載赂蠢。

5.勾選Gene Expression Quantification绪穆,然后點擊右邊的Add All Files to Cart。

6. 這個時候在我們的購物車(右上角)里面就會出現(xiàn)剛才選擇的44個文件虱岂。

我們需要下載這里的sample sheet玖院,點擊Sample Sheet。下載下來的文件打開內(nèi)容如下第岖,可以看到新版TCGA的counts文件的名字不再是帶有htseq.counts.gz后綴的壓縮文件难菌,變成了star_gene_counts.tsv為后綴的文本文件。

還需要下載所有的包含表達譜數(shù)據(jù)的star_gene_counts.tsv文件蔑滓。點擊Download, 點擊下拉框中的Cart郊酒。會下載一個壓縮文件遇绞。

解壓后會是44個文件夾

每個文件夾里面會有一個star_gene_counts.tsv,我們可以隨便打開一個看一下燎窘,這個文件的內(nèi)容跟老版本的完全不一樣摹闽,包含的信息更多。甚至包含了RNA類型褐健,這樣就能很容易的區(qū)分mRNA和lncRNA了付鹿,另外還包含的基因的名字,再也不用擔心ID轉換問題了蚜迅。

這里除了有STAR-counts舵匾,還有TPM,F(xiàn)PKM和FPKM_UQ谁不。這幾個數(shù)據(jù)的具體計算方法可以參考TCGA官方文檔https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/
STAR-counts的計算比較直截了當坐梯,就是有幾條reads比對到相應的基因上面,counts就是幾刹帕。

TPM吵血,F(xiàn)PKM和FPKM_UQ的定義如下。

FPKM 
The fragments per kilobase of transcript per million mapped reads (FPKM) calculation aims to control for transcript length and overall sequencing quantity.

Upper Quartile FPKM 
The upper quartile FPKM (FPKM-UQ) is a modified FPKM calculation in which the protein coding gene in the 75th percentile position is substituted for the sequencing quantity. This is thought to provide a more stable value than including the noisier genes at the extremes.

TPM 
The transcripts per million calculation is similar to FPKM, but the difference is that all transcripts are normalized for length first. Then, instead of using the total overall read count as a normalization for size, the sum of the length-normalized transcript values are used as an indicator of size.

TPM轩拨,F(xiàn)PKM和FPKM_UQ的計算方法如下践瓷。

官網(wǎng)上還給出了詳細的例子來幫助大家理解計算過程

Examples 
Sample 1: Gene A

Gene length: 3,000 bp
1,000 reads mapped to Gene A
1,000,000 reads mapped to all protein-coding regions
Read count in Sample 1 for 75th percentile gene: 2,000
Number of protein coding genes on autosomes: 19,029
Sum of length-normalized transcript counts: 9,000,000
FPKM for Gene A = 1,000 * 10^9 / (3,000 * 50,000,000) = 6.67

FPKM-UQ for Gene A = 1,000) * 10^9 / (3,000 * 2,000 * 19,029) = 8.76

TPM for Gene A = (1,000 * 1,000 / 3,000) * 1,000,000 / (9,000,000) = 37.04

今天的分享就先到這里院喜,后面我們會給大家介紹如何合并新版本TCGA數(shù)據(jù)庫中的counts得到表達譜矩陣亡蓉。

TCGA數(shù)據(jù)庫悄咪咪更新了—RNAseq沒有HTSeq-Counts了

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市喷舀,隨后出現(xiàn)的幾起案子砍濒,更是在濱河造成了極大的恐慌,老刑警劉巖硫麻,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件爸邢,死亡現(xiàn)場離奇詭異,居然都是意外死亡拿愧,警方通過查閱死者的電腦和手機杠河,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來浇辜,“玉大人券敌,你說我怎么就攤上這事×螅” “怎么了待诅?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長熊镣。 經(jīng)常有香客問我卑雁,道長募书,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任测蹲,我火速辦了婚禮莹捡,結果婚禮上,老公的妹妹穿的比我還像新娘弛房。我一直安慰自己道盏,他們只是感情好,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布文捶。 她就那樣靜靜地躺著荷逞,像睡著了一般。 火紅的嫁衣襯著肌膚如雪粹排。 梳的紋絲不亂的頭發(fā)上种远,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機與錄音顽耳,去河邊找鬼坠敷。 笑死,一個胖子當著我的面吹牛射富,可吹牛的內(nèi)容都是我干的膝迎。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼胰耗,長吁一口氣:“原來是場噩夢啊……” “哼限次!你這毒婦竟也來了?” 一聲冷哼從身側響起柴灯,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤卖漫,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后赠群,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體羊始,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年查描,在試婚紗的時候發(fā)現(xiàn)自己被綠了突委。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡冬三,死狀恐怖匀油,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情长豁,我是刑警寧澤钧唐,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站匠襟,受9級特大地震影響钝侠,放射性物質發(fā)生泄漏该园。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一帅韧、第九天 我趴在偏房一處隱蔽的房頂上張望里初。 院中可真熱鬧,春花似錦忽舟、人聲如沸双妨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽刁品。三九已至,卻和暖如春浩姥,著一層夾襖步出監(jiān)牢的瞬間挑随,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工勒叠, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留兜挨,地道東北人。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓眯分,卻偏偏與公主長得像拌汇,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子弊决,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容