新版TCGA表達矩陣整理簡單版

很多人因為網(wǎng)絡(luò)原因不能使用TCGAbiolinks這個神包下載TCGA的RNA-seq數(shù)據(jù)幸海,只能通過瀏覽器訪問GDC TCGA的官網(wǎng)進行下載,而下載后得到的是一個個文件夾坡脐,對于如何整理成一個表達矩陣也是很麻煩的。

今天給大家介紹一個簡單點的方法房揭,使用TCGAbiolinks包整理你通過瀏覽器官網(wǎng)下載的rna-seq數(shù)據(jù)备闲。

下載新版TCGA的數(shù)據(jù)建議使用我之前的教程:TCGA下載和表達矩陣整理:最適合初學(xué)者的教程 - 簡書 (jianshu.com),不然會報錯捅暴。

通常大家通過瀏覽器下載后會得到下面的這種很多個文件夾:
image.png

每個文件夾里是一個樣本的表達量數(shù)據(jù)恬砂,tsv格式的:
image.png

這時候你可以通過之前介紹過的方法得到表達矩陣:新版TCGA數(shù)據(jù)庫表達矩陣整理

但是這個方法對于新手還是不夠友好,尤其是根據(jù)Json文件匹配數(shù)據(jù)時蓬痒,但是TCGA表達量數(shù)據(jù)又是很常用的泻骤,這個操作還是很高頻的需求。

前幾天學(xué)習(xí)TCGAbiolinks包時意外發(fā)現(xiàn)梧奢,即使是手動下載的數(shù)據(jù)狱掂,只要構(gòu)建合適的路徑,也是可以通過GDCprepare()函數(shù)進行整理從而簡單的得到表達矩陣的亲轨!

TCGAbiolinks包下載的表達量數(shù)據(jù)的文件路徑是有規(guī)律的趋惨,如果你沒有特別指明,通常是位于GDCdata\TCGA-COAD\harmonized\Transcriptome_Profiling\Gene_Expression_Quantification這個路徑下的惦蚊。

這個包下載數(shù)據(jù)就是三板斧操作器虾,query,download,prepare,而且最后GDCprepare()需要的還是GDCquery()得到的對象蹦锋,因此我們完全可以通過構(gòu)建一個適合它的路徑兆沙,讓GDC_prepare()幫我們整理成表達矩陣!

比如我上面的各個樣本文件夾的路徑在我的電腦中是這樣的:G:\tcga\GDCdata\TCGA-COAD\harmonized\Transcriptome_Profiling\Gene_Expression_Quantification莉掂,我的get_expr.R腳本是放在G:\tcga這個路徑下的葛圃。

腳本內(nèi)容如下:一定要注意TCGAbiolinks包的版本!N紫妗装悲!

library(TCGAbiolinks)

## =============================================================
## ______  ___  ____   ___                                        
##   ||   |    |      |   | |    o  __  |   o  _         __         
##   ||   |    | ___  |___| |__  | |  | |   | | | | |_/ |__         
##   ||   |___ |____| |   | |__| | |__| |__ | | |_| | \  __|       
## ------------------------------------------------------------
## Query, download & analyze - GDC                  
## Version:2.25.2
## ==============================================================


# 查詢這一步是需要的!即使網(wǎng)在欄尚氛,這一步應(yīng)該可以成功的...
query <- GDCquery(project = "TCGA-COAD",
                  data.category = "Transcriptome Profiling",
                  data.type = "Gene Expression Quantification",
                  workflow.type = "STAR - Counts"
                  )
# 下載這一步就不用了诀诊,我們是通過官網(wǎng)手動下載的~
# GDCdownload(query, files.per.chunk = 100) #每次下載100個文件
  
# 整理
GDCprepare(query,save = T,save.filename = "example.rdata")

##|===============================================================================|100%   ##                   Completed after 1 m 
##Starting to add information to samples
## => Add clinical information to samples
## => Adding TCGA molecular information from marker papers
## => Information will have prefix 'paper_' 
##coad subtype information from:doi:10.1038/nature11252
##Available assays in SummarizedExperiment : 
##  => unstranded
##  => stranded_first
##  => stranded_second
##  => tpm_unstrand
##  => fpkm_unstrand
##  => fpkm_uq_unstrand
##=> Saving file: example.rdata
##=> File saved

這樣我們的數(shù)據(jù)就整理好了:
image.png

下次使用直接load即可:

rm(list = ls())
load(file = "example.rdata")

se <- data
se

class: RangedSummarizedExperiment 
dim: 60660 521 
metadata(1): data_release
assays(6): unstranded stranded_first ... fpkm_unstrand fpkm_uq_unstrand
rownames(60660): ENSG00000000003.15 ENSG00000000005.6 ... ENSG00000288674.1 ENSG00000288675.1
rowData names(10): source type ... hgnc_id havana_gene
colnames(521): TCGA-A6-5664-01A-21R-1839-07 TCGA-D5-6530-01A-11R-1723-07 ...
  TCGA-A6-2683-01A-01R-0821-07 TCGA-A6-2683-11A-01R-A32Z-07
colData names(107): barcode patient ... paper_vascular_invasion_present paper_vital_status

這個se就是我們之前介紹過的SummarizedExperiment對象,你可以對它進行各種操作阅嘶,得到counts矩陣属瓣、tpm矩陣载迄、fpkm矩陣都是小事一樁,猶如探囊取物一般簡單流暢抡蛙! 詳情可參考之前的推文护昧。

關(guān)于TCGA表達矩陣提取,告訴我粗截,你還有哪里搞不定M锇摇?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末熊昌,一起剝皮案震驚了整個濱河市绽榛,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌婿屹,老刑警劉巖灭美,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異昂利,居然都是意外死亡届腐,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門蜂奸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來犁苏,“玉大人,你說我怎么就攤上這事窝撵】耍” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵碌奉,是天一觀的道長短曾。 經(jīng)常有香客問我,道長赐劣,這世上最難降的妖魔是什么嫉拐? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮魁兼,結(jié)果婚禮上婉徘,老公的妹妹穿的比我還像新娘。我一直安慰自己咐汞,他們只是感情好盖呼,可當(dāng)我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著化撕,像睡著了一般几晤。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上植阴,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天蟹瘾,我揣著相機與錄音圾浅,去河邊找鬼。 笑死憾朴,一個胖子當(dāng)著我的面吹牛狸捕,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播众雷,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼灸拍,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了砾省?” 一聲冷哼從身側(cè)響起株搔,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎纯蛾,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體纵隔,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡翻诉,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了捌刮。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片碰煌。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖绅作,靈堂內(nèi)的尸體忽然破棺而出芦圾,到底是詐尸還是另有隱情,我是刑警寧澤俄认,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布个少,位于F島的核電站,受9級特大地震影響眯杏,放射性物質(zhì)發(fā)生泄漏夜焦。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一岂贩、第九天 我趴在偏房一處隱蔽的房頂上張望茫经。 院中可真熱鬧,春花似錦萎津、人聲如沸卸伞。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽荤傲。三九已至,卻和暖如春部念,著一層夾襖步出監(jiān)牢的瞬間弃酌,已是汗流浹背氨菇。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留妓湘,地道東北人查蓉。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像榜贴,于是被迫代替她去往敵國和親豌研。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容