新版TCGA表達矩陣整理簡單版

很多人因為網(wǎng)絡(luò)原因不能使用TCGAbiolinks這個神包下載TCGA的RNA-seq數(shù)據(jù)幸海，只能通過瀏覽器訪問GDC TCGA的官網(wǎng)進行下載，而下載后得到的是一個個文件夾坡脐，對于如何整理成一個表達矩陣也是很麻煩的。

今天給大家介紹一個簡單點的方法房揭，使用TCGAbiolinks包整理你通過瀏覽器官網(wǎng)下載的rna-seq數(shù)據(jù)备闲。

下載新版TCGA的數(shù)據(jù)建議使用我之前的教程：TCGA下載和表達矩陣整理：最適合初學(xué)者的教程 - 簡書 (jianshu.com)，不然會報錯捅暴。

通常大家通過瀏覽器下載后會得到下面的這種很多個文件夾：

image.png

每個文件夾里是一個樣本的表達量數(shù)據(jù)恬砂，tsv格式的：

image.png

這時候你可以通過之前介紹過的方法得到表達矩陣：新版TCGA數(shù)據(jù)庫表達矩陣整理

但是這個方法對于新手還是不夠友好，尤其是根據(jù)Json文件匹配數(shù)據(jù)時蓬痒，但是TCGA表達量數(shù)據(jù)又是很常用的泻骤，這個操作還是很高頻的需求。

前幾天學(xué)習(xí)TCGAbiolinks包時意外發(fā)現(xiàn)梧奢，即使是手動下載的數(shù)據(jù)狱掂，只要構(gòu)建合適的路徑，也是可以通過GDCprepare()函數(shù)進行整理從而簡單的得到表達矩陣的亲轨！

TCGAbiolinks包下載的表達量數(shù)據(jù)的文件路徑是有規(guī)律的趋惨，如果你沒有特別指明，通常是位于GDCdata\TCGA-COAD\harmonized\Transcriptome_Profiling\Gene_Expression_Quantification這個路徑下的惦蚊。

這個包下載數(shù)據(jù)就是三板斧操作器虾，query,download,prepare，而且最后GDCprepare()需要的還是GDCquery()得到的對象蹦锋，因此我們完全可以通過構(gòu)建一個適合它的路徑兆沙，讓GDC_prepare()幫我們整理成表達矩陣！

比如我上面的各個樣本文件夾的路徑在我的電腦中是這樣的：G:\tcga\GDCdata\TCGA-COAD\harmonized\Transcriptome_Profiling\Gene_Expression_Quantification莉掂，我的get_expr.R腳本是放在G:\tcga這個路徑下的葛圃。

腳本內(nèi)容如下：一定要注意TCGAbiolinks包的版本！Ｎ紫妗装悲！

library(TCGAbiolinks)

## =============================================================
## ______  ___  ____   ___                                        
##   ||   |    |      |   | |    o  __  |   o  _         __         
##   ||   |    | ___  |___| |__  | |  | |   | | | | |_/ |__         
##   ||   |___ |____| |   | |__| | |__| |__ | | |_| | \  __|       
## ------------------------------------------------------------
## Query, download & analyze - GDC                  
## Version:2.25.2
## ==============================================================


# 查詢這一步是需要的！即使網(wǎng)在欄尚氛，這一步應(yīng)該可以成功的...
query <- GDCquery(project = "TCGA-COAD",
                  data.category = "Transcriptome Profiling",
                  data.type = "Gene Expression Quantification",
                  workflow.type = "STAR - Counts"
                  )
# 下載這一步就不用了诀诊，我們是通過官網(wǎng)手動下載的~
# GDCdownload(query, files.per.chunk = 100) #每次下載100個文件
  
# 整理
GDCprepare(query,save = T,save.filename = "example.rdata")

##|===============================================================================|100%   ##                   Completed after 1 m 
##Starting to add information to samples
## => Add clinical information to samples
## => Adding TCGA molecular information from marker papers
## => Information will have prefix 'paper_' 
##coad subtype information from:doi:10.1038/nature11252
##Available assays in SummarizedExperiment : 
##  => unstranded
##  => stranded_first
##  => stranded_second
##  => tpm_unstrand
##  => fpkm_unstrand
##  => fpkm_uq_unstrand
##=> Saving file: example.rdata
##=> File saved

這樣我們的數(shù)據(jù)就整理好了：

image.png

下次使用直接load即可：

rm(list = ls())
load(file = "example.rdata")

se <- data
se

class: RangedSummarizedExperiment 
dim: 60660 521 
metadata(1): data_release
assays(6): unstranded stranded_first ... fpkm_unstrand fpkm_uq_unstrand
rownames(60660): ENSG00000000003.15 ENSG00000000005.6 ... ENSG00000288674.1 ENSG00000288675.1
rowData names(10): source type ... hgnc_id havana_gene
colnames(521): TCGA-A6-5664-01A-21R-1839-07 TCGA-D5-6530-01A-11R-1723-07 ...
  TCGA-A6-2683-01A-01R-0821-07 TCGA-A6-2683-11A-01R-A32Z-07
colData names(107): barcode patient ... paper_vascular_invasion_present paper_vital_status

這個se就是我們之前介紹過的SummarizedExperiment對象，你可以對它進行各種操作阅嘶，得到counts矩陣属瓣、tpm矩陣载迄、fpkm矩陣都是小事一樁，猶如探囊取物一般簡單流暢抡蛙！詳情可參考之前的推文护昧。

關(guān)于TCGA表達矩陣提取，告訴我粗截，你還有哪里搞不定Ｍ锇摇？

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末熊昌，一起剝皮案震驚了整個濱河市绽榛，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌婿屹，老刑警劉巖灭美，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異昂利，居然都是意外死亡届腐，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門蜂奸，熙熙樓的掌柜王于貴愁眉苦臉地迎上來犁苏，“玉大人，你說我怎么就攤上這事窝撵】耍” “怎么了？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵碌奉，是天一觀的道長短曾。經(jīng)常有香客問我，道長赐劣，這世上最難降的妖魔是什么嫉拐？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮魁兼，結(jié)果婚禮上婉徘，老公的妹妹穿的比我還像新娘。我一直安慰自己咐汞，他們只是感情好盖呼，可當(dāng)我...
茶點故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著化撕，像睡著了一般几晤。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上植阴，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天蟹瘾，我揣著相機與錄音圾浅，去河邊找鬼。笑死憾朴，一個胖子當(dāng)著我的面吹牛狸捕，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播众雷，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼灸拍，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了砾省？” 一聲冷哼從身側(cè)響起株搔，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎纯蛾，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體纵隔，經(jīng)...
沈念sama閱讀 43,382評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡翻诉，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了捌刮。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片碰煌。...
茶點故事閱讀 37,989評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖绅作，靈堂內(nèi)的尸體忽然破棺而出芦圾，到底是詐尸還是另有隱情，我是刑警寧澤俄认，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布个少，位于F島的核電站，受9級特大地震影響眯杏，放射性物質(zhì)發(fā)生泄漏夜焦。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一岂贩、第九天我趴在偏房一處隱蔽的房頂上張望茫经。院中可真熱鬧，春花似錦萎津、人聲如沸卸伞。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案锉屈，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽荤傲。三九已至，卻和暖如春部念，著一層夾襖步出監(jiān)牢的瞬間弃酌，已是汗流浹背氨菇。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留妓湘，地道東北人查蓉。一個月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長得像榜贴，于是被迫代替她去往敵國和親豌研。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 42,700評論 2贊 345

新版TCGA表達矩陣整理簡單版

推薦閱讀更多精彩內(nèi)容