TCGA數(shù)據(jù)庫下載整理FPKM格式數(shù)據(jù)

第一步:進(jìn)入TCGA官網(wǎng)下載數(shù)據(jù)

  • 網(wǎng)址:https://portal.gdc.cancer.gov

  • 進(jìn)入官網(wǎng)數(shù)據(jù)下載界面后,點(diǎn)擊Repository


    TCGA數(shù)據(jù)下載界面
  • 在Files和Cases兩個(gè)界面中選擇自己需要的數(shù)據(jù)


  • FPKM數(shù)據(jù)格式在Workflow選項(xiàng)中選擇


  • 選擇完數(shù)據(jù)后,點(diǎn)擊Add All Files to Cart


  • 點(diǎn)擊右上角的Cart匾委,Cart旁邊的數(shù)字表示我們選擇了多少個(gè)樣本的數(shù)據(jù)


  • 點(diǎn)擊Download按鈕然后出來兩個(gè)選項(xiàng)赂乐,Manifest表示使用GDC Data Transfer Tool讀取Manifest文件下載數(shù)據(jù)咖气,Cart表示直接通過瀏覽器鏈接下載數(shù)據(jù)崩溪。同時(shí)還需要點(diǎn)擊Metadata按鈕,下載Metadata文件
    注:GDC Data Transfer Tool下載數(shù)據(jù)方法見 http://www.reibang.com/p/f4e92d226e6d

第二步:使用R合成表達(dá)矩陣

  • 下載下來數(shù)據(jù)是很多個(gè)文件夾觉既,每個(gè)文件夾是一個(gè)樣本的數(shù)據(jù)瞪讼,因此文件夾個(gè)數(shù)應(yīng)該等于Cart中的個(gè)數(shù)粹断,如果不等瓶埋,代表我們下載數(shù)據(jù)時(shí)有丟失。我們將所有的數(shù)據(jù)文件夾拷貝到一個(gè)文件夾中曾撤,命名為rawdata
  • 在R中處理晕粪,代碼如下:
rm(list = ls())
options(stringsAsFactors = F)
#我們自己設(shè)置好工作路徑,然后將rawdata文件夾拷貝到工作路徑下
dir.create("all_data")
for (dirname in dir("rawdata/")){  
  file <- list.files(paste0(getwd(),"/rawdata/",dirname),pattern = "*.FPKM")  
  file.copy(paste0(getwd(),"/rawdata/",dirname,"/",file),"all_data")  
}
dir.create("unpacked_FPKM")
#所有樣本的單個(gè)文件都拷貝在了all_data文件夾中尖啡,但是這些文件都是壓縮格式的,然后使用解壓縮軟件將所有壓縮文件統(tǒng)一解壓縮到unpacked_FPKM文件夾中
metadata <- jsonlite::fromJSON("metadata.cart.2020-04-24.json")
require(dplyr)
metadata_id <- metadata %>% 
  dplyr::select(c(file_name,associated_entities)) 
naid_df <- data.frame()
for (i in 1:nrow(metadata)){
  naid_df[i,1] <- substr(metadata_id$file_name[i],1,nchar(metadata_id$file_name[i])-3)
  naid_df[i,2] <- metadata_id$associated_entities[i][[1]]$entity_submitter_id
}
colnames(naid_df) <- c("filename","TCGA_id")
#naid_df儲存了文件名和TCGA_id的對應(yīng)關(guān)系
files <- dir("unpacked_FPKM")
myfread <- function(files){
  data.table::fread(paste0("unpacked_FPKM/",files))[,2]
}
f <- lapply(files,myfread)
f <- do.call(cbind,f)
rownames(naid_df) <- naid_df[,1]
naid_df <- naid_df[files,]
colnames(f) <- naid_df$TCGA_id
gene_id <- data.table::fread(paste0("unpacked_FPKM/",files[1]))$V1
expr_df <- cbind(gene_id=gene_id,f)
save(expr_df,naid_df,file = "FPKM_ENSG_exprdf.Rdata") 

第三步:將ensembl數(shù)據(jù)庫的ENSG編號轉(zhuǎn)換成gene symbol

  • 在ensembl數(shù)據(jù)庫中下載數(shù)據(jù)剩膘,網(wǎng)址:http://asia.ensembl.org/index.html
    ensembl數(shù)據(jù)庫官網(wǎng)
  • 點(diǎn)擊Downloads→databases→Human選項(xiàng)中的GTF



  • 下載圖示文件


  • R中處理:
rm(list=ls())
options(stringsAsFactors = F)
gtf<-rtracklayer::import('Homo_sapiens.GRCh38.100.chr.gtf')
gtf_df <- as.data.frame(gtf)
save(gtf_df,file = "gtf_df.Rdata")
load("FPKM_ENSG_exprdf.Rdata")
metadata <- naid_df[,-1]
metadata<-data.frame(TCGA_id=metadata)
require(dplyr)
require(tidyr)
expr_df_nopoint <- expr_df %>% 
  tidyr::separate(gene_id,into = c("gene_id"),sep="\\.")
#提取蛋白編碼基因
mRNA_exprSet <- gtf_df %>% 
   dplyr::filter(type=="gene",gene_biotype=="protein_coding") %>%
   dplyr::select(c(gene_name,gene_id,gene_biotype)) %>% 
   dplyr::inner_join(expr_df_nopoint,by ="gene_id") %>% 
   tidyr::unite(gene_id,gene_name,gene_id,gene_biotype,sep = " | ")
save(mRNA_exprSet,file = "mRNA_exprSet.Rdata")
#提前LncRNA的基因
ncRNA <- c("sense_overlapping","lincRNA","3prime_overlapping_ncRNA",
                    "processed_transcript","sense_intronic",
                    "bidirectional_promoter_lncRNA","non_coding",
                    "antisense_RNA")
LncRNA_exprSet <- gtf_df %>% 
   dplyr::filter(type=="transcript",transcript_biotype %in% ncRNA) %>% 
   dplyr::select(c(gene_name,gene_id,transcript_biotype)) %>% 
   dplyr::distinct() %>% 
   dplyr::inner_join(expr_df_nopoint,by ="gene_id") %>% 
   tidyr::unite(gene_id,gene_name,gene_id,transcript_biotype,sep = " | ")
save(LncRNA_exprSet,file = "LncRNA_exprSet.Rdata")

到這里便得到了可以用于后續(xù)分析的FPKM格式的表達(dá)矩陣

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末衅斩,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子怠褐,更是在濱河造成了極大的恐慌畏梆,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,602評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件奈懒,死亡現(xiàn)場離奇詭異奠涌,居然都是意外死亡磷杏,警方通過查閱死者的電腦和手機(jī)溜畅,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,442評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來极祸,“玉大人慈格,你說我怎么就攤上這事∫=穑” “怎么了浴捆?”我有些...
    開封第一講書人閱讀 152,878評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長稿械。 經(jīng)常有香客問我选泻,道長,這世上最難降的妖魔是什么美莫? 我笑而不...
    開封第一講書人閱讀 55,306評論 1 279
  • 正文 為了忘掉前任页眯,我火速辦了婚禮,結(jié)果婚禮上茂嗓,老公的妹妹穿的比我還像新娘餐茵。我一直安慰自己,他們只是感情好述吸,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,330評論 5 373
  • 文/花漫 我一把揭開白布忿族。 她就那樣靜靜地躺著,像睡著了一般蝌矛。 火紅的嫁衣襯著肌膚如雪道批。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,071評論 1 285
  • 那天入撒,我揣著相機(jī)與錄音隆豹,去河邊找鬼。 笑死茅逮,一個(gè)胖子當(dāng)著我的面吹牛璃赡,可吹牛的內(nèi)容都是我干的判哥。 我是一名探鬼主播,決...
    沈念sama閱讀 38,382評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼碉考,長吁一口氣:“原來是場噩夢啊……” “哼塌计!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起侯谁,我...
    開封第一講書人閱讀 37,006評論 0 259
  • 序言:老撾萬榮一對情侶失蹤锌仅,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后墙贱,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體热芹,經(jīng)...
    沈念sama閱讀 43,512評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,965評論 2 325
  • 正文 我和宋清朗相戀三年惨撇,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了伊脓。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,094評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡魁衙,死狀恐怖丽旅,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情纺棺,我是刑警寧澤榄笙,帶...
    沈念sama閱讀 33,732評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站祷蝌,受9級特大地震影響茅撞,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜巨朦,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,283評論 3 307
  • 文/蒙蒙 一米丘、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧糊啡,春花似錦拄查、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,286評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至梭依,卻和暖如春稍算,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背役拴。 一陣腳步聲響...
    開封第一講書人閱讀 31,512評論 1 262
  • 我被黑心中介騙來泰國打工糊探, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,536評論 2 354
  • 正文 我出身青樓科平,卻偏偏與公主長得像褥紫,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子瞪慧,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,828評論 2 345