預(yù)后信息下載可使用:Curated版本(在TCGA下面)枚冗,表達(dá)矩陣可使用GDC版本的FPKM(在GDC)下面(如TCGA-LUAD.htseq_fpkm.tsv.gz
呀邢,實(shí)際下載的是log(FPKM+1),這種參考基因組是gencode.v22.annotation.gene.probeMap
幕与,注意到XENA網(wǎng)站帶的該注釋文件缺少gene_biotype
這一列關(guān)鍵信息挑势,所以需要參考gencode.gene.info.v22(1).tsv
這個(gè)注釋完善的文件增加上相應(yīng)注釋,才可以把protein_coding相關(guān)的轉(zhuǎn)錄本提取出來啦鸣。
以上是XENA網(wǎng)站中注釋文件的處理潮饱。
表達(dá)矩陣中下載下來的基因名是Ensembl ID,所以需要轉(zhuǎn)換為gene symbol诫给,要分情況:
1香拉、像上述XENA直接下載下來的注釋文件(gencode.v22.annotation.gene.probeMap
)跟同一網(wǎng)頁下載下來的表達(dá)矩陣文件(TCGA-LUAD.htseq_fpkm.tsv.gz
或者TCGA-LUAD.htseq_counts.tsv.gz
)啦扬,其實(shí)他們的Ensembl_ID是完全一樣的,這樣其實(shí)可以不用拆解Ensembl_ID的小數(shù)點(diǎn)凫碌,直接提取protein_coding并將表達(dá)矩陣的Ensembl_ID匹配到gene symbol即可扑毡。
2、如果確定都是hg38版本盛险,但gencode的版本又不一樣瞄摊,那Ensembl ID小數(shù)點(diǎn)的數(shù)值可能不一樣,這時(shí)需要都去掉小數(shù)點(diǎn)后面的部分:
#去掉ensemble ID的點(diǎn)號
library('tidyr')
library(stringr)
#separate函數(shù)或stringr包的str_split函數(shù)拆解點(diǎn)號前面的部分:
LUADdata1<-separate(LUADdata,Ensembl_ID,into = c("Ensembl_ID"),sep="[.]")
LUADdata1[1:4,1:4]
dim(LUADdata1)
#或者:
#加入simplify=T苦掘,表示不返回list换帜,文件變?yōu)閙atrix
LUADdata$ID<-unlist(str_split(LUADdata$Ensembl_ID,'[.]',simplify = T))[,1]
LUADdata[1:4,1:4]
dim(LUADdata)