實驗內容
1.在TCGA數(shù)據(jù)庫下載疾病BRCA的突變數(shù)據(jù)
熟悉TCGA數(shù)據(jù)庫的結構與數(shù)據(jù)下載方法
2.處理下載數(shù)據(jù)悯恍,將其變?yōu)榱袨闃颖拘袨榛虻男问讲⑤敵?/strong>(數(shù)據(jù)處理過程中去掉同義突變)哨鸭,用0表示沒有突變朋沮,1表示突變
image.png
實驗代碼
setwd("E:\\實驗\\轉錄組學\\實驗三")
exp<-read.csv("exp.csv",as.is=T)
geneid<-unique(exp[,2])#提取geneid列18062
sample<-unique(exp[,4])#提取sample列986
long1<-length(geneid)
long2<-length(sample)
genelist1<-as.data.frame(list())#建立一個空數(shù)據(jù)框
install.packages("plyr")
library(plyr)
#找表達譜里每個樣本出現(xiàn)的gene,形成數(shù)據(jù)框
for (i in 1:long2)
{
genelist<-as.data.frame(t(exp[which(exp[,4]==sample[i]),2]))
genelist1<-rbind.fill(genelist,genelist1)
}
dim(genelist1)
genelist2<-t(genelist1)
dim(genelist2)
image.png
var_exp<-matrix(NA,long1,long2)#建立一個空矩陣阐虚,18062*986
#判斷每個樣本對應的每個gene是否在全部gene里(在為TRUE烟勋,不在為FLASE)
for (i in 1:long2)
var_exp[,i]<-geneid%in%genelist2[,i]
image.png
varexp<-as.matrix(lapply(var_exp,as.numeric))#轉化成0/1
varexp1<-matrix(varexp,18062,986)#轉化為矩陣
rownames(varexp1)<-geneid
colnames(varexp1)<-sample
write.table(varexp1,"varexp.txt",sep="\t",header=T)#寫出
輸出varexp
image.png