文章
AURKA, TOP2A and MELK are the key genes identified by WGCNA for the pathogenesis of lung adenocarcinoma
發(fā)表日期:2023-04-19
分析流程
這篇文章的數(shù)據(jù)分析相對來說比較常規(guī),主要是WGCNA分析食茎,對于沒有高分需求的朋友們,加一些簡單的驗(yàn)證實(shí)驗(yàn)就能發(fā)SCI也是不錯的選擇。
一 下載GEO數(shù)據(jù)
在excel中對這個文件進(jìn)行處理,提取出表達(dá)量和臨床信息替蛉;
需要整理好的數(shù)據(jù)可以后臺留言給我;
二 處理GEO數(shù)據(jù)
1 讀取數(shù)據(jù)
data=read.csv('./data/GSE140797_expr.csv',header = T)
rownames(data)=data$ID_REF
data=data[,-1]
boxplot(data)
2 ID轉(zhuǎn)換
ids=read.csv('./data/GPL13497-9755.csv',header = T)
#查看一下有沒有NA值
table(is.na(ids))
ids=na.omit(ids)
#去掉空的GENE_SYMBOL
ids=ids[ids$GENE_SYMBOL != '',]
table(ids$ID %in% rownames(data))
data=data[rownames(data) %in% ids$ID,]
data=data[match(rownames(data),ids$ID),]
identical(rownames(data),ids$ID)
#去重復(fù)基因拄氯,保留最大表達(dá)量的結(jié)果
table(!duplicated(ids$GENE_SYMBOL))
ids$median=apply(data,1,median) #取每一行的中位數(shù)
ids=ids[order(ids$GENE_SYMBOL,ids$median,decreasing = T),]#對中位數(shù)從大到小排列的順序排序
ids=ids[!duplicated(ids$GENE_SYMBOL),]#去除重復(fù)的gene 躲查,保留每個基因最大表達(dá)量結(jié)果
#最終表達(dá)矩陣
data=data[ids$ID,]
identical(rownames(data),ids$ID)
rownames(data)=ids$GENE_SYMBOL
3 臨床分組
下一步做差異分析需要分組
data_clin=read.csv('./data/GSE140797_clinical.csv',header = T)
rownames(data_clin)=data_clin$Sample_geo_accession
data_clin=data_clin[,-1]
data_clin=as.data.frame(t(data_clin))
group_list=ifelse(grepl('normal',data_clin$Sample_characteristics_ch1),'normal','tumor')
table(group_list)
#保存
save(data,group_list,file = './Rdata/exp_group.Rdata')