ESTIMATE計算免疫基質(zhì)得分以及腫瘤純度
1.概述
Estimate根據(jù)轉(zhuǎn)錄組數(shù)據(jù)來計算免疫基質(zhì)得分僧鲁,也可得到腫瘤樣本的腫瘤純度
其原理本質(zhì)上是先收集好免疫基因集和基質(zhì)基因集鸽粉,通過ssGSEA來計算每個樣本各自基因集的得分
2.官網(wǎng)
3.代碼實現(xiàn)
安裝estiamte包(安裝不上可嘗試本地安裝)
rforge <- "http://r-forge.r-project.org"
install.packages("estimate", repos = rforge, dependencies = TRUE)
library(estimate)
準(zhǔn)備數(shù)據(jù):表達譜數(shù)據(jù)要是txt格式的,csv會報錯伴网,因為包內(nèi)函數(shù)默認(rèn)使用read.table來讀取文件
data.png
個人拙見:以GSE116174數(shù)據(jù)為例反粥,個人認(rèn)為使用FPKM鸵钝,TPM疏哗,count等類型數(shù)據(jù)差別不大呛讲,因為原理是用其表達值高低進行排序。但個人傾向用標(biāo)化后數(shù)據(jù)進行處理
關(guān)于平臺選擇問題:官方提供三個選擇返奉,分別是"affymetrix", "agilent", "illumina"贝搁,但是看原始代碼可以發(fā)現(xiàn),三個選擇并不影響免疫芽偏、基質(zhì)和總體得分雷逆,無論輸入哪個平臺,結(jié)果都是一致的污尉。唯一不同的是在設(shè)置為"affymetrix"時候膀哲,會計算一個腫瘤純度,至于測序數(shù)據(jù)能不能用這個腫瘤純度被碗,我也不敢確認(rèn)某宪,但是看到有些文獻是直接用的,效果還不錯蛮放,所以個人傾向不管什么數(shù)據(jù)都填"affymetrix"
library(estimate)
setwd("D:\\bioinformatics\\jupyter\\data")
##將準(zhǔn)備好的表達譜保存為txt格式,這里是用ncbiid奠宜,如果是用genesymbol,改成id="GeneSymbol"即可
filterCommonGenes(input.f="GSE116174.txt", output.f="GSE116174.gct", id="EntrezID")
estimateScore(input.ds="GSE116174.gct", output.ds="GSE116174_estimate_score.gct", platform="affymetrix")
將結(jié)果保存為其他格式
estimate_score <- read.table("GSE116174_estimate_score.gct", skip = 2, header = TRUE)
##寫出csv
write.csv(estimate_score,"GSE116174_est.csv",row.names = FALSE)
結(jié)果展示:三個得分+一個腫瘤純度
data.png
data.png
終:寫這個單純記錄一下過程包颁,避免后面自己忘記了