CIBERSORT 免疫浸潤

1.輸入數(shù)據(jù)要什么

下面這段話摘自CIBERSORT的介紹

Importantly, all expression data should be non-negative, devoid of missing values, and represented in non-log linear space.

For Affymetrix microarrays, a custom chip definition file (CDF) is recommended (see Subheading 3.2.2) and should be normalized with MAS5 or RMA.

Illumina Beadchip and single color Agilent arrays should be processed as described in the limma package.

Standard RNA-Seq expression quantification metrics, such as frag- ments per kilobase per million (FPKM) and transcripts per kilobase million (TPM), are suitable for use with CIBERSORT. –《Profiling Tumor Infiltrating Immune Cells with CIBERSORT》

非常清楚的寫出了輸入數(shù)據(jù)的要求： 1.不可以有負值和缺失值 2.不要取log 3.如果是芯片數(shù)據(jù)镰矿，昂飛芯片使用RMA標準化，Illumina 的Beadchip 和Agilent的單色芯片，用limma處理。 4.如果是RNA-Seq表達量，使用FPKM和TPM都很合適。

芯片的要求可能把你唬住了，GEO常規(guī)的表達矩陣都是這樣得到的句喷，直接下載使用即可镣典。注意有的表達矩陣下載下來就已經(jīng)取過log，需要逆轉(zhuǎn)回去唾琼。有的經(jīng)過了標準化或者有負值兄春，需要處理原始數(shù)據(jù)，前面寫過介紹文：
http://www.reibang.com/p/d7035ba8347b
http://www.reibang.com/p/e3d734b2c404

3.來一個示例

3.1.下載TCGA的RNA-seq表達數(shù)據(jù)

有多個渠道可以下載count或者fpkm數(shù)據(jù)锡溯。其實fpkm轉(zhuǎn)tpm更無痛神郊，但因為之前的教程都是只下載count，做后續(xù)的差異分析趾唱，我也不想再回過頭去下載fpkm了涌乳。就在count基礎(chǔ)上轉(zhuǎn)tpm即可。

得到TCGA-CHOL_gdc.Rdata的方法可參考：TCGA-1.GDC數(shù)據(jù)下載

rm(list = ls())
library(tinyarray)
library(tidyverse)
load("TCGA-CHOL_gdc.Rdata")
exp[1:4,1:4]

##                    TCGA-W5-AA36-01A-11R-A41I-07 TCGA-W5-AA2H-01A-31R-A41I-07
## ENSG00000000003.13                         2504                          226
## ENSG00000000005.5                             0                            5
## ENSG00000000419.11                         1272                         1146
## ENSG00000000457.12                          504                          602
##                    TCGA-ZU-A8S4-11A-11R-A41I-07 TCGA-WD-A7RX-01A-12R-A41I-07
## ENSG00000000003.13                         4107                         9646
## ENSG00000000005.5                             0                            1
## ENSG00000000419.11                          741                         1266
## ENSG00000000457.12                          312                         1317

# 表達矩陣的行名轉(zhuǎn)換成genesymbol
exp = trans_exp(exp,mrna_only = T)
exp[1:4,1:4]

##        TCGA-W5-AA36-01A-11R-A41I-07 TCGA-W5-AA2H-01A-31R-A41I-07
## TSPAN6                         2504                          226
## TNMD                              0                            5
## DPM1                           1272                         1146
## SCYL3                           504                          602
##        TCGA-ZU-A8S4-11A-11R-A41I-07 TCGA-WD-A7RX-01A-12R-A41I-07
## TSPAN6                         4107                         9646
## TNMD                              0                            1
## DPM1                            741                         1266
## SCYL3                           312                         1317

從count矩陣得到tpm甜癞，參考：基因長度并不是end-start夕晓。TCGA使用的參考基因組注釋版本是genecodeV22。

3.2.將count轉(zhuǎn)為tpm悠咱，每個函數(shù)需要單獨運行

首先是計算基因有效長度蒸辆，因為tcga統(tǒng)一使用了v22版本，所以替換其他癌癥并不需要重新計算析既，可以直接拿來用的躬贡。

if(F){
  library(rtracklayer)
  gtf = rtracklayer::import("gencode.v22.annotation.gtf.gz")
  class(gtf)
  gtf = as.data.frame(gtf);dim(gtf)
  table(gtf$type)
  exon = gtf[gtf$type=="exon",
           c("start","end","gene_name")]
  gle = lapply(split(exon,exon$gene_name),function(x){
    tmp=apply(x,1,function(y){
        y[1]:y[2]
    })
    length(unique(unlist(tmp)))
  })
  gle=data.frame(gene_name=names(gle),
               length=as.numeric(gle))
  save(gle,file = "v22_gle.Rdata")
}
load("v22_gle.Rdata")
head(gle)

##   gene_name length
## 1 5_8S_rRNA    303
## 2   5S_rRNA   2901
## 3       7SK   3562
## 4      A1BG   4006
## 5  A1BG-AS1   2793
## 6      A1CF   9603

基因長度需要和表達矩陣行的順序?qū)饋恚玫絉語言基礎(chǔ)里非常優(yōu)秀的一個函數(shù)–match眼坏。

le = gle[match(rownames(exp),gle$gene_name),"length"]

#這個函數(shù)是現(xiàn)成的拂玻。
countToTpm <- function(counts, effLen)
{
    rate <- log(counts) - log(effLen)
    denom <- log(sum(exp(rate)))
    exp(rate - denom + log(1e6))
}

tpms <- apply(exp,2,countToTpm,le)
tpms[1:3,1:3]

##        TCGA-W5-AA36-01A-11R-A41I-07 TCGA-W5-AA2H-01A-31R-A41I-07
## TSPAN6                     40.19320                    3.8584717
## TNMD                        0.00000                    0.2404519
## DPM1                       76.71414                   73.5125551
##        TCGA-ZU-A8S4-11A-11R-A41I-07
## TSPAN6                     46.52878
## TNMD                        0.00000
## DPM1                       31.54171

至此得到了tpm矩陣。

3.3 做成cibersort要求的輸入文件

這個算法并沒有被寫成R包宰译，而是只有一個放著函數(shù)的腳本–CIBERSORT.R檐蚜，把它下載下來放在工作目錄即可。

需要兩個輸入文件:

一個是表達矩陣文件

一個是官網(wǎng)提供的LM22.txt沿侈，記錄了22種免疫細胞的基因表達特征數(shù)據(jù)闯第。

由于CIBERSORT.R讀取文件的代碼比較粗暴，為了適應它缀拭，導出文件之前需要把行名變成一列咳短。不然后面就會有報錯。

exp2 = as.data.frame(tpms)
exp2 = rownames_to_column(exp2)
write.table(exp2,file = "exp.txt",row.names = F,quote = F,sep = "\t")

3.4. 運行CIBERSORT

source("CIBERSORT.R")

if(F){
  TME.results = CIBERSORT("LM22.txt", 
                          "exp.txt" , 
                          perm = 1000, 
                          QN = T)
  save(TME.results,file = "ciber_CHOL.Rdata")
}
load("ciber_CHOL.Rdata")
TME.results[1:4,1:4]

##                              B cells naive B cells memory Plasma cells
## TCGA-W5-AA36-01A-11R-A41I-07    0.00000000    0.002351185   0.02550133
## TCGA-W5-AA2H-01A-31R-A41I-07    0.04512086    0.354414124   0.01961627
## TCGA-ZU-A8S4-11A-11R-A41I-07    0.00203370    0.000000000   0.04582565
## TCGA-WD-A7RX-01A-12R-A41I-07    0.15785229    0.000000000   0.01847074
##                              T cells CD8
## TCGA-W5-AA36-01A-11R-A41I-07  0.07766099
## TCGA-W5-AA2H-01A-31R-A41I-07  0.14262301
## TCGA-ZU-A8S4-11A-11R-A41I-07  0.09962641
## TCGA-WD-A7RX-01A-12R-A41I-07  0.13769951

re <- TME.results[,-(23:25)]

運行有些慢蛛淋。計算出來的結(jié)果包含了22種免疫細胞的豐度咙好，還有三列其他統(tǒng)計量，不管它們铣鹏。

3.5. 經(jīng)典的免疫細胞豐度熱圖

那些在一半以上樣本里豐度為0的免疫細胞敷扫，就不展示在熱圖里了哀蘑。我看了一下這個熱圖诚卸，從聚類的情況來看葵第，normal和tumor沒有很好的分開。

library(pheatmap)
k <- apply(re,2,function(x) {sum(x == 0) < nrow(TME.results)/2})
table(k)

## k
## FALSE  TRUE 
##     8    14

re2 <- as.data.frame(t(re[,k]))

an = data.frame(group = Group,
                row.names = colnames(exp))
pheatmap(re2,scale = "row",
         show_colnames = F,
         annotation_col = an,
         color = colorRampPalette(c("navy", "white", "firebrick3"))(50))

image

3.6. 直方圖

可以展示出每個樣本的免疫細胞比例

library(RColorBrewer)
mypalette <- colorRampPalette(brewer.pal(8,"Set1"))

dat <- re %>% as.data.frame() %>%
  rownames_to_column("Sample") %>% 
  gather(key = Cell_type,value = Proportion,-Sample)

ggplot(dat,aes(Sample,Proportion,fill = Cell_type)) + 
  geom_bar(stat = "identity") +
  labs(fill = "Cell Type",x = "",y = "Estiamted Proportion") + 
  theme_bw() +
  theme(axis.text.x = element_blank(),
        axis.ticks.x = element_blank(),
        legend.position = "bottom") + 
  scale_y_continuous(expand = c(0.01,0)) +
  scale_fill_manual(values = mypalette(22))

image

3.7 箱線圖

展示免疫細胞之間的比較合溺。

ggplot(dat,aes(Cell_type,Proportion,fill = Cell_type)) + 
  geom_boxplot(outlier.shape = 21,color = "black") + 
  theme_bw() + 
  labs(x = "Cell Type", y = "Estimated Proportion") +
    theme(axis.text.x = element_blank(),
        axis.ticks.x = element_blank(),
        legend.position = "bottom") + 
  scale_fill_manual(values = mypalette(22))

image

亂了點卒密？那就讓箱線圖擁有順序吧。

a = dat %>% 
  group_by(Cell_type) %>% 
  summarise(m = median(Proportion)) %>% 
  arrange(desc(m)) %>% 
  pull(Cell_type)

dat$Cell_type = factor(dat$Cell_type,levels = a)

ggplot(dat,aes(Cell_type,Proportion,fill = Cell_type)) + 
  geom_boxplot(outlier.shape = 21,color = "black") + 
  theme_bw() + 
  labs(x = "Cell Type", y = "Estimated Proportion") +
    theme(axis.text.x = element_blank(),
        axis.ticks.x = element_blank(),
        legend.position = "bottom") + 
  scale_fill_manual(values = mypalette(22))

image

既然我們已經(jīng)把正常樣本也算了棠赛，那就做個比較：

dat$Group = ifelse(as.numeric(str_sub(dat$Sample,14,15))<10,"tumor","normal")
library(ggpubr)
ggplot(dat,aes(Cell_type,Proportion,fill = Group)) + 
  geom_boxplot(outlier.shape = 21,color = "black") + 
  theme_bw() + 
  labs(x = "Cell Type", y = "Estimated Proportion") +
  theme(legend.position = "top") + 
  theme(axis.text.x = element_text(angle=80,vjust = 0.5))+
  scale_fill_manual(values = mypalette(22)[c(6,1)])+ stat_compare_means(aes(group = Group,label = ..p.signif..),method = "kruskal.test")

image

分開看的話確實能看出區(qū)別??哮奇，只是不顯著的太多了，才導致熱圖聚類成那副樣子睛约，不重要了鼎俘。

作者：小潔忘了怎么分身
鏈接：http://www.reibang.com/p/03a7440c0960
來源：簡書
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán)辩涝，非商業(yè)轉(zhuǎn)載請注明出處贸伐。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市怔揩，隨后出現(xiàn)的幾起案子捉邢，更是在濱河造成了極大的恐慌，老刑警劉巖商膊，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件伏伐，死亡現(xiàn)場離奇詭異，居然都是意外死亡晕拆，警方通過查閱死者的電腦和手機藐翎，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來实幕，“玉大人阱高，你說我怎么就攤上這事〔缢酰” “怎么了赤惊？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長凰锡。經(jīng)常有香客問我未舟，道長，這世上最難降的妖魔是什么掂为？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任裕膀，我火速辦了婚禮，結(jié)果婚禮上勇哗，老公的妹妹穿的比我還像新娘昼扛。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布抄谐。她就那樣靜靜地躺著渺鹦，像睡著了一般。火紅的嫁衣襯著肌膚如雪蛹含。梳的紋絲不亂的頭發(fā)上毅厚，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天，我揣著相機與錄音浦箱，去河邊找鬼吸耿。笑死，一個胖子當著我的面吹牛酷窥，可吹牛的內(nèi)容都是我干的咽安。我是一名探鬼主播，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼蓬推，長吁一口氣：“原來是場噩夢啊……” “哼板乙！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起拳氢，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤募逞，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后馋评，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體放接，經(jīng)...
沈念sama閱讀 43,382評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年留特，在試婚紗的時候發(fā)現(xiàn)自己被綠了纠脾。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 37,989評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡蜕青，死狀恐怖苟蹈，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情右核，我是刑警寧澤慧脱，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站贺喝，受9級特大地震影響菱鸥，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜躏鱼，卻給世界環(huán)境...
茶點故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一氮采、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧染苛，春花似錦鹊漠、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案躯概，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽登钥。三九已至，卻和暖如春楞陷，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背茉唉。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工固蛾，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人度陆。一個月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓艾凯，卻偏偏與公主長得像，于是被迫代替她去往敵國和親懂傀。傳聞我的和親對象是個殘疾皇子趾诗，可洞房花燭夜當晚...
茶點故事閱讀 42,700評論 2贊 345

CIBERSORT 免疫浸潤

1.輸入數(shù)據(jù)要什么

3.來一個示例

3.1.下載TCGA的RNA-seq表達數(shù)據(jù)

3.2.將count轉(zhuǎn)為tpm悠咱，每個函數(shù)需要單獨運行

3.3 做成cibersort要求的輸入文件

3.4. 運行CIBERSORT

3.5. 經(jīng)典的免疫細胞豐度熱圖

3.6. 直方圖

3.7 箱線圖

推薦閱讀更多精彩內(nèi)容