ggplot2:如何優(yōu)雅地繪制箱線圖

數(shù)據(jù)可視化是將數(shù)據(jù)直觀展示出來的一個必不可少的步驟。ggplot2是一個非常常見的繪圖R包级零,在文獻(xiàn)中滞乙,我們常常會看見用漂亮箱線圖來展示原始數(shù)據(jù)的分布奏纪。這里我們就用一個基因表達(dá)水平的例子來展示用R包繪圖神器ggplot2繪制的過程吧斩启!

Step1:數(shù)據(jù)的預(yù)處理

這里我們利用GEO中單細(xì)胞RNA測序數(shù)據(jù)來練練手。
數(shù)據(jù)來源:
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE128147

在R中讀取這個數(shù)據(jù):

counts = read.table("~/Downloads/GSE128147_raw_counts_w_ercc.txt", header = TRUE)

我們可以得到行是基因名兔簇,列是細(xì)胞名,中間的數(shù)值為表達(dá)量垄琐。也就是每個基因在每個細(xì)胞中的表達(dá)量,這種數(shù)據(jù)稱為raw counts狸窘。如圖所示:
數(shù)據(jù)展示
dim(counts)
[1] 23512   193

這里數(shù)據(jù)一共有193個細(xì)胞,通常我們有某種研究目的時氓涣,需要看某幾類細(xì)胞的表達(dá)情況陋气,那么根據(jù)細(xì)胞名或其他指標(biāo)將它們區(qū)分開劳吠。

由于這里僅為了學(xué)習(xí)如何作圖巩趁,那么為了方便,只取幾種基因议慰,并將這些細(xì)胞按照順序粗暴地分為3組,每組64個褒脯,每組分別命名為CellType1, CellType2, CellType3,計算每個基因在各類細(xì)胞中的表達(dá)水平(求和)番川,并整理成一個數(shù)據(jù)框脊框,變量名為expres。整理代碼如下:

## 將原始數(shù)據(jù)截取出左浇雹、中屿讽、右三段
type1 = counts[,1:65]
type2 = counts[,c(1,66:129)]
type3 = counts[,c(1,130:193)]

## 將每個基因在每種細(xì)胞內(nèi)的表達(dá)量求和昭灵,并將結(jié)果添加到數(shù)據(jù)框中
type1 = within(type1,{sum.of.expression = rowSums(type1[-1])})
type2 = within(type2,{sum.of.expression = rowSums(type2[-1])})
type3 = within(type3,{sum.of.expression = rowSums(type3[-1])})

## 只取出第1列基因名與最后一列表達(dá)水平之和
type1 = type1[,c(1,66)]
type2 = type2[,c(1,66)]
type3 = type3[,c(1,66)]

## 將三個向量合并為一個數(shù)據(jù)框
expres = data.frame(Gene = type1[,1], 
                    CellType1 = type1[,2], 
                    CellType2 = type2[,2], 
                    CellType3 = type3[,2])

這么一來得到的數(shù)據(jù)就是這樣:
數(shù)據(jù)展示2
> head(expres)
    Gene CellType1 CellType2 CellType3
1   Xkr4         0         0         0
2    Rp1         0      1249         4
3  Sox17         0         0         0
4 Mrpl15        12      2172      1483
5 Lypla1       268      1956      2235
6  Tcea1       206       508      1443

將數(shù)據(jù)變形烂完,利于后續(xù)作圖。

library(reshape2)
expres.melt = melt(expres, value.name = "Counts")
# Using Gene as id variables
# ggplot2常用melt型數(shù)據(jù)
expres.melt = subset(expres.melt, Counts > 300 & Counts < 10000) 
# 篩選掉一些表達(dá)量過少和過多的基因

expres.melt$Counts = log(expres.melt$Counts) 
#由于表達(dá)量絕對值差距太大抠蚣,因此用對數(shù)將數(shù)據(jù)標(biāo)準(zhǔn)化

head(expres.melt)
      Gene  variable   Counts
8  Atp6v1h CellType1 6.967909
11  Rb1cc1 CellType1 7.502186
14  Pcmtd1 CellType1 5.910797
16    Rrs1 CellType1 7.092574
21  Vcpip1 CellType1 8.051978
30 Arfgef1 CellType1 7.686621

Step2:繪制箱線圖

1. 畫一個基礎(chǔ)的箱線圖:geom_boxplot()

library(ggplot2)
ggplot(expres.melt, aes(x=variable,y=Counts)) +     
  geom_boxplot(aes(fill=variable))
  • expres.melt即我們的數(shù)據(jù)履澳;
  • aes(x = 橫坐標(biāo)向量, y = 縱坐標(biāo)向量)嘶窄;
  • geom_boxplot 箱線圖距贷;
  • fill=variable 按照variable類型來填充顏色柄冲。

這么一來就得到一個還不錯的箱線圖:
箱線圖1

2. 更改坐標(biāo)軸標(biāo)題忠蝗、圖片標(biāo)題與圖例標(biāo)題:labs()

在剛才的基礎(chǔ)上我們想要將圖的橫坐標(biāo)、縱坐標(biāo)以及圖的標(biāo)題進(jìn)行修改什湘,那么可以使用labs()函數(shù)在之前的代碼后面進(jìn)行添加。

ggplot(expres.melt, aes(x=variable,y=Counts)) +     
  geom_boxplot(aes(fill=variable)) +
  labs(title="Expression Level of 3 Types of Cells",
       x="Cell Type", y = "Counts/(log)", fill = "Cell Type")  # fill為修改圖例標(biāo)題
箱線圖2

3. 圖例的設(shè)置:theme()

圖例標(biāo)題的修改比較特殊得哆,不能再用labs了,而是用theme()贩据,同時theme()這個函數(shù)還能設(shè)置圖例的標(biāo)題的字體闸餐、顏色饱亮、大小舍沙。也能修改總標(biāo)題的位置。

ggplot(expres.melt, aes(x=variable,y=Counts)) +     
  geom_boxplot(aes(fill=variable)) +
  labs(title="Expression Level of 3 Types of Cells",
       x="Cell Type", y = "Counts/(log)", fill = "Cell Type") +
  theme(plot.title = element_text(hjust = 0.5), # 將圖表標(biāo)題居中
        legend.title=element_text(face="italic",  # 圖例標(biāo)題改為斜體
                                  family="Times",  # 圖例標(biāo)題字體調(diào)為Times
                                  colour="red"))  # 圖例標(biāo)題顏色改為紅色
箱線圖3.jpeg

4.將箱線圖轉(zhuǎn)置:coord_flip()

有時候如果數(shù)據(jù)類型比較多拂铡,為了排版方便葱绒,可能需要將箱線圖轉(zhuǎn)置,這種情況下怎么處理呢地淀?

ggplot(expres.melt, aes(x=variable,y=Counts)) +     
  geom_boxplot(aes(fill=variable)) +
  labs(title="Expression Level of 3 Types of Cells",
       x="Cell Type", y = "Counts/(log)",
       fill = "Cell Type") +
  theme(plot.title = element_text(hjust = 0.5) +
  coord_flip()
箱線圖4.jpeg

圖形就橫過來了岖是。

5.將背景變?yōu)榘咨簍heme_bw()

背景的顏色也可以進(jìn)行修改帮毁,這樣一來做PPT上組會匯報時白色背景顯得更為學(xué)術(shù)和美觀豺撑。

ggplot(expres.melt, aes(x=variable,y=Counts)) +     
  geom_boxplot(aes(fill=variable)) +
  labs(title="Expression Level of 3 Types of Cells",
       x="Cell Type", y = "Counts/(log)",
       fill = "Cell Type") +
  theme_bw()
箱線圖5.jpeg

除了這些,其實還有許多的功能可以疊加前硫,如增加數(shù)據(jù)點(diǎn)可疊加散點(diǎn)+geom_dotplot荧止,標(biāo)注異常值可利用outlier屹电,代碼示例:

ggplot(expres.melt, aes(x=variable,y=Counts)) +     
  geom_boxplot(aes(fill=variable),
               outlier.colour="red", 
               outlier.shape=8, 
               outlier.size=4)

但由于數(shù)據(jù)本身的原因不含異常值跃巡,因此顯示不出來,代碼貼出來供學(xué)習(xí)使用素邪。


文章已發(fā)布到微信公眾號:百味科研芝士,歡迎關(guān)注兔朦。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市沽甥,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌摆舟,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件恨诱,死亡現(xiàn)場離奇詭異,居然都是意外死亡照宝,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進(jìn)店門兢仰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來笼呆,“玉大人旨别,你說我怎么就攤上這事〗粘冢” “怎么了?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵递览,是天一觀的道長。 經(jīng)常有香客問我绞铃,道長,這世上最難降的妖魔是什么儿捧? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮菲盾,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘懒鉴。我一直安慰自己,他們只是感情好临谱,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著悉默,像睡著了一般。 火紅的嫁衣襯著肌膚如雪麦牺。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天魏颓,我揣著相機(jī)與錄音,去河邊找鬼甸饱。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的偷遗。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼氏豌,長吁一口氣:“原來是場噩夢啊……” “哼热凹!你這毒婦竟也來了泵喘?” 一聲冷哼從身側(cè)響起般妙,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎碟渺,沒想到半個月后鲜锚,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體苫拍,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年浆洗,在試婚紗的時候發(fā)現(xiàn)自己被綠了催束。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡抠刺,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出速妖,到底是詐尸還是另有隱情,我是刑警寧澤罕容,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站锦秒,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏旅择。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望捺宗。 院中可真熱鬧,春花似錦川蒙、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽胶果。三九已至,卻和暖如春早抠,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蕊连。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留甘苍,地道東北人。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓载庭,卻偏偏與公主長得像,于是被迫代替她去往敵國和親囚聚。 傳聞我的和親對象是個殘疾皇子靖榕,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 最近考種數(shù)據(jù)回來了茁计,今年測得單株,本想用箱線圖表示谓松,后來一并把小提琴圖也做了,順便做個筆記吧鬼譬。 利用SUMIF對相...
    ShawnMagic閱讀 12,986評論 2 74
  • 1.初識ggplot2 1.1 功能 是一個作圖包; 可以創(chuàng)建圖表拧簸,如散點(diǎn),柱狀圖,線圖贾富,將數(shù)據(jù)可視化; 1.2 ...
    笨蛋白熊閱讀 45,656評論 0 27
  • ggplot2包的目的是提供一個全面的汗捡、基于語法的、連貫一致的圖形生成系統(tǒng)畏纲,允許用戶創(chuàng)建新穎的、有創(chuàng)新性的數(shù)據(jù)可視...
    井底蛙蛙呱呱呱閱讀 3,377評論 0 11
  • 最近是不是犯強(qiáng)迫癥了艘蹋,還是心理上有什么了,看啥新聞捌被摇!朋友圈靶加亍!都有錯別字惹盼,看到就感覺一盆櫻桃里有個酸的庸汗,難受呢手报!...
    晴天連晴天閱讀 322評論 0 0
  • 愛自己,是一生的覺悟和修行 1昧诱、愛身體,不被腦袋迷惑 有人問:我腦袋很想看書盏档,身體卻想睡覺,我該聽誰的蜈亩?我的意見是...
    雨瑤喜悅王閱讀 645評論 0 1