R語言散點圖-- ggplot2: scatterplot()

R語言作圖點滴積累管引,今天要記錄ggplot2中散點圖的做法士败。散點圖算是數(shù)據(jù)展示中非常基礎(chǔ)的一種方法了吧汉匙,一般用于展示兩個變量之間的關(guān)系(比如線性相關(guān))拱烁。按照慣例,我每次講一個新的圖都會用一個我實際使用的例子噩翠,先來說說今天做這個散點圖的例子吧:

問題描述:
我有兩個變量戏自,一個變量是蛋白相互作用網(wǎng)絡(luò)中節(jié)點的度(degree),另一個變量是這些蛋白參與形成的復(fù)合物的個數(shù)伤锚;現(xiàn)在我想看看擅笔,一個蛋白參與形成的復(fù)合物個數(shù)(Number of complexes)是否跟它的度(degree)相關(guān)。
上面描述的這個問題,就是一個很典型的可以通過散點圖來展示的例子猛们。先來個數(shù)據(jù)快照(顯示前10個數(shù)據(jù)點):

ProteinID No. complex Degree
P1 188 125
P2 128 76
P3 119 102
p4 95 66
P5 95 110
P6 80 68
P7 66 61
P8 57 84
P9 46 40
P10 46 45

漂亮的散點圖要一步一步來

1. 首先來個簡單的散點圖

#Import data
> dat <- read.table("ProteinDegree_complex.txt",header = TRUE)

#plot a simple scatter plot
> library(ggplot2)
> p <- ggplot(dat,aes(x=degree,y=complex)) + geom_point(shape=19)) +
    xlab("Degree") + ylab("Number of complexes")
> p

note:

  • geom_point(): 是畫散點圖的函數(shù)念脯,里面可以添加各種參數(shù),用于設(shè)置散點圖的形狀弯淘、大小绿店、顏色等,比如形狀shape = 19, 表示的是較大的實心原點
  • xlab和ylab:兩個函數(shù)分別設(shè)置x和y坐標(biāo)軸的標(biāo)題
    這個簡單的散點圖看起來是這樣滴:


    簡單的散點圖

2. 如果想要擬合一條直線呢

#Import data
> dat <- read.table("ProteinDegree_complex.txt",header = TRUE)

#plot a simple scatter plot
> library(ggplot2)
> p <- ggplot(dat,aes(x=degree,y=complex)) + geom_point(shape=19)) +
    xlab("Degree") + ylab("Number of complexes") + 
    geom_smooth(method = lm)
> p

ggplot2 提供一個函數(shù)自動添加擬合的曲線(包括直線)庐橙,當(dāng)然該函數(shù)底層肯定是做了擬合分析的假勿,比如線性回歸分析等。

  • geom_smooth():這個函數(shù)就是為散點圖添加一條平滑的曲線(包含直線)态鳖,它有個參數(shù)method, 指定曲線平滑方法转培,可選"lm", "glm", "gam", "loess", "rlm",這幾個具體表示什么意思浆竭,大家動動手浸须,自己谷歌之,默認會使用"loess"邦泄。

下面兩個圖分別是使用了"lm"和"loess":

擬合直線
擬合曲線

給散點圖加了直線删窒,可是這個直線擬合得怎么樣,以及擬合的直線的參數(shù)ggplot2并沒有提供虎韵,為了圖的信息更完整易稠,我們應(yīng)當(dāng)考慮給這個擬合的直線加上公式,以及擬合的R2值包蓝。這樣之后驶社,我們從圖上可以得到些什么信息呢?
首先测萎,我們可以很容易知道degree和complex數(shù)目是呈正相關(guān)關(guān)系的亡电,通過擬合直線和公式可以知道兩個變量的線性關(guān)系強弱;然后硅瞧,然后就是一堆不知道是啥的黑點...

總感覺還是缺少些什么份乒,仔細看看這個散點圖,你會不會想知道圖中degree很高且參與很多復(fù)合物的這幾個蛋白是什么腕唧?這樣的蛋白一定是生物細胞中十分重要的蛋白或辖。所以呢,我們可以把最靠近右上角的前10個點給高亮出來枣接,甚至給這些點表示label(基因名)颂暇。說干就干,看代碼:

#Import data
> dat <- read.table("WD40_complex_degree.out",header = TRUE)


#edit the formula for the fitted line
> formula <- sprintf("italic(y) == %.2f %+.2f * italic(x)",
                   round(coef(dat.lm)[1],2),round(coef(dat.lm)[2],2))
r2 <- sprintf("italic(R^2) == %.2f",summary(dat.lm)$r.squared)
labels <- data.frame(formula=formula,r2=r2,stringsAsFactors = FALSE)

#plot the simple scatterplot
> p <- ggplot(dat,aes(x=degree,y=complex,colour=degree>=63)) + geom_point(shape=19) +
  xlab("Degree of WD40 proteins") + ylab("Number of complexes")

#linear regression analysis
> dat.lm <- lm(complex ~ degree, data = dat)

#add a line and labels for the formula 
> p <- p + geom_abline(intercept = coef(dat.lm)[1],slope = coef(dat.lm)[2]) + 
  geom_text(data=labels,mapping=aes(x = 15,y=175,label=formula),parse = TRUE,inherit.aes = FALSE,
            size = 6) + 
  geom_text(data=labels,mapping=aes(x = 15,y=165,label=r2),parse = TRUE,inherit.aes = FALSE,
            size = 6) +
 #add labels(gene name) for top 10 degree-ranked proteins
  annotate(geom = "text",x=annoText$degree-1,y=annoText$complex-2,label=annoText$WD40id, size=4.0)
> p + theme(legend.position = "none") + theme(axis.title = element_text(size = 16),
                                            axis.text = element_text(size = 12,colour="black"))

代碼一下子長了好多(囧)但惶,我們可以與前面的比較下耳鸯,

  • 首先畫簡單散點圖的那部分代碼(間代碼注釋)添加了"colour = degree>=63"湿蛔,這句的目的其實是對所有點根據(jù)條件“degree>=63”進行了分組,不同顏色表示县爬;
  • 其次阳啥,發(fā)現(xiàn)這里少了一句代碼,對了财喳,就是geom_smooth(method=lm)察迟,因為前面加了分組信息,geom_smooth會在不同組里分別擬合曲線纲缓,這并不是我們想要的卷拘,我們只是想高亮出一些點而已喊废。所以祝高,這里先不直接擬合了, 后面再手動擬合并添加直線;
  • lm(complex ~ degree, data = dat):這個是手動做線性回歸分析
  • geom_abline():根據(jù)上面回歸分析污筷,畫擬合的直線工闺,從上面的分析中提取出 截距 coef(dat.lm)[1]和 斜率 coef(dat.lm)[2])即可;
  • geom_text():這個函數(shù)給圖中添加了擬合直線的公式和R2瓣蛀;這里我們提供了新的data陆蟆,所以,要注意的是后面inherit.aes = FALSE這個設(shè)置很重要惋增,表示我們不繼承g(shù)gplot函數(shù)中使用的data叠殷,不然會報錯。
  • annotate():這個函數(shù)通過制定geom="text"诈皿,在圖中指定的地方畫上標(biāo)簽林束,可以提供坐標(biāo)
  • theme(legend.position = "none"):去除legend,這里我做的時候也出現(xiàn)一個問題稽亏,去除legend的另一種方法是p + guides(fill = FALSE)壶冒,但是,我最新使用這個代碼的時候截歉,并沒有起作用胖腾,不知道是不是我的Rstudio沒有反應(yīng)還是出現(xiàn)bug了,大家可以自己試試瘪松;
  • theme(axis.title...):這些都是對圖中的文字進行美化一下咸作,加大坐標(biāo)軸標(biāo)題的文字啊之類的。

最后的圖是這個樣子的:

最后的樣子
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末宵睦,一起剝皮案震驚了整個濱河市记罚,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌状飞,老刑警劉巖毫胜,帶你破解...
    沈念sama閱讀 221,695評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件书斜,死亡現(xiàn)場離奇詭異,居然都是意外死亡酵使,警方通過查閱死者的電腦和手機荐吉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,569評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來口渔,“玉大人样屠,你說我怎么就攤上這事∪甭觯” “怎么了痪欲?”我有些...
    開封第一講書人閱讀 168,130評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長攻礼。 經(jīng)常有香客問我业踢,道長,這世上最難降的妖魔是什么礁扮? 我笑而不...
    開封第一講書人閱讀 59,648評論 1 297
  • 正文 為了忘掉前任知举,我火速辦了婚禮,結(jié)果婚禮上太伊,老公的妹妹穿的比我還像新娘雇锡。我一直安慰自己,他們只是感情好僚焦,可當(dāng)我...
    茶點故事閱讀 68,655評論 6 397
  • 文/花漫 我一把揭開白布锰提。 她就那樣靜靜地躺著,像睡著了一般芳悲。 火紅的嫁衣襯著肌膚如雪立肘。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,268評論 1 309
  • 那天芭概,我揣著相機與錄音赛不,去河邊找鬼。 笑死罢洲,一個胖子當(dāng)著我的面吹牛踢故,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播惹苗,決...
    沈念sama閱讀 40,835評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼殿较,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了桩蓉?” 一聲冷哼從身側(cè)響起淋纲,我...
    開封第一講書人閱讀 39,740評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎院究,沒想到半個月后洽瞬,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體本涕,經(jīng)...
    沈念sama閱讀 46,286評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,375評論 3 340
  • 正文 我和宋清朗相戀三年伙窃,在試婚紗的時候發(fā)現(xiàn)自己被綠了菩颖。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,505評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡为障,死狀恐怖晦闰,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情鳍怨,我是刑警寧澤呻右,帶...
    沈念sama閱讀 36,185評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站鞋喇,受9級特大地震影響声滥,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜确徙,卻給世界環(huán)境...
    茶點故事閱讀 41,873評論 3 333
  • 文/蒙蒙 一醒串、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧鄙皇,春花似錦、人聲如沸仰挣。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,357評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽膘壶。三九已至错蝴,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間颓芭,已是汗流浹背顷锰。 一陣腳步聲響...
    開封第一講書人閱讀 33,466評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留亡问,地道東北人官紫。 一個月前我還...
    沈念sama閱讀 48,921評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像州藕,于是被迫代替她去往敵國和親束世。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,515評論 2 359

推薦閱讀更多精彩內(nèi)容

  • 簡介 文章較長床玻,點擊直達我的博客毁涉,瀏覽效果更好。本文內(nèi)容基本是來源于STHDA锈死,這是一份十分詳細的ggplot2使...
    taoyan閱讀 51,199評論 7 159
  • 老濰坊贫堰,解放前稱為濰縣穆壕,歷史悠久,人杰地靈其屏,經(jīng)濟文化發(fā)達粱檀,一向是膠東交通軍事重鎮(zhèn)。現(xiàn)在漫玄,當(dāng)你漫步街頭茄蚯,仍可...
    鴻鵠學(xué)院閱讀 1,128評論 6 3
  • 以前總覺得生老病死人生常態(tài),當(dāng)人家訴說自己遭遇病痛睦优、離別渗常、困苦時常常安慰說:我能明白。其實這不過是一種隨口漫...
    螢光子閱讀 162評論 0 0