跟著Nature學(xué)作圖：R語言ggplot2散點(diǎn)柵格化能夠減小輸出pdf的文件大小

論文

A saturated map of common genetic variants associated with human height

https://www.nature.com/articles/s41586-022-05275-y

s41586-022-05275-y.pdf

代碼沒有公開绽族，但是作圖數(shù)據(jù)基本都公開了刃榨，爭取把每個(gè)圖都重復(fù)一遍

今天的推文重復(fù)論文中的Figure1

代碼

setwd("data/20221014")
library(readxl)
fig1<-read_excel("Figure1.xlsx")
colnames(fig1)

library(tidyverse)
library(stringr)

str_replace_all("[0,5e-100]","\\(|5e-|\\]|\\[","") %>% 
  str_split_fixed(",",n=2) %>% 
  as.data.frame() %>% 
  pull(V1) %>% as.numeric()
str_replace_all("[0,5e-100]","\\(|5e-|\\]|\\[","") %>% 
  str_split_fixed(",",n=2) %>% 
  as.data.frame() %>% 
  pull(V2) %>% as.numeric()
fig1 %>% 
  mutate(max_value=str_replace_all(`P-value Caregory`,"\\(|5e-|\\]|\\[","") %>% 
           str_split_fixed(",",n=2) %>% 
           as.data.frame() %>% 
           pull(V1) %>% as.numeric(),
         min_value=str_replace_all(`P-value Caregory`,"\\(|5e-|\\]|\\[","") %>% 
           str_split_fixed(",",n=2) %>% 
           as.data.frame() %>% 
           pull(V2) %>% as.numeric()) %>% 
  mutate(group=case_when(
    min_value == 100 & max_value == 0  ~ "group01",
    min_value == 50 & max_value == 100 ~ "group02",
    min_value == 20 & max_value == 50 ~ "group03",
    min_value == 10 & max_value == 20 ~ "group04",
    min_value == 8 & max_value == 10 ~ "group05",
  )) -> new.fig1

table(new.fig1$group)

library(ggplot2)
library(ggh4x)
library(cowplot)

ggplot(data=new.fig1,
       aes(x=`Minor Allele Frequency`,
           y=`Join Effect of Minor Allele`,
           color=group))+
  geom_point( key_glyph = rectangle_key_glyph(color=color,
                                              fill=color,
                                              padding = margin(3, 3, 3, 3)))+
  scale_color_manual(values = c("group01"="#ee82ee",
                                "group02"="#2e8b57",
                                "group03"="#1e90ff",
                                "group04"="#daa520",
                                "group05"="#cdc673"),
                     name="",
                     labels=c("group01"="P < 5 × 10–100 (672 SNPs)",
                              "group02"="5 × 10–50 > P > 5 × 10–100 (1,110 SNPs)",
                              "group03"="5 × 10–20 > P > 5 × 10–50 (3,513 SNPs)",
                              "group04"="5 × 10–10 > P > 5 × 10–20 (5,192 SNPs)",
                              "group05"="5 × 10–8 > P > 5 × 10–10 (1,624 SNPs)"))+
  theme_bw()+
  theme(panel.grid = element_blank(),
        panel.border = element_blank(),
        axis.line = element_line(),
        legend.position = c(0.7,0.8))+
  scale_x_continuous(breaks = c(0.01,0.05,0.1,0.2,0.3,0.4,0.5),
                     labels = c(1,5,10,20,30,40,50))+
  scale_y_continuous(breaks = c(-0.3,-0.2,-0.1,0,0.1,0.2,0.3),
                     limits = c(-0.3,0.3))+
  guides(x=guide_axis_truncated(trunc_lower = 0.01,
                            trunc_upper = 0.5),
         y=guide_axis_truncated(trunc_lower = -0.3,
                                trunc_upper = 0.3))+
  labs(x="MAF (%) in cross-ancestry meta-analysis",
       y="Joint effect sizes (s.d.) of minor alleles\nin cross-ancestry meta-analysis")+
  geom_hline(yintercept = 0,color="gray")+
  geom_smooth(data = new.fig1 %>% 
                filter(group=="group01") %>%
                filter(`Join Effect of Minor Allele`<0),
              aes(x=`Minor Allele Frequency`,
                  y=`Join Effect of Minor Allele`),
              method = 'loess',
              formula = 'y~x',
              se=FALSE,color="gray",
              show.legend = FALSE)+
  geom_smooth(data = new.fig1 %>% 
                filter(group=="group01") %>%
                filter(`Join Effect of Minor Allele`>0),
              aes(x=`Minor Allele Frequency`,
                  y=`Join Effect of Minor Allele`),
              method = 'loess',
              formula = 'y~x',
              se=FALSE,color="gray",
              show.legend = FALSE)

image.png

關(guān)于曲線不太清楚是用什么數(shù)據(jù)做的宛乃，這里直接自動(dòng)添加擬合曲線

圖例里的文本上下標(biāo) 出圖后再編輯吧

關(guān)于散點(diǎn)圖今天還新學(xué)到一個(gè)知識(shí)點(diǎn)是：散點(diǎn)圖的點(diǎn)如果非常多，如果輸出pdf文件的話载慈，pdf文件會(huì)非常大喳整，比如GWAS里常用的曼哈頓圖，這個(gè)pdf文件如果非常大后續(xù)如果想要編輯這個(gè)pdf文件會(huì)比較麻煩署惯。

關(guān)于如何解決這個(gè)問題又官，看到一個(gè)討論群里有人討論延刘，他們提到一個(gè)辦法是可以把散點(diǎn)柵格化（柵格化是什么意思暫時(shí)不太明白）可以借助R包ggrastr

對(duì)應(yīng)的github主頁是

https://github.com/VPetukhov/ggrastr

正好我們今天的推文內(nèi)容是數(shù)據(jù)量比較多的散點(diǎn)圖，我們可以按照這個(gè)做法試試六敬，這里參考微信公眾號(hào)推文 https://mp.weixin.qq.com/s/ou0cjD8dLMNaDLk588KSwQ

安裝ggrastr這個(gè)R包

install.packages('ggrastr')

如果要把點(diǎn)柵格化碘赖，只需要把對(duì)應(yīng)的散點(diǎn)圖函數(shù)geom_point()換成geom_point_rast()

library(ggrastr)
p2<-ggplot(data=new.fig1,
           aes(x=`Minor Allele Frequency`,
               y=`Join Effect of Minor Allele`,
               color=group))+
  geom_point_rast( key_glyph = rectangle_key_glyph(color=color,
                                              fill=color,
                                              padding = margin(3, 3, 3, 3)),
                   size=0.1,
                   raster.dpi = getOption("ggrastr.default.dpi", 300))+
  scale_color_manual(values = c("group01"="#ee82ee",
                                "group02"="#2e8b57",
                                "group03"="#1e90ff",
                                "group04"="#daa520",
                                "group05"="#cdc673"),
                     name="",
                     labels=c("group01"="P < 5 × 10–100 (672 SNPs)$)",
                              "group02"="5 × 10–50 > P > 5 × 10–100 (1,110 SNPs)",
                              "group03"="5 × 10–20 > P > 5 × 10–50 (3,513 SNPs)",
                              "group04"="5 × 10–10 > P > 5 × 10–20 (5,192 SNPs)",
                              "group05"="5 × 10–8 > P > 5 × 10–10 (1,624 SNPs)"))+
  theme_bw()+
  theme(panel.grid = element_blank(),
        panel.border = element_blank(),
        axis.line = element_line(),
        legend.position = c(0.7,0.8))+
  scale_x_continuous(breaks = c(0.01,0.05,0.1,0.2,0.3,0.4,0.5),
                     labels = c(1,5,10,20,30,40,50))+
  scale_y_continuous(breaks = c(-0.3,-0.2,-0.1,0,0.1,0.2,0.3),
                     limits = c(-0.3,0.3))+
  guides(x=guide_axis_truncated(trunc_lower = 0.01,
                                trunc_upper = 0.5),
         y=guide_axis_truncated(trunc_lower = -0.3,
                                trunc_upper = 0.3))+
  labs(x="MAF (%) in cross-ancestry meta-analysis",
       y="Joint effect sizes (s.d.) of minor alleles\nin cross-ancestry meta-analysis")+
  geom_hline(yintercept = 0,color="gray")+
  geom_smooth(data = new.fig1 %>% 
                filter(group=="group01") %>%
                filter(`Join Effect of Minor Allele`<0),
              aes(x=`Minor Allele Frequency`,
                  y=`Join Effect of Minor Allele`),
              method = 'loess',
              formula = 'y~x',
              se=FALSE,color="gray",
              show.legend = FALSE)+
  geom_smooth(data = new.fig1 %>% 
                filter(group=="group01") %>%
                filter(`Join Effect of Minor Allele`>0),
              aes(x=`Minor Allele Frequency`,
                  y=`Join Effect of Minor Allele`),
              method = 'loess',
              formula = 'y~x',
              se=FALSE,color="gray",
              show.legend = FALSE)

pdf("p1.pdf",width = 6,height = 6)
p1
dev.off()


pdf("p2.pdf",width = 6,height = 6)
p2
dev.off()

輸出的p2如果放大點(diǎn)是會(huì)變模糊的

image.png

兩個(gè)文件的大小也不一樣，柵格化之前是700k外构，柵格化之后只有200k

image.png

示例數(shù)據(jù)和代碼可以給公眾號(hào)推文點(diǎn)贊普泡，點(diǎn)擊在看，最后留言獲取

歡迎大家關(guān)注我的公眾號(hào)

小明的數(shù)據(jù)分析筆記本

小明的數(shù)據(jù)分析筆記本公眾號(hào) 主要分享：1审编、R語言和python做數(shù)據(jù)分析和數(shù)據(jù)可視化的簡單小例子撼班；2、園藝植物相關(guān)轉(zhuǎn)錄組學(xué)垒酬、基因組學(xué)砰嘁、群體遺傳學(xué)文獻(xiàn)閱讀筆記；3勘究、生物信息學(xué)入門學(xué)習(xí)資料及自己的學(xué)習(xí)筆記般码！

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市乱顾，隨后出現(xiàn)的幾起案子板祝，更是在濱河造成了極大的恐慌，老刑警劉巖走净，帶你破解...
沈念sama閱讀 211,561評(píng)論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件券时，死亡現(xiàn)場離奇詭異，居然都是意外死亡伏伯，警方通過查閱死者的電腦和手機(jī)橘洞，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,218評(píng)論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來说搅，“玉大人炸枣，你說我怎么就攤上這事∨螅” “怎么了适肠？”我有些...
開封第一講書人閱讀 157,162評(píng)論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長候引。經(jīng)常有香客問我侯养，道長，這世上最難降的妖魔是什么澄干？我笑而不...
開封第一講書人閱讀 56,470評(píng)論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任逛揩，我火速辦了婚禮柠傍，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘辩稽。我一直安慰自己惧笛，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 65,550評(píng)論 6贊 385
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布逞泄。她就那樣靜靜地躺著徐紧，像睡著了一般。火紅的嫁衣襯著肌膚如雪炭懊。梳的紋絲不亂的頭發(fā)上并级，一...
開封第一講書人閱讀 49,806評(píng)論 1贊 290
城市分裂傳說
那天，我揣著相機(jī)與錄音侮腹，去河邊找鬼嘲碧。笑死，一個(gè)胖子當(dāng)著我的面吹牛父阻，可吹牛的內(nèi)容都是我干的愈涩。我是一名探鬼主播，決...
沈念sama閱讀 38,951評(píng)論 3贊 407
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼加矛，長吁一口氣：“原來是場噩夢啊……” “哼履婉！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起斟览，我...
開封第一講書人閱讀 37,712評(píng)論 0贊 266
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤毁腿，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后苛茂，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體已烤，經(jīng)...
沈念sama閱讀 44,166評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,510評(píng)論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年妓羊，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了胯究。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,643評(píng)論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡躁绸，死狀恐怖裕循，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情净刮，我是刑警寧澤剥哑，帶...
沈念sama閱讀 34,306評(píng)論 4贊 330
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站庭瑰，受9級(jí)特大地震影響星持，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜弹灭，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,930評(píng)論 3贊 313
男人毒藥：我在死后第九天來索命
文/蒙蒙一督暂、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧穷吮，春花似錦逻翁、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,745評(píng)論 0贊 21
一樁弒父案八回，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至驾诈，卻和暖如春缠诅，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背乍迄。一陣腳步聲響...
開封第一講書人閱讀 31,983評(píng)論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工管引，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人闯两。一個(gè)月前我還...
沈念sama閱讀 46,351評(píng)論 2贊 360
代替公主和親
正文我出身青樓褥伴，卻偏偏與公主長得像，于是被迫代替她去往敵國和親漾狼。傳聞我的和親對(duì)象是個(gè)殘疾皇子重慢，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,509評(píng)論 2贊 348

跟著Nature學(xué)作圖：R語言ggplot2散點(diǎn)柵格化能夠減小輸出pdf的文件大小

論文

代碼

安裝ggrastr這個(gè)R包

推薦閱讀更多精彩內(nèi)容