什么是直方/條形圖锦亦?
直方圖(Histograms)和條形圖(Barchart)看起來沒有什么區(qū)別马绝,長得很像择示,但是這兩個并不同一種統(tǒng)計圖像束凑。具體地,通常直方圖用來描述連續(xù)型數(shù)據(jù)栅盲,比如年齡汪诉、身高、體重等谈秫。而條形圖通常用來描述分類型數(shù)據(jù)扒寄,比如性別、國家等拟烫。
對于直方圖该编,我們要做的第一步就是把連續(xù)性的數(shù)據(jù)分箱(bin),所謂的分箱實際上就是將數(shù)據(jù)按照一定的間隔進行分組硕淑。比如我們現(xiàn)在手上有100個人的年齡的數(shù)據(jù)课竣,從20歲到60歲,然后我們以10歲為間隔置媳,分別統(tǒng)計20-30于樟、30-40、40-50拇囊、50-60歲這四組的人數(shù)隔披,再進行繪圖。因此不同組之間通常是連續(xù)的寂拆,且間隔一致奢米。數(shù)據(jù)的連續(xù)性體現(xiàn)在圖像上就是柱子之間并沒有間隔抓韩。因此,直方圖可以粗略地表示出數(shù)據(jù)分布密度鬓长,被用于密度估計谒拴。
而條形圖如下列例子統(tǒng)計了不同國家的樣本數(shù)量∩娌ǎ可以看到下圖的柱子之間有間隔英上,體現(xiàn)出國家并非一個連續(xù)變量而是一個分類變量。
直方圖/條形圖怎么畫啤覆?
ggplot2提供了繪制直方圖和條形圖的功能苍日,分別為geom_bar()
和geom_histogram()
。具體如下:
geom_histogram(mapping = NULL, data = NULL, stat = "bin",
position = "stack", ...)
geom_bar(mapping = NULL, data = NULL, stat = "count",
position = "stack", ...,)
那么這兩個函數(shù)是否有區(qū)別嗎窗声?實際上并沒有太大的區(qū)別相恃,geom_histogram()
等同于geom_bar()
+stat_bin()
。
進一步那么我們來研究如何繪制直方圖/條形圖笨觅。
1)需要什么格式的數(shù)據(jù)
本次我們來看一個新的R提供的數(shù)據(jù)拦耐,就是閃閃發(fā)光的鉆石??Diamonds。
price:鉆石的價格见剩,單位美元
carat:鉆石的重量杀糯,單位克拉
cut:鉆石切割的質(zhì)量水平,F(xiàn)air, Good, Very Good, Premium, Ideal
color:鉆石的顏色苍苞,從J(最差)到D(最好)
clarity:鉆石的凈度固翰,I1(最差)SI2, SI1, VS2, VS1, VVS2, VVS1, IF (最好)
x:長度,單位mm
y:寬度羹呵,單位mm
z:深度骂际,單位mm
我們探討兩個問題——統(tǒng)計表中所有的鉆石(大約 50,000個)的重量分布以及凈度。
可以看到重量是一個連續(xù)型變量担巩,而凈度是一個分類型變量方援。所以前者我們做直方圖没炒,后者我們做條形圖涛癌。
2)如何使用ggplot2做直方圖
首先我們來看看鉆石重量的直方圖。
#加載包
library(ggplot2)
#作圖
ggplot(diamonds, aes(carat)) +
geom_histogram()
輸入上述命令后我們會得到一條提示stat_bin() using “bins = 30”. Pick better value with “binwidth”.
什么意思呢送火?就是把所有的數(shù)據(jù)按照相同間隔分成了30組拳话,圖上有30個柱子。(如圖)
從圖上我們可以看到大部分的鉆石都是1克拉以下种吸,較少的鉆石是2克拉以上弃衍。
那用geom_bar()
會怎么樣呢?我們來看一看坚俗。
ggplot(diamonds, aes(carat)) +
geom_bar()
可以看到如果使用上述命令镜盯,每一個重量對應的都有一個柱子岸裙,顯示了不同重量而非某個范圍的重量所對應的鉆石數(shù)量。剛剛我們說了geom_bar()
+stat_bin()
才是等同于geom_histogram()
速缆。所以我們來看一下如果命令變成下述是怎么樣的降允?
ggplot(diamonds, aes(carat)) +
geom_bar(stat='bin')
看,就和剛才一模一樣了艺糜!
3)如何使用ggplot2做條形圖
然后我們來瞧瞧條形圖剧董。
#加載包
library(ggplot2)
#作圖
ggplot(diamonds, aes(clarity)) +
geom_bar()
從圖中我們可以看到不同等級凈度的鉆石情況。
4)如何做好看的直方/條形圖
利用下述代碼我們可以得到不同重量的鉆石切割水平的情況破停。
ggplot(diamonds, aes(carat,fill=cut)) +
geom_histogram(bins = 20,color='black')+#分為20個組翅楼,添加邊框
theme_bw()+
theme(
panel.grid = element_blank()#去除背景的分割線
)+
scale_fill_manual(values=brewer.pal(5,'Blues'))
利用下述代碼我們可以得到橫向的條形圖。
ggplot(diamonds, aes(clarity,fill=clarity)) +
geom_bar()+
theme_bw()+
theme(
panel.grid = element_blank()
)+
coord_flip()#轉(zhuǎn)為橫向
關(guān)于直方/條形圖的介紹就到這里啦真慢。大家還可以更進一步的看一看這兩個繪圖函數(shù)的功能毅臊,讓圖像變得更好看。