在做分析之前恩溅,我們會(huì)先進(jìn)行探索性數(shù)據(jù)分析,我們想先看看多個(gè)變量之間的分布和他們的相關(guān)性谓娃,以便尋找關(guān)系來(lái)指導(dǎo)我們后續(xù)的分析脚乡,今天我們就一起來(lái)學(xué)習(xí)。
今天所用的例子是R語(yǔ)言pairs.panels幫助文件的例子滨达,數(shù)據(jù)是R自帶的iris數(shù)據(jù)集奶稠,類(lèi)型是data.frame,直接用就可以了捡遍。該數(shù)據(jù)集包含150個(gè)數(shù)據(jù)樣本锌订,5個(gè)變量:花萼長(zhǎng)度(Sepal.Length),花萼寬(Sepal.Width)画株,花瓣長(zhǎng)度(Petal.Length)辆飘,花瓣寬度(Petal.Width)和鳶尾花卉種(Species)啦辐,用命令View(iris)即可查看。
開(kāi)始繪制:
library(psych)#加載做圖包
data(iris)#讀取數(shù)據(jù)
pairs.panels(iris[1:4],#選取數(shù)據(jù)集的前四列進(jìn)行繪制
bg=c("red","yellow","blue")[iris$Species],#顯示顏色分組蜈项,Species共分成三類(lèi)
pch=21,#散點(diǎn)的形狀
stars=TRUE,#star顯示顯著性
main="Fisher Iris data by Species")
結(jié)果如圖:
我們可以改變對(duì)角線(xiàn)直方圖的顏色芹关,并且每組的散點(diǎn)形狀用不同形狀表示
pairs.panels(iris[1:4],bg=c("red","yellow","blue")[iris$Species],
? ? ? ? pch=21+as.numeric(iris$Species),#每組的散點(diǎn)以不同的形式展示
? ? ? ? stars=TRUE,#star顯示顯著性
? ? ? ? main="Fisher Iris data by Species",hist.col="red")
結(jié)果如圖:
結(jié)果解讀:對(duì)角線(xiàn)是直方圖;在對(duì)角線(xiàn)上方战得,是顯示顯著性的相關(guān)字?jǐn)?shù)矩陣充边;對(duì)角線(xiàn)下方是散點(diǎn)圖。每個(gè)散點(diǎn)圖中呈橢圓形的對(duì)象成為相關(guān)橢圓常侦,它越被拉伸浇冰,其相關(guān)性越強(qiáng)。橢圓中心的點(diǎn)表示x軸變量和y軸變量的均值所確定的點(diǎn)聋亡,散點(diǎn)圖中繪制的曲線(xiàn)稱(chēng)為局部回歸平滑曲線(xiàn)肘习。
本例子所使用的變量全部是定量變量;如果是定性變量坡倔,對(duì)角線(xiàn)上的直方圖會(huì)變成直條圖漂佩。
歡迎大家關(guān)注我們的公眾號(hào)
統(tǒng)計(jì)練習(xí)題