概念
數(shù)值型變量
數(shù)值型變量:是將觀測值以數(shù)值形式存儲起來的變量软舌,分為連續(xù)型和離散型兩種類型殉疼。
連續(xù)型變量:可以取某個區(qū)間中的任何值梯浪,可以是任何位數(shù),有無限個可能值瓢娜。
離散型變量:只能取離散數(shù)據(jù)挂洛,如果有取值范圍,就是有限個可能取值眠砾。分類變量
分類變量:有名義變量和有序變量兩種形式虏劲。
名義變量:不能按照邏輯順序排序的分類變量,例如性別褒颈。
有序變量:可以排序的分類變量柒巫,例如藥物劑量,低谷丸、中堡掏、高。參數(shù)和統(tǒng)計量
參數(shù):總體的特征叫作參數(shù)刨疼。
統(tǒng)計量:樣本的特征叫作統(tǒng)計量泉唁,統(tǒng)計量是參數(shù)的估計量。
集中趨勢:均值揩慕、中位數(shù)亭畜、眾數(shù)
- 均值:
mean()
- 中位數(shù):
median()
xdata <- c(2,4.4,3,3,2,2.2,2,4)
x.bar <- mean(xdata)
x.bar
m.bar <- median(xdata)
m.bar
- 眾數(shù)、最小數(shù)迎卤、最大數(shù):
table()
/min()
/max()
xtab <- table(xdata)
xtab
min(xdata)
max(xdata)
range(xdata) # 返回xdata的最小值和最大值
#
max(xtab)
d.bar <- xtab[xtab==max(xtab)] # 頻數(shù)最大的觀測值為眾數(shù)
d.bar
- 忽略缺失值或者未定義的變量(NA或NaN): 增加參數(shù)
na.rm = TRUE
sum/prod/mean/median/max/min/rang
——都可以使用參數(shù)na.rm
mean(c(1,4,NA))
mean(c(1,4,NaN))
#
mean(c(1,4,NA),na.rm=TRUE)
mean(c(1,4,NaN),na.rm=TRUE)
- 對分組數(shù)據(jù)求統(tǒng)計量:
tapply()
mean(chickwts$weight[chickwts$feed=="casein"])
mean(chickwts$weight[chickwts$feed=="horsebean"])
mean(chickwts$weight[chickwts$feed=="linseed"])
mean(chickwts$weight[chickwts$feed=="meatmeal"])
mean(chickwts$weight[chickwts$feed=="soybean"])
mean(chickwts$weight[chickwts$feed=="sunflower"])
#分別求平均值很麻煩
tapply(chickwts$weight,INDEX=chickwts$feed,FUN=mean)
# 使用tapply 批量求出各組的平均值
計數(shù)拴鸵、百分比和比例
-
table()
計數(shù),除以nrow()
觀測數(shù)蜗搔,即可求出比例或百分比
table(chickwts$feed)
table(chickwts$feed)/nrow(chickwts)
- 計算邏輯標(biāo)記向量的和計數(shù)劲藐,計算邏輯標(biāo)記向量的均值即可求出比例
sum(chickwts$feed=="soybean")/nrow(chickwts)
mean(chickwts$feed=="soybean")
#可以使用這種方法計算組合樣本的比例:
mean(chickwts$feed=="soybean"|chickwts$feed=="horsebean")
- 使用
tapply()
批量求出比例,round()
設(shè)置小數(shù)位
tapply(chickwts$weight,INDEX=chickwts$feed,FUN=function(x) length(x)/nrow(chickwts))
round(table(chickwts$feed)/nrow(chickwts),digits=3)
# 比例乘以100得到百分比:
round(mean(chickwts$feed=="soybean")*100,1)
四分位數(shù)碍扔、百分位數(shù)和五分位數(shù)
-
quantile()
求分位數(shù)和百分位數(shù)
xdata <- c(2,4.4,3,3,2,2.2,2,4)
quantile(xdata,prob=0.8) # 0.8分位數(shù)
quantile(xdata,prob=c(0,0.25,0.5,0.75,1)) # 同時計算多個分位數(shù)
quantile(chickwts$weight,prob=c(0.25,0.75)) # 計算下四分位數(shù)和上四分位數(shù)
-
summary()
計算五分位數(shù)和平均值
summary(xdata)
summary(quakes$mag[quakes$depth<400])
離散程度:方差瘩燥、標(biāo)準差和四分位差
- 方差:
var()
,標(biāo)準差sd()
不同,四分位差IQR()
-
sqrt()
計算平方根
xdata <- c(2,4.4,3,3,2,2.2,2,4)
ydata <- c(1,4.4,1,3,2,2.2,2,7)
var(xdata)
sd(xdata)
IQR(xdata)
#
sqrt(var(xdata))
as.numeric(quantile(xdata,0.75)-quantile(xdata,0.25))
#
sd(ydata)
IQR(ydata)
#
sd(chickwts$weight)
IQR(chickwts$weight)
#
IQR(quakes$mag[quakes$depth<400])
協(xié)方差和相關(guān)系數(shù)
-
協(xié)方差:表示兩個數(shù)值型變量在什么程度上一起變化厉膀。正數(shù)可能存在正線性關(guān)系,負數(shù)可能存在負線性關(guān)系二拐,等于零不存在線性關(guān)系服鹅。
協(xié)方差計算公式 -
相關(guān)系數(shù):最常用Pearson相關(guān)系數(shù),取值[-1,1]百新,越接近0企软,相關(guān)關(guān)系越弱。
相關(guān)系數(shù)計算公式 cov()
計算協(xié)方差饭望,cor()
計算相關(guān)系數(shù)
xdata <- c(2,4.4,3,3,2,2.2,2,4)
ydata <- c(1,4.4,1,3,2,2.2,2,7)
cov(xdata,ydata)
cov(xdata,ydata)/(sd(xdata)*sd(ydata))
cor(xdata,ydata)
#
plot(quakes$mag,quakes$stations,xlab="Magnitude",ylab="No. of stations")
cov(quakes$mag,quakes$stations)
cor(quakes$mag,quakes$stations)
異常值
在實際中仗哨,是否剔除奇異值很難確定形庭,現(xiàn)階段重要的是了解奇異值對分析產(chǎn)生影響,并且在統(tǒng)計研究之前應(yīng)檢查一下原始數(shù)據(jù)厌漂。
均值與奇異值高度相關(guān)萨醒,所有任何依賴均值的統(tǒng)計量如方差或協(xié)方差也會受影響,分位數(shù)以及相關(guān)統(tǒng)計量不會受到奇異值的影響苇倡,這種統(tǒng)計性質(zhì)成為穩(wěn)健性富纸。
本章重要代碼
mean:算術(shù)平均數(shù)
median:中位數(shù)
table:匯總頻數(shù)
min,max,range:最小值,最大值旨椒,范圍
round:四舍五入
quantile:分位數(shù)晓褪、百分位數(shù)
summary:五位數(shù)概況法
jitter:繪圖中的抖動點
var,sd:方差,標(biāo)準差
IQR:四分位差
cov,cor:協(xié)方差综慎,相關(guān)系數(shù)