R語言之書筆記:初級統(tǒng)計學(xué)

概念

  • 數(shù)值型變量
    數(shù)值型變量:是將觀測值以數(shù)值形式存儲起來的變量软舌,分為連續(xù)型和離散型兩種類型殉疼。
    連續(xù)型變量:可以取某個區(qū)間中的任何值梯浪,可以是任何位數(shù),有無限個可能值瓢娜。
    離散型變量:只能取離散數(shù)據(jù)挂洛,如果有取值范圍,就是有限個可能取值眠砾。

  • 分類變量
    分類變量:有名義變量和有序變量兩種形式虏劲。
    名義變量:不能按照邏輯順序排序的分類變量,例如性別褒颈。
    有序變量:可以排序的分類變量柒巫,例如藥物劑量,低谷丸、中堡掏、高。

  • 參數(shù)和統(tǒng)計量
    參數(shù):總體的特征叫作參數(shù)刨疼。
    統(tǒng)計量:樣本的特征叫作統(tǒng)計量泉唁,統(tǒng)計量是參數(shù)的估計量。

集中趨勢:均值揩慕、中位數(shù)亭畜、眾數(shù)

  • 均值:mean()
  • 中位數(shù):median()
xdata <- c(2,4.4,3,3,2,2.2,2,4)
x.bar <- mean(xdata)
x.bar
m.bar <- median(xdata)
m.bar
  • 眾數(shù)、最小數(shù)迎卤、最大數(shù):table()/min()/max()
xtab <- table(xdata)
xtab
min(xdata)
max(xdata)
range(xdata) # 返回xdata的最小值和最大值
#
max(xtab)
d.bar <- xtab[xtab==max(xtab)] # 頻數(shù)最大的觀測值為眾數(shù)
d.bar
  • 忽略缺失值或者未定義的變量(NA或NaN): 增加參數(shù)na.rm = TRUE
    sum/prod/mean/median/max/min/rang——都可以使用參數(shù)na.rm
mean(c(1,4,NA))
mean(c(1,4,NaN))
#
mean(c(1,4,NA),na.rm=TRUE)
mean(c(1,4,NaN),na.rm=TRUE)
  • 對分組數(shù)據(jù)求統(tǒng)計量:tapply()
mean(chickwts$weight[chickwts$feed=="casein"])
mean(chickwts$weight[chickwts$feed=="horsebean"])
mean(chickwts$weight[chickwts$feed=="linseed"])
mean(chickwts$weight[chickwts$feed=="meatmeal"])
mean(chickwts$weight[chickwts$feed=="soybean"])
mean(chickwts$weight[chickwts$feed=="sunflower"])
#分別求平均值很麻煩
tapply(chickwts$weight,INDEX=chickwts$feed,FUN=mean)
# 使用tapply 批量求出各組的平均值

計數(shù)拴鸵、百分比和比例

  • table()計數(shù),除以nrow()觀測數(shù)蜗搔,即可求出比例或百分比
table(chickwts$feed)
table(chickwts$feed)/nrow(chickwts)
  • 計算邏輯標(biāo)記向量的和計數(shù)劲藐,計算邏輯標(biāo)記向量的均值即可求出比例
sum(chickwts$feed=="soybean")/nrow(chickwts)
mean(chickwts$feed=="soybean")

#可以使用這種方法計算組合樣本的比例:
mean(chickwts$feed=="soybean"|chickwts$feed=="horsebean")
  • 使用tapply()批量求出比例, round()設(shè)置小數(shù)位
tapply(chickwts$weight,INDEX=chickwts$feed,FUN=function(x) length(x)/nrow(chickwts))
round(table(chickwts$feed)/nrow(chickwts),digits=3)
# 比例乘以100得到百分比:
round(mean(chickwts$feed=="soybean")*100,1)

四分位數(shù)碍扔、百分位數(shù)和五分位數(shù)

  • quantile() 求分位數(shù)和百分位數(shù)
xdata <- c(2,4.4,3,3,2,2.2,2,4)
quantile(xdata,prob=0.8) # 0.8分位數(shù)
quantile(xdata,prob=c(0,0.25,0.5,0.75,1)) # 同時計算多個分位數(shù)
quantile(chickwts$weight,prob=c(0.25,0.75)) # 計算下四分位數(shù)和上四分位數(shù)
  • summary()計算五分位數(shù)和平均值
summary(xdata)
summary(quakes$mag[quakes$depth<400])

離散程度:方差瘩燥、標(biāo)準差和四分位差

  • 方差:var(),標(biāo)準差sd()不同,四分位差IQR()
  • sqrt()計算平方根
xdata <- c(2,4.4,3,3,2,2.2,2,4)
ydata <- c(1,4.4,1,3,2,2.2,2,7)

var(xdata)
sd(xdata)
IQR(xdata)
#
sqrt(var(xdata))
as.numeric(quantile(xdata,0.75)-quantile(xdata,0.25))
#
sd(ydata)
IQR(ydata)
#
sd(chickwts$weight)
IQR(chickwts$weight)
#
IQR(quakes$mag[quakes$depth<400])

協(xié)方差和相關(guān)系數(shù)

  • 協(xié)方差:表示兩個數(shù)值型變量在什么程度上一起變化厉膀。正數(shù)可能存在正線性關(guān)系,負數(shù)可能存在負線性關(guān)系二拐,等于零不存在線性關(guān)系服鹅。


    協(xié)方差計算公式
  • 相關(guān)系數(shù):最常用Pearson相關(guān)系數(shù),取值[-1,1]百新,越接近0企软,相關(guān)關(guān)系越弱。


    相關(guān)系數(shù)計算公式
  • cov() 計算協(xié)方差饭望,cor() 計算相關(guān)系數(shù)

xdata <- c(2,4.4,3,3,2,2.2,2,4)
ydata <- c(1,4.4,1,3,2,2.2,2,7)
cov(xdata,ydata)
cov(xdata,ydata)/(sd(xdata)*sd(ydata))
cor(xdata,ydata)

#
plot(quakes$mag,quakes$stations,xlab="Magnitude",ylab="No. of stations")
cov(quakes$mag,quakes$stations)
cor(quakes$mag,quakes$stations)

異常值

在實際中仗哨,是否剔除奇異值很難確定形庭,現(xiàn)階段重要的是了解奇異值對分析產(chǎn)生影響,并且在統(tǒng)計研究之前應(yīng)檢查一下原始數(shù)據(jù)厌漂。
均值與奇異值高度相關(guān)萨醒,所有任何依賴均值的統(tǒng)計量如方差或協(xié)方差也會受影響,分位數(shù)以及相關(guān)統(tǒng)計量不會受到奇異值的影響苇倡,這種統(tǒng)計性質(zhì)成為穩(wěn)健性富纸。

本章重要代碼

mean:算術(shù)平均數(shù)
median:中位數(shù)
table:匯總頻數(shù)
min,max,range:最小值,最大值旨椒,范圍
round:四舍五入
quantile:分位數(shù)晓褪、百分位數(shù)
summary:五位數(shù)概況法
jitter:繪圖中的抖動點
var,sd:方差,標(biāo)準差
IQR:四分位差
cov,cor:協(xié)方差综慎,相關(guān)系數(shù)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末涣仿,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子示惊,更是在濱河造成了極大的恐慌变过,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,430評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件涝涤,死亡現(xiàn)場離奇詭異媚狰,居然都是意外死亡,警方通過查閱死者的電腦和手機阔拳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,406評論 3 398
  • 文/潘曉璐 我一進店門崭孤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人糊肠,你說我怎么就攤上這事辨宠。” “怎么了货裹?”我有些...
    開封第一講書人閱讀 167,834評論 0 360
  • 文/不壞的土叔 我叫張陵嗤形,是天一觀的道長。 經(jīng)常有香客問我弧圆,道長赋兵,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,543評論 1 296
  • 正文 為了忘掉前任搔预,我火速辦了婚禮霹期,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘拯田。我一直安慰自己历造,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 68,547評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著吭产,像睡著了一般侣监。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上臣淤,一...
    開封第一講書人閱讀 52,196評論 1 308
  • 那天达吞,我揣著相機與錄音,去河邊找鬼荒典。 笑死,一個胖子當(dāng)著我的面吹牛吞鸭,可吹牛的內(nèi)容都是我干的寺董。 我是一名探鬼主播,決...
    沈念sama閱讀 40,776評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼刻剥,長吁一口氣:“原來是場噩夢啊……” “哼遮咖!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起造虏,我...
    開封第一講書人閱讀 39,671評論 0 276
  • 序言:老撾萬榮一對情侶失蹤御吞,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后漓藕,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體陶珠,經(jīng)...
    沈念sama閱讀 46,221評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,303評論 3 340
  • 正文 我和宋清朗相戀三年享钞,在試婚紗的時候發(fā)現(xiàn)自己被綠了揍诽。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,444評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡栗竖,死狀恐怖暑脆,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情狐肢,我是刑警寧澤添吗,帶...
    沈念sama閱讀 36,134評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站份名,受9級特大地震影響碟联,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜僵腺,卻給世界環(huán)境...
    茶點故事閱讀 41,810評論 3 333
  • 文/蒙蒙 一玄帕、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧想邦,春花似錦裤纹、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,285評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽锡移。三九已至,卻和暖如春漆际,著一層夾襖步出監(jiān)牢的瞬間淆珊,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,399評論 1 272
  • 我被黑心中介騙來泰國打工奸汇, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留施符,地道東北人。 一個月前我還...
    沈念sama閱讀 48,837評論 3 376
  • 正文 我出身青樓擂找,卻偏偏與公主長得像戳吝,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子贯涎,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,455評論 2 359

推薦閱讀更多精彩內(nèi)容