一個記錄鼓拧,第三部分從13章開始,共4章的內(nèi)容越妈,一起看看吧季俩。
第13章 初級統(tǒng)計學
- 描述原始數(shù)據(jù)
- 統(tǒng)計概要
第14章 數(shù)據(jù)可視化基礎(chǔ)
- 條形圖和餅圖
- 直方圖
- 箱線圖
- 散點圖
第15章 概率
- 什么是概率
- 隨機變量和概率分布
第16章 常見的概率分布
- 常見的概率質(zhì)量函數(shù)
- 常見的概率密度函數(shù)
首先是
第13章 初級統(tǒng)計學—描述原始數(shù)據(jù)
原始數(shù)據(jù)即是相關(guān)樣本的觀測值或者記錄值,其可以存儲在各種對象梅掠,如數(shù)據(jù)框中酌住,讀入R內(nèi)。
數(shù)值型變量分為連續(xù)型和離散型
分類變量 分為名義變量和有序變量兩種形式阎抒,名義變量是不能按照邏輯順序排序的分類變量酪我,如性別,有男女兩個固定值并且這兩個類別的順序不相關(guān)且叁。有序變量是指可以排序的分類變量都哭,如藥物劑量可能取值是低中高,這些數(shù)值按照升序或者降序進行排序逞带,并且順序可能與實驗相關(guān)欺矫。
單變量和多變量數(shù)據(jù),單變量即一維展氓,多變量即多維穆趴。
參數(shù)和統(tǒng)計量 ,區(qū)分統(tǒng)計量和參數(shù)的關(guān)鍵是確定特征數(shù)描述的是我們可以用來獲得數(shù)據(jù)的樣本還是總體带饱。
集中趨勢:均值毡代、中位數(shù)、眾數(shù)勺疼,集中趨勢通過描述型觀測值的中心來解釋大量數(shù)據(jù)集合教寂,最常見的是用算術(shù)平均數(shù)來測度中心趨勢,也就是觀測值集合的中心平衡點执庐。
中位數(shù)是觀測值的中等大小酪耕,將觀測值按照從小到大排序,會發(fā)現(xiàn)中位數(shù)要么是中間值(奇數(shù)個觀測值)轨淌,要么是兩個中間值的均值(偶數(shù)個觀測值)迂烁。
眾數(shù)是指出現(xiàn)最頻繁的觀測值看尼,常用于離散型數(shù)據(jù)。
mean() #平均值
medium() #中位數(shù)
min() #最小值
max() #最大值
table() # 求眾數(shù)盟步,會輸出頻數(shù)
如果數(shù)據(jù)集中有缺失值或者有未定義的變量(NA或NaN)藏斩,R中的許多函數(shù)無法從這樣的數(shù)據(jù)結(jié)構(gòu)中計算出統(tǒng)計量。我們可以使用參數(shù)na.rm 設(shè)置為TRUE却盘,可以強制函數(shù)只作用于數(shù)據(jù)集中的數(shù)值型數(shù)據(jù)狰域。
> mean(c(1,4,NA,NaN),na.rm=TRUE)
> 2.5
#函數(shù)諸如sum黄橘、prod兆览、mean、medium塞关、max抬探、min、和range等在數(shù)字向量的基礎(chǔ)上計算數(shù)字統(tǒng)計量的任何函數(shù)帆赢,都可以使用參數(shù)na.rm
關(guān)于R語言中apply函數(shù)族可以參考http://blog.fens.me/r-apply/
"tapply函數(shù)用于分組的循環(huán)計算小压,通過INDEX參數(shù)可以把數(shù)據(jù)集X進行分組,相當于group by的操作匿醒。
函數(shù)定義:tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)參數(shù)列表:
X: 向量
INDEX: 用于分組的索引
FUN: 自定義的調(diào)用函數(shù)
…: 接收多個數(shù)據(jù)
simplify : 是否數(shù)組化场航,當值array時,輸出結(jié)果按數(shù)組進行分組
tapply(chickwts$weight, INDEX=chickwts$feed,FUN = mean)
#chickwts$weight 是R內(nèi)置數(shù)據(jù)框中的體重向量廉羔,參數(shù)INDEX是分組變量溉痢,以chickwts$feed 為分組,參數(shù)FUN為函數(shù)名憋他,F(xiàn)UN = mean 為平均值
casein horsebean linseed meatmeal soybean sunflower
323.5833 160.2000 218.7500 276.9091 246.4286 328.9167
計數(shù)孩饼、百分比和比例
四分位數(shù)、百分位數(shù)竹挡、五分位數(shù)概括法
quatile 函數(shù)可以求得分位數(shù)和百分位數(shù)镀娶。
離散程度:方差、標準差和四分位差
樣本方差用來測度觀測值在算術(shù)平均數(shù)周圍的離散程度揪罕。方差(var)是每個觀測值與平均數(shù)之間距離的均方平方和梯码。標準差(sd)是方差平方根,因為方差代表平均距離的平方好啰,所以標準差可用于解釋原始觀測值的規(guī)模轩娶。四分位差(IQR)用以測度中間50%數(shù)據(jù)的寬度,也就是中位數(shù)兩側(cè)0.25分位數(shù)之間的距離框往。
協(xié)方差表示兩個數(shù)值型變量在什么程度上“一起變化”鳄抒,兩者之間是正相關(guān)關(guān)系還是負相關(guān)關(guān)系。假設(shè)由n個觀測值構(gòu)成樣本,兩個變量的取值分別是x={x1许溅,x2瓤鼻,....,xn}贤重,y={y1茬祷,y2,....并蝗,yn}(i=1牲迫,....,n),xi與yi相對應(yīng)借卧。相關(guān)系數(shù)可從相關(guān)關(guān)系的方向和強度兩方面進一步解釋協(xié)方差。有幾種不同類型的相關(guān)系數(shù)筛峭,最常用的是Pearson相關(guān)系數(shù)铐刘,Pearson樣本相關(guān)系數(shù)ρ,函數(shù)cov和cor計算樣本協(xié)方差和相關(guān)系數(shù)影晓。
奇異值是看起來和其余數(shù)據(jù)不匹配的觀測值镰吵。當與其他大量數(shù)據(jù)相比較時,它是一個顯著的極端值挂签。
其次是
第14章 數(shù)據(jù)可視化基礎(chǔ)
條形圖
> mtcars[1:5,] #先查看R數(shù)據(jù)集mtcars1到5行的數(shù)據(jù)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
> cyl.freq <- table(mtcars$cyl) # 提取mtcars中cyl列的汽車數(shù)量有多少
> cyl.freq
#有4疤祭、6、8 個cyl饵婆,分別有11勺馆、7、14輛汽車
4 6 8
11 7 14
> barplot(cyl.freq) #barplot函數(shù)制作條形圖
table(mtcars$cyl[mtcars$am==0]) #am有0和1的區(qū)別侨核,根據(jù)cyl和am來得到汽車數(shù)量
4 6 8
3 4 12
> table(mtcars$cyl[mtcars$am==1])
4 6 8
8 3 2
> cyl.freq.matrix <- table(mtcars$am,mtcars$cyl) #得到矩陣行草穆、列
> cyl.freq.matrix #矩陣2行3列,
4 6 8
0 3 4 12
1 8 3 2
> barplot(cyl.freq.matrix,beside=TRUE ,horiz=TRUE,las=1,
main="Performance car counts\nby transmission and cylinders",
names.arg=c("V4","V6","V8"),
legend.text=c("auto","manual"),
args.legend=list(x="bottomright"))
用ggplot2包也可以繪制此類圖形
library("ggplot2")
qplot(factor(mtcars$cyl),geom="bar") #qplot繪圖
qplot(factor(mtcars$cyl),
+ geom="blank",fill=factor(mtcars$am),
+ xlab="",ylab="",
+ main="Performance car counts\nby transmission and cylinders") + geom_bar(position="dodge") + scale_x_discrete(labels=c("V4","V6","V8")) + scale_y_continuous(breaks=seq(0,12,2))+theme_bw()+coord_flip() + scale_fill_grey(name="Trans.",labels=c("auto","manual"))
ggplot是需要重點掌握的一個R包
餅圖基于頻率的類別變量搓译,表示每個類別變量的相對計數(shù)部分