R筆記之《R語言之書-編程與統(tǒng)計》第三部分 統(tǒng)計學與概率

一個記錄鼓拧,第三部分從13章開始,共4章的內(nèi)容越妈,一起看看吧季俩。

第13章 初級統(tǒng)計學

  • 描述原始數(shù)據(jù)
  • 統(tǒng)計概要

第14章 數(shù)據(jù)可視化基礎(chǔ)

  • 條形圖和餅圖
  • 直方圖
  • 箱線圖
  • 散點圖

第15章 概率

  • 什么是概率
  • 隨機變量和概率分布

第16章 常見的概率分布

  • 常見的概率質(zhì)量函數(shù)
  • 常見的概率密度函數(shù)

首先是

第13章 初級統(tǒng)計學—描述原始數(shù)據(jù)

原始數(shù)據(jù)即是相關(guān)樣本的觀測值或者記錄值,其可以存儲在各種對象梅掠,如數(shù)據(jù)框中酌住,讀入R內(nèi)。
數(shù)值型變量分為連續(xù)型離散型
分類變量 分為名義變量有序變量兩種形式阎抒,名義變量是不能按照邏輯順序排序的分類變量酪我,如性別,有男女兩個固定值并且這兩個類別的順序不相關(guān)且叁。有序變量是指可以排序的分類變量都哭,如藥物劑量可能取值是低中高,這些數(shù)值按照升序或者降序進行排序逞带,并且順序可能與實驗相關(guān)欺矫。
單變量多變量數(shù)據(jù),單變量即一維展氓,多變量即多維穆趴。
參數(shù)統(tǒng)計量 ,區(qū)分統(tǒng)計量和參數(shù)的關(guān)鍵是確定特征數(shù)描述的是我們可以用來獲得數(shù)據(jù)的樣本還是總體带饱。
集中趨勢:均值毡代、中位數(shù)、眾數(shù)勺疼,集中趨勢通過描述型觀測值的中心來解釋大量數(shù)據(jù)集合教寂,最常見的是用算術(shù)平均數(shù)來測度中心趨勢,也就是觀測值集合的中心平衡點执庐。
中位數(shù)是觀測值的中等大小酪耕,將觀測值按照從小到大排序,會發(fā)現(xiàn)中位數(shù)要么是中間值(奇數(shù)個觀測值)轨淌,要么是兩個中間值的均值(偶數(shù)個觀測值)迂烁。
眾數(shù)是指出現(xiàn)最頻繁的觀測值看尼,常用于離散型數(shù)據(jù)。

mean() #平均值
medium()  #中位數(shù)
min() #最小值
max() #最大值
table() # 求眾數(shù)盟步,會輸出頻數(shù)

如果數(shù)據(jù)集中有缺失值或者有未定義的變量(NA或NaN)藏斩,R中的許多函數(shù)無法從這樣的數(shù)據(jù)結(jié)構(gòu)中計算出統(tǒng)計量。我們可以使用參數(shù)na.rm 設(shè)置為TRUE却盘,可以強制函數(shù)只作用于數(shù)據(jù)集中的數(shù)值型數(shù)據(jù)狰域。

> mean(c(1,4,NA,NaN),na.rm=TRUE)
> 2.5

#函數(shù)諸如sum黄橘、prod兆览、mean、medium塞关、max抬探、min、和range等在數(shù)字向量的基礎(chǔ)上計算數(shù)字統(tǒng)計量的任何函數(shù)帆赢,都可以使用參數(shù)na.rm

關(guān)于R語言中apply函數(shù)族可以參考http://blog.fens.me/r-apply/
"tapply函數(shù)用于分組的循環(huán)計算小压,通過INDEX參數(shù)可以把數(shù)據(jù)集X進行分組,相當于group by的操作匿醒。
函數(shù)定義:tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)

參數(shù)列表:
X: 向量
INDEX: 用于分組的索引
FUN: 自定義的調(diào)用函數(shù)
…: 接收多個數(shù)據(jù)
simplify : 是否數(shù)組化场航,當值array時,輸出結(jié)果按數(shù)組進行分組

tapply(chickwts$weight, INDEX=chickwts$feed,FUN = mean)
#chickwts$weight 是R內(nèi)置數(shù)據(jù)框中的體重向量廉羔,參數(shù)INDEX是分組變量溉痢,以chickwts$feed 為分組,參數(shù)FUN為函數(shù)名憋他,F(xiàn)UN = mean 為平均值
   casein horsebean   linseed  meatmeal   soybean sunflower 
 323.5833  160.2000  218.7500  276.9091  246.4286  328.9167

計數(shù)孩饼、百分比和比例
四分位數(shù)、百分位數(shù)竹挡、五分位數(shù)概括法
quatile 函數(shù)可以求得分位數(shù)和百分位數(shù)镀娶。
離散程度:方差、標準差和四分位差
樣本方差用來測度觀測值在算術(shù)平均數(shù)周圍的離散程度揪罕。方差(var)是每個觀測值與平均數(shù)之間距離的均方平方和梯码。標準差(sd)是方差平方根,因為方差代表平均距離的平方好啰,所以標準差可用于解釋原始觀測值的規(guī)模轩娶。四分位差(IQR)用以測度中間50%數(shù)據(jù)的寬度,也就是中位數(shù)兩側(cè)0.25分位數(shù)之間的距離框往。
協(xié)方差表示兩個數(shù)值型變量在什么程度上“一起變化”鳄抒,兩者之間是正相關(guān)關(guān)系還是負相關(guān)關(guān)系。假設(shè)由n個觀測值構(gòu)成樣本,兩個變量的取值分別是x={x1许溅,x2瓤鼻,....,xn}贤重,y={y1茬祷,y2,....并蝗,yn}(i=1牲迫,....,n),xi與yi相對應(yīng)借卧。相關(guān)系數(shù)可從相關(guān)關(guān)系的方向和強度兩方面進一步解釋協(xié)方差。有幾種不同類型的相關(guān)系數(shù)筛峭,最常用的是Pearson相關(guān)系數(shù)铐刘,Pearson樣本相關(guān)系數(shù)ρ,函數(shù)cov和cor計算樣本協(xié)方差和相關(guān)系數(shù)影晓。
奇異值是看起來和其余數(shù)據(jù)不匹配的觀測值镰吵。當與其他大量數(shù)據(jù)相比較時,它是一個顯著的極端值挂签。

其次是

第14章 數(shù)據(jù)可視化基礎(chǔ)

條形圖

> mtcars[1:5,]    #先查看R數(shù)據(jù)集mtcars1到5行的數(shù)據(jù)
                   mpg cyl disp  hp drat    wt  qsec vs am gear carb
Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
> cyl.freq <- table(mtcars$cyl) # 提取mtcars中cyl列的汽車數(shù)量有多少

> cyl.freq
#有4疤祭、6、8 個cyl饵婆,分別有11勺馆、7、14輛汽車
 4  6  8 
11  7 14 
> barplot(cyl.freq)   #barplot函數(shù)制作條形圖
table(mtcars$cyl[mtcars$am==0]) #am有0和1的區(qū)別侨核,根據(jù)cyl和am來得到汽車數(shù)量

 4  6  8 
 3  4 12 
> table(mtcars$cyl[mtcars$am==1])

4 6 8 
8 3 2 
> cyl.freq.matrix <- table(mtcars$am,mtcars$cyl) #得到矩陣行草穆、列
> cyl.freq.matrix   #矩陣2行3列,
   
     4  6  8
  0  3  4 12
  1  8  3  2
> barplot(cyl.freq.matrix,beside=TRUE ,horiz=TRUE,las=1,
main="Performance car counts\nby transmission and cylinders",
names.arg=c("V4","V6","V8"),
legend.text=c("auto","manual"),
args.legend=list(x="bottomright"))

用ggplot2包也可以繪制此類圖形

library("ggplot2")
qplot(factor(mtcars$cyl),geom="bar") #qplot繪圖
qplot(factor(mtcars$cyl),
+       geom="blank",fill=factor(mtcars$am),
+       xlab="",ylab="",
+       main="Performance car counts\nby transmission and cylinders") + geom_bar(position="dodge") + scale_x_discrete(labels=c("V4","V6","V8")) + scale_y_continuous(breaks=seq(0,12,2))+theme_bw()+coord_flip() + scale_fill_grey(name="Trans.",labels=c("auto","manual")) 


ggplot是需要重點掌握的一個R包

餅圖基于頻率的類別變量搓译,表示每個類別變量的相對計數(shù)部分

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末悲柱,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子些己,更是在濱河造成了極大的恐慌豌鸡,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,589評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件段标,死亡現(xiàn)場離奇詭異涯冠,居然都是意外死亡,警方通過查閱死者的電腦和手機怀樟,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,615評論 3 396
  • 文/潘曉璐 我一進店門功偿,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事械荷」菜#” “怎么了?”我有些...
    開封第一講書人閱讀 165,933評論 0 356
  • 文/不壞的土叔 我叫張陵吨瞎,是天一觀的道長痹兜。 經(jīng)常有香客問我,道長颤诀,這世上最難降的妖魔是什么字旭? 我笑而不...
    開封第一講書人閱讀 58,976評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮崖叫,結(jié)果婚禮上遗淳,老公的妹妹穿的比我還像新娘。我一直安慰自己心傀,他們只是感情好屈暗,可當我...
    茶點故事閱讀 67,999評論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著脂男,像睡著了一般养叛。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上宰翅,一...
    開封第一講書人閱讀 51,775評論 1 307
  • 那天弃甥,我揣著相機與錄音,去河邊找鬼汁讼。 笑死淆攻,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的掉缺。 我是一名探鬼主播卜录,決...
    沈念sama閱讀 40,474評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼眶明!你這毒婦竟也來了艰毒?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,359評論 0 276
  • 序言:老撾萬榮一對情侶失蹤搜囱,失蹤者是張志新(化名)和其女友劉穎丑瞧,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蜀肘,經(jīng)...
    沈念sama閱讀 45,854評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡绊汹,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,007評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了扮宠。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片西乖。...
    茶點故事閱讀 40,146評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出获雕,到底是詐尸還是另有隱情薄腻,我是刑警寧澤,帶...
    沈念sama閱讀 35,826評論 5 346
  • 正文 年R本政府宣布届案,位于F島的核電站庵楷,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏楣颠。R本人自食惡果不足惜尽纽,卻給世界環(huán)境...
    茶點故事閱讀 41,484評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望童漩。 院中可真熱鬧弄贿,春花似錦、人聲如沸矫膨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,029評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽豆拨。三九已至,卻和暖如春能庆,著一層夾襖步出監(jiān)牢的瞬間施禾,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,153評論 1 272
  • 我被黑心中介騙來泰國打工搁胆, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留弥搞,地道東北人。 一個月前我還...
    沈念sama閱讀 48,420評論 3 373
  • 正文 我出身青樓渠旁,卻偏偏與公主長得像攀例,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子顾腊,可洞房花燭夜當晚...
    茶點故事閱讀 45,107評論 2 356

推薦閱讀更多精彩內(nèi)容