讀書筆記(R語言)

讀書筆記(R語言)
作者:曾健明
公眾號: 生信技能樹
整理原因:在公眾號這篇文章中看到如下一段話闲先,自己最近又在練習用markdown格式寫東西侠碧。

假如你接受了我的建議,把一本書看五遍烁登,同一個領(lǐng)域的書籍至少看5本抱完,那么希望你也記錄一下讀書筆記與我分享,歡迎來信交流蟆盹,我的郵箱是 jmzeng1314@163.com
或者你把我的這個筆記重新編輯為markdown格式孩灯,也能發(fā)郵件給我獲得認識我的資格哈!

R與ASReml-R統(tǒng)計分析教程(林元震)中國林業(yè)出版社

  • 1-3章 R的基本語法
  • 第4章 各種統(tǒng)計方法逾滥,
  • 第5章 R的繪圖峰档,
  • 第6章 ASReml-R這個包

語法重點:

  1. install.packages(), library(), help(), example(), demo(), length(), attribute(), class(), mode(), dim(), names(), str(), head(), tail()

  2. rep, seq, paste, array, matrix, data.frame, list, c(), factor()

  3. (na.omit, na.rm = T) 缺失值處理,
    as.numeric(), as.character(), as.factor(), as.logical() ##類型轉(zhuǎn)換
    as.numeric()非常有用,在畫圖的時候經(jīng)常需要加上,因為數(shù)據(jù)在處理的過程中經(jīng)常被搞錯成了字符串格式;
    as.logical()可以進行分類讥巡,只有0, NA, NAN, NULL是FALSE

  4. 排序掀亩,合并,分割成子集尚卫,數(shù)據(jù)整合重構(gòu): reshape2, plyr包
    可以先了解一些R語言自帶的數(shù)據(jù)包(見附錄1),然后試用一下aggregate函數(shù)尸红,數(shù)據(jù)匯總吱涉,根據(jù)右邊的因子來把左邊的數(shù)據(jù)進行分割并處理一個函數(shù)

  5. 控制語句,自編函數(shù)

統(tǒng)計分析

1. summary(), library(pastecs); options(digits = 2);stat.desc(), library(psych); describe()

2. 方差分析(analysis of variance,ANOVA)用來檢驗分組是否有顯著差異

2.1 單因素+重復外里,數(shù)據(jù)框
df = data.frame(yield, treat)
fit = aov(yield ~ treat, data = df)
summary(fit) ##可以用summary來查看這次分析結(jié)果 
TukeyHSD(fit) ##進行多重比較 方法1
duncan.test(fit, ”treat”,  alpha = 0.05)##進行多重比較 方法2
2.2 雙因素無重復怎爵,數(shù)據(jù)框
df=data.frame(yield,treat1,treat2)
fit=aov(yield~treat1+treat2,data=df)
## 這時候做多重比較就比較復雜了,
library(agricolae)
Duncan.test(fit,”treat1”,alpha=0.5)
Duncan.test(fit,”treat2”,alpha=0.5)
2.3 雙因素+重復盅蝗,數(shù)據(jù)庫首先要進行處理鳖链,把treat1和treat2合并成group來區(qū)分重復
Df$group = sapply(df, function(x)paste(df$treat1, df$treat2, sep = ””)
fit = aov(yield ~ treat1 + treat2 + group, data = df) 
2.4 多元方差與此類似,不停的增加因子來區(qū)分變量及group

3. 隨機分組的檢驗

3.1 完全隨機實驗:

等同于方差分析的單因素+重復(判斷不同的處理是否有差異)

3.2 單因素隨機區(qū)組實驗:

等同于方差分析的雙因素無重復墩莫,其中(區(qū)組這個因素是人為控制的差異芙委,不需要檢驗,主要檢驗我們的不同的處理是否有差異)

3.3 雙因素隨機區(qū)組實驗:

不等同于方差分析的雙因素+重復狂秦,但是與之類似灌侣,其中重復這個變量與之前的group變量有點區(qū)別,這里是我們的區(qū)組裂问,而不是treat1和treat2的簡單組合侧啼,所以我們需要分析treat1和treat2處理間的差異,但同時不需要考慮區(qū)組的差異

fit = aov(yield ~ treat1 * treat2 + block, data = df)

如果treat1有2個水平堪簿,treat2有3個水平痊乾,那么之前的group應(yīng)該是6個,但是我們的block是區(qū)組的個數(shù)椭更,還是3個哪审,數(shù)據(jù)是18個。

3.4 三因素隨機區(qū)組實驗

看下面的例子:
圖片

其中npk數(shù)據(jù)框里面有著N,P,K三個因素虑瀑,每個因素都有兩個水平协饲,共8個group組合,分成了6個區(qū)組block缴川,即為6個重復茉稠。但是每個group組合并沒有包括所有的8個水平組合,只有4個而已把夸,所以數(shù)據(jù)量也只有4個而线。這就是方差分析與隨機區(qū)組分析最大的區(qū)別所在。

圖片

4. 統(tǒng)計顯著性檢驗(前提是符合各種概率分布模型)

4.1. t檢驗

i. 單樣本,對一個多數(shù)據(jù)的向量x膀篮,看看是否是服從正態(tài)分布
qqnorm(x),qqline(x),正態(tài)QQ圖嘹狞,plot(density(x))核密度圖 ,shapiro.test(x) 正態(tài)性檢驗,T.test(x,mu=8,alternative=”two.sided”)看看這個數(shù)據(jù)的均值與8的差異是否顯著誓竿。

ii. 雙樣本檢驗是否顯著差異磅网,t.test(a,b)或者t.test(a~b)

4.2. 卡方檢驗

i. 是否符合一定的比例chisq.test(c(49,51),c(0.5,0.5)),看看扔100次硬幣的正反面比例是否正常

ii. 圖片

iii. P值為0.8415筷屡,所以顯著的正常

a) 獨立性檢驗

i. 2x2列聯(lián)表或者2xc列聯(lián)表獨立性檢驗涧偷,主要是為了看某個處理是否改變了原來的標準比例,比如本來正常1:1的扔硬幣毙死,扔一百次是49:50的燎潮,但是現(xiàn)在換了一個小硬幣,再扔一百次扼倘,結(jié)果是48:52确封,我們就想看看這個硬幣是否改變了比例

圖片

很明顯可以看出比例未發(fā)生變化,同理可以擴展到RxC列聯(lián)表的比例是否變化

5. 回歸分析

5.1 簡單線性回歸再菊,fit=lm(y~x)可以對此回歸進行一系列分析爪喘,summary(fit),round(fitted(fit),2) 預測值纠拔,round(residuals(fit),2)殘差值腥放,abline(fit)回歸線
5.2 多項式回歸fit=lm(y~x+I(x^2))以此類推
5.3 多元回歸fit=lm(yx1+x2+x3)以此類推,fit=lm(yx1+x2+x1: x2)有交互項绿语。
5.4 回歸診斷秃症,對fit對象plot可以輸出四幅圖
par(mfrow=c(2,2))
plot(fit)
  • 第一幅圖是殘差值與預測值的線性關(guān)系圖,理論上殘差值應(yīng)該是隨機分布在預測值的兩端吕粹。
  • 第二幅圖是Q-Q圖种柑,判斷殘差值在標準正態(tài)分布下的概率,理論上應(yīng)該是45度直線匹耕。
  • 第三幅圖是位置尺度圖聚请,判斷同方差性,假設(shè)是方差不變稳其,所以圖中的點應(yīng)該隨機分布于水平線的兩側(cè)驶赏。
  • 第四幅圖是殘差值的杠桿圖,用來判斷異常點既鞠,鑒別高杠桿點煤傍,離群點,強影響點嘱蛋,識別異常點蚯姆。
5.5 廣義線性模型
5.6 邏輯回歸和泊松回歸

6 概率分布

6.1 分布+概率密度函數(shù)d+累計分布函數(shù)p+隨機抽樣r+分布檢驗ks.test(x,”pnorm”)
6.2 正態(tài)分布(norm)五续,指數(shù)分布(exp),二項分布龄恋,泊松分布疙驾,卡方分布(chisq),伽馬分布(gama)郭毕,貝塔分布(beta)它碎,T分布,F(xiàn)分布显押,均勻分布(unif)扳肛,韋伯分布(weibull),一般連續(xù)分布,一般離散分布煮落。
6.3 很復雜敞峭,見附錄2

附錄I : datasets(R自帶數(shù)據(jù)包)

向量

euro    #歐元匯率踊谋,長度為11蝉仇,每個元素都有命名
landmasses    #48個陸地的面積,每個都有命名
precip    #長度為70的命名向量
rivers    #北美141條河流長度
state.abb    #美國50個州的雙字母縮寫
state.area    #美國50個州的面積
state.name    #美國50個州的全稱

因子

state.division    #美國50個州的分類殖蚕,9個類別
state.region    #美國50個州的地理分類

矩陣轿衔、數(shù)組

euro.cross    #11種貨幣的匯率矩陣
freeny.x    #每個季度影響收入四個因素的記錄
state.x77    #美國50個州的八個指標
USPersonalExpenditure    #5個年份在5個消費方向的數(shù)據(jù)
VADeaths    #1940年弗吉尼亞州死亡率(每千人)
volcano    #某火山區(qū)的地理信息(10米×10米的網(wǎng)格)
WorldPhones    #8個區(qū)域在7個年份的電話總數(shù)
iris3    #3種鳶尾花形態(tài)數(shù)據(jù)
Titanic    #泰坦尼克乘員統(tǒng)計
UCBAdmissions    #伯克利分校1973年院系、錄取和性別的頻數(shù)
crimtab    #3000個男性罪犯左手中指長度和身高關(guān)系
HairEyeColor    #592人頭發(fā)顏色睦疫、眼睛顏色和性別的頻數(shù)
occupationalStatus    #英國男性父子職業(yè)聯(lián)系

類矩陣

eurodist    #歐洲12個城市的距離矩陣害驹,只有下三角部分
Harman23.cor    #305個女孩八個形態(tài)指標的相關(guān)系數(shù)矩陣
Harman74.cor    #145個兒童24個心理指標的相關(guān)系數(shù)矩陣

數(shù)據(jù)框

airquality    #紐約1973年5-9月每日空氣質(zhì)量
anscombe    #四組x-y數(shù)據(jù),雖有相似的統(tǒng)計量蛤育,但實際數(shù)據(jù)差別較大
attenu    #多個觀測站對加利福尼亞23次地震的觀測數(shù)據(jù)
attitude    #30個部門在七個方面的調(diào)查結(jié)果宛官,調(diào)查結(jié)果是同一部門35個職員贊成的百分比
beaver1    #一只海貍每10分鐘的體溫數(shù)據(jù),共114條數(shù)據(jù)
beaver2    #另一只海貍每10分鐘的體溫數(shù)據(jù)瓦糕,共100條數(shù)據(jù)
BOD    #隨水質(zhì)的提高底洗,生化反應(yīng)對氧的需求(mg/l)隨時間(天)的變化
cars    #1920年代汽車速度對剎車距離的影響
chickwts    #不同飲食種類對小雞生長速度的影響
esoph    #法國的一個食管癌病例對照研究
faithful    #一個間歇泉的爆發(fā)時間和持續(xù)時間
Formaldehyde    #兩種方法測定甲醛濃度時分光光度計的讀數(shù)
Freeny     #每季度收入和其他四因素的記錄
dating from     #配對的病例對照數(shù)據(jù),用于條件logistic回歸
InsectSprays     #使用不同殺蟲劑時昆蟲數(shù)目
iris    #3種鳶尾花形態(tài)數(shù)據(jù)
LifeCycleSavings    #50個國家的存款率
longley    #強共線性的宏觀經(jīng)濟數(shù)據(jù)
morley    #光速測量試驗數(shù)據(jù)
mtcars    #32輛汽車在11個指標上的數(shù)據(jù)
OrchardSprays     #使用拉丁方設(shè)計研究不同噴霧劑對蜜蜂的影響
PlantGrowth     #三種處理方式對植物產(chǎn)量的影響
pressure     #溫度和氣壓
Puromycin     #兩種細胞中輔因子濃度對酶促反應(yīng)的影響
quakes     #1000次地震觀測數(shù)據(jù)(震級>4)
randu     #在VMS1.5中使用FORTRAN中的RANDU三個一組生成隨機數(shù)字咕娄,共400組亥揖。
#該隨機數(shù)字有問題。在VMS2.0以上版本已修復圣勒。
rock     #48塊石頭的形態(tài)數(shù)據(jù)
sleep     #兩藥物的催眠效果
stackloss     #化工廠將氨轉(zhuǎn)為硝酸的數(shù)據(jù)
swiss     #瑞士生育率和社會經(jīng)濟指標
ToothGrowth     #VC劑量和攝入方式對豚鼠牙齒的影響
trees    #樹木形態(tài)指標
USArrests    #美國50個州的四個犯罪率指標
USJudgeRatings    #43名律師的12個評價指標
warpbreaks    #織布機異常數(shù)據(jù)
women    #15名女性的身高和體重

列表

state.center    #美國50個州中心的經(jīng)度和緯度

類數(shù)據(jù)框

ChickWeight    #飲食對雞生長的影響
CO2    #耐寒植物CO2攝取的差異
DNase    #若干次試驗中费变,DNase濃度和光密度的關(guān)系
Indometh    #某藥物的藥物動力學數(shù)據(jù)
Loblolly    #火炬松的高度、年齡和種源
Orange    #桔子樹生長數(shù)據(jù)
Theoph    #茶堿藥動學數(shù)據(jù)

時間序列數(shù)據(jù)

airmiles    #美國1937-1960年客運里程營收(實際售出機位乘以飛行哩數(shù))
AirPassengers    #Box & Jenkins航空公司1949-1960年每月國際航線乘客數(shù)
austres    #澳大利亞1971-1994每季度人口數(shù)(以千為單位)
BJsales    #有關(guān)銷售的一個時間序列
BJsales.lead    #前一指標的先行指標(leading indicator)
co2    #1959-1997年每月大氣co2濃度(ppm)
discoveries    #1860-1959年每年巨大發(fā)現(xiàn)或發(fā)明的個數(shù)
ldeaths    #1974-1979年英國每月支氣管炎圣贸、肺氣腫和哮喘的死亡率
fdeaths    #前述死亡率的女性部分
mdeaths    #前述死亡率的男性部分
freeny.y    #每季度收入
JohnsonJohnson    #1960-1980年每季度Johnson & Johnson股票的紅利
LakeHuron    #1875-1972年某一湖泊水位的記錄
lh     #黃體生成素水平挚歧,10分鐘測量一次
lynx    #1821-1934年加拿大猞猁數(shù)據(jù)
nhtemp     #1912-1971年每年平均溫度
Nile     #1871-1970尼羅河流量
nottem     #1920-1939每月大氣溫度
presidents     #1945-1974年每季度美國總統(tǒng)支持率
UKDriverDeaths     #1969-1984年每月英國司機死亡或嚴重傷害的數(shù)目
sunspot.month     #1749-1997每月太陽黑子數(shù)
sunspot.year     #1700-1988每年太陽黑子數(shù)
sunspots    #1749-1983每月太陽黑子數(shù)
treering    #歸一化的樹木年輪數(shù)據(jù)
UKgas    #1960-1986每月英國天然氣消耗
USAccDeaths    #1973-1978美國每月意外死亡人數(shù)
uspop    #1790–1970美國每十年一次的人口總數(shù)(百萬為單位)
WWWusage    #每分鐘網(wǎng)絡(luò)連接數(shù)
Seatbelts     #多變量時間序列。和UKDriverDeaths時間段相同吁峻,反映更多因素昼激。
EuStockMarkets    #多變量時間序列庇绽。歐洲股市四個主要指標的每個工作日記錄,共1860條記錄橙困。

圖片
圖片

  • Warpbreaks這個數(shù)據(jù)集有3列變量瞧掺,我們根據(jù)wool和tension這兩個因子變量來分類對breaks這個數(shù)據(jù)變量求均值
    圖片
    圖片

  • Airquality這個數(shù)據(jù)集有6個列變量,大氣層凡傅,陽光辟狈,風,溫度夏跷,月份哼转,天數(shù),雖然它們都是數(shù)據(jù)變量槽华,但是我們可以把其中幾個因子化來進行分類匯總計算壹蔓,比如我們以month來作為因子,這樣把數(shù)據(jù)分成了各個月份的猫态,再對ozone和Temp進行分別求均值
    圖片
    圖片

  • Chickwts這個數(shù)據(jù)有兩列佣蓉,不同的喂養(yǎng)環(huán)境下統(tǒng)計小雞的重量,可以根據(jù)6中喂養(yǎng)環(huán)境來對各自的小雞統(tǒng)計平均重量
    圖片
    圖片

  • Esoph這個數(shù)據(jù)集有5個列變量亲雪,其中3個是因子勇凭,兩個是數(shù)據(jù),义辕,同理做數(shù)據(jù)匯總
    圖片
    圖片
    圖片

這是一個時間序列數(shù)據(jù)虾标,可以進行畫圖
還可以查看很多自己安裝的包里面內(nèi)置的數(shù)據(jù)
比如我安裝一個ggplot2,它會自動下載幾個相關(guān)的包一起安裝
圖片

data(package = "ggplot2")可以查看這個包自帶的數(shù)據(jù)集
圖片

R還可以進行腳本運算灌砖,實習批量化處理數(shù)據(jù)
圖片

附錄二:各種統(tǒng)計分布函數(shù)
離散型

1. 二項分布Binomial distribution:binom

二項分布指的是N重伯努利實驗璧函,記為X ~ b(n,p),E(x)=np,Var(x)=np(1-p)

  • pbinom(q, size, prob)基显, q是特定取值蘸吓,比如pbinom(8, 20, 0.2)指第8次伯努利實驗的累計概率。size指總的實驗次數(shù)续镇,prob指每次實驗成功發(fā)生的概率
  • dbinom(x, size, prob), x同上面的q同含義美澳。dfunction()對于離散分布來說結(jié)果是特定值的概率,對連續(xù)變量來說是密度(Density)
  • rbinom(n, size, prob)摸航,產(chǎn)生n個b(size, prob)的二項分布隨機數(shù)
  • qbinom(p, size, prob),quantile function 分位數(shù)函數(shù)制跟。
    • 分位數(shù):
      若概率0<p<1,隨機變量X或它的概率分布的分位數(shù)Za酱虎。是指滿足條件p(X>Za)=α的實數(shù)雨膨。如t分布的分位數(shù)表,自由度f=20和α=0.05時的分位數(shù)為1.7247读串。 --這個定義指的是上側(cè)α分位數(shù)
    • α分位數(shù):
      實數(shù)α滿足0 <α<1 時聊记,α分位數(shù)是使P{X< xα}=F(xα)=α的數(shù)xα
      雙側(cè)α分位數(shù)是使P{X<λ1}=F(λ1)=0.5α的數(shù)λ1撒妈、使 P{X>λ2}=1-F(λ2)=0.5α的數(shù)λ2。
    • qbinom是上側(cè)分位數(shù)排监,如qbinom(0.95,100,0.2)=27,指27之后P(x>=27)>=0.95狰右。即對于b(100,0.2)為了達到0.95的概率至少需要27次重復實驗。
2. 負二項分布negative binomial distribution (帕斯卡分布)nbinom

擲骰子舆床,擲到一即視為成功棋蚌。則每次擲骰的成功率是1/6。要擲出三次一挨队,所需的擲骰次數(shù)屬于集合 { 3, 4, 5, 6, ... } 谷暮。擲到三次一的擲骰次數(shù)是負二項分布的隨機變量。

  • dnbinom(4, 3, 1/6) = 0.0334898盛垦,四次連續(xù)三次1的概率為這個數(shù)湿弦。
  • 概率函數(shù)為f(k; r, p)=choose(k+r-1, r-1)p^r(1-p)^k, 當r=1時這個特例分布是幾何分布
  • rnbinom(n, size, prob, mu) 其中n是需要產(chǎn)生的隨機數(shù)個數(shù),size是概率函數(shù)中的r腾夯,即連續(xù)成功的次數(shù)颊埃,prob是單詞成功的概率,mu未知..(mu是希臘字母υ的讀音)
3. 幾何分布Geometric Distribution,geom

n次伯努利試驗俯在,前n-1次皆失敗竟秫,第n次才成功的機率

  • dgeom(x, prob),注意這里的x取值是0:n娃惯,即dgeom(0,0.2)=0.2,以上的二項分布和負二項分布也是如此跷乐。
  • ngeom(n, prob)
4. 超幾何分布Hypergeometric Distribution,hyper

它描述了由有限個(m+n)物件中抽出k個物件趾浅,成功抽出指定種類的物件的次數(shù)(不歸還)愕提。

  • 概率:p(x) = choose(m, x) choose(n, k-x) / choose(m+n, k) for x = 0, ..., k.
  • 當n=1時,這是一個0-1分布即伯努利分布皿哨,當n接近無窮大∞時浅侨,超幾何分布可視為二項分布
  • rhyper(nn, m, n, k),nn是需要產(chǎn)生的隨機數(shù)個數(shù),m是白球數(shù)(計算目標是取到x個白球的概率)证膨,n是黑球數(shù)如输,k是抽取出的球個數(shù)
  • dhyper(x, m, n, k)
5. 泊松分布 Poisson Distribution,pois

p(x) = lambda^x exp(-lambda)/x!
for x = 0, 1, 2, .... The mean and variance are E(X) = Var(X) = λ. x ~ π(λ)
泊松分布的參數(shù)λ是單位時間(或單位面積)內(nèi)隨機事件的平均發(fā)生率.泊松分布適合于描述單位時間內(nèi)隨機事件發(fā)生的次數(shù)。如某一服務(wù)設(shè)施在一定時間內(nèi)到達的人數(shù)央勒,電話交換機接到呼叫的次數(shù)不见,汽車站臺的候客人數(shù),機器出現(xiàn)的故障數(shù)崔步,自然災(zāi)害發(fā)生的次數(shù)等等.

  • rpois(n, lambda)
  • dpois(x,lambda)

連續(xù)型

6. 均勻分布 Uniform Distribution稳吮,unif

f(x) = 1/(max-min) for min <= x <= max
runif(n, min, max)

##生成16位數(shù)的隨機數(shù):
as.character(runif(1, 1000000000000000, 9999999999999999))
dunif(x, min, max) = 1   ## 恒定等于1/(max-min).

對于連續(xù)變量,dfunction的值是x去特定值代入概率密度函數(shù)得到的函數(shù)值井濒。

7. 正態(tài)分布Normal Distribution灶似,norm

f(x) = 1/(sqrt(2 pi) sigma) e^-((x - mu)^2/(2 sigma^2))
其中mu是均值列林,sigma是standard deviation標準差
理論上可以證明如果把許多小作用加起來看做一個變量,那么這個變量服從正態(tài)分布

rnorm(n, mean=0, sd=1)  ##后兩個參數(shù)如果不填則默認為0,1。
dnorm(x, mean, sd)   ##sd是標準差酪惭。
畫出正態(tài)分布概率密度函數(shù)的大致圖形:
x <- seq(-3, 3, 0.1)
plot(x, dnorm(x))     ##plot中的x,y要有相關(guān)關(guān)系才會形成函數(shù)圖希痴。
qnorm(p, mean, sd)      ##這個還是上側(cè)分位數(shù),如qnorm(0.05)=-1.644854,即x<=這個數(shù)的累計概率小于0.05
  • 3sigma法則:對于正態(tài)分布的x春感,x取值在(mean-3sd,mean+3sd)幾乎是在肯定的润梯。
    因為pnorm(3)-pnorm(-3)=0.9973002
  • 用正太分布產(chǎn)生一個16位長的隨機數(shù)字:
    as.character(10^16*rnorm(1))
8. 伽瑪分布Gamma Distribution,gamma

維基百科

假設(shè)隨機變量X為 等到第α件事發(fā)生所需之等候時間甥厦。
f(x)= 1/(s^a Gamma(a)) x^(a-1) e^-(x/s) for x >= 0, a > 0 and s > 0.

  • Gamma分布中的參數(shù)α纺铭,稱為形狀參數(shù)(shape parameter),即上式中的s刀疙,β稱為尺度參數(shù)(scale parameter)上式中的a
  • E(x)=sa, Var(x)=sa^2. 當shape=1/2,scale=2時舶赔,這樣的gamma分布是自由度為1的開方分
  • dgamma(x, shape, rate=1, scale = 1/rate), 請注意R在這里提供的rate是scale尺度參數(shù)的倒數(shù),如果dgamma(0, 1, 2)則表示dgamma(0, shape=1, rate=2),而非dgamma(0, shape=1, scale=2)
pgamma(q, shape, rate = 1, scale = 1/rate, lower.tail = TRUE, log.p = FALSE)
qgamma(p, shape, rate = 1, scale = 1/rate, lower.tail = TRUE, log.p = FALSE)
rgamma(n, shape, rate = 1, scale = 1/rate)
9. 指數(shù)分布Exponential Distribution谦秧,exp

指數(shù)分布可以用來表示獨立隨機事件發(fā)生的時間間隔竟纳,比如旅客進機場的時間間隔、中文維基百科新條目出現(xiàn)的時間間隔等等疚鲤。
記作X ~ Exponential(λ)
f(x) = lambda e^(- lambda x) for x >= 0

  • 其中l(wèi)ambda λ > 0是分布的一個參數(shù)锥累,常被稱為率參數(shù)(rate parameter). E(x)=1/λ,Var(x)=1/λ^2
dexp(x, rate = 1, log = FALSE)
pexp(q, rate = 1, lower.tail = TRUE, log.p = FALSE)
qexp(p, rate = 1, lower.tail = TRUE, log.p = FALSE)
rexp(n, rate = 1)

假設(shè)在公交站臺等公交車平均10分鐘有一趟車,那么每小時候有6趟車集歇,即每小時出現(xiàn)車的次數(shù)~ Exponential(1/6)

  • 我們可以產(chǎn)生10個這些隨機數(shù)看看rexp(10,1/6)
  • 60/(rexp10,1/6)即為我們在站臺等車的隨機時間桶略,如下:
[1]  6.443148 24.337131  6.477096  2.824638 15.184945 14.594903
[7]  7.133842  8.222400 42.609784 15.182827
  • 可以看見竟然有一個42.6分鐘的隨機數(shù)出現(xiàn),據(jù)說這種情況下你可以投訴上海的公交公司诲宇。
    不過x符合指數(shù)分布际歼,1/x還符合指數(shù)分布嗎?
  • pexp(6,1/6)=0.6321206, 也就是說這種情況下只有37%的可能公交車會10分鐘以內(nèi)來姑蓝。

按照以上分析一個小時出現(xiàn)的公交車次數(shù)應(yīng)該不符合指數(shù)分布鹅心。

10. 卡方分布(non-central)Chi-Squared Distribution,chisq

它廣泛的運用于檢測數(shù)學模型是否適合所得的數(shù)據(jù)纺荧,以及數(shù)據(jù)間的相關(guān)性旭愧。數(shù)據(jù)并不需要呈正態(tài)分布

k個標準正態(tài)變量的平方和即為自由度為k的卡方分布。
E(x)=k,Var(x)=2k.

dchisq(x, df, ncp=0, log = FALSE)
pchisq(q, df, ncp=0, lower.tail = TRUE, log.p = FALSE)
qchisq(p, df, ncp=0, lower.tail = TRUE, log.p = FALSE)
rchisq(n, df, ncp=0)
  • 其中df為degrees of freedom宙暇。
  • ncp是non-centrality parameter (non-negative); ncp=0時是central卡方分布输枯,ncp不為0時,表示這個卡方分布是由非標準正態(tài)分布組合而成客给,ncp=這些正態(tài) 分布的均值的平方和用押。
11. β分布Beta Distribution,beta

變量x僅能出現(xiàn)于0到1之間靶剑。

  • 空氣中含有的氣體狀態(tài)的水分蜻拨。表示這種水分的一種辦法就是相對濕度池充。即現(xiàn)在的含水量與空氣的最大含水量(飽和含水量)的比值。我們聽到的天氣預告用語中就經(jīng)常使用相對濕度這個名詞缎讼。
  • 相對濕度的值顯然僅能出現(xiàn)于0到1之間(經(jīng)常用百分比表示)收夸。冬季塔里木盆地的日最大相對濕度和夏季日最小相對濕度。證實它們都符合貝塔分布
dbeta(x, shape1, shape2, ncp = 0, log = FALSE)
pbeta(q, shape1, shape2, ncp = 0, lower.tail = TRUE, log.p = FALSE)
qbeta(p, shape1, shape2, ncp = 0, lower.tail = TRUE, log.p = FALSE)
rbeta(n, shape1, shape2, ncp = 0)
  • shape1血崭,shape2是beta分布的兩個參數(shù)卧惜。
  • E(x)=s1/(s1+s2),var(x)=s1*s2/(s1+s2)^2 * (s1+s2+1)
12. t分布Student t Distribution,t

應(yīng)用在當對呈正態(tài)分布的母群體的均值進行估計夹纫。當母群體的標準差是未知的但卻又需要估計時咽瓷,我們可以運用學生t 分布。

  • 學生t 分布可簡稱為t 分布舰讹。其推導由威廉·戈塞于1908年首先發(fā)表茅姜,當時他還在都柏林的健力士釀酒廠工作。因為不能以他本人的名義發(fā)表月匣,所以論文使用了學生 (Student)這一筆名钻洒。之后t 檢驗以及相關(guān)理論經(jīng)由羅納德·費雪的工作發(fā)揚光大,而正是他將此分布稱為學生分布锄开。
dt(x, df, ncp, log = FALSE)
pt(q, df, ncp, lower.tail = TRUE, log.p = FALSE)
qt(p, df, ncp, lower.tail = TRUE, log.p = FALSE)
rt(n, df, ncp)
  • df是自由度
  • ncp是non-centrality parameter delta素标,If omitted, use the central t distribution。ncp出現(xiàn)時表示分布由非標準的卡方分布構(gòu)成萍悴。
13. F分布

一個F-分布的隨機變量是兩個卡方分布變量的比率头遭。F-分布被廣泛應(yīng)用于似然比率檢驗,特別是方差分析中

df(x, df1, df2, ncp, log = FALSE)
pf(q, df1, df2, ncp, lower.tail = TRUE, log.p = FALSE)
qf(p, df1, df2, ncp, lower.tail = TRUE, log.p = FALSE)
rf(n, df1, df2, ncp)
  • df1退腥,df2是兩個自由度任岸,ncp同t分布中的ncp再榄。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末狡刘,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子困鸥,更是在濱河造成了極大的恐慌嗅蔬,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,548評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件疾就,死亡現(xiàn)場離奇詭異澜术,居然都是意外死亡,警方通過查閱死者的電腦和手機猬腰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評論 3 399
  • 文/潘曉璐 我一進店門鸟废,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人姑荷,你說我怎么就攤上這事盒延∷趵蓿” “怎么了?”我有些...
    開封第一講書人閱讀 167,990評論 0 360
  • 文/不壞的土叔 我叫張陵添寺,是天一觀的道長胯盯。 經(jīng)常有香客問我,道長计露,這世上最難降的妖魔是什么博脑? 我笑而不...
    開封第一講書人閱讀 59,618評論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮票罐,結(jié)果婚禮上叉趣,老公的妹妹穿的比我還像新娘。我一直安慰自己该押,他們只是感情好君账,可當我...
    茶點故事閱讀 68,618評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著沈善,像睡著了一般乡数。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上闻牡,一...
    開封第一講書人閱讀 52,246評論 1 308
  • 那天净赴,我揣著相機與錄音,去河邊找鬼罩润。 笑死玖翅,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的割以。 我是一名探鬼主播金度,決...
    沈念sama閱讀 40,819評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼严沥!你這毒婦竟也來了猜极?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,725評論 0 276
  • 序言:老撾萬榮一對情侶失蹤消玄,失蹤者是張志新(化名)和其女友劉穎跟伏,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體翩瓜,經(jīng)...
    沈念sama閱讀 46,268評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡受扳,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,356評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了兔跌。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片勘高。...
    茶點故事閱讀 40,488評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出华望,到底是詐尸還是另有隱情层亿,我是刑警寧澤,帶...
    沈念sama閱讀 36,181評論 5 350
  • 正文 年R本政府宣布立美,位于F島的核電站匿又,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏建蹄。R本人自食惡果不足惜碌更,卻給世界環(huán)境...
    茶點故事閱讀 41,862評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望洞慎。 院中可真熱鬧痛单,春花似錦、人聲如沸劲腿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽焦人。三九已至挥吵,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間花椭,已是汗流浹背忽匈。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評論 1 272
  • 我被黑心中介騙來泰國打工违孝, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留引几,地道東北人。 一個月前我還...
    沈念sama閱讀 48,897評論 3 376
  • 正文 我出身青樓携茂,卻偏偏與公主長得像袋倔,于是被迫代替她去往敵國和親雕蔽。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,500評論 2 359

推薦閱讀更多精彩內(nèi)容