讀書筆記(R語言)
作者:曾健明
公眾號: 生信技能樹
整理原因:在公眾號這篇文章中看到如下一段話闲先,自己最近又在練習用markdown格式寫東西侠碧。
假如你接受了我的建議,把一本書看五遍烁登,同一個領(lǐng)域的書籍至少看5本抱完,那么希望你也記錄一下讀書筆記與我分享,歡迎來信交流蟆盹,我的郵箱是 jmzeng1314@163.com
或者你把我的這個筆記重新編輯為markdown格式孩灯,也能發(fā)郵件給我獲得認識我的資格哈!
R與ASReml-R統(tǒng)計分析教程(林元震)中國林業(yè)出版社
- 1-3章 R的基本語法
- 第4章 各種統(tǒng)計方法逾滥,
- 第5章 R的繪圖峰档,
- 第6章 ASReml-R這個包
語法重點:
install.packages(), library(), help(), example(), demo(), length(), attribute(), class(), mode(), dim(), names(), str(), head(), tail()
rep, seq, paste, array, matrix, data.frame, list, c(), factor()
(na.omit, na.rm = T)
缺失值處理,
as.numeric(), as.character(), as.factor(), as.logical()
##類型轉(zhuǎn)換
as.numeric()非常有用,在畫圖的時候經(jīng)常需要加上,因為數(shù)據(jù)在處理的過程中經(jīng)常被搞錯成了字符串格式;
as.logical()可以進行分類讥巡,只有0, NA, NAN, NULL是FALSE排序掀亩,合并,分割成子集尚卫,數(shù)據(jù)整合重構(gòu): reshape2, plyr包
可以先了解一些R語言自帶的數(shù)據(jù)包(見附錄1),然后試用一下aggregate函數(shù)尸红,數(shù)據(jù)匯總吱涉,根據(jù)右邊的因子來把左邊的數(shù)據(jù)進行分割并處理一個函數(shù)控制語句,自編函數(shù)
統(tǒng)計分析
1. summary(), library(pastecs); options(digits = 2);stat.desc(), library(psych); describe()
2. 方差分析(analysis of variance,ANOVA)用來檢驗分組是否有顯著差異
2.1 單因素+重復外里,數(shù)據(jù)框
df = data.frame(yield, treat)
fit = aov(yield ~ treat, data = df)
summary(fit) ##可以用summary來查看這次分析結(jié)果
TukeyHSD(fit) ##進行多重比較 方法1
duncan.test(fit, ”treat”, alpha = 0.05)##進行多重比較 方法2
2.2 雙因素無重復怎爵,數(shù)據(jù)框
df=data.frame(yield,treat1,treat2)
fit=aov(yield~treat1+treat2,data=df)
## 這時候做多重比較就比較復雜了,
library(agricolae)
Duncan.test(fit,”treat1”,alpha=0.5)
Duncan.test(fit,”treat2”,alpha=0.5)
2.3 雙因素+重復盅蝗,數(shù)據(jù)庫首先要進行處理鳖链,把treat1和treat2合并成group來區(qū)分重復
Df$group = sapply(df, function(x)paste(df$treat1, df$treat2, sep = ””)
fit = aov(yield ~ treat1 + treat2 + group, data = df)
2.4 多元方差與此類似,不停的增加因子來區(qū)分變量及group
3. 隨機分組的檢驗
3.1 完全隨機實驗:
等同于方差分析的單因素+重復(判斷不同的處理是否有差異)
3.2 單因素隨機區(qū)組實驗:
等同于方差分析的雙因素無重復墩莫,其中(區(qū)組這個因素是人為控制的差異芙委,不需要檢驗,主要檢驗我們的不同的處理是否有差異)
3.3 雙因素隨機區(qū)組實驗:
不等同于方差分析的雙因素+重復狂秦,但是與之類似灌侣,其中重復這個變量與之前的group變量有點區(qū)別,這里是我們的區(qū)組裂问,而不是treat1和treat2的簡單組合侧啼,所以我們需要分析treat1和treat2處理間的差異,但同時不需要考慮區(qū)組的差異
fit = aov(yield ~ treat1 * treat2 + block, data = df)
如果treat1有2個水平堪簿,treat2有3個水平痊乾,那么之前的group應(yīng)該是6個,但是我們的block是區(qū)組的個數(shù)椭更,還是3個哪审,數(shù)據(jù)是18個。
3.4 三因素隨機區(qū)組實驗
看下面的例子:
圖片
其中npk數(shù)據(jù)框里面有著N,P,K三個因素虑瀑,每個因素都有兩個水平协饲,共8個group組合,分成了6個區(qū)組block缴川,即為6個重復茉稠。但是每個group組合并沒有包括所有的8個水平組合,只有4個而已把夸,所以數(shù)據(jù)量也只有4個而线。這就是方差分析與隨機區(qū)組分析最大的區(qū)別所在。
圖片
4. 統(tǒng)計顯著性檢驗(前提是符合各種概率分布模型)
4.1. t檢驗
i. 單樣本,對一個多數(shù)據(jù)的向量x膀篮,看看是否是服從正態(tài)分布
qqnorm(x),qqline(x),正態(tài)QQ圖嘹狞,plot(density(x))核密度圖 ,shapiro.test(x) 正態(tài)性檢驗,T.test(x,mu=8,alternative=”two.sided”)看看這個數(shù)據(jù)的均值與8的差異是否顯著誓竿。
ii. 雙樣本檢驗是否顯著差異磅网,t.test(a,b)或者t.test(a~b)
4.2. 卡方檢驗
i. 是否符合一定的比例chisq.test(c(49,51),c(0.5,0.5)),看看扔100次硬幣的正反面比例是否正常
ii. 圖片
iii. P值為0.8415筷屡,所以顯著的正常
a) 獨立性檢驗
i. 2x2列聯(lián)表或者2xc列聯(lián)表獨立性檢驗涧偷,主要是為了看某個處理是否改變了原來的標準比例,比如本來正常1:1的扔硬幣毙死,扔一百次是49:50的燎潮,但是現(xiàn)在換了一個小硬幣,再扔一百次扼倘,結(jié)果是48:52确封,我們就想看看這個硬幣是否改變了比例
圖片
很明顯可以看出比例未發(fā)生變化,同理可以擴展到RxC列聯(lián)表的比例是否變化
5. 回歸分析
5.1 簡單線性回歸再菊,fit=lm(y~x)可以對此回歸進行一系列分析爪喘,summary(fit),round(fitted(fit),2) 預測值纠拔,round(residuals(fit),2)殘差值腥放,abline(fit)回歸線
5.2 多項式回歸fit=lm(y~x+I(x^2))以此類推
5.3 多元回歸fit=lm(yx1+x2+x3)以此類推,fit=lm(yx1+x2+x1: x2)有交互項绿语。
5.4 回歸診斷秃症,對fit對象plot可以輸出四幅圖
par(mfrow=c(2,2))
plot(fit)
- 第一幅圖是殘差值與預測值的線性關(guān)系圖,理論上殘差值應(yīng)該是隨機分布在預測值的兩端吕粹。
- 第二幅圖是Q-Q圖种柑,判斷殘差值在標準正態(tài)分布下的概率,理論上應(yīng)該是45度直線匹耕。
- 第三幅圖是位置尺度圖聚请,判斷同方差性,假設(shè)是方差不變稳其,所以圖中的點應(yīng)該隨機分布于水平線的兩側(cè)驶赏。
- 第四幅圖是殘差值的杠桿圖,用來判斷異常點既鞠,鑒別高杠桿點煤傍,離群點,強影響點嘱蛋,識別異常點蚯姆。
5.5 廣義線性模型
5.6 邏輯回歸和泊松回歸
6 概率分布
6.1 分布+概率密度函數(shù)d+累計分布函數(shù)p+隨機抽樣r+分布檢驗ks.test(x,”pnorm”)
6.2 正態(tài)分布(norm)五续,指數(shù)分布(exp),二項分布龄恋,泊松分布疙驾,卡方分布(chisq),伽馬分布(gama)郭毕,貝塔分布(beta)它碎,T分布,F(xiàn)分布显押,均勻分布(unif)扳肛,韋伯分布(weibull),一般連續(xù)分布,一般離散分布煮落。
6.3 很復雜敞峭,見附錄2
附錄I : datasets(R自帶數(shù)據(jù)包)
向量
euro #歐元匯率踊谋,長度為11蝉仇,每個元素都有命名
landmasses #48個陸地的面積,每個都有命名
precip #長度為70的命名向量
rivers #北美141條河流長度
state.abb #美國50個州的雙字母縮寫
state.area #美國50個州的面積
state.name #美國50個州的全稱
因子
state.division #美國50個州的分類殖蚕,9個類別
state.region #美國50個州的地理分類
矩陣轿衔、數(shù)組
euro.cross #11種貨幣的匯率矩陣
freeny.x #每個季度影響收入四個因素的記錄
state.x77 #美國50個州的八個指標
USPersonalExpenditure #5個年份在5個消費方向的數(shù)據(jù)
VADeaths #1940年弗吉尼亞州死亡率(每千人)
volcano #某火山區(qū)的地理信息(10米×10米的網(wǎng)格)
WorldPhones #8個區(qū)域在7個年份的電話總數(shù)
iris3 #3種鳶尾花形態(tài)數(shù)據(jù)
Titanic #泰坦尼克乘員統(tǒng)計
UCBAdmissions #伯克利分校1973年院系、錄取和性別的頻數(shù)
crimtab #3000個男性罪犯左手中指長度和身高關(guān)系
HairEyeColor #592人頭發(fā)顏色睦疫、眼睛顏色和性別的頻數(shù)
occupationalStatus #英國男性父子職業(yè)聯(lián)系
類矩陣
eurodist #歐洲12個城市的距離矩陣害驹,只有下三角部分
Harman23.cor #305個女孩八個形態(tài)指標的相關(guān)系數(shù)矩陣
Harman74.cor #145個兒童24個心理指標的相關(guān)系數(shù)矩陣
數(shù)據(jù)框
airquality #紐約1973年5-9月每日空氣質(zhì)量
anscombe #四組x-y數(shù)據(jù),雖有相似的統(tǒng)計量蛤育,但實際數(shù)據(jù)差別較大
attenu #多個觀測站對加利福尼亞23次地震的觀測數(shù)據(jù)
attitude #30個部門在七個方面的調(diào)查結(jié)果宛官,調(diào)查結(jié)果是同一部門35個職員贊成的百分比
beaver1 #一只海貍每10分鐘的體溫數(shù)據(jù),共114條數(shù)據(jù)
beaver2 #另一只海貍每10分鐘的體溫數(shù)據(jù)瓦糕,共100條數(shù)據(jù)
BOD #隨水質(zhì)的提高底洗,生化反應(yīng)對氧的需求(mg/l)隨時間(天)的變化
cars #1920年代汽車速度對剎車距離的影響
chickwts #不同飲食種類對小雞生長速度的影響
esoph #法國的一個食管癌病例對照研究
faithful #一個間歇泉的爆發(fā)時間和持續(xù)時間
Formaldehyde #兩種方法測定甲醛濃度時分光光度計的讀數(shù)
Freeny #每季度收入和其他四因素的記錄
dating from #配對的病例對照數(shù)據(jù),用于條件logistic回歸
InsectSprays #使用不同殺蟲劑時昆蟲數(shù)目
iris #3種鳶尾花形態(tài)數(shù)據(jù)
LifeCycleSavings #50個國家的存款率
longley #強共線性的宏觀經(jīng)濟數(shù)據(jù)
morley #光速測量試驗數(shù)據(jù)
mtcars #32輛汽車在11個指標上的數(shù)據(jù)
OrchardSprays #使用拉丁方設(shè)計研究不同噴霧劑對蜜蜂的影響
PlantGrowth #三種處理方式對植物產(chǎn)量的影響
pressure #溫度和氣壓
Puromycin #兩種細胞中輔因子濃度對酶促反應(yīng)的影響
quakes #1000次地震觀測數(shù)據(jù)(震級>4)
randu #在VMS1.5中使用FORTRAN中的RANDU三個一組生成隨機數(shù)字咕娄,共400組亥揖。
#該隨機數(shù)字有問題。在VMS2.0以上版本已修復圣勒。
rock #48塊石頭的形態(tài)數(shù)據(jù)
sleep #兩藥物的催眠效果
stackloss #化工廠將氨轉(zhuǎn)為硝酸的數(shù)據(jù)
swiss #瑞士生育率和社會經(jīng)濟指標
ToothGrowth #VC劑量和攝入方式對豚鼠牙齒的影響
trees #樹木形態(tài)指標
USArrests #美國50個州的四個犯罪率指標
USJudgeRatings #43名律師的12個評價指標
warpbreaks #織布機異常數(shù)據(jù)
women #15名女性的身高和體重
列表
state.center #美國50個州中心的經(jīng)度和緯度
類數(shù)據(jù)框
ChickWeight #飲食對雞生長的影響
CO2 #耐寒植物CO2攝取的差異
DNase #若干次試驗中费变,DNase濃度和光密度的關(guān)系
Indometh #某藥物的藥物動力學數(shù)據(jù)
Loblolly #火炬松的高度、年齡和種源
Orange #桔子樹生長數(shù)據(jù)
Theoph #茶堿藥動學數(shù)據(jù)
時間序列數(shù)據(jù)
airmiles #美國1937-1960年客運里程營收(實際售出機位乘以飛行哩數(shù))
AirPassengers #Box & Jenkins航空公司1949-1960年每月國際航線乘客數(shù)
austres #澳大利亞1971-1994每季度人口數(shù)(以千為單位)
BJsales #有關(guān)銷售的一個時間序列
BJsales.lead #前一指標的先行指標(leading indicator)
co2 #1959-1997年每月大氣co2濃度(ppm)
discoveries #1860-1959年每年巨大發(fā)現(xiàn)或發(fā)明的個數(shù)
ldeaths #1974-1979年英國每月支氣管炎圣贸、肺氣腫和哮喘的死亡率
fdeaths #前述死亡率的女性部分
mdeaths #前述死亡率的男性部分
freeny.y #每季度收入
JohnsonJohnson #1960-1980年每季度Johnson & Johnson股票的紅利
LakeHuron #1875-1972年某一湖泊水位的記錄
lh #黃體生成素水平挚歧,10分鐘測量一次
lynx #1821-1934年加拿大猞猁數(shù)據(jù)
nhtemp #1912-1971年每年平均溫度
Nile #1871-1970尼羅河流量
nottem #1920-1939每月大氣溫度
presidents #1945-1974年每季度美國總統(tǒng)支持率
UKDriverDeaths #1969-1984年每月英國司機死亡或嚴重傷害的數(shù)目
sunspot.month #1749-1997每月太陽黑子數(shù)
sunspot.year #1700-1988每年太陽黑子數(shù)
sunspots #1749-1983每月太陽黑子數(shù)
treering #歸一化的樹木年輪數(shù)據(jù)
UKgas #1960-1986每月英國天然氣消耗
USAccDeaths #1973-1978美國每月意外死亡人數(shù)
uspop #1790–1970美國每十年一次的人口總數(shù)(百萬為單位)
WWWusage #每分鐘網(wǎng)絡(luò)連接數(shù)
Seatbelts #多變量時間序列。和UKDriverDeaths時間段相同吁峻,反映更多因素昼激。
EuStockMarkets #多變量時間序列庇绽。歐洲股市四個主要指標的每個工作日記錄,共1860條記錄橙困。
圖片
圖片
Warpbreaks這個數(shù)據(jù)集有3列變量瞧掺,我們根據(jù)wool和tension這兩個因子變量來分類對breaks這個數(shù)據(jù)變量求均值
圖片
圖片Airquality這個數(shù)據(jù)集有6個列變量,大氣層凡傅,陽光辟狈,風,溫度夏跷,月份哼转,天數(shù),雖然它們都是數(shù)據(jù)變量槽华,但是我們可以把其中幾個因子化來進行分類匯總計算壹蔓,比如我們以month來作為因子,這樣把數(shù)據(jù)分成了各個月份的猫态,再對ozone和Temp進行分別求均值
圖片
圖片Chickwts這個數(shù)據(jù)有兩列佣蓉,不同的喂養(yǎng)環(huán)境下統(tǒng)計小雞的重量,可以根據(jù)6中喂養(yǎng)環(huán)境來對各自的小雞統(tǒng)計平均重量
圖片
圖片Esoph這個數(shù)據(jù)集有5個列變量亲雪,其中3個是因子勇凭,兩個是數(shù)據(jù),义辕,同理做數(shù)據(jù)匯總
圖片
圖片
圖片
這是一個時間序列數(shù)據(jù)虾标,可以進行畫圖
還可以查看很多自己安裝的包里面內(nèi)置的數(shù)據(jù)
比如我安裝一個ggplot2,它會自動下載幾個相關(guān)的包一起安裝
圖片
data(package = "ggplot2")
可以查看這個包自帶的數(shù)據(jù)集
圖片
R還可以進行腳本運算灌砖,實習批量化處理數(shù)據(jù)
圖片
附錄二:各種統(tǒng)計分布函數(shù)
離散型
1. 二項分布Binomial distribution:binom
二項分布指的是N重伯努利實驗璧函,記為X ~ b(n,p),E(x)=np,Var(x)=np(1-p)
-
pbinom(q, size, prob)
基显, q是特定取值蘸吓,比如pbinom(8, 20, 0.2)指第8次伯努利實驗的累計概率。size指總的實驗次數(shù)续镇,prob指每次實驗成功發(fā)生的概率 -
dbinom(x, size, prob)
, x同上面的q同含義美澳。dfunction()對于離散分布來說結(jié)果是特定值的概率,對連續(xù)變量來說是密度(Density) -
rbinom(n, size, prob)
摸航,產(chǎn)生n個b(size, prob)的二項分布隨機數(shù) -
qbinom(p, size, prob)
,quantile function 分位數(shù)函數(shù)制跟。- 分位數(shù):
若概率0<p<1,隨機變量X或它的概率分布的分位數(shù)Za酱虎。是指滿足條件p(X>Za)=α的實數(shù)雨膨。如t分布的分位數(shù)表,自由度f=20和α=0.05時的分位數(shù)為1.7247读串。 --這個定義指的是上側(cè)α分位數(shù) - α分位數(shù):
實數(shù)α滿足0 <α<1 時聊记,α分位數(shù)是使P{X< xα}=F(xα)=α的數(shù)xα
雙側(cè)α分位數(shù)是使P{X<λ1}=F(λ1)=0.5α的數(shù)λ1撒妈、使 P{X>λ2}=1-F(λ2)=0.5α的數(shù)λ2。 - qbinom是上側(cè)分位數(shù)排监,如qbinom(0.95,100,0.2)=27,指27之后P(x>=27)>=0.95狰右。即對于b(100,0.2)為了達到0.95的概率至少需要27次重復實驗。
- 分位數(shù):
2. 負二項分布negative binomial distribution (帕斯卡分布)nbinom
擲骰子舆床,擲到一即視為成功棋蚌。則每次擲骰的成功率是1/6。要擲出三次一挨队,所需的擲骰次數(shù)屬于集合 { 3, 4, 5, 6, ... } 谷暮。擲到三次一的擲骰次數(shù)是負二項分布的隨機變量。
- dnbinom(4, 3, 1/6) = 0.0334898盛垦,四次連續(xù)三次1的概率為這個數(shù)湿弦。
- 概率函數(shù)為f(k; r, p)=choose(k+r-1, r-1)p^r(1-p)^k, 當r=1時這個特例分布是幾何分布
-
rnbinom(n, size, prob, mu)
其中n是需要產(chǎn)生的隨機數(shù)個數(shù),size是概率函數(shù)中的r腾夯,即連續(xù)成功的次數(shù)颊埃,prob是單詞成功的概率,mu未知..(mu是希臘字母υ的讀音)
3. 幾何分布Geometric Distribution,geom
n次伯努利試驗俯在,前n-1次皆失敗竟秫,第n次才成功的機率
-
dgeom(x, prob)
,注意這里的x取值是0:n娃惯,即dgeom(0,0.2)=0.2,以上的二項分布和負二項分布也是如此跷乐。 ngeom(n, prob)
4. 超幾何分布Hypergeometric Distribution,hyper
它描述了由有限個(m+n)物件中抽出k個物件趾浅,成功抽出指定種類的物件的次數(shù)(不歸還)愕提。
- 概率:p(x) = choose(m, x) choose(n, k-x) / choose(m+n, k) for x = 0, ..., k.
- 當n=1時,這是一個0-1分布即伯努利分布皿哨,當n接近無窮大∞時浅侨,超幾何分布可視為二項分布
-
rhyper(nn, m, n, k)
,nn是需要產(chǎn)生的隨機數(shù)個數(shù),m是白球數(shù)(計算目標是取到x個白球的概率)证膨,n是黑球數(shù)如输,k是抽取出的球個數(shù) dhyper(x, m, n, k)
5. 泊松分布 Poisson Distribution,pois
p(x) = lambda^x exp(-lambda)/x!
for x = 0, 1, 2, .... The mean and variance are E(X) = Var(X) = λ. x ~ π(λ)
泊松分布的參數(shù)λ是單位時間(或單位面積)內(nèi)隨機事件的平均發(fā)生率.泊松分布適合于描述單位時間內(nèi)隨機事件發(fā)生的次數(shù)。如某一服務(wù)設(shè)施在一定時間內(nèi)到達的人數(shù)央勒,電話交換機接到呼叫的次數(shù)不见,汽車站臺的候客人數(shù),機器出現(xiàn)的故障數(shù)崔步,自然災(zāi)害發(fā)生的次數(shù)等等.
rpois(n, lambda)
dpois(x,lambda)
連續(xù)型
6. 均勻分布 Uniform Distribution稳吮,unif
f(x) = 1/(max-min) for min <= x <= max
runif(n, min, max)
##生成16位數(shù)的隨機數(shù):
as.character(runif(1, 1000000000000000, 9999999999999999))
dunif(x, min, max) = 1 ## 恒定等于1/(max-min).
對于連續(xù)變量,dfunction的值是x去特定值代入概率密度函數(shù)得到的函數(shù)值井濒。
7. 正態(tài)分布Normal Distribution灶似,norm
f(x) = 1/(sqrt(2 pi) sigma) e^-((x - mu)^2/(2 sigma^2))
其中mu是均值列林,sigma是standard deviation標準差
理論上可以證明如果把許多小作用加起來看做一個變量,那么這個變量服從正態(tài)分布
rnorm(n, mean=0, sd=1) ##后兩個參數(shù)如果不填則默認為0,1。
dnorm(x, mean, sd) ##sd是標準差酪惭。
畫出正態(tài)分布概率密度函數(shù)的大致圖形:
x <- seq(-3, 3, 0.1)
plot(x, dnorm(x)) ##plot中的x,y要有相關(guān)關(guān)系才會形成函數(shù)圖希痴。
qnorm(p, mean, sd) ##這個還是上側(cè)分位數(shù),如qnorm(0.05)=-1.644854,即x<=這個數(shù)的累計概率小于0.05
- 3sigma法則:對于正態(tài)分布的x春感,x取值在(mean-3sd,mean+3sd)幾乎是在肯定的润梯。
因為pnorm(3)-pnorm(-3)=0.9973002 - 用正太分布產(chǎn)生一個16位長的隨機數(shù)字:
as.character(10^16*rnorm(1))
8. 伽瑪分布Gamma Distribution,gamma
假設(shè)隨機變量X為 等到第α件事發(fā)生所需之等候時間甥厦。
f(x)= 1/(s^a Gamma(a)) x^(a-1) e^-(x/s) for x >= 0, a > 0 and s > 0.
- Gamma分布中的參數(shù)α纺铭,稱為形狀參數(shù)(shape parameter),即上式中的s刀疙,β稱為尺度參數(shù)(scale parameter)上式中的a
- E(x)=sa, Var(x)=sa^2. 當shape=1/2,scale=2時舶赔,這樣的gamma分布是自由度為1的開方分
-
dgamma(x, shape, rate=1, scale = 1/rate)
, 請注意R在這里提供的rate是scale尺度參數(shù)的倒數(shù),如果dgamma(0, 1, 2)
則表示dgamma(0, shape=1, rate=2)
,而非dgamma(0, shape=1, scale=2)
pgamma(q, shape, rate = 1, scale = 1/rate, lower.tail = TRUE, log.p = FALSE)
qgamma(p, shape, rate = 1, scale = 1/rate, lower.tail = TRUE, log.p = FALSE)
rgamma(n, shape, rate = 1, scale = 1/rate)
9. 指數(shù)分布Exponential Distribution谦秧,exp
指數(shù)分布可以用來表示獨立隨機事件發(fā)生的時間間隔竟纳,比如旅客進機場的時間間隔、中文維基百科新條目出現(xiàn)的時間間隔等等疚鲤。
記作X ~ Exponential(λ)
f(x) = lambda e^(- lambda x) for x >= 0
- 其中l(wèi)ambda λ > 0是分布的一個參數(shù)锥累,常被稱為率參數(shù)(rate parameter). E(x)=1/λ,Var(x)=1/λ^2
dexp(x, rate = 1, log = FALSE)
pexp(q, rate = 1, lower.tail = TRUE, log.p = FALSE)
qexp(p, rate = 1, lower.tail = TRUE, log.p = FALSE)
rexp(n, rate = 1)
假設(shè)在公交站臺等公交車平均10分鐘有一趟車,那么每小時候有6趟車集歇,即每小時出現(xiàn)車的次數(shù)~ Exponential(1/6)
- 我們可以產(chǎn)生10個這些隨機數(shù)看看rexp(10,1/6)
- 60/(rexp10,1/6)即為我們在站臺等車的隨機時間桶略,如下:
[1] 6.443148 24.337131 6.477096 2.824638 15.184945 14.594903
[7] 7.133842 8.222400 42.609784 15.182827
- 可以看見竟然有一個42.6分鐘的隨機數(shù)出現(xiàn),據(jù)說這種情況下你可以投訴上海的公交公司诲宇。
不過x符合指數(shù)分布际歼,1/x還符合指數(shù)分布嗎? - pexp(6,1/6)=0.6321206, 也就是說這種情況下只有37%的可能公交車會10分鐘以內(nèi)來姑蓝。
按照以上分析一個小時出現(xiàn)的公交車次數(shù)應(yīng)該不符合指數(shù)分布鹅心。
10. 卡方分布(non-central)Chi-Squared Distribution,chisq
它廣泛的運用于檢測數(shù)學模型是否適合所得的數(shù)據(jù)纺荧,以及數(shù)據(jù)間的相關(guān)性旭愧。數(shù)據(jù)并不需要呈正態(tài)分布
k個標準正態(tài)變量的平方和即為自由度為k的卡方分布。
E(x)=k,Var(x)=2k.
dchisq(x, df, ncp=0, log = FALSE)
pchisq(q, df, ncp=0, lower.tail = TRUE, log.p = FALSE)
qchisq(p, df, ncp=0, lower.tail = TRUE, log.p = FALSE)
rchisq(n, df, ncp=0)
- 其中df為degrees of freedom宙暇。
- ncp是non-centrality parameter (non-negative); ncp=0時是central卡方分布输枯,ncp不為0時,表示這個卡方分布是由非標準正態(tài)分布組合而成客给,ncp=這些正態(tài) 分布的均值的平方和用押。
11. β分布Beta Distribution,beta
變量x僅能出現(xiàn)于0到1之間靶剑。
- 空氣中含有的氣體狀態(tài)的水分蜻拨。表示這種水分的一種辦法就是相對濕度池充。即現(xiàn)在的含水量與空氣的最大含水量(飽和含水量)的比值。我們聽到的天氣預告用語中就經(jīng)常使用相對濕度這個名詞缎讼。
- 相對濕度的值顯然僅能出現(xiàn)于0到1之間(經(jīng)常用百分比表示)收夸。冬季塔里木盆地的日最大相對濕度和夏季日最小相對濕度。證實它們都符合貝塔分布
dbeta(x, shape1, shape2, ncp = 0, log = FALSE)
pbeta(q, shape1, shape2, ncp = 0, lower.tail = TRUE, log.p = FALSE)
qbeta(p, shape1, shape2, ncp = 0, lower.tail = TRUE, log.p = FALSE)
rbeta(n, shape1, shape2, ncp = 0)
- shape1血崭,shape2是beta分布的兩個參數(shù)卧惜。
- E(x)=s1/(s1+s2),var(x)=s1*s2/(s1+s2)^2 * (s1+s2+1)
12. t分布Student t Distribution,t
應(yīng)用在當對呈正態(tài)分布的母群體的均值進行估計夹纫。當母群體的標準差是未知的但卻又需要估計時咽瓷,我們可以運用學生t 分布。
- 學生t 分布可簡稱為t 分布舰讹。其推導由威廉·戈塞于1908年首先發(fā)表茅姜,當時他還在都柏林的健力士釀酒廠工作。因為不能以他本人的名義發(fā)表月匣,所以論文使用了學生 (Student)這一筆名钻洒。之后t 檢驗以及相關(guān)理論經(jīng)由羅納德·費雪的工作發(fā)揚光大,而正是他將此分布稱為學生分布锄开。
dt(x, df, ncp, log = FALSE)
pt(q, df, ncp, lower.tail = TRUE, log.p = FALSE)
qt(p, df, ncp, lower.tail = TRUE, log.p = FALSE)
rt(n, df, ncp)
- df是自由度
- ncp是non-centrality parameter delta素标,If omitted, use the central t distribution。ncp出現(xiàn)時表示分布由非標準的卡方分布構(gòu)成萍悴。
13. F分布
一個F-分布的隨機變量是兩個卡方分布變量的比率头遭。F-分布被廣泛應(yīng)用于似然比率檢驗,特別是方差分析中
df(x, df1, df2, ncp, log = FALSE)
pf(q, df1, df2, ncp, lower.tail = TRUE, log.p = FALSE)
qf(p, df1, df2, ncp, lower.tail = TRUE, log.p = FALSE)
rf(n, df1, df2, ncp)
- df1退腥,df2是兩個自由度任岸,ncp同t分布中的ncp再榄。