讀書筆記(R語言)

讀書筆記(R語言)
作者：曾健明
公眾號: 生信技能樹
整理原因：在公眾號這篇文章中看到如下一段話闲先，自己最近又在練習用markdown格式寫東西侠碧。

假如你接受了我的建議，把一本書看五遍烁登，同一個領(lǐng)域的書籍至少看5本抱完，那么希望你也記錄一下讀書筆記與我分享，歡迎來信交流蟆盹，我的郵箱是 jmzeng1314@163.com
或者你把我的這個筆記重新編輯為markdown格式孩灯，也能發(fā)郵件給我獲得認識我的資格哈！

R與ASReml-R統(tǒng)計分析教程（林元震）中國林業(yè)出版社

1-3章 R的基本語法
第4章各種統(tǒng)計方法逾滥，
第5章 R的繪圖峰档，
第6章 ASReml-R這個包

語法重點:

install.packages(), library(), help(), example(), demo(), length(), attribute(), class(), mode(), dim(), names(), str(), head(), tail()
rep, seq, paste, array, matrix, data.frame, list, c(), factor()
(na.omit, na.rm = T) 缺失值處理,
as.numeric(), as.character(), as.factor(), as.logical() ##類型轉(zhuǎn)換
as.numeric()非常有用，在畫圖的時候經(jīng)常需要加上，因為數(shù)據(jù)在處理的過程中經(jīng)常被搞錯成了字符串格式;
as.logical()可以進行分類讥巡，只有0, NA, NAN, NULL是FALSE
排序掀亩，合并，分割成子集尚卫，數(shù)據(jù)整合重構(gòu): reshape2, plyr包
_{可以先了解一些R語言自帶的數(shù)據(jù)包(見附錄1)，然后試用一下aggregate函數(shù)尸红，數(shù)據(jù)匯總吱涉，根據(jù)右邊的因子來把左邊的數(shù)據(jù)進行分割并處理一個函數(shù)}
控制語句，自編函數(shù)

統(tǒng)計分析

1. `summary(), library(pastecs); options(digits = 2);stat.desc(), library(psych); describe()`

2. 方差分析（analysis of variance,ANOVA）用來檢驗分組是否有顯著差異

2.1 單因素+重復外里，數(shù)據(jù)框

df = data.frame(yield, treat)
fit = aov(yield ~ treat, data = df)
summary(fit) ##可以用summary來查看這次分析結(jié)果 
TukeyHSD(fit) ##進行多重比較 方法1
duncan.test(fit, ”treat”,  alpha = 0.05)##進行多重比較 方法2

2.2 雙因素無重復怎爵，數(shù)據(jù)框

df=data.frame(yield,treat1,treat2)
fit=aov(yield~treat1+treat2,data=df)
## 這時候做多重比較就比較復雜了，
library(agricolae)
Duncan.test(fit,”treat1”,alpha=0.5)
Duncan.test(fit,”treat2”,alpha=0.5)

2.3 雙因素+重復盅蝗，數(shù)據(jù)庫首先要進行處理鳖链，把treat1和treat2合并成group來區(qū)分重復

Df$group = sapply(df, function(x)paste(df$treat1, df$treat2, sep = ””)
fit = aov(yield ~ treat1 + treat2 + group, data = df)

2.4 多元方差與此類似，不停的增加因子來區(qū)分變量及group

3. 隨機分組的檢驗

3.1 完全隨機實驗:

等同于方差分析的單因素+重復（判斷不同的處理是否有差異）

3.2 單因素隨機區(qū)組實驗:

等同于方差分析的雙因素無重復墩莫，其中（區(qū)組這個因素是人為控制的差異芙委，不需要檢驗，主要檢驗我們的不同的處理是否有差異）

3.3 雙因素隨機區(qū)組實驗:

不等同于方差分析的雙因素+重復狂秦，但是與之類似灌侣，其中重復這個變量與之前的group變量有點區(qū)別，這里是我們的區(qū)組裂问，而不是treat1和treat2的簡單組合侧啼，所以我們需要分析treat1和treat2處理間的差異，但同時不需要考慮區(qū)組的差異

fit = aov(yield ~ treat1 * treat2 + block, data = df)

如果treat1有2個水平堪簿，treat2有3個水平痊乾，那么之前的group應(yīng)該是6個，但是我們的block是區(qū)組的個數(shù)椭更，還是3個哪审，數(shù)據(jù)是18個。

3.4 三因素隨機區(qū)組實驗

看下面的例子:
圖片

其中npk數(shù)據(jù)框里面有著N,P,K三個因素虑瀑，每個因素都有兩個水平协饲，共8個group組合，分成了6個區(qū)組block缴川，即為6個重復茉稠。但是每個group組合并沒有包括所有的8個水平組合，只有4個而已把夸，所以數(shù)據(jù)量也只有4個而线。這就是方差分析與隨機區(qū)組分析最大的區(qū)別所在。

圖片

4. 統(tǒng)計顯著性檢驗（前提是符合各種概率分布模型）

4.1. t檢驗

i. 單樣本，對一個多數(shù)據(jù)的向量x膀篮，看看是否是服從正態(tài)分布
qqnorm(x),qqline(x),正態(tài)QQ圖嘹狞，plot(density(x))核密度圖 ,shapiro.test(x) 正態(tài)性檢驗，T.test(x,mu=8,alternative=”two.sided”)看看這個數(shù)據(jù)的均值與8的差異是否顯著誓竿。

ii. 雙樣本檢驗是否顯著差異磅网，t.test(a,b)或者t.test(a~b)

4.2. 卡方檢驗

i. 是否符合一定的比例chisq.test(c(49,51),c(0.5,0.5))，看看扔100次硬幣的正反面比例是否正常

ii. 圖片

iii. P值為0.8415筷屡，所以顯著的正常

a) 獨立性檢驗

i. 2x2列聯(lián)表或者2xc列聯(lián)表獨立性檢驗涧偷，主要是為了看某個處理是否改變了原來的標準比例，比如本來正常1:1的扔硬幣毙死，扔一百次是49:50的燎潮，但是現(xiàn)在換了一個小硬幣，再扔一百次扼倘，結(jié)果是48:52确封，我們就想看看這個硬幣是否改變了比例

圖片

很明顯可以看出比例未發(fā)生變化，同理可以擴展到RxC列聯(lián)表的比例是否變化

5. 回歸分析

5.1 簡單線性回歸再菊，fit=lm(y~x)可以對此回歸進行一系列分析爪喘，summary(fit)，round(fitted(fit),2) 預測值纠拔，round(residuals(fit),2)殘差值腥放，abline(fit)回歸線

5.2 多項式回歸fit=lm(y~x+I(x^2))以此類推

5.3 多元回歸fit=lm(y_{x1+x2+x3)以此類推，fit=lm(y}x1+x2+x1: x2)有交互項绿语。

5.4 回歸診斷秃症，對fit對象plot可以輸出四幅圖

par(mfrow=c(2,2))
plot(fit)

第一幅圖是殘差值與預測值的線性關(guān)系圖，理論上殘差值應(yīng)該是隨機分布在預測值的兩端吕粹。
第二幅圖是Q-Q圖种柑，判斷殘差值在標準正態(tài)分布下的概率，理論上應(yīng)該是45度直線匹耕。
第三幅圖是位置尺度圖聚请，判斷同方差性，假設(shè)是方差不變稳其，所以圖中的點應(yīng)該隨機分布于水平線的兩側(cè)驶赏。
第四幅圖是殘差值的杠桿圖，用來判斷異常點既鞠，鑒別高杠桿點煤傍，離群點，強影響點嘱蛋，識別異常點蚯姆。

5.5 廣義線性模型

5.6 邏輯回歸和泊松回歸

6 概率分布

6.1 分布+概率密度函數(shù)d+累計分布函數(shù)p+隨機抽樣r+分布檢驗ks.test(x,”pnorm”)

6.2 正態(tài)分布（norm）五续，指數(shù)分布(exp)，二項分布龄恋，泊松分布疙驾，卡方分布(chisq)，伽馬分布(gama)郭毕，貝塔分布(beta)它碎，T分布，F(xiàn)分布显押，均勻分布（unif）扳肛，韋伯分布(weibull),一般連續(xù)分布，一般離散分布煮落。

6.3 很復雜敞峭，見附錄2

附錄I : datasets（R自帶數(shù)據(jù)包）

向量

euro    #歐元匯率踊谋，長度為11蝉仇，每個元素都有命名
landmasses    #48個陸地的面積，每個都有命名
precip    #長度為70的命名向量
rivers    #北美141條河流長度
state.abb    #美國50個州的雙字母縮寫
state.area    #美國50個州的面積
state.name    #美國50個州的全稱

因子

state.division    #美國50個州的分類殖蚕，9個類別
state.region    #美國50個州的地理分類

矩陣轿衔、數(shù)組

euro.cross    #11種貨幣的匯率矩陣
freeny.x    #每個季度影響收入四個因素的記錄
state.x77    #美國50個州的八個指標
USPersonalExpenditure    #5個年份在5個消費方向的數(shù)據(jù)
VADeaths    #1940年弗吉尼亞州死亡率（每千人）
volcano    #某火山區(qū)的地理信息（10米×10米的網(wǎng)格）
WorldPhones    #8個區(qū)域在7個年份的電話總數(shù)
iris3    #3種鳶尾花形態(tài)數(shù)據(jù)
Titanic    #泰坦尼克乘員統(tǒng)計
UCBAdmissions    #伯克利分校1973年院系、錄取和性別的頻數(shù)
crimtab    #3000個男性罪犯左手中指長度和身高關(guān)系
HairEyeColor    #592人頭發(fā)顏色睦疫、眼睛顏色和性別的頻數(shù)
occupationalStatus    #英國男性父子職業(yè)聯(lián)系

類矩陣

eurodist    #歐洲12個城市的距離矩陣害驹，只有下三角部分
Harman23.cor    #305個女孩八個形態(tài)指標的相關(guān)系數(shù)矩陣
Harman74.cor    #145個兒童24個心理指標的相關(guān)系數(shù)矩陣

數(shù)據(jù)框

airquality    #紐約1973年5-9月每日空氣質(zhì)量
anscombe    #四組x-y數(shù)據(jù)，雖有相似的統(tǒng)計量蛤育，但實際數(shù)據(jù)差別較大
attenu    #多個觀測站對加利福尼亞23次地震的觀測數(shù)據(jù)
attitude    #30個部門在七個方面的調(diào)查結(jié)果宛官，調(diào)查結(jié)果是同一部門35個職員贊成的百分比
beaver1    #一只海貍每10分鐘的體溫數(shù)據(jù)，共114條數(shù)據(jù)
beaver2    #另一只海貍每10分鐘的體溫數(shù)據(jù)瓦糕，共100條數(shù)據(jù)
BOD    #隨水質(zhì)的提高底洗，生化反應(yīng)對氧的需求（mg/l）隨時間（天）的變化
cars    #1920年代汽車速度對剎車距離的影響
chickwts    #不同飲食種類對小雞生長速度的影響
esoph    #法國的一個食管癌病例對照研究
faithful    #一個間歇泉的爆發(fā)時間和持續(xù)時間
Formaldehyde    #兩種方法測定甲醛濃度時分光光度計的讀數(shù)
Freeny     #每季度收入和其他四因素的記錄
dating from     #配對的病例對照數(shù)據(jù)，用于條件logistic回歸
InsectSprays     #使用不同殺蟲劑時昆蟲數(shù)目
iris    #3種鳶尾花形態(tài)數(shù)據(jù)
LifeCycleSavings    #50個國家的存款率
longley    #強共線性的宏觀經(jīng)濟數(shù)據(jù)
morley    #光速測量試驗數(shù)據(jù)
mtcars    #32輛汽車在11個指標上的數(shù)據(jù)
OrchardSprays     #使用拉丁方設(shè)計研究不同噴霧劑對蜜蜂的影響
PlantGrowth     #三種處理方式對植物產(chǎn)量的影響
pressure     #溫度和氣壓
Puromycin     #兩種細胞中輔因子濃度對酶促反應(yīng)的影響
quakes     #1000次地震觀測數(shù)據(jù)（震級>4）
randu     #在VMS1.5中使用FORTRAN中的RANDU三個一組生成隨機數(shù)字咕娄，共400組亥揖。
#該隨機數(shù)字有問題。在VMS2.0以上版本已修復圣勒。
rock     #48塊石頭的形態(tài)數(shù)據(jù)
sleep     #兩藥物的催眠效果
stackloss     #化工廠將氨轉(zhuǎn)為硝酸的數(shù)據(jù)
swiss     #瑞士生育率和社會經(jīng)濟指標
ToothGrowth     #VC劑量和攝入方式對豚鼠牙齒的影響
trees    #樹木形態(tài)指標
USArrests    #美國50個州的四個犯罪率指標
USJudgeRatings    #43名律師的12個評價指標
warpbreaks    #織布機異常數(shù)據(jù)
women    #15名女性的身高和體重

列表

state.center    #美國50個州中心的經(jīng)度和緯度

類數(shù)據(jù)框

ChickWeight    #飲食對雞生長的影響
CO2    #耐寒植物CO2攝取的差異
DNase    #若干次試驗中费变，DNase濃度和光密度的關(guān)系
Indometh    #某藥物的藥物動力學數(shù)據(jù)
Loblolly    #火炬松的高度、年齡和種源
Orange    #桔子樹生長數(shù)據(jù)
Theoph    #茶堿藥動學數(shù)據(jù)

時間序列數(shù)據(jù)

airmiles    #美國1937-1960年客運里程營收（實際售出機位乘以飛行哩數(shù)）
AirPassengers    #Box & Jenkins航空公司1949-1960年每月國際航線乘客數(shù)
austres    #澳大利亞1971-1994每季度人口數(shù)（以千為單位）
BJsales    #有關(guān)銷售的一個時間序列
BJsales.lead    #前一指標的先行指標（leading indicator）
co2    #1959-1997年每月大氣co2濃度（ppm）
discoveries    #1860-1959年每年巨大發(fā)現(xiàn)或發(fā)明的個數(shù)
ldeaths    #1974-1979年英國每月支氣管炎圣贸、肺氣腫和哮喘的死亡率
fdeaths    #前述死亡率的女性部分
mdeaths    #前述死亡率的男性部分
freeny.y    #每季度收入
JohnsonJohnson    #1960-1980年每季度Johnson & Johnson股票的紅利
LakeHuron    #1875-1972年某一湖泊水位的記錄
lh     #黃體生成素水平挚歧，10分鐘測量一次
lynx    #1821-1934年加拿大猞猁數(shù)據(jù)
nhtemp     #1912-1971年每年平均溫度
Nile     #1871-1970尼羅河流量
nottem     #1920-1939每月大氣溫度
presidents     #1945-1974年每季度美國總統(tǒng)支持率
UKDriverDeaths     #1969-1984年每月英國司機死亡或嚴重傷害的數(shù)目
sunspot.month     #1749-1997每月太陽黑子數(shù)
sunspot.year     #1700-1988每年太陽黑子數(shù)
sunspots    #1749-1983每月太陽黑子數(shù)
treering    #歸一化的樹木年輪數(shù)據(jù)
UKgas    #1960-1986每月英國天然氣消耗
USAccDeaths    #1973-1978美國每月意外死亡人數(shù)
uspop    #1790–1970美國每十年一次的人口總數(shù)（百萬為單位）
WWWusage    #每分鐘網(wǎng)絡(luò)連接數(shù)
Seatbelts     #多變量時間序列。和UKDriverDeaths時間段相同吁峻，反映更多因素昼激。
EuStockMarkets    #多變量時間序列庇绽。歐洲股市四個主要指標的每個工作日記錄，共1860條記錄橙困。

圖片
圖片

Warpbreaks這個數(shù)據(jù)集有3列變量瞧掺，我們根據(jù)wool和tension這兩個因子變量來分類對breaks這個數(shù)據(jù)變量求均值
圖片
圖片
Airquality這個數(shù)據(jù)集有6個列變量，大氣層凡傅，陽光辟狈，風，溫度夏跷，月份哼转，天數(shù)，雖然它們都是數(shù)據(jù)變量槽华，但是我們可以把其中幾個因子化來進行分類匯總計算壹蔓，比如我們以month來作為因子，這樣把數(shù)據(jù)分成了各個月份的猫态，再對ozone和Temp進行分別求均值
圖片
圖片
Chickwts這個數(shù)據(jù)有兩列佣蓉，不同的喂養(yǎng)環(huán)境下統(tǒng)計小雞的重量，可以根據(jù)6中喂養(yǎng)環(huán)境來對各自的小雞統(tǒng)計平均重量
圖片
圖片
Esoph這個數(shù)據(jù)集有5個列變量亲雪，其中3個是因子勇凭，兩個是數(shù)據(jù)，义辕，同理做數(shù)據(jù)匯總
圖片
圖片
圖片

這是一個時間序列數(shù)據(jù)虾标，可以進行畫圖
還可以查看很多自己安裝的包里面內(nèi)置的數(shù)據(jù)
比如我安裝一個ggplot2，它會自動下載幾個相關(guān)的包一起安裝
圖片

data(package = "ggplot2")可以查看這個包自帶的數(shù)據(jù)集
圖片

R還可以進行腳本運算灌砖，實習批量化處理數(shù)據(jù)
圖片

附錄二：各種統(tǒng)計分布函數(shù)
離散型

1. 二項分布Binomial distribution：binom

二項分布指的是N重伯努利實驗璧函，記為X ~ b(n,p)，E(x)=np,Var(x)=np(1-p)

pbinom(q, size, prob)基显， q是特定取值蘸吓，比如pbinom(8, 20, 0.2)指第8次伯努利實驗的累計概率。size指總的實驗次數(shù)续镇，prob指每次實驗成功發(fā)生的概率
dbinom(x, size, prob), x同上面的q同含義美澳。dfunction()對于離散分布來說結(jié)果是特定值的概率，對連續(xù)變量來說是密度（Density）
rbinom(n, size, prob)摸航，產(chǎn)生n個b(size, prob)的二項分布隨機數(shù)
qbinom(p, size, prob),quantile function 分位數(shù)函數(shù)制跟。
- 分位數(shù)：
  若概率0<p<1，隨機變量X或它的概率分布的分位數(shù)Za酱虎。是指滿足條件p(X>Za)=α的實數(shù)雨膨。如t分布的分位數(shù)表，自由度f=20和α=0.05時的分位數(shù)為1.7247读串。 --這個定義指的是上側(cè)α分位數(shù)
- α分位數(shù)：
  實數(shù)α滿足0 <α<1 時聊记，α分位數(shù)是使P{X< xα}=F(xα)=α的數(shù)xα
  雙側(cè)α分位數(shù)是使P{X<λ1}=F(λ1)=0.5α的數(shù)λ1撒妈、使 P{X>λ2}=1-F(λ2)=0.5α的數(shù)λ2。
- qbinom是上側(cè)分位數(shù)排监，如qbinom(0.95,100,0.2)=27,指27之后P(x>=27)>=0.95狰右。即對于b(100,0.2)為了達到0.95的概率至少需要27次重復實驗。

2. 負二項分布negative binomial distribution （帕斯卡分布）nbinom

擲骰子舆床，擲到一即視為成功棋蚌。則每次擲骰的成功率是1/6。要擲出三次一挨队，所需的擲骰次數(shù)屬于集合 { 3, 4, 5, 6, ... } 谷暮。擲到三次一的擲骰次數(shù)是負二項分布的隨機變量。

dnbinom(4, 3, 1/6) = 0.0334898盛垦，四次連續(xù)三次1的概率為這個數(shù)湿弦。
概率函數(shù)為f(k; r, p)=choose(k+r-1, r-1)p^r(1-p)^k, 當r=1時這個特例分布是幾何分布
rnbinom(n, size, prob, mu) 其中n是需要產(chǎn)生的隨機數(shù)個數(shù)，size是概率函數(shù)中的r腾夯，即連續(xù)成功的次數(shù)颊埃，prob是單詞成功的概率，mu未知..(mu是希臘字母υ的讀音)

3. 幾何分布Geometric Distribution,geom

n次伯努利試驗俯在，前n-1次皆失敗竟秫，第n次才成功的機率

dgeom(x, prob),注意這里的x取值是0:n娃惯，即dgeom(0,0.2)=0.2,以上的二項分布和負二項分布也是如此跷乐。
ngeom(n, prob)

4. 超幾何分布Hypergeometric Distribution，hyper

它描述了由有限個(m+n)物件中抽出k個物件趾浅，成功抽出指定種類的物件的次數(shù)（不歸還）愕提。

概率：p(x) = choose(m, x) choose(n, k-x) / choose(m+n, k) for x = 0, ..., k.
當n=1時，這是一個0-1分布即伯努利分布皿哨，當n接近無窮大∞時浅侨，超幾何分布可視為二項分布
rhyper(nn, m, n, k),nn是需要產(chǎn)生的隨機數(shù)個數(shù)，m是白球數(shù)（計算目標是取到x個白球的概率）证膨，n是黑球數(shù)如输，k是抽取出的球個數(shù)
dhyper(x, m, n, k)

5. 泊松分布 Poisson Distribution,pois

p(x) = lambda^x exp(-lambda)/x!
for x = 0, 1, 2, .... The mean and variance are E(X) = Var(X) = λ. x ~ π(λ)
泊松分布的參數(shù)λ是單位時間(或單位面積)內(nèi)隨機事件的平均發(fā)生率.泊松分布適合于描述單位時間內(nèi)隨機事件發(fā)生的次數(shù)。如某一服務(wù)設(shè)施在一定時間內(nèi)到達的人數(shù)央勒，電話交換機接到呼叫的次數(shù)不见，汽車站臺的候客人數(shù)，機器出現(xiàn)的故障數(shù)崔步，自然災(zāi)害發(fā)生的次數(shù)等等.

rpois(n, lambda)
dpois(x,lambda)

連續(xù)型

6. 均勻分布 Uniform Distribution稳吮，unif

f(x) = 1/(max-min) for min <= x <= max
runif(n, min, max)

##生成16位數(shù)的隨機數(shù)：
as.character(runif(1, 1000000000000000, 9999999999999999))
dunif(x, min, max) = 1   ## 恒定等于1/(max-min).

對于連續(xù)變量，dfunction的值是x去特定值代入概率密度函數(shù)得到的函數(shù)值井濒。

7. 正態(tài)分布Normal Distribution灶似，norm

f(x) = 1/(sqrt(2 pi) sigma) e^-((x - mu)^2/(2 sigma^2))
其中mu是均值列林，sigma是standard deviation標準差
理論上可以證明如果把許多小作用加起來看做一個變量,那么這個變量服從正態(tài)分布

rnorm(n, mean=0, sd=1)  ##后兩個參數(shù)如果不填則默認為0,1。
dnorm(x, mean, sd)   ##sd是標準差酪惭。

畫出正態(tài)分布概率密度函數(shù)的大致圖形：
x <- seq(-3, 3, 0.1)
plot(x, dnorm(x))     ##plot中的x,y要有相關(guān)關(guān)系才會形成函數(shù)圖希痴。
qnorm(p, mean, sd)      ##這個還是上側(cè)分位數(shù)，如qnorm(0.05)=-1.644854,即x<=這個數(shù)的累計概率小于0.05

3sigma法則：對于正態(tài)分布的x春感，x取值在(mean-3sd,mean+3sd)幾乎是在肯定的润梯。
因為pnorm(3)-pnorm(-3)=0.9973002
用正太分布產(chǎn)生一個16位長的隨機數(shù)字：
as.character(10^16*rnorm(1))

8. 伽瑪分布Gamma Distribution，gamma

維基百科

假設(shè)隨機變量X為等到第α件事發(fā)生所需之等候時間甥厦。
f(x)= 1/(s^a Gamma(a)) x^(a-1) e^-(x/s) for x >= 0, a > 0 and s > 0.

Gamma分布中的參數(shù)α纺铭，稱為形狀參數(shù)（shape parameter），即上式中的s刀疙，β稱為尺度參數(shù)（scale parameter）上式中的a
E(x)=sa, Var(x)=sa^2. 當shape=1/2,scale=2時舶赔，這樣的gamma分布是自由度為1的開方分
dgamma(x, shape, rate=1, scale = 1/rate), 請注意R在這里提供的rate是scale尺度參數(shù)的倒數(shù)，如果dgamma(0, 1, 2)則表示dgamma(0, shape=1, rate=2),而非dgamma(0, shape=1, scale=2)

pgamma(q, shape, rate = 1, scale = 1/rate, lower.tail = TRUE, log.p = FALSE)
qgamma(p, shape, rate = 1, scale = 1/rate, lower.tail = TRUE, log.p = FALSE)
rgamma(n, shape, rate = 1, scale = 1/rate)

9. 指數(shù)分布Exponential Distribution谦秧，exp

指數(shù)分布可以用來表示獨立隨機事件發(fā)生的時間間隔竟纳，比如旅客進機場的時間間隔、中文維基百科新條目出現(xiàn)的時間間隔等等疚鲤。
記作X ~ Exponential（λ）
f(x) = lambda e^(- lambda x) for x >= 0

其中l(wèi)ambda λ > 0是分布的一個參數(shù)锥累，常被稱為率參數(shù)（rate parameter）. E(x)=1/λ,Var(x)=1/λ^2

dexp(x, rate = 1, log = FALSE)
pexp(q, rate = 1, lower.tail = TRUE, log.p = FALSE)
qexp(p, rate = 1, lower.tail = TRUE, log.p = FALSE)
rexp(n, rate = 1)

假設(shè)在公交站臺等公交車平均10分鐘有一趟車，那么每小時候有6趟車集歇，即每小時出現(xiàn)車的次數(shù)~ Exponential(1/6)

我們可以產(chǎn)生10個這些隨機數(shù)看看rexp(10,1/6)
60/(rexp10,1/6)即為我們在站臺等車的隨機時間桶略，如下：

[1]  6.443148 24.337131  6.477096  2.824638 15.184945 14.594903
[7]  7.133842  8.222400 42.609784 15.182827

可以看見竟然有一個42.6分鐘的隨機數(shù)出現(xiàn)，據(jù)說這種情況下你可以投訴上海的公交公司诲宇。
不過x符合指數(shù)分布际歼，1/x還符合指數(shù)分布嗎？
pexp(6,1/6)=0.6321206, 也就是說這種情況下只有37%的可能公交車會10分鐘以內(nèi)來姑蓝。

按照以上分析一個小時出現(xiàn)的公交車次數(shù)應(yīng)該不符合指數(shù)分布鹅心。

10. 卡方分布(non-central)Chi-Squared Distribution，chisq

它廣泛的運用于檢測數(shù)學模型是否適合所得的數(shù)據(jù)纺荧，以及數(shù)據(jù)間的相關(guān)性旭愧。數(shù)據(jù)并不需要呈正態(tài)分布

k個標準正態(tài)變量的平方和即為自由度為k的卡方分布。
E(x)=k,Var(x)=2k.

dchisq(x, df, ncp=0, log = FALSE)
pchisq(q, df, ncp=0, lower.tail = TRUE, log.p = FALSE)
qchisq(p, df, ncp=0, lower.tail = TRUE, log.p = FALSE)
rchisq(n, df, ncp=0)

其中df為degrees of freedom宙暇。
ncp是non-centrality parameter (non-negative); ncp=0時是central卡方分布输枯，ncp不為0時，表示這個卡方分布是由非標準正態(tài)分布組合而成客给，ncp=這些正態(tài) 分布的均值的平方和用押。

11. β分布Beta Distribution，beta

變量x僅能出現(xiàn)于0到1之間靶剑。

空氣中含有的氣體狀態(tài)的水分蜻拨。表示這種水分的一種辦法就是相對濕度池充。即現(xiàn)在的含水量與空氣的最大含水量（飽和含水量）的比值。我們聽到的天氣預告用語中就經(jīng)常使用相對濕度這個名詞缎讼。
相對濕度的值顯然僅能出現(xiàn)于0到1之間（經(jīng)常用百分比表示）收夸。冬季塔里木盆地的日最大相對濕度和夏季日最小相對濕度。證實它們都符合貝塔分布

dbeta(x, shape1, shape2, ncp = 0, log = FALSE)
pbeta(q, shape1, shape2, ncp = 0, lower.tail = TRUE, log.p = FALSE)
qbeta(p, shape1, shape2, ncp = 0, lower.tail = TRUE, log.p = FALSE)
rbeta(n, shape1, shape2, ncp = 0)

shape1血崭，shape2是beta分布的兩個參數(shù)卧惜。
E(x)=s1/(s1+s2),var(x)=s1*s2/(s1+s2)^2 * (s1+s2+1)

12. t分布Student t Distribution，t

應(yīng)用在當對呈正態(tài)分布的母群體的均值進行估計夹纫。當母群體的標準差是未知的但卻又需要估計時咽瓷，我們可以運用學生t 分布。

學生t 分布可簡稱為t 分布舰讹。其推導由威廉·戈塞于1908年首先發(fā)表茅姜，當時他還在都柏林的健力士釀酒廠工作。因為不能以他本人的名義發(fā)表月匣，所以論文使用了學生（Student）這一筆名钻洒。之后t 檢驗以及相關(guān)理論經(jīng)由羅納德·費雪的工作發(fā)揚光大，而正是他將此分布稱為學生分布锄开。

dt(x, df, ncp, log = FALSE)
pt(q, df, ncp, lower.tail = TRUE, log.p = FALSE)
qt(p, df, ncp, lower.tail = TRUE, log.p = FALSE)
rt(n, df, ncp)

df是自由度
ncp是non-centrality parameter delta素标，If omitted, use the central t distribution。ncp出現(xiàn)時表示分布由非標準的卡方分布構(gòu)成萍悴。

13. F分布

一個F-分布的隨機變量是兩個卡方分布變量的比率头遭。F-分布被廣泛應(yīng)用于似然比率檢驗，特別是方差分析中

df(x, df1, df2, ncp, log = FALSE)
pf(q, df1, df2, ncp, lower.tail = TRUE, log.p = FALSE)
qf(p, df1, df2, ncp, lower.tail = TRUE, log.p = FALSE)
rf(n, df1, df2, ncp)

df1退腥，df2是兩個自由度任岸，ncp同t分布中的ncp再榄。

最后編輯于：2018.07.20 21:40:42

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末狡刘，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子困鸥，更是在濱河造成了極大的恐慌嗅蔬，老刑警劉巖，帶你破解...
沈念sama閱讀 221,548評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件疾就，死亡現(xiàn)場離奇詭異澜术，居然都是意外死亡，警方通過查閱死者的電腦和手機猬腰，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,497評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門鸟废，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人姑荷，你說我怎么就攤上這事盒延∷趵蓿” “怎么了？”我有些...
開封第一講書人閱讀 167,990評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵添寺，是天一觀的道長胯盯。經(jīng)常有香客問我，道長计露，這世上最難降的妖魔是什么博脑？我笑而不...
開封第一講書人閱讀 59,618評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮票罐，結(jié)果婚禮上叉趣，老公的妹妹穿的比我還像新娘。我一直安慰自己该押，他們只是感情好君账，可當我...
茶點故事閱讀 68,618評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著沈善，像睡著了一般乡数。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上闻牡，一...
開封第一講書人閱讀 52,246評論 1贊 308
城市分裂傳說
那天净赴，我揣著相機與錄音，去河邊找鬼罩润。笑死玖翅，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的割以。我是一名探鬼主播金度，決...
沈念sama閱讀 40,819評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼严沥！你這毒婦竟也來了猜极？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,725評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤消玄，失蹤者是張志新（化名）和其女友劉穎跟伏，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體翩瓜，經(jīng)...
沈念sama閱讀 46,268評論 1贊 320
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡受扳，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,356評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了兔跌。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片勘高。...
茶點故事閱讀 40,488評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出华望，到底是詐尸還是另有隱情层亿，我是刑警寧澤，帶...
沈念sama閱讀 36,181評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布立美，位于F島的核電站匿又，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏建蹄。R本人自食惡果不足惜碌更，卻給世界環(huán)境...
茶點故事閱讀 41,862評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望洞慎。院中可真熱鬧痛单，春花似錦、人聲如沸劲腿。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,331評論 0贊 24
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽焦人。三九已至挥吵，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間花椭，已是汗流浹背忽匈。一陣腳步聲響...
開封第一講書人閱讀 33,445評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工违孝，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留引几，地道東北人。一個月前我還...
沈念sama閱讀 48,897評論 3贊 376
代替公主和親
正文我出身青樓携茂，卻偏偏與公主長得像袋倔，于是被迫代替她去往敵國和親雕蔽。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 45,500評論 2贊 359