CHAP5 離散型概率分布
5.4 二元分布坎匿,協(xié)方差和金融資產(chǎn)組合
1) 協(xié)方差的計(jì)算
numpy.cov():ddof默認(rèn)為1
numpy.var():ddof默認(rèn)為0
5.5二項(xiàng)概率分布
二項(xiàng)試驗(yàn)的屬性
- n次箭启。2.每次有兩種結(jié)果蜕乡。3.概率固定(穩(wěn)定)。4.每次試驗(yàn)相互獨(dú)立
相關(guān)計(jì)算
功能 | Python | excel | tableau | R |
---|---|---|---|---|
二項(xiàng)試驗(yàn)n次中成功k次 | scipy.special.comb(n,k) | |||
n次試驗(yàn)成功k次的概率 | binom.pmf(k, n, p) | |||
n次試驗(yàn)至少成功k次的概率 | binom.cdf(k,n,p) |
5.6 泊松概率分布
泊松概率分布的屬性
- 任意兩段等長間隔發(fā)生次數(shù)的期望相等仆救。
- 互相獨(dú)立姥宝。
期望和方差
均為μ
相關(guān)計(jì)算
功能 | Python | excel | tableau | R |
---|---|---|---|---|
期望為μ成功k次的概率 | binom.pmf(k, μ) | |||
n次試驗(yàn)至少成功k次的概率 | binom.cdf(k,n,p) |
5.7超幾何分布
相關(guān)計(jì)算
功能 | Python | excel | tableau | R |
---|---|---|---|---|
總量N,含r個(gè)標(biāo)注成功的樣本窒盐,抽取:n钢拧,成功:k | hypergeom.pmf(k, N, r, n) | |||
總量N蟹漓,含r個(gè)標(biāo)注成功的樣本,抽仍茨凇:n葡粒,成功:k,累計(jì)概率 | hypergeom.cdf(k,N,r,n) |
5.x 總結(jié)
1.超幾何的N足夠大時(shí)膜钓,可以將二項(xiàng)分布作為超幾何分布的近似嗽交。p=r/N
2.二項(xiàng)分布的N足夠大,p足夠小時(shí)颂斜,可以將泊松分布看做二項(xiàng)分布的近似夫壁。μ=np
CHAP6 連續(xù)概率分布
5.0 注意點(diǎn)
概率密度函數(shù)probability densityf unctionfly
注意離散型分布可以直接給出概率函數(shù),而非概率密度函數(shù)
5.1 均勻分布
概率密度函數(shù)
a,b為分布的起沃疮,止點(diǎn)
f(x) = 1/(b-a)
E(x) = (a+b)/2
相關(guān)計(jì)算
功能 | Python | excel | tableau | R |
---|---|---|---|---|
起始點(diǎn)l,寬度s在位置p的概率密度 | uniform.pdf(p,l,s) | |||
起始點(diǎn)l,寬度s盒让,概率到p所處的位置 | uniform.cdf(p, l, s) | |||
起始點(diǎn)l,寬度s,位置小于a的累計(jì)概率 | uniform.ppf(a, l, s) |
5.2 正態(tài)分布
期望:μ
標(biāo)注差:
相關(guān)計(jì)算
功能 | Python | excel | tableau | R |
---|---|---|---|---|
期望μ忿磅,方差s糯彬,在位置p的概率密度 | norm.pdf(p,μ,s) | |||
期望μ,方差s葱她,概率到a時(shí)的概a的累計(jì)概率 | norm.cdf(a,μ,s) | |||
期望μ,方差s似扔,累計(jì)概率為p時(shí)的位置 | norm.ppf(p,l,s) |
5.3 指數(shù)分布
指數(shù)分布是泊松過程的時(shí)間間隔的分布吨些。
參數(shù):μ
相關(guān)計(jì)算
功能 | Python | excel | tableau | R |
---|---|---|---|---|
期望μ搓谆,在位置p的概率密度 | expon.pdf(p,loc=0,scale=μ) | |||
期望μ,位置到a時(shí)的累計(jì)概率 | expon.cdf(a,l,μ) | |||
期望μ豪墅,累積到概率p時(shí)的位置 | expon.ppf(p,l,μ) |
CHAP7. 抽樣和抽樣分布
7.2 抽樣
分為從有限總體和無限總體中抽取泉手。無限總體一般是不斷產(chǎn)生樣本的過程:比如生產(chǎn),從流動(dòng)客戶/人群中抽樣偶器。 從無限總體中抽樣需要保證:1)來自統(tǒng)一整體斩萌。2)每個(gè)樣本的 抽取是獨(dú)立的。
相關(guān)計(jì)算
功能 | Python | excel | tableau | R |
---|---|---|---|---|
抽取 | DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None) |
7.3點(diǎn)估計(jì)
- 樣本統(tǒng)計(jì)量(sample statistic) 是 總體參數(shù)(population paraments) 的 點(diǎn)估計(jì) (point estimator)
- 為了保證點(diǎn)估計(jì)的有效性屏轰,需要保證抽樣總體和目標(biāo)總體是高度一致的颊郎。
7.4抽樣分布簡介
7.4.1 抽樣分布的理解
一個(gè)簡單隨機(jī)樣本的抽取是一個(gè)試驗(yàn),則樣本的某個(gè)統(tǒng)計(jì)量是對(duì)試驗(yàn)結(jié)果的一個(gè)數(shù)值描述霎苗。因此該樣本統(tǒng)計(jì)量本身是一個(gè)隨機(jī)變量姆吭,因此樣本統(tǒng)計(jì)量是一個(gè)隨機(jī)變量。
任何特定樣本的樣本統(tǒng)計(jì)量的概率分布稱為該統(tǒng)計(jì)量的抽樣分布唁盏。
7.5 x_bar的抽樣分布
定義
x_bar的抽樣分布是樣本均值的所有可能值的概率分布内狸。
期望
E(x_bar) = μ
當(dāng)點(diǎn)估量的期望值等于總體參數(shù)時(shí),稱這個(gè)點(diǎn)估計(jì)量是無偏的(unbiased)厘擂。
標(biāo)準(zhǔn)差
在無限總體的情況下當(dāng)n/N<0.05時(shí)昆淡,可以用有限總體的公式代替有線總體。
隨著樣本容量的增加刽严,均值的標(biāo)準(zhǔn)誤差減小昂灵,即樣本均值落在總體均值的某一特定范圍內(nèi)的概率也將增大。
中心極限定理
從總體中抽取容量為n的簡單隨機(jī)樣本港庄,當(dāng)樣本容量很大時(shí)倔既,樣本均值x_bar的抽樣分布近似服從正態(tài)分布。
一般情況n>30鹏氧,總體嚴(yán)重偏態(tài)或者出現(xiàn)異常點(diǎn)時(shí)渤涌,樣本容量n>50.
7.6 p_bar的抽樣分布
期望
E(p_bar) = p
標(biāo)準(zhǔn)差
p_bar抽樣分布的形態(tài)
p_bar = x/n, x為標(biāo)記成功的試驗(yàn)次數(shù),而n為固定值把还。因此p_bar整體是一個(gè)離散的二項(xiàng)概率分布实蓬。
而當(dāng)np>=5并且n(1-p)>=5時(shí),p_bar的抽樣分布可以用正態(tài)分布近似吊履。
7.7點(diǎn)估計(jì)的性質(zhì)
1.無偏性;
2.有效性;
同樣本容量n時(shí)安皱,擁有較小的標(biāo)準(zhǔn)誤差的點(diǎn)估計(jì)量比其他點(diǎn)估計(jì)量相對(duì)有效(relative efficiency)。
例如在正態(tài)總體中抽樣艇炎,中位數(shù)的標(biāo)準(zhǔn)誤差比均值的標(biāo)準(zhǔn)誤差大將近25%酌伊,因此均值更有效。
3.一致性;
隨著樣本容量的增大缀踪,標(biāo)準(zhǔn)誤差減小。
7.8其他抽樣方法
抽樣方法 | 定義 | 特性 |
---|---|---|
分層抽樣 | 按照年齡/性別/職業(yè)等對(duì)樣本進(jìn)行分層后,按照各層的權(quán)重大小,抽取不同個(gè)數(shù)的簡單隨機(jī)樣本。 | 每層內(nèi)樣本越同質(zhì),層內(nèi)方差越小。那么能夠用較小的樣本容量得到簡單隨機(jī)抽樣同樣精準(zhǔn)的結(jié)果 |
整群抽樣 | 群內(nèi)差異大逻卖,每個(gè)群都是整體的一個(gè)在小范圍內(nèi)的代表。依賴于群與群之間是同質(zhì)的。 | 常需要較大的樣本容量,常應(yīng)用于區(qū)域抽樣 |
系統(tǒng)抽樣 | 總體N,等分為k個(gè)大小為N/k的個(gè)體集合,從k各個(gè)體集合中抽取等位置的一個(gè)樣本,共k個(gè)硝岗。 | 當(dāng)總體的個(gè)體清單是隨機(jī)排序時(shí)尤其有效听盖;可以作為簡單隨機(jī)抽樣的替代 |
方便抽樣/判斷抽樣 |
7.X
注意本章的點(diǎn)估計(jì)都基于總體標(biāo)準(zhǔn)差已知這一點(diǎn)
CHAP8 區(qū)間估計(jì)
8.0 區(qū)間估計(jì)的形式
點(diǎn)估計(jì)±邊際誤差
8.1
如果有95%的把握相信估計(jì)值μ落在區(qū)間(a,b)內(nèi)背零,則有:
α:顯著性水平毛雇,值為0.05
置信水平:區(qū)間是在95%的置信水平下建立
置信系數(shù):0.95 (1-α)
置信區(qū)間:(a, b)
8.2 x_bar的區(qū)間估計(jì):σ未知的情況
左偏和右偏對(duì)區(qū)間估計(jì)的影響
右偏:x大震捣,s大,tα/2大。有更大的概率將μ概括
左偏則相反。
總體比率的估計(jì)基于二項(xiàng)分布與正態(tài)分布的近似觉至。要求np>=5,n(1-p)>=5.
CHAP9 假設(shè)檢驗(yàn)
9.1 原假設(shè)與備選假設(shè)的建立
定義
對(duì)總體參數(shù)做的一個(gè)嘗試性假設(shè)稱為原假設(shè)(H0)席怪,定義另一個(gè)與之完全相反的假設(shè)船万,稱為備選假設(shè)。
假設(shè)形式的選擇
將檢驗(yàn)試圖建立的結(jié)果設(shè)為備選假設(shè):原假設(shè)就是用來被證偽和推翻的。
9.2第一類錯(cuò)誤和第二類錯(cuò)誤
定義
樣本拒絕了H0,但整體上卻是H0為真爵憎。
樣本未拒絕H0,但整體上卻是H0為假巴刻,Hα為真愚铡。但卻接受了H0。
為了避免犯第二類錯(cuò)誤胡陪,統(tǒng)計(jì)上在未能拒絕H0時(shí)沥寥,常不表述為接受H0,而是不能拒絕H0柠座。這樣避免了犯第二類錯(cuò)誤的概率邑雅。但這樣從統(tǒng)計(jì)結(jié)論上講是非結(jié)論性的,并沒有給出信任H0時(shí)的決策妈经。因而需要進(jìn)一步同時(shí)控制第二類錯(cuò)誤的概率淮野。
顯著性水平
犯第一類錯(cuò)誤的概率捧书,稱為檢驗(yàn)的顯著性水平
9.3總體均值:σ已知
本節(jié)前提:樣本近似正態(tài)分布或者樣本容量足夠大。
9.3.1單側(cè)檢驗(yàn)
CHAP 11 關(guān)于總體方差的統(tǒng)計(jì)推斷
11.1一個(gè)總體方差的統(tǒng)計(jì)推斷
對(duì)一個(gè)總體方差的統(tǒng)計(jì)推斷骤星,均基于卡方檢測
基于上方變量可以得到對(duì)樣本方差的估計(jì)區(qū)間
σ0為目標(biāo)方差经瓷,公式可以用于上側(cè)/下側(cè)/雙側(cè) 檢驗(yàn)。
相關(guān)計(jì)算
功能 | Python | excel | tableau | R |
---|---|---|---|---|
自由度n-1洞难,累積到概率p時(shí)所處位置 | chi2.ppf(p, n-1) | |||
自由度n-1舆吮,位置到a處的累計(jì)概率 | chi2.ppf(a, n-1) |
11.2兩個(gè)總體方差的統(tǒng)計(jì)推斷
基于F分布和F檢驗(yàn)
F分布需要兩個(gè)參數(shù)確定:n1,分子的自由度。n2,分母的自由度廊营。
對(duì)兩個(gè)整體的分布敏感歪泳,要求兩個(gè)整體為近似正態(tài)分布,且整體方差相同露筒。
由于檢驗(yàn)統(tǒng)計(jì)量F的分子為樣本方差較大的s1^2,因此檢驗(yàn)量F的數(shù)值總位于F分布的上側(cè)敌卓。
這里注意的是由于將樣本方差較大的總體標(biāo)記總體1慎式,且備選假設(shè)常是我們?cè)噲D證明的假設(shè),因此檢驗(yàn)統(tǒng)計(jì)量常位于上方趟径,因而一般只有上側(cè)檢驗(yàn)瘪吏。
相關(guān)計(jì)算
功能 | Python | excel | tableau | R |
---|---|---|---|---|
分子自由度n1-1,分母自由度n2-1蜗巧,累積到概率p時(shí)所處位置 | f.ppf(p, n-1,n-2) | |||
分子自由度n1-1掌眠,分母自由度n2-1,位置到a處的累計(jì)概率 | f.cdf(a, n-1,n-2) |
CHAP12 擬合度檢驗(yàn)和獨(dú)立性檢驗(yàn)
本章內(nèi)容均為卡方檢驗(yàn)幕屹,卡方檢驗(yàn)的假設(shè)要求每個(gè)組別的期望頻數(shù)都要大于等于5蓝丙。
CHAP13 實(shí)驗(yàn)設(shè)計(jì)和方差分析
13.1.2方差分析的假定
(2)響應(yīng)變量的方差對(duì)所有總體都是相同的:[Q:為什么,以及怎么確定這個(gè)整體的方差是相同的望拖。AT:是因?yàn)槭羌俣ǖ脑騿崦斐荆俣ㄈ绱藙t可以認(rèn)為所有的響應(yīng)變量都來自同分布的一個(gè)正態(tài)分布?]
CHAP13
13.3多重比較方法
注意LSD的值與n1,n2,n3的大小相關(guān)说敏,如果n1,n2,n3大小相同LSD值一致鸥跟。 此時(shí)可以比較xi-xj任意i,j組合時(shí),與同一LSD值盔沫。
比較方式的第一類錯(cuò)誤概率
實(shí)驗(yàn)方式的第一類錯(cuò)誤概率 兩者的關(guān)系医咨。
13.5析因?qū)嶒?yàn)
處理(treatment),復(fù)制架诞,區(qū)組拟淮,影響因子
14簡單線性回歸
最小二乘法最常用
SST = SSR+SSE
SSR理解為SST中被解釋的部分,SSE理解為SST未被解釋的部分侈贷。
判定系數(shù)越接近于1惩歉,擬合越優(yōu)
樣本相關(guān)系數(shù)的適用范圍被限制在兩變量存在線性關(guān)系的情況等脂,但判定系數(shù)對(duì)非線性關(guān)系以及有兩個(gè)或兩個(gè)以上自變量的相關(guān)關(guān)系都適用。
較大的判定系數(shù)也不能得到x,y的關(guān)系在統(tǒng)計(jì)上是否顯著的結(jié)論撑蚌,這需要基于對(duì)樣本容量以及對(duì)最小二乘估計(jì)量適當(dāng)?shù)某闃臃植嫉难芯縖q:這是什么?]