《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)》筆記

CHAP5 離散型概率分布

5.4 二元分布坎匿,協(xié)方差和金融資產(chǎn)組合

1) 協(xié)方差的計(jì)算

numpy.cov():ddof默認(rèn)為1
numpy.var():ddof默認(rèn)為0

5.5二項(xiàng)概率分布

二項(xiàng)試驗(yàn)的屬性

  1. n次箭启。2.每次有兩種結(jié)果蜕乡。3.概率固定(穩(wěn)定)。4.每次試驗(yàn)相互獨(dú)立

相關(guān)計(jì)算

功能 Python excel tableau R
二項(xiàng)試驗(yàn)n次中成功k次 scipy.special.comb(n,k)
n次試驗(yàn)成功k次的概率 binom.pmf(k, n, p)
n次試驗(yàn)至少成功k次的概率 binom.cdf(k,n,p)

5.6 泊松概率分布

泊松概率分布的屬性

  1. 任意兩段等長間隔發(fā)生次數(shù)的期望相等仆救。
  2. 互相獨(dú)立姥宝。

期望和方差

均為μ

相關(guān)計(jì)算

功能 Python excel tableau R
期望為μ成功k次的概率 binom.pmf(k, μ)
n次試驗(yàn)至少成功k次的概率 binom.cdf(k,n,p)

5.7超幾何分布

相關(guān)計(jì)算

功能 Python excel tableau R
總量N,含r個(gè)標(biāo)注成功的樣本窒盐,抽取:n钢拧,成功:k hypergeom.pmf(k, N, r, n)
總量N蟹漓,含r個(gè)標(biāo)注成功的樣本,抽仍茨凇:n葡粒,成功:k,累計(jì)概率 hypergeom.cdf(k,N,r,n)

5.x 總結(jié)

1.超幾何的N足夠大時(shí)膜钓,可以將二項(xiàng)分布作為超幾何分布的近似嗽交。p=r/N
2.二項(xiàng)分布的N足夠大,p足夠小時(shí)颂斜,可以將泊松分布看做二項(xiàng)分布的近似夫壁。μ=np

CHAP6 連續(xù)概率分布

5.0 注意點(diǎn)

概率密度函數(shù)probability densityf unctionfly
注意離散型分布可以直接給出概率函數(shù),而非概率密度函數(shù)

5.1 均勻分布

概率密度函數(shù)

a,b為分布的起沃疮,止點(diǎn)
f(x) = 1/(b-a)
E(x) = (a+b)/2

相關(guān)計(jì)算

功能 Python excel tableau R
起始點(diǎn)l,寬度s在位置p的概率密度 uniform.pdf(p,l,s)
起始點(diǎn)l,寬度s盒让,概率到p所處的位置 uniform.cdf(p, l, s)
起始點(diǎn)l,寬度s,位置小于a的累計(jì)概率 uniform.ppf(a, l, s)

5.2 正態(tài)分布

期望:μ
標(biāo)注差:

相關(guān)計(jì)算

功能 Python excel tableau R
期望μ忿磅,方差s糯彬,在位置p的概率密度 norm.pdf(p,μ,s)
期望μ,方差s葱她,概率到a時(shí)的概a的累計(jì)概率 norm.cdf(a,μ,s)
期望μ,方差s似扔,累計(jì)概率為p時(shí)的位置 norm.ppf(p,l,s)

5.3 指數(shù)分布

指數(shù)分布是泊松過程的時(shí)間間隔的分布吨些。
參數(shù):μ

相關(guān)計(jì)算

功能 Python excel tableau R
期望μ搓谆,在位置p的概率密度 expon.pdf(p,loc=0,scale=μ)
期望μ,位置到a時(shí)的累計(jì)概率 expon.cdf(a,l,μ)
期望μ豪墅,累積到概率p時(shí)的位置 expon.ppf(p,l,μ)

CHAP7. 抽樣和抽樣分布

7.2 抽樣

分為從有限總體和無限總體中抽取泉手。無限總體一般是不斷產(chǎn)生樣本的過程:比如生產(chǎn),從流動(dòng)客戶/人群中抽樣偶器。 從無限總體中抽樣需要保證:1)來自統(tǒng)一整體斩萌。2)每個(gè)樣本的 抽取是獨(dú)立的。

相關(guān)計(jì)算

功能 Python excel tableau R
抽取 DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

7.3點(diǎn)估計(jì)

  1. 樣本統(tǒng)計(jì)量(sample statistic) 是 總體參數(shù)(population paraments) 的 點(diǎn)估計(jì) (point estimator)
  2. 為了保證點(diǎn)估計(jì)的有效性屏轰,需要保證抽樣總體和目標(biāo)總體是高度一致的颊郎。

7.4抽樣分布簡介

7.4.1 抽樣分布的理解

一個(gè)簡單隨機(jī)樣本的抽取是一個(gè)試驗(yàn),則樣本的某個(gè)統(tǒng)計(jì)量是對(duì)試驗(yàn)結(jié)果的一個(gè)數(shù)值描述霎苗。因此該樣本統(tǒng)計(jì)量本身是一個(gè)隨機(jī)變量姆吭,因此樣本統(tǒng)計(jì)量是一個(gè)隨機(jī)變量。

任何特定樣本的樣本統(tǒng)計(jì)量的概率分布稱為該統(tǒng)計(jì)量的抽樣分布唁盏。

7.5 x_bar的抽樣分布

定義

x_bar的抽樣分布是樣本均值的所有可能值的概率分布内狸。

期望

E(x_bar) = μ
當(dāng)點(diǎn)估量的期望值等于總體參數(shù)時(shí),稱這個(gè)點(diǎn)估計(jì)量是無偏的(unbiased)厘擂。

標(biāo)準(zhǔn)差

在無限總體的情況下當(dāng)n/N<0.05時(shí)昆淡,可以用有限總體的公式代替有線總體。
隨著樣本容量的增加刽严,均值的標(biāo)準(zhǔn)誤差減小昂灵,即樣本均值落在總體均值的某一特定范圍內(nèi)的概率也將增大。


x_bar的標(biāo)準(zhǔn)差

中心極限定理

從總體中抽取容量為n的簡單隨機(jī)樣本港庄,當(dāng)樣本容量很大時(shí)倔既,樣本均值x_bar的抽樣分布近似服從正態(tài)分布。
一般情況n>30鹏氧,總體嚴(yán)重偏態(tài)或者出現(xiàn)異常點(diǎn)時(shí)渤涌,樣本容量n>50.

7.6 p_bar的抽樣分布

期望

E(p_bar) = p

標(biāo)準(zhǔn)差

image.png

p_bar抽樣分布的形態(tài)

p_bar = x/n, x為標(biāo)記成功的試驗(yàn)次數(shù),而n為固定值把还。因此p_bar整體是一個(gè)離散的二項(xiàng)概率分布实蓬。
而當(dāng)np>=5并且n(1-p)>=5時(shí),p_bar的抽樣分布可以用正態(tài)分布近似吊履。

7.7點(diǎn)估計(jì)的性質(zhì)

1.無偏性;

2.有效性;

同樣本容量n時(shí)安皱,擁有較小的標(biāo)準(zhǔn)誤差的點(diǎn)估計(jì)量比其他點(diǎn)估計(jì)量相對(duì)有效(relative efficiency)。
例如在正態(tài)總體中抽樣艇炎,中位數(shù)的標(biāo)準(zhǔn)誤差比均值的標(biāo)準(zhǔn)誤差大將近25%酌伊,因此均值更有效。

3.一致性;

隨著樣本容量的增大缀踪,標(biāo)準(zhǔn)誤差減小。

7.8其他抽樣方法

抽樣方法 定義 特性
分層抽樣 按照年齡/性別/職業(yè)等對(duì)樣本進(jìn)行分層后,按照各層的權(quán)重大小,抽取不同個(gè)數(shù)的簡單隨機(jī)樣本。 每層內(nèi)樣本越同質(zhì),層內(nèi)方差越小。那么能夠用較小的樣本容量得到簡單隨機(jī)抽樣同樣精準(zhǔn)的結(jié)果
整群抽樣 群內(nèi)差異大逻卖,每個(gè)群都是整體的一個(gè)在小范圍內(nèi)的代表。依賴于群與群之間是同質(zhì)的。 常需要較大的樣本容量,常應(yīng)用于區(qū)域抽樣
系統(tǒng)抽樣 總體N,等分為k個(gè)大小為N/k的個(gè)體集合,從k各個(gè)體集合中抽取等位置的一個(gè)樣本,共k個(gè)硝岗。 當(dāng)總體的個(gè)體清單是隨機(jī)排序時(shí)尤其有效听盖;可以作為簡單隨機(jī)抽樣的替代
方便抽樣/判斷抽樣

7.X

注意本章的點(diǎn)估計(jì)都基于總體標(biāo)準(zhǔn)差已知這一點(diǎn)

CHAP8 區(qū)間估計(jì)

8.0 區(qū)間估計(jì)的形式

點(diǎn)估計(jì)±邊際誤差

8.1

如果有95%的把握相信估計(jì)值μ落在區(qū)間(a,b)內(nèi)背零,則有:
α:顯著性水平毛雇,值為0.05
置信水平:區(qū)間是在95%的置信水平下建立
置信系數(shù):0.95 (1-α)
置信區(qū)間:(a, b)

8.2 x_bar的區(qū)間估計(jì):σ未知的情況

左偏和右偏對(duì)區(qū)間估計(jì)的影響

右偏:x大震捣,s大,tα/2大。有更大的概率將μ概括
左偏則相反。


區(qū)間估計(jì)的重要公式.png

總體比率的估計(jì)基于二項(xiàng)分布與正態(tài)分布的近似觉至。要求np>=5,n(1-p)>=5.

CHAP9 假設(shè)檢驗(yàn)

9.1 原假設(shè)與備選假設(shè)的建立

定義

對(duì)總體參數(shù)做的一個(gè)嘗試性假設(shè)稱為原假設(shè)(H0)席怪,定義另一個(gè)與之完全相反的假設(shè)船万,稱為備選假設(shè)。

假設(shè)形式的選擇

將檢驗(yàn)試圖建立的結(jié)果設(shè)為備選假設(shè):原假設(shè)就是用來被證偽和推翻的。

9.2第一類錯(cuò)誤和第二類錯(cuò)誤

定義

樣本拒絕了H0,但整體上卻是H0為真爵憎。
樣本未拒絕H0,但整體上卻是H0為假巴刻,Hα為真愚铡。但卻接受了H0。
為了避免犯第二類錯(cuò)誤胡陪,統(tǒng)計(jì)上在未能拒絕H0時(shí)沥寥,常不表述為接受H0,而是不能拒絕H0柠座。這樣避免了犯第二類錯(cuò)誤的概率邑雅。但這樣從統(tǒng)計(jì)結(jié)論上講是非結(jié)論性的,并沒有給出信任H0時(shí)的決策妈经。因而需要進(jìn)一步同時(shí)控制第二類錯(cuò)誤的概率淮野。

顯著性水平

犯第一類錯(cuò)誤的概率捧书,稱為檢驗(yàn)的顯著性水平

9.3總體均值:σ已知

本節(jié)前提:樣本近似正態(tài)分布或者樣本容量足夠大。

9.3.1單側(cè)檢驗(yàn)

總體均值單側(cè)檢驗(yàn)的兩種形式

CHAP 11 關(guān)于總體方差的統(tǒng)計(jì)推斷

11.1一個(gè)總體方差的統(tǒng)計(jì)推斷

對(duì)一個(gè)總體方差的統(tǒng)計(jì)推斷骤星,均基于卡方檢測

變量服從卡方分布

基于上方變量可以得到對(duì)樣本方差的估計(jì)區(qū)間


總體方差的區(qū)間估計(jì)

總體方差的檢驗(yàn)統(tǒng)計(jì)量

σ0為目標(biāo)方差经瓷,公式可以用于上側(cè)/下側(cè)/雙側(cè) 檢驗(yàn)。

相關(guān)計(jì)算

功能 Python excel tableau R
自由度n-1洞难,累積到概率p時(shí)所處位置 chi2.ppf(p, n-1)
自由度n-1舆吮,位置到a處的累計(jì)概率 chi2.ppf(a, n-1)

11.2兩個(gè)總體方差的統(tǒng)計(jì)推斷

基于F分布和F檢驗(yàn)

F分布需要兩個(gè)參數(shù)確定:n1,分子的自由度。n2,分母的自由度廊营。


符合F分布的變量

對(duì)兩個(gè)整體的分布敏感歪泳,要求兩個(gè)整體為近似正態(tài)分布,且整體方差相同露筒。


假設(shè)檢驗(yàn)統(tǒng)計(jì)量

由于檢驗(yàn)統(tǒng)計(jì)量F的分子為樣本方差較大的s1^2,因此檢驗(yàn)量F的數(shù)值總位于F分布的上側(cè)敌卓。
兩個(gè)總體的方差檢驗(yàn)的匯總

這里注意的是由于將樣本方差較大的總體標(biāo)記總體1慎式,且備選假設(shè)常是我們?cè)噲D證明的假設(shè),因此檢驗(yàn)統(tǒng)計(jì)量常位于上方趟径,因而一般只有上側(cè)檢驗(yàn)瘪吏。

相關(guān)計(jì)算

功能 Python excel tableau R
分子自由度n1-1,分母自由度n2-1蜗巧,累積到概率p時(shí)所處位置 f.ppf(p, n-1,n-2)
分子自由度n1-1掌眠,分母自由度n2-1,位置到a處的累計(jì)概率 f.cdf(a, n-1,n-2)

CHAP12 擬合度檢驗(yàn)和獨(dú)立性檢驗(yàn)

本章內(nèi)容均為卡方檢驗(yàn)幕屹,卡方檢驗(yàn)的假設(shè)要求每個(gè)組別的期望頻數(shù)都要大于等于5蓝丙。

CHAP13 實(shí)驗(yàn)設(shè)計(jì)和方差分析

13.1.2方差分析的假定

(2)響應(yīng)變量的方差對(duì)所有總體都是相同的:[Q:為什么,以及怎么確定這個(gè)整體的方差是相同的望拖。AT:是因?yàn)槭羌俣ǖ脑騿崦斐荆俣ㄈ绱藙t可以認(rèn)為所有的響應(yīng)變量都來自同分布的一個(gè)正態(tài)分布?]

CHAP13

13.3多重比較方法
注意LSD的值與n1,n2,n3的大小相關(guān)说敏,如果n1,n2,n3大小相同LSD值一致鸥跟。 此時(shí)可以比較xi-xj任意i,j組合時(shí),與同一LSD值盔沫。
比較方式的第一類錯(cuò)誤概率
實(shí)驗(yàn)方式的第一類錯(cuò)誤概率 兩者的關(guān)系医咨。

13.5析因?qū)嶒?yàn)

處理(treatment),復(fù)制架诞,區(qū)組拟淮,影響因子

14簡單線性回歸

最小二乘法最常用
SST = SSR+SSE
SSR理解為SST中被解釋的部分,SSE理解為SST未被解釋的部分侈贷。
判定系數(shù)越接近于1惩歉,擬合越優(yōu)


判定系數(shù)

樣本相關(guān)系數(shù)

樣本相關(guān)系數(shù)的適用范圍被限制在兩變量存在線性關(guān)系的情況等脂,但判定系數(shù)對(duì)非線性關(guān)系以及有兩個(gè)或兩個(gè)以上自變量的相關(guān)關(guān)系都適用。
較大的判定系數(shù)也不能得到x,y的關(guān)系在統(tǒng)計(jì)上是否顯著的結(jié)論撑蚌,這需要基于對(duì)樣本容量以及對(duì)最小二乘估計(jì)量適當(dāng)?shù)某闃臃植嫉难芯縖q:這是什么?]

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末上遥,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子争涌,更是在濱河造成了極大的恐慌粉楚,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件亮垫,死亡現(xiàn)場離奇詭異模软,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)饮潦,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門燃异,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人继蜡,你說我怎么就攤上這事回俐。” “怎么了稀并?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵仅颇,是天一觀的道長。 經(jīng)常有香客問我碘举,道長忘瓦,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任引颈,我火速辦了婚禮耕皮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘线欲。我一直安慰自己明场,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布李丰。 她就那樣靜靜地躺著苦锨,像睡著了一般。 火紅的嫁衣襯著肌膚如雪趴泌。 梳的紋絲不亂的頭發(fā)上舟舒,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音嗜憔,去河邊找鬼秃励。 笑死,一個(gè)胖子當(dāng)著我的面吹牛吉捶,可吹牛的內(nèi)容都是我干的夺鲜。 我是一名探鬼主播皆尔,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼币励!你這毒婦竟也來了慷蠕?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤食呻,失蹤者是張志新(化名)和其女友劉穎流炕,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體仅胞,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡每辟,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了干旧。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片渠欺。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖莱革,靈堂內(nèi)的尸體忽然破棺而出峻堰,到底是詐尸還是另有隱情,我是刑警寧澤盅视,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站旦万,受9級(jí)特大地震影響闹击,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜成艘,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一赏半、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧淆两,春花似錦断箫、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至剑勾,卻和暖如春埃撵,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背虽另。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來泰國打工暂刘, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人捂刺。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓谣拣,卻偏偏與公主長得像募寨,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子森缠,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345