第一章 導(dǎo) 論
1.什么是統(tǒng)計(jì)學(xué)
- 統(tǒng)計(jì)學(xué)是收集、處理鸠信、分析胧沫、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結(jié)論的科學(xué)
- 數(shù)據(jù)分析所用的方法可分為描述統(tǒng)計(jì)方法和推斷統(tǒng)計(jì)方法
2.參數(shù)和統(tǒng)計(jì)量
-
參數(shù):總體特征,所關(guān)心的參數(shù)通常是總體平均數(shù)占业、總體標(biāo)準(zhǔn)差绒怨、總體比例等
由于總體數(shù)據(jù)通常是不知道的,所以參數(shù)是一個(gè)未知的常量-
-
統(tǒng)計(jì)量:個(gè)體特征谦疾,所關(guān)心的參數(shù)通常是樣本平均數(shù)南蹂、樣本標(biāo)準(zhǔn)差、樣本比例等
由于樣本是已經(jīng)抽出來(lái)的念恍,所以統(tǒng)計(jì)量總是知道的
第二章 數(shù)據(jù)的搜集
1.數(shù)據(jù)的來(lái)源
- 間接來(lái)源(二手?jǐn)?shù)據(jù))與研究?jī)?nèi)容有關(guān)的原信息已經(jīng)存在碎紊,我們只是重新加工、整理樊诺,使之成為分析可用的數(shù)據(jù)仗考,這稱(chēng)為間接來(lái)源的數(shù)據(jù)
- 直接來(lái)源(一手?jǐn)?shù)據(jù))通過(guò)調(diào)查方法獲得的為調(diào)查數(shù)據(jù),實(shí)驗(yàn)得到為實(shí)驗(yàn)數(shù)據(jù)词爬,都是直接來(lái)源的數(shù)據(jù)
2.數(shù)據(jù)誤差
- 抽樣誤差:由抽樣的隨機(jī)性引起的樣本結(jié)果與總體真值之間的差異
- 非抽樣誤差:抽樣框誤差秃嗜、回答誤差、無(wú)回答誤差、調(diào)查員誤差锅锨、測(cè)量誤差
第三章 數(shù)據(jù)的圖表展示
1.數(shù)據(jù)預(yù)處理
- 原始數(shù)據(jù):完整性叽赊、準(zhǔn)確性
- 二手?jǐn)?shù)據(jù):適用性、時(shí)效性
2.分類(lèi)數(shù)據(jù)圖示
1> 組數(shù) 5≤ K ≤15
2> 組距 組距=(Max-Min)/K
3> 為解決不重的問(wèn)題必搞,統(tǒng)計(jì)分組習(xí)慣上規(guī)定“上組限不在內(nèi)”必指,即當(dāng)相鄰兩組的上下限重疊時(shí),恰好等于某一組上限的變量值不算在本組內(nèi)恕洲,而計(jì)算在下一組內(nèi)塔橡。即a≤ x <b
第四章 數(shù)據(jù)的概括性度量
1.集中趨勢(shì)的度量
- 眾數(shù)不受極端值影響霜第,具有不唯一性
- 中位數(shù)不受極端值影響葛家,數(shù)據(jù)分布偏斜程度較大時(shí)
- 平均數(shù)易受極端值影響
2.離散程度的度量
標(biāo)準(zhǔn)分?jǐn)?shù):也稱(chēng)標(biāo)準(zhǔn)化值或z分?jǐn)?shù)(將數(shù)據(jù)平均值變?yōu)?,標(biāo)準(zhǔn)差為1)
經(jīng)驗(yàn)法則:對(duì)稱(chēng)分布
切比雪夫不等式:不是對(duì)稱(chēng)分布
離散系數(shù)
離散系數(shù)越大泌类,數(shù)據(jù)離散程度越大
3.偏態(tài)與峰態(tài)
-
偏態(tài) SK:數(shù)據(jù)對(duì)稱(chēng)性測(cè)度
SK = 0 分布對(duì)稱(chēng)
SK > 0 右偏
SK < 0 左偏
SK > 1或者SK < -1 高度偏態(tài)分布
SK在0.51或-1-0.5 之間癞谒,中等偏態(tài)分布
SK越接近0,偏斜程度越小
-
峰態(tài) K:數(shù)據(jù)分布平峰或尖峰程度的測(cè)量
K > 0 尖峰分布刃榨,數(shù)據(jù)分布更集中
K < 0 扁平分布弹砚,數(shù)據(jù)分布越分散
第五章 概率與概率分布
正態(tài)分布
X服從正態(tài)分布,記作X~N()
標(biāo)準(zhǔn)正態(tài)分布
當(dāng)時(shí) ,X~N(0,1)晴玖,即X服從標(biāo)準(zhǔn)正態(tài)分布
第六章 統(tǒng)計(jì)量及其抽樣分布
1.由正態(tài)分布導(dǎo)出的幾個(gè)重要分布
-
卡方分布
E(Y) = n ,D(Y) = 2n
-
t分布
小樣本方法
n≥2读存,
n ≥ 3,
-
F分布
方差分析为流,回歸方程的顯著性檢驗(yàn)
n>2呕屎,
n>4,
如果隨機(jī)變量X服從t(n)分布敬察,則服從F(1,n)的F分布=>
回歸分析回歸系數(shù)顯著性檢驗(yàn)
2.中心極限定理
定義:設(shè)從均值為秀睛、方差為(有限)的任意一個(gè)總體中抽取樣本量為n的樣本,當(dāng)n充分大時(shí)(n≥30)莲祸,樣本均值的抽樣分布近似服從從均值為,方差為的正態(tài)分布
第七章 參數(shù)估計(jì)
1.參數(shù)估計(jì)基本原理
置信區(qū)間:在區(qū)間估計(jì)中蹂安,由樣本統(tǒng)計(jì)量所構(gòu)造的總體參數(shù)的估計(jì)區(qū)間稱(chēng)為置信區(qū)間
置信水平:如果將構(gòu)造置信區(qū)間的步驟重復(fù)多次,置信區(qū)間中包含總體參數(shù)真值的次數(shù)所占的比例稱(chēng)為置信水平(置信度或置信系數(shù))
如果用某種方法構(gòu)造的所有區(qū)間中有95%的區(qū)間包含總體參數(shù)的真值锐帜,5%的區(qū)間不包含田盈,那么,用該方法構(gòu)造的區(qū)間稱(chēng)為置信水平為95%的置信區(qū)間
總體參數(shù)的真值是固定的缴阎、未知的允瞧,而樣本構(gòu)造的區(qū)間則是不固定的。因此,置信區(qū)間是一個(gè)隨機(jī)區(qū)間述暂,因樣本的不同而不同
-
實(shí)際問(wèn)題中痹升,進(jìn)行估計(jì)時(shí)往往只抽取一個(gè)樣本。只是一個(gè)特定區(qū)間而不再是隨機(jī)區(qū)間畦韭,所以無(wú)法知道這個(gè)樣本所產(chǎn)生的區(qū)間是否包含總體參數(shù)的真值疼蛾。
比如,用95%的置信水平得到某班學(xué)生考試成績(jī)的置信區(qū)間為60-80分艺配,我們不能說(shuō)60-80分這個(gè)區(qū)間以95%的概率包含全班學(xué)生平均考試成績(jī)的真值察郁,或者說(shuō)全班學(xué)生的平均考試成績(jī)以95%的概率落在60-80分之間,這類(lèi)表述是錯(cuò)誤的妒挎,因?yàn)榭傮w均值p是一個(gè)常數(shù)绳锅,而不是一個(gè)隨機(jī)變量。p要么落在這個(gè)范圍內(nèi)酝掩,要么不在這個(gè)范圍內(nèi)鳞芙,這里并不涉及概率。我們只是知道在多次抽樣中有95%的樣本得到的區(qū)間包含全班學(xué)生平均考試成績(jī)的真值期虾。它的真正意義是如果做了100次抽樣原朝,大概有95次找到的區(qū)間包含真值,有5次找到的區(qū)間不包含真值镶苞。假定全班考試成績(jī)平均數(shù)的真值為70分喳坠,60-80分這個(gè)區(qū)間一定包含真值,如果全班考試成績(jī)平均數(shù)的真值為50分茂蚓,那么區(qū)間60~80分就絕對(duì)不包含真值壕鹉,無(wú)論做多少次試驗(yàn)。因此聋涨,這個(gè)概率不是用來(lái)描述某個(gè)特定的區(qū)間包含總體參數(shù)真值的可能性晾浴,而是針對(duì)隨機(jī)區(qū)間而言的。一個(gè)特定的區(qū)間"總是包含"或"絕對(duì)不包含"參數(shù)的真值牍白,不存在"以多大的概率包含總體參數(shù)"的問(wèn)題绣张。但是院崇,用概率可以知道在多次抽樣得到的區(qū)間中大概有多少個(gè)區(qū)間包含參數(shù)的真值。
評(píng)價(jià)估計(jì)量的標(biāo)準(zhǔn):無(wú)偏性、有效性笼沥、一致性
2.一個(gè)總體參數(shù)的區(qū)間估計(jì)
-
總體均值的區(qū)間估計(jì)
“正態(tài)總體沦泌、方差已知或非正態(tài)總體烙常、大樣本”
總體均值μ在1- α 置信水平下的置信區(qū)間為:
置信水平1- α = 95%荆永,=1.96
-
總體比例的區(qū)間估計(jì)
p是樣本比例
α 是顯著性水平
是標(biāo)準(zhǔn)正態(tài)分布右側(cè)面積為α/2是的z值
是估計(jì)總體比例時(shí)的估計(jì)誤差
第八章 假設(shè)檢驗(yàn)
1.假設(shè)檢驗(yàn)的基本問(wèn)題
原假設(shè),備擇假設(shè):原假設(shè)與備擇假設(shè)互斥
-
兩類(lèi)錯(cuò)誤
- 第 Ⅰ類(lèi)錯(cuò)誤是原假設(shè)為真卻被拒絕般渡,犯這種錯(cuò)誤的概率用α 表示懒豹,也稱(chēng)α 錯(cuò)誤或棄真錯(cuò)誤
- 第Ⅱ類(lèi)錯(cuò)誤是原假設(shè)為偽卻沒(méi)有拒絕右蹦,犯這種錯(cuò)誤的概率用 β表示也稱(chēng)β錯(cuò)誤或取偽錯(cuò)誤
-
假設(shè)檢驗(yàn)流程
-
σ已知,大樣本
|z|<||歼捐,不拒絕
|z|>||何陆,拒絕
-
利用P值(事先給定α=0.05)
- 雙側(cè)檢驗(yàn):P>0.025不拒絕原假設(shè),P< 0.025拒絕原假設(shè)
- 單側(cè)檢驗(yàn):P>0.05不拒絕原假設(shè)豹储,P< 0.05拒絕原假設(shè)
-
-
單側(cè)檢驗(yàn)
一些情況下贷盲,我們關(guān)心的假設(shè)問(wèn)題帶有方向性
- 數(shù)值越大越好,使用壽命等剥扣,左單側(cè)檢驗(yàn)
- 數(shù)值越小越好巩剖,不合格率等,右單側(cè)檢驗(yàn)
2.一個(gè)總體參數(shù)的檢驗(yàn)
-
總體均值的檢驗(yàn)
-
樣本量大
|z| 與 ||
-
小樣本钠怯,σ已知
|z| 與 || 或者 P值
-
小樣本佳魔,σ未知
t 與
-
-
總體比例的檢驗(yàn)
當(dāng)α=0.05時(shí),=±1.96晦炊,比較|z| 與 ||
第九章 分類(lèi)數(shù)據(jù)分析
1.擬合優(yōu)度檢驗(yàn)
根據(jù)總體的分布狀況鞠鲜,計(jì)算出分類(lèi)變量中各類(lèi)別的期望頻數(shù),與分布的觀察頻數(shù)進(jìn)行對(duì)比断国,判斷期望頻數(shù)與觀察頻數(shù)是否有顯著差異贤姆,從而達(dá)到對(duì)分類(lèi)變量進(jìn)行分析的目的。
在泰坦尼克號(hào)的例子中稳衬,我們關(guān)注在這次海難中幸存者的性別是否有顯著差異霞捡,當(dāng)時(shí)船上共有2208人,其中男性1738人薄疚,女性470人碧信。海難發(fā)生后,幸存者共718人街夭,其中男性374人砰碴,女性344人。海難后存活比率為 718/2 208=0.325.如果是否活下來(lái)與性別沒(méi)有關(guān)系莱坎,那么按照這個(gè)比率衣式,在1738位男性中應(yīng)該存活1738×0.325=565人寸士,在470位女性中應(yīng)該存活 470×0.325=153人檐什。565和153就是期望頻數(shù),而實(shí)際存活結(jié)果就是觀察頻數(shù)弱卡。通過(guò)期望頻數(shù)和觀察頻數(shù)的比較乃正,能夠從統(tǒng)計(jì)角度做出存活與性別是否有關(guān)的判斷。
原假設(shè):一致
2.獨(dú)立性檢驗(yàn)
獨(dú)立性檢驗(yàn)就是分析列聯(lián)表中的行變量和列變量是否相互獨(dú)立婶博,是否存在依賴(lài)關(guān)系
原假設(shè):不存在依賴(lài)關(guān)系
第十章 方差分析
1.單因素方差分析
方差分析(ANOVA):通過(guò)檢驗(yàn)各總體的均值是否相等來(lái)判斷分類(lèi)型自變量對(duì)數(shù)值型因變量是否有顯著影響
因素(因子):方差分析中所要檢驗(yàn)的對(duì)象
水平(處理):因素的不同表現(xiàn)
單因素方差分析:只有一個(gè)因素的方差分析
例如瓮具,行業(yè)為因素,零售業(yè)、旅游業(yè)名党、家電制造業(yè)等屬于水平
總平方和 SST(sum of squares for total):全部觀測(cè)值與總均值的誤差平方和叹阔。
組間平方和 SSA(sun of squares for factor A):各組均值與總均值的誤差平方和,反映個(gè)樣本均值之間的差異程度传睹,因此又稱(chēng)為因素平方和耳幢。
組內(nèi)平方和 SSE(sum of squares for error):每個(gè)水平或組的各樣本數(shù)據(jù)與其總均值的誤差平方和,反映每個(gè)樣本各觀測(cè)值的離散狀況欧啤,因此又稱(chēng)誤差平方和睛藻。
方差分析表
誤差來(lái)源 | 平方和SS | 自由度df | 均方MS | F值 | P值 | F臨界值 |
---|---|---|---|---|---|---|
組間(因素影響) | SSA | k-1 | MSA | MSA/MSE | ||
組內(nèi)(誤差) | SSE | n-k | MSE | |||
總 和 | SST | n-1 |
n為全部觀測(cè)值個(gè)數(shù) ;k為因素水平(總體)的個(gè)數(shù)邢隧;MS=SS / df
2.雙因素方差分析
第十一章 一元線性回歸
相關(guān)系數(shù):根據(jù)樣本數(shù)據(jù)計(jì)算的度量?jī)蓚€(gè)變量之間線性關(guān)系強(qiáng)度的統(tǒng)計(jì)量
ρ:總體相關(guān)系數(shù)店印,根據(jù)總體全部數(shù)據(jù)計(jì)算的
r:樣本相關(guān)系數(shù),根據(jù)樣本數(shù)據(jù)計(jì)算的
[-1,0) ==> 負(fù)線性相關(guān)
(0,1] ==> 正線性相關(guān)
r = -1==>完全負(fù)線性相關(guān)關(guān)系
r=1 ==>完全正線性相關(guān)關(guān)系
相關(guān)程度:
第十三章 時(shí)間序列分析和預(yù)測(cè)
1.時(shí)間序列及其分解
時(shí)間序列:同一現(xiàn)象在不同時(shí)間的相繼觀察值排列而成的序列倒慧,分為平穩(wěn)序列和非平穩(wěn)序列
趨勢(shì):時(shí)間序列在長(zhǎng)期內(nèi)呈現(xiàn)出來(lái)的某種持續(xù)上升或持續(xù)下降的變動(dòng)
季節(jié)性(季節(jié)變動(dòng)):時(shí)間序列在一年內(nèi)重復(fù)出現(xiàn)的周期性波動(dòng)按摘。
2.增長(zhǎng)率分析
-
增長(zhǎng)率:也稱(chēng)增長(zhǎng)速度,是時(shí)間序列中報(bào)告期觀察值與基期觀察值之比減1后的結(jié)果纫谅,用%表示
-
環(huán)比增長(zhǎng)率:報(bào)告期觀察值與前一時(shí)期觀察值之比減1的結(jié)果院峡,說(shuō)明現(xiàn)象逐期增長(zhǎng)變化的程度
-
環(huán)比增長(zhǎng)率:報(bào)告期觀察值與前一時(shí)期觀察值之比減1的結(jié)果院峡,說(shuō)明現(xiàn)象逐期增長(zhǎng)變化的程度
-
定基增長(zhǎng)率:報(bào)告期觀察值與某一固定時(shí)期觀察值之比減1的結(jié)果系宜,說(shuō)明現(xiàn)象在整個(gè)觀察期內(nèi)總的增長(zhǎng)變化程度
-
平均增長(zhǎng)率:也稱(chēng)平均增長(zhǎng)速度,時(shí)間序列中逐期環(huán)比值(也稱(chēng)環(huán)比發(fā)展速度)的幾何平均數(shù)減1后的結(jié)果
表示平均增長(zhǎng)率盹牧;n表示環(huán)比值的個(gè)數(shù)
第十四章 指數(shù)
1.簡(jiǎn)單指數(shù)
簡(jiǎn)單綜合指數(shù):將報(bào)告期的指數(shù)總和與基期的指標(biāo)總和相對(duì)比的指數(shù)
p——質(zhì)量指標(biāo)
q——數(shù)量指標(biāo)
——質(zhì)量指標(biāo)指數(shù)
——數(shù)量指標(biāo)指數(shù)
下標(biāo)1——報(bào)告期
下標(biāo)0——基期
簡(jiǎn)單平均指數(shù):
2.加權(quán)指數(shù)
加權(quán)綜合指數(shù)
拉氏指數(shù):將作為權(quán)數(shù)的同度量因素固定在基期
-
帕氏指數(shù):將作為權(quán)數(shù)的同度量因素固定在報(bào)告期
大多數(shù)的看法是俩垃,計(jì)算數(shù)量指數(shù)(如生產(chǎn)量指數(shù))時(shí),權(quán)數(shù)(價(jià)格)應(yīng)該定在基期汰寓,這樣才能剔除價(jià)格變動(dòng)的影響口柳,準(zhǔn)確反映生產(chǎn)量的變化,按不變價(jià)計(jì)算產(chǎn)量指數(shù)就是出于這個(gè)原因有滑。計(jì)算質(zhì)量指數(shù)(如價(jià)格指數(shù))時(shí)跃闹,不同時(shí)期的權(quán)數(shù)含義不同:若權(quán)數(shù)定在基期,反映的是在基期商品(產(chǎn)品)結(jié)構(gòu)下價(jià)格的整體變動(dòng)毛好,更能揭示價(jià)格變動(dòng)的內(nèi)容望艺;若權(quán)數(shù)定在報(bào)告期,反映的是在現(xiàn)實(shí)商品(產(chǎn)品)結(jié)構(gòu)下價(jià)格的整體變動(dòng)肌访,商品(產(chǎn)品)結(jié)構(gòu)變化的影響會(huì)融入價(jià)格指數(shù)找默,更能揭示價(jià)格變動(dòng)的實(shí)際影響。編制指數(shù)的目的不同吼驶,權(quán)數(shù)確定的時(shí)期就可以不同惩激。
加權(quán)平均指數(shù)
店煞。。风钻。
指數(shù)計(jì)算
采用加權(quán)平均的方法
i為代表規(guī)格品個(gè)數(shù)指數(shù)或各層的類(lèi)指數(shù)顷蟀;
W為相應(yīng)的消費(fèi)支出比重