統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)筆記
內(nèi)容來(lái)源:《統(tǒng)計(jì)學(xué)基本概念和方法》
統(tǒng)計(jì)學(xué)家做的許多工作都是關(guān)注一個(gè)變量是否影響另一個(gè)變量眉尸,把這種關(guān)注概括為四個(gè)問(wèn)題:
(1) 在數(shù)據(jù)中,變量之間是否有關(guān)系
(2) 變量之間的關(guān)系有多強(qiáng)
(3) 總體中是否有關(guān)系
(4) 觀測(cè)到的關(guān)系是一種因果關(guān)系嗎
1、隨機(jī)性和規(guī)律性
統(tǒng)計(jì)工作的三個(gè)部分:
數(shù)據(jù)收集、數(shù)據(jù)分析和由數(shù)據(jù)做推斷
統(tǒng)計(jì)學(xué)可以被定義為一組由(1)收集數(shù)據(jù)(2)分析數(shù)據(jù)(3)由數(shù)據(jù)得出結(jié)論而組成的概念反镇、原則和方法
隨機(jī)性和規(guī)律性是統(tǒng)計(jì)的兩個(gè)重要概念势腮。
數(shù)據(jù)的收集分為兩個(gè)步驟:
第一步選擇用于度量待考察的元素
第二步是實(shí)際的收集數(shù)據(jù)
2、數(shù)據(jù)的收集
觀測(cè)值=真值+非統(tǒng)計(jì)錯(cuò)誤+隨機(jī)性
好數(shù)據(jù)是指根據(jù)合理烈钞、正確的統(tǒng)計(jì)原理收集到的數(shù)據(jù)
抽樣誤差:收集數(shù)據(jù)時(shí)帶來(lái)的誤差
未響應(yīng)誤差:缺失數(shù)據(jù)
響應(yīng)誤差:收的結(jié)果不一定正確泊碑、完整
3、數(shù)據(jù)的描述:圖和表
數(shù)據(jù)的可視化
圖優(yōu)性:
是指圖能夠在最短的時(shí)間內(nèi):用最少的筆墨毯欣,在最小的空間內(nèi)馒过,給觀眾最多的思想
數(shù)據(jù)分析通常包括下列三種中的一種或多種:
(1) 圖
(2) 表
(3) 計(jì)算
分類(lèi)變量:觀測(cè)值不能被排序。
餅圖或條形圖
度量變量:值可以用數(shù)值表示
點(diǎn)圖和直方圖酗钞,箱型圖腹忽,莖葉圖,時(shí)間序列圖砚作,點(diǎn)線(xiàn)圖等
箱形圖:
雙峰:直方圖有兩個(gè)頂峰窘奏,這告訴我們數(shù)值存在兩極化
表用于兩種廣泛的目的:
(1) 一種是伴隨文章以支持其中的觀點(diǎn)
(2) 組織數(shù)據(jù)
圖與表的選擇:如果精準(zhǔn)數(shù)字很重要,那么表比圖好葫录;想對(duì)數(shù)據(jù)有一個(gè)較快的印象着裹,圖就比表好。
4米同、數(shù)據(jù)的描述:計(jì)算匯總統(tǒng)計(jì)量
集中趨勢(shì)的衡量(均值骇扇、中位數(shù)摔竿、眾數(shù))
二眾數(shù)分布:一個(gè)變量有兩個(gè)值經(jīng)常出現(xiàn)
差異的衡量(標(biāo)準(zhǔn)差和方差)
匯總值有一個(gè)主要的有點(diǎn)和缺點(diǎn):
優(yōu)點(diǎn):匯總值會(huì)使數(shù)據(jù)高度的簡(jiǎn)單化
缺點(diǎn):任何的簡(jiǎn)單化都意味著某些數(shù)據(jù)的丟失
極差:最大值-最小值(缺點(diǎn)是對(duì)極端值非常敏感)
標(biāo)準(zhǔn)差:重要的偏差,是到均值的一種平均距離
標(biāo)準(zhǔn)差&標(biāo)準(zhǔn)誤差
由原始觀察值算出的叫做標(biāo)準(zhǔn)差少孝,由一組均值算出的叫做標(biāo)準(zhǔn)誤差
標(biāo)準(zhǔn)誤差:是很多不同樣本的均值的標(biāo)準(zhǔn)差
均值的標(biāo)準(zhǔn)誤差要比觀察值的標(biāo)準(zhǔn)差小继低,這是因?yàn)榫档淖兓潭纫扔^察值的變化程度小
5、概率
四個(gè)主要理論統(tǒng)計(jì)量:z t X2 F
P值意味著什么和人們?cè)鯓踊谑录l(fā)生的概率來(lái)對(duì)數(shù)據(jù)做出決策這樣問(wèn)題為假設(shè)檢驗(yàn)提供了舞臺(tái)稍走。
二項(xiàng)分布:只兩種結(jié)果
Poisson分布:小概率事件袁翁,例如無(wú)安打比賽
超幾何分布:當(dāng)樣本很少時(shí),能用與分析兩個(gè)分類(lèi)變量
Z分布:標(biāo)準(zhǔn)正太分布(鐘形分布)钱磅,均值為0梦裂,標(biāo)準(zhǔn)差為1,鐘型盖淡,中點(diǎn)兩邊各有50%的觀察值年柠,曲線(xiàn)下面有95%的面積在-1.96到1.96之間
T分布:與z分布曲線(xiàn)基本一致,但是正太分布的中部較高褪迟,T分布在水平軸上的收斂不像正太分布那么快冗恨。這個(gè)區(qū)別表明T分布在其均值周?chē)木奂潭纫日植家钜恍?/p>
T分布的自由度越大,T分布曲線(xiàn)越接近正太分布味赃,在自由度50時(shí)這兩條曲線(xiàn)就幾乎相同
自由度: 不同自由度有不同的分布
正態(tài)分布和t分布區(qū)分:
區(qū)別的方法是將兩種分布的曲線(xiàn)重疊在一張圖中掀抹,這兩個(gè)曲線(xiàn)的基本形狀相同,但是正態(tài)分布的中部比較高心俗,他分布在水平的收斂不像正態(tài)分布那么快傲武。這個(gè)區(qū)別表明t分布在其均值周?chē)木奂潭?比正態(tài)分布要差一些。
T分布的自由度越大城榛,則該t分布的曲線(xiàn)就越接近正態(tài)分布揪利,在自由度等于50時(shí)這兩種曲線(xiàn)就幾乎相同了。
正態(tài)分布是與自由度無(wú)關(guān)的曲線(xiàn)狠持。
X2分布:分布是偏斜的疟位,非對(duì)稱(chēng)的,非負(fù)的
F分布:也是非負(fù)的喘垂,F(xiàn)取值大部分在0-5之間變化
注意:t X2 F變量都是從z變量中衍生出來(lái)的甜刻,所以使用這三種變量時(shí),都已經(jīng)事先假定了數(shù)據(jù)服從正太分布
P值:是在有關(guān)總體的某些假設(shè)下正勒,觀察值或更極端值出現(xiàn)的概率得院。
α顯著性水平:檢驗(yàn)統(tǒng)計(jì)量落在拒絕域內(nèi)的概率(即拒絕零假設(shè)的概率)
若P<=α,則拒絕零假設(shè)
α一般取的很小昭齐,說(shuō)明拒絕它的概率很小尿招,但得到的P值比阿爾法還小,所以認(rèn)為假設(shè)不正確。
α通常選0.05就谜,顯著水平是0.05的意思是:在零假設(shè)正確的情況下進(jìn)行1000次抽樣怪蔑,會(huì)有5次錯(cuò)誤拒絕了零假設(shè)。
6丧荐、做出結(jié)論:估計(jì)
辨明了樣本統(tǒng)計(jì)量與總體參數(shù)之間的差別和從樣本統(tǒng)計(jì)量中估計(jì)參數(shù)的方法缆瓣。
點(diǎn)估計(jì)——》無(wú)偏估計(jì)&有偏估計(jì)
無(wú)偏估計(jì):統(tǒng)計(jì)量的均值等于總體參數(shù)的真值
區(qū)間估計(jì):是用于參數(shù)估計(jì)值的一個(gè)范圍,一個(gè)區(qū)間比一個(gè)單值能提供更多的信息
7虹统、做出結(jié)論:假設(shè)檢驗(yàn)
零假設(shè)&備擇假設(shè)
零假設(shè):通過(guò)一個(gè)或多個(gè)參數(shù)來(lái)表示的弓坞;而且他設(shè)定這些參數(shù)等于某個(gè)特殊值
H0零假設(shè) H1備擇假設(shè)
一般吧要驗(yàn)證的問(wèn)題作為H0,然后驗(yàn)證H1
因?yàn)镠1有嚴(yán)格的檢驗(yàn)
第一類(lèi)錯(cuò)誤(α錯(cuò)誤):零假設(shè)正確時(shí)卻認(rèn)為他錯(cuò)了
拒絕H0|H0為真|车荔、,棄真錯(cuò)誤
第二類(lèi)錯(cuò)誤(β錯(cuò)誤):零假設(shè)錯(cuò)誤卻認(rèn)為他對(duì)了
拒絕H0|H0為假渡冻,取偽錯(cuò)誤
當(dāng)數(shù)據(jù)導(dǎo)致拒絕零假設(shè)時(shí),這個(gè)經(jīng)驗(yàn)就是統(tǒng)計(jì)顯著的忧便,換句話(huà)說(shuō)族吻,當(dāng)P值很小,經(jīng)驗(yàn)結(jié)果就是統(tǒng)計(jì)顯著的
自由度:觀測(cè)個(gè)數(shù)的概念抽象珠增,并記為DF
8超歌、變量間的關(guān)系
對(duì)于問(wèn)題一:考量樣本數(shù)據(jù)的模式,如果發(fā)現(xiàn)某種關(guān)系蒂教,則提出問(wèn)題二
對(duì)于問(wèn)題二:計(jì)算變量之間關(guān)系的強(qiáng)度
對(duì)于問(wèn)題三:建立一個(gè)變量之間沒(méi)有關(guān)系的零假設(shè)并檢驗(yàn)這個(gè)假設(shè)看是否拒絕它
問(wèn)題四:兩個(gè)變量之間
9巍举、兩個(gè)分類(lèi)變量的X2分析
10、兩個(gè)數(shù)值型變量的回歸分析和相關(guān)分析
散點(diǎn)圖表明變量之間是正相關(guān)還是負(fù)相關(guān)凝垛,相關(guān)洗漱室衡量關(guān)系的強(qiáng)度