自選課程-統(tǒng)計(jì)學(xué)
可汗學(xué)院統(tǒng)計(jì)學(xué)
定義
統(tǒng)計(jì)學(xué)是在數(shù)據(jù)分析的基礎(chǔ)上感挥,研究測(cè)定缩搅、收集、整理触幼、歸納和分析反映數(shù)據(jù)數(shù)據(jù)硼瓣,以便給出正確消息的科學(xué)。
譬如自一組數(shù)據(jù)中置谦,可以摘要并且描述這份數(shù)據(jù)的集中和離散情形堂鲤,這個(gè)用法稱作為描述統(tǒng)計(jì)學(xué)。另外媒峡,觀察者以數(shù)據(jù)的形態(tài)瘟栖,創(chuàng)建出一個(gè)用以解釋其隨機(jī)性和不確定性的數(shù)學(xué)模型,以之來推論研究中的步驟及母體谅阿,這種用法被稱做推論統(tǒng)計(jì)學(xué)半哟。這兩種用法都可以被稱作為應(yīng)用統(tǒng)計(jì)學(xué)。數(shù)理統(tǒng)計(jì)學(xué)則是討論背后的理論基礎(chǔ)的學(xué)科签餐。
一些關(guān)鍵字
樣本(Sample)
樣本(Sample)是統(tǒng)計(jì)學(xué)術(shù)語寓涨,指從全體中隨機(jī)抽取的個(gè)體。通過對(duì)樣本的調(diào)查氯檐,可以大概的了解全體的情況戒良。抽樣時(shí)抽取樣本來進(jìn)行調(diào)查,而普查時(shí)則需要調(diào)查每一個(gè)個(gè)體冠摄。
總體
統(tǒng)計(jì)總體又稱調(diào)查總體糯崎,簡稱為總體,是指客觀存在的耗拓、在同一性質(zhì)基礎(chǔ)上結(jié)合起來的許多個(gè)別單位的整體拇颅。構(gòu)成總體的這些個(gè)別單位稱為總體單位。
樣本是從總體中抽取出來的乔询,作為總體的代表樟插,由部分單位組成的集合體。在抽樣推斷中,總體又稱為母體黄锤,相應(yīng)的搪缨,樣本又稱為子樣。抽取樣本應(yīng)注意以下幾個(gè)問題:
1.樣本的單位必須取自總體
2.一個(gè)總體可以抽取多個(gè)樣本
3.確保樣本的客觀性與代表性
平均數(shù)(Mean鸵熟,或稱平均值)
中位數(shù)(Median副编,又稱中值)
代表一個(gè)樣本、種群或概率分布中的一個(gè)數(shù)值流强,其可將數(shù)值集合劃分為相等的上下兩部分痹届。對(duì)于有限的數(shù)集,可以通過把所有觀察值高低排序后找出正中間的一個(gè)作為中位數(shù)打月。如果觀察值有偶數(shù)個(gè)队腐,則中位數(shù)不唯一,通常取最中間的兩個(gè)數(shù)值的平均數(shù)作為中位數(shù)奏篙。
眾數(shù)(mode)
眾數(shù)(mode)指一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)據(jù)值柴淘。例如{2,3,3,3}中,出現(xiàn)最多的是3秘通,因此眾數(shù)是3为严,眾數(shù)可能是一個(gè)數(shù),但也可能是多個(gè)數(shù)肺稀。
在離散概率分布中第股,眾數(shù)是指概率質(zhì)量函數(shù)有最大值的數(shù)據(jù),也就是最容易取様?shù)降臄?shù)據(jù)盹靴。在連續(xù)概率分布中炸茧,眾數(shù)是指機(jī)率密度函數(shù)有最大值的數(shù)據(jù),也就是機(jī)率密度函數(shù)的峰值稿静。
四分位距(interquartile range, IQR)
確定第三四分位數(shù)和第一四分位數(shù)的差梭冠。
異常值是1.5倍的IQR。左側(cè)就是Q1 - 1.5*(IQR)改备,右側(cè)就是Q3+1.5IQR
總體方差控漠,樣本方差 (Variance),標(biāo)準(zhǔn)差悬钳,樣本標(biāo)準(zhǔn)差(Standard Deviation盐捷,縮寫SD,σ(sigma))
總體方差和標(biāo)準(zhǔn)差:一個(gè)隨機(jī)變量的方差描述的是它的離散程度默勾,也就是該變量離其期望值的距離碉渡。這里把復(fù)雜說白了,就是將各個(gè)誤差將之平方(而非取絕對(duì)值母剥,使之肯定為正數(shù))滞诺,相加之后再除以總數(shù)形导,透過這樣的方式來算出各個(gè)數(shù)據(jù)分布、零散(相對(duì)中心點(diǎn))的程度习霹。繼續(xù)延伸的話朵耕,方差的算術(shù)平方根稱為該隨機(jī)變量的標(biāo)準(zhǔn)差(此為相對(duì)各個(gè)數(shù)據(jù)點(diǎn)間)。
標(biāo)準(zhǔn)差有重大意義淋叶,大約有68%的數(shù)據(jù)與平均值的偏差不超過一個(gè)標(biāo)準(zhǔn)差阎曹,大約95%的數(shù)據(jù)與平均值不超過兩個(gè)標(biāo)準(zhǔn)差
樣本方差和樣本標(biāo)準(zhǔn)差:
先求出總體各單位變量值與其算術(shù)平均數(shù)的離差的平方,然后再對(duì)此變量取平均數(shù)煞檩,就叫做樣本方差处嫌。樣本方差用來表示一列數(shù)的變異程度。樣本均值又叫樣本均數(shù)斟湃。即為樣本的均值锰霜。
樣本方差的算術(shù)平方根稱為該隨機(jī)樣本變量的標(biāo)準(zhǔn)差(此為相對(duì)各個(gè)數(shù)據(jù)點(diǎn)間)。
總體方差和樣本方差計(jì)算公式:
為什么樣本的分母是n-1
n-1的使用稱為貝塞爾校正(Bessel's correction)桐早,目的是為了讓樣本方差的估計(jì)是無偏的。
至于為什么n-1就能使樣本方差無偏厨剪,請(qǐng)看這里和這里.
標(biāo)準(zhǔn)誤差(Standard Error)
描述對(duì)應(yīng)的樣本統(tǒng)計(jì)量抽樣分布的離散程度及衡量對(duì)應(yīng)樣本統(tǒng)計(jì)量抽樣誤差大小的尺度哄酝。
置信區(qū)間(Confidence interval,CI)
在統(tǒng)計(jì)學(xué)中祷膳,一個(gè)概率樣本的置信區(qū)間(Confidence interval陶衅,CI),是對(duì)這個(gè)樣本的某個(gè)總體參數(shù)的區(qū)間估計(jì)直晨。置信區(qū)間展現(xiàn)的是搀军,這個(gè)總體參數(shù)的真實(shí)值有一定概率落在與該測(cè)量結(jié)果有關(guān)的某對(duì)應(yīng)區(qū)間。置信區(qū)間給出的是勇皇,聲稱總體參數(shù)的真實(shí)值在測(cè)量值的區(qū)間所具有的可信程度罩句,即前面所要求的“一定概率”。這個(gè)概率被稱為置信水平敛摘。舉例來說门烂,如果在一次大選中某人的支持率為55%,而置信水平0.95上的置信區(qū)間是(50%,60%)兄淫,那么他的真實(shí)支持率落在50%和60%之區(qū)間的機(jī)率為95%屯远,因此他的真實(shí)支持率不足50%的可能性小于2.5%(假設(shè)分布是對(duì)稱的)
自由度(degree of freedom, df)
是指當(dāng)以樣本的統(tǒng)計(jì)量來估計(jì)總體的參數(shù)時(shí),樣本中獨(dú)立或能自由變化的數(shù)據(jù)的個(gè)數(shù)捕虽,稱為該統(tǒng)計(jì)量的自由度慨丐。
學(xué)生t檢驗(yàn)(Student's t-test 簡稱t-test)
學(xué)生t檢驗(yàn)常作為檢驗(yàn)一群來自常態(tài)分配母體的獨(dú)立樣本之期望值的是否為某一實(shí)數(shù),或是二群來自常態(tài)分配母體的獨(dú)立樣本之期望值的差是否為某一實(shí)數(shù)泄私。舉個(gè)簡單的例子房揭,也就是說我們可以在抓取一個(gè)班級(jí)的男生备闲,去比較該班與全校男生之身高差異程度是不是推測(cè)的那樣,或是不同年級(jí)班上的男生身高的差異的場(chǎng)合是否一如預(yù)期使用此檢驗(yàn)法崩溪。
最常用t檢驗(yàn)的情況有:
- 單樣本檢驗(yàn):檢驗(yàn)一個(gè)正態(tài)分布的總體的均值是否在滿足零假設(shè)的值之內(nèi)浅役,例如檢驗(yàn)一群軍校男生的身高的平均是否符合全國標(biāo)準(zhǔn)的170公分界線。
- 雙樣本檢驗(yàn):其零假設(shè)為兩個(gè)正態(tài)分布的總體的均值之差為某實(shí)數(shù)伶唯,例如檢驗(yàn)二群人的身高之平均是否相等觉既。這一檢驗(yàn)通常被稱為學(xué)生t檢驗(yàn)。但更為嚴(yán)格地說乳幸,只有兩個(gè)總體的方差是相等的情況下瞪讼,才稱為學(xué)生t檢驗(yàn);否則粹断,有時(shí)被稱為Welch檢驗(yàn)符欠。以上談到的檢驗(yàn)一般被稱作“未配對(duì)”或“獨(dú)立樣本”t檢驗(yàn),我們特別是在兩個(gè)被檢驗(yàn)的樣本沒有重疊部分時(shí)用到這種檢驗(yàn)方式瓶埋。
- “配對(duì)”或者“重復(fù)測(cè)量”t檢驗(yàn):檢驗(yàn)同一統(tǒng)計(jì)量的兩次測(cè)量值之間的差異是否為零希柿。舉例來說,我們測(cè)量一位病人接受治療前和治療后的腫瘤尺寸大小养筒。如果治療是有效的曾撤,我們可以推定多數(shù)病人接受治療后,腫瘤尺寸應(yīng)該是變小了晕粪。
-
檢驗(yàn)一條回歸線的斜率是否顯著不為零挤悉。
單樣本
雙樣本
T-table
Z檢驗(yàn)(Z Test)
Z檢驗(yàn)(Z Test)是一般用于大樣本(即樣本容量大于30)平均值差異性檢驗(yàn)的方法。它是用標(biāo)準(zhǔn)正態(tài)分布的理論來推斷差異發(fā)生的概率巫湘,從而比較兩個(gè)平均數(shù)的差異是否顯著装悲。在國內(nèi)也被稱作u檢驗(yàn)。
Z-Test 步驟
第一步:建立虛無假設(shè)尚氛,即先假定兩個(gè)平均數(shù)之間沒有顯著差異诀诊。
第二步:計(jì)算統(tǒng)計(jì)量Z值,對(duì)于不同類型的問題選用不同的統(tǒng)計(jì)量計(jì)算方法阅嘶。
1畏梆、如果檢驗(yàn)一個(gè)樣本平均數(shù)x與一個(gè)已知的總體平均數(shù)μ的差異是否顯著。其Z值計(jì)算公式為:
其中:
x是檢驗(yàn)樣本的平均數(shù)奈懒;
μ是已知總體的平均數(shù)奠涌;
S是總體的標(biāo)準(zhǔn)差;
n是樣本容量磷杏。
2溜畅、如果檢驗(yàn)來自兩個(gè)的兩組樣本平均數(shù)的差異性,從而判斷它們各自代表的總體的差異是否顯著极祸。其Z值計(jì)算公式為:
其中:
X1慈格,X2是樣本1怠晴,樣本2的平均數(shù);
S1,S2是樣本1浴捆,樣本2的標(biāo)準(zhǔn)差蒜田;
n1,n2是樣本1,樣本2的容量选泻。
第三步:比較計(jì)算所得Z值與理論Z值冲粤,推斷發(fā)生的概率,依據(jù)Z值與差異顯著性關(guān)系表作出判斷页眯。如下表所示:
Z | P值 | 差異程度 |
---|---|---|
>2.58 | <0.01 | 非常顯著 |
>1.96 | <0.05 | 顯著 |
<1.96 | >0.05 | 不顯著 |
第四步:根據(jù)是以上分析梯捕,結(jié)合具體情況,作出結(jié)論窝撵。
Z分?jǐn)?shù)(z-score)
Z分?jǐn)?shù)也叫標(biāo)準(zhǔn)分?jǐn)?shù)(standard score)是一個(gè)數(shù)與平均數(shù)的差再除以標(biāo)準(zhǔn)差的過程傀顾。在統(tǒng)計(jì)學(xué)中,標(biāo)準(zhǔn)分?jǐn)?shù)是一個(gè)觀測(cè)或數(shù)據(jù)點(diǎn)的值高于被觀測(cè)值或測(cè)量值的平均值的標(biāo)準(zhǔn)偏差的符號(hào)數(shù)碌奉。z分?jǐn)?shù)可以回答這樣一個(gè)問題:"一個(gè)給定分?jǐn)?shù)距離平均數(shù)多少個(gè)標(biāo)準(zhǔn)差?"在平均數(shù)之上的分?jǐn)?shù)會(huì)得到一個(gè)正的標(biāo)準(zhǔn)分?jǐn)?shù)短曾,在平均數(shù)之下的分?jǐn)?shù)會(huì)得到一個(gè)負(fù)的標(biāo)準(zhǔn)分?jǐn)?shù)。 z分?jǐn)?shù)是一種可以看出某分?jǐn)?shù)在分布中相對(duì)位置的方法赐劣。
例子