統(tǒng)計(jì)

自選課程-統(tǒng)計(jì)學(xué)
可汗學(xué)院統(tǒng)計(jì)學(xué)

定義

統(tǒng)計(jì)學(xué)是在數(shù)據(jù)分析的基礎(chǔ)上感挥，研究測(cè)定缩搅、收集、整理触幼、歸納和分析反映數(shù)據(jù)數(shù)據(jù)硼瓣，以便給出正確消息的科學(xué)。
譬如自一組數(shù)據(jù)中置谦，可以摘要并且描述這份數(shù)據(jù)的集中和離散情形堂鲤，這個(gè)用法稱作為描述統(tǒng)計(jì)學(xué)。另外媒峡，觀察者以數(shù)據(jù)的形態(tài)瘟栖，創(chuàng)建出一個(gè)用以解釋其隨機(jī)性和不確定性的數(shù)學(xué)模型，以之來推論研究中的步驟及母體谅阿，這種用法被稱做推論統(tǒng)計(jì)學(xué)半哟。這兩種用法都可以被稱作為應(yīng)用統(tǒng)計(jì)學(xué)。數(shù)理統(tǒng)計(jì)學(xué)則是討論背后的理論基礎(chǔ)的學(xué)科签餐。

一些關(guān)鍵字

樣本（Sample）

樣本（Sample）是統(tǒng)計(jì)學(xué)術(shù)語寓涨，指從全體中隨機(jī)抽取的個(gè)體。通過對(duì)樣本的調(diào)查氯檐，可以大概的了解全體的情況戒良。抽樣時(shí)抽取樣本來進(jìn)行調(diào)查，而普查時(shí)則需要調(diào)查每一個(gè)個(gè)體冠摄。

總體

統(tǒng)計(jì)總體又稱調(diào)查總體糯崎，簡稱為總體，是指客觀存在的耗拓、在同一性質(zhì)基礎(chǔ)上結(jié)合起來的許多個(gè)別單位的整體拇颅。構(gòu)成總體的這些個(gè)別單位稱為總體單位。

樣本是從總體中抽取出來的乔询，作為總體的代表樟插，由部分單位組成的集合體。在抽樣推斷中，總體又稱為母體黄锤，相應(yīng)的搪缨，樣本又稱為子樣。抽取樣本應(yīng)注意以下幾個(gè)問題：
1.樣本的單位必須取自總體
2.一個(gè)總體可以抽取多個(gè)樣本
3.確保樣本的客觀性與代表性

平均數(shù)（Mean鸵熟，或稱平均值）

平均數(shù)

中位數(shù)（Median副编，又稱中值）

代表一個(gè)樣本、種群或概率分布中的一個(gè)數(shù)值流强，其可將數(shù)值集合劃分為相等的上下兩部分痹届。對(duì)于有限的數(shù)集，可以通過把所有觀察值高低排序后找出正中間的一個(gè)作為中位數(shù)打月。如果觀察值有偶數(shù)個(gè)队腐，則中位數(shù)不唯一，通常取最中間的兩個(gè)數(shù)值的平均數(shù)作為中位數(shù)奏篙。

中位數(shù)

眾數(shù)（mode）

眾數(shù)（mode）指一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)據(jù)值柴淘。例如{2,3,3,3}中，出現(xiàn)最多的是3秘通，因此眾數(shù)是3为严，眾數(shù)可能是一個(gè)數(shù)，但也可能是多個(gè)數(shù)肺稀。

在離散概率分布中第股，眾數(shù)是指概率質(zhì)量函數(shù)有最大值的數(shù)據(jù)，也就是最容易取様?shù)降臄?shù)據(jù)盹靴。在連續(xù)概率分布中炸茧，眾數(shù)是指機(jī)率密度函數(shù)有最大值的數(shù)據(jù)，也就是機(jī)率密度函數(shù)的峰值稿静。

四分位距(interquartile range, IQR)

確定第三四分位數(shù)和第一四分位數(shù)的差梭冠。

IQR

箱線圖

異常值是1.5倍的IQR。左側(cè)就是Q1 - 1.5*（IQR)改备，右側(cè)就是Q3+1.5IQR

總體方差控漠，樣本方差（Variance），標(biāo)準(zhǔn)差悬钳，樣本標(biāo)準(zhǔn)差（Standard Deviation盐捷，縮寫SD，σ（sigma)）

總體方差和標(biāo)準(zhǔn)差：一個(gè)隨機(jī)變量的方差描述的是它的離散程度默勾，也就是該變量離其期望值的距離碉渡。這里把復(fù)雜說白了，就是將各個(gè)誤差將之平方（而非取絕對(duì)值母剥，使之肯定為正數(shù)）滞诺，相加之后再除以總數(shù)形导，透過這樣的方式來算出各個(gè)數(shù)據(jù)分布、零散（相對(duì)中心點(diǎn)）的程度习霹。繼續(xù)延伸的話朵耕，方差的算術(shù)平方根稱為該隨機(jī)變量的標(biāo)準(zhǔn)差（此為相對(duì)各個(gè)數(shù)據(jù)點(diǎn)間）。
標(biāo)準(zhǔn)差有重大意義淋叶，大約有68%的數(shù)據(jù)與平均值的偏差不超過一個(gè)標(biāo)準(zhǔn)差阎曹，大約95%的數(shù)據(jù)與平均值不超過兩個(gè)標(biāo)準(zhǔn)差
樣本方差和樣本標(biāo)準(zhǔn)差：
先求出總體各單位變量值與其算術(shù)平均數(shù)的離差的平方，然后再對(duì)此變量取平均數(shù)煞檩，就叫做樣本方差处嫌。樣本方差用來表示一列數(shù)的變異程度。樣本均值又叫樣本均數(shù)斟湃。即為樣本的均值锰霜。
樣本方差的算術(shù)平方根稱為該隨機(jī)樣本變量的標(biāo)準(zhǔn)差（此為相對(duì)各個(gè)數(shù)據(jù)點(diǎn)間）。
總體方差和樣本方差計(jì)算公式：

總體方差和樣本方差計(jì)算公式

為什么樣本的分母是n-1
n-1的使用稱為貝塞爾校正（Bessel's correction）桐早，目的是為了讓樣本方差的估計(jì)是無偏的。
至于為什么n-1就能使樣本方差無偏厨剪，請(qǐng)看這里和這里.

標(biāo)準(zhǔn)誤差（Standard Error）

描述對(duì)應(yīng)的樣本統(tǒng)計(jì)量抽樣分布的離散程度及衡量對(duì)應(yīng)樣本統(tǒng)計(jì)量抽樣誤差大小的尺度哄酝。

標(biāo)準(zhǔn)誤

標(biāo)準(zhǔn)誤差

服從無偏性正態(tài)分布的標(biāo)準(zhǔn)誤

置信區(qū)間（Confidence interval，CI）

在統(tǒng)計(jì)學(xué)中祷膳，一個(gè)概率樣本的置信區(qū)間（Confidence interval陶衅，CI），是對(duì)這個(gè)樣本的某個(gè)總體參數(shù)的區(qū)間估計(jì)直晨。置信區(qū)間展現(xiàn)的是搀军，這個(gè)總體參數(shù)的真實(shí)值有一定概率落在與該測(cè)量結(jié)果有關(guān)的某對(duì)應(yīng)區(qū)間。置信區(qū)間給出的是勇皇，聲稱總體參數(shù)的真實(shí)值在測(cè)量值的區(qū)間所具有的可信程度罩句，即前面所要求的“一定概率”。這個(gè)概率被稱為置信水平敛摘。舉例來說门烂，如果在一次大選中某人的支持率為55%，而置信水平0.95上的置信區(qū)間是(50%,60%)兄淫，那么他的真實(shí)支持率落在50%和60%之區(qū)間的機(jī)率為95%屯远，因此他的真實(shí)支持率不足50%的可能性小于2.5%（假設(shè)分布是對(duì)稱的）

自由度(degree of freedom, df)

是指當(dāng)以樣本的統(tǒng)計(jì)量來估計(jì)總體的參數(shù)時(shí)，樣本中獨(dú)立或能自由變化的數(shù)據(jù)的個(gè)數(shù)捕虽，稱為該統(tǒng)計(jì)量的自由度慨丐。

學(xué)生t檢驗(yàn)（Student's t-test 簡稱t-test）

學(xué)生t檢驗(yàn)常作為檢驗(yàn)一群來自常態(tài)分配母體的獨(dú)立樣本之期望值的是否為某一實(shí)數(shù)，或是二群來自常態(tài)分配母體的獨(dú)立樣本之期望值的差是否為某一實(shí)數(shù)泄私。舉個(gè)簡單的例子房揭，也就是說我們可以在抓取一個(gè)班級(jí)的男生备闲，去比較該班與全校男生之身高差異程度是不是推測(cè)的那樣，或是不同年級(jí)班上的男生身高的差異的場(chǎng)合是否一如預(yù)期使用此檢驗(yàn)法崩溪。

最常用t檢驗(yàn)的情況有：

單樣本檢驗(yàn)：檢驗(yàn)一個(gè)正態(tài)分布的總體的均值是否在滿足零假設(shè)的值之內(nèi)浅役，例如檢驗(yàn)一群軍校男生的身高的平均是否符合全國標(biāo)準(zhǔn)的170公分界線。
雙樣本檢驗(yàn)：其零假設(shè)為兩個(gè)正態(tài)分布的總體的均值之差為某實(shí)數(shù)伶唯，例如檢驗(yàn)二群人的身高之平均是否相等觉既。這一檢驗(yàn)通常被稱為學(xué)生t檢驗(yàn)。但更為嚴(yán)格地說乳幸，只有兩個(gè)總體的方差是相等的情況下瞪讼，才稱為學(xué)生t檢驗(yàn)；否則粹断，有時(shí)被稱為Welch檢驗(yàn)符欠。以上談到的檢驗(yàn)一般被稱作“未配對(duì)”或“獨(dú)立樣本”t檢驗(yàn)，我們特別是在兩個(gè)被檢驗(yàn)的樣本沒有重疊部分時(shí)用到這種檢驗(yàn)方式瓶埋。
“配對(duì)”或者“重復(fù)測(cè)量”t檢驗(yàn)：檢驗(yàn)同一統(tǒng)計(jì)量的兩次測(cè)量值之間的差異是否為零希柿。舉例來說，我們測(cè)量一位病人接受治療前和治療后的腫瘤尺寸大小养筒。如果治療是有效的曾撤，我們可以推定多數(shù)病人接受治療后，腫瘤尺寸應(yīng)該是變小了晕粪。
檢驗(yàn)一條回歸線的斜率是否顯著不為零挤悉。

單樣本

雙樣本

t-test
t-test分析知乎

T-table

t-table

Z檢驗(yàn)（Z Test）

Z檢驗(yàn)（Z Test）是一般用于大樣本（即樣本容量大于30）平均值差異性檢驗(yàn)的方法。它是用標(biāo)準(zhǔn)正態(tài)分布的理論來推斷差異發(fā)生的概率巫湘，從而比較兩個(gè)平均數(shù)的差異是否顯著装悲。在國內(nèi)也被稱作u檢驗(yàn)。
Z-Test 步驟
第一步：建立虛無假設(shè)尚氛，即先假定兩個(gè)平均數(shù)之間沒有顯著差異诀诊。
第二步：計(jì)算統(tǒng)計(jì)量Z值，對(duì)于不同類型的問題選用不同的統(tǒng)計(jì)量計(jì)算方法阅嘶。
1畏梆、如果檢驗(yàn)一個(gè)樣本平均數(shù)x與一個(gè)已知的總體平均數(shù)μ的差異是否顯著。其Z值計(jì)算公式為：

z-test

其中：
x是檢驗(yàn)樣本的平均數(shù)奈懒；
μ是已知總體的平均數(shù)奠涌；
S是總體的標(biāo)準(zhǔn)差；
n是樣本容量磷杏。
2溜畅、如果檢驗(yàn)來自兩個(gè)的兩組樣本平均數(shù)的差異性，從而判斷它們各自代表的總體的差異是否顯著极祸。其Z值計(jì)算公式為：

z-test 2

其中：
X1慈格，X2是樣本1怠晴，樣本2的平均數(shù)；
S1,S2是樣本1浴捆，樣本2的標(biāo)準(zhǔn)差蒜田；
n1,n2是樣本1，樣本2的容量选泻。
第三步：比較計(jì)算所得Z值與理論Z值冲粤，推斷發(fā)生的概率，依據(jù)Z值與差異顯著性關(guān)系表作出判斷页眯。如下表所示：

Z	P值	差異程度
>2.58	<0.01	非常顯著
>1.96	<0.05	顯著
<1.96	>0.05	不顯著

第四步：根據(jù)是以上分析梯捕，結(jié)合具體情況，作出結(jié)論窝撵。

Z分?jǐn)?shù)（z-score）

Z分?jǐn)?shù)也叫標(biāo)準(zhǔn)分?jǐn)?shù)（standard score）是一個(gè)數(shù)與平均數(shù)的差再除以標(biāo)準(zhǔn)差的過程傀顾。在統(tǒng)計(jì)學(xué)中，標(biāo)準(zhǔn)分?jǐn)?shù)是一個(gè)觀測(cè)或數(shù)據(jù)點(diǎn)的值高于被觀測(cè)值或測(cè)量值的平均值的標(biāo)準(zhǔn)偏差的符號(hào)數(shù)碌奉。z分?jǐn)?shù)可以回答這樣一個(gè)問題："一個(gè)給定分?jǐn)?shù)距離平均數(shù)多少個(gè)標(biāo)準(zhǔn)差?"在平均數(shù)之上的分?jǐn)?shù)會(huì)得到一個(gè)正的標(biāo)準(zhǔn)分?jǐn)?shù)短曾，在平均數(shù)之下的分?jǐn)?shù)會(huì)得到一個(gè)負(fù)的標(biāo)準(zhǔn)分?jǐn)?shù)。 z分?jǐn)?shù)是一種可以看出某分?jǐn)?shù)在分布中相對(duì)位置的方法赐劣。

z-table

z-table2

正態(tài)分布和標(biāo)準(zhǔn)分步的關(guān)系

例子

z例子單樣本

z例子多樣本

最后編輯于：2018.07.15 14:46:52

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末蜀撑，一起剝皮案震驚了整個(gè)濱河市不恭，隨后出現(xiàn)的幾起案子揽思，更是在濱河造成了極大的恐慌苞氮，老刑警劉巖绕娘，帶你破解...
沈念sama閱讀 218,525評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件憔购，死亡現(xiàn)場(chǎng)離奇詭異嚼蚀，居然都是意外死亡遥倦，警方通過查閱死者的電腦和手機(jī)献雅，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,203評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門碉考，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人挺身，你說我怎么就攤上這事侯谁。” “怎么了章钾？”我有些...
開封第一講書人閱讀 164,862評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵墙贱，是天一觀的道長。經(jīng)常有香客問我贱傀，道長惨撇，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,728評(píng)論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任府寒，我火速辦了婚禮魁衙，結(jié)果婚禮上报腔，老公的妹妹穿的比我還像新娘。我一直安慰自己剖淀，他們只是感情好纯蛾，可當(dāng)我...
茶點(diǎn)故事閱讀 67,743評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著纵隔，像睡著了一般翻诉。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上巨朦，一...
開封第一講書人閱讀 51,590評(píng)論 1贊 305
城市分裂傳說
那天米丘，我揣著相機(jī)與錄音，去河邊找鬼糊啡。笑死拄查，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的棚蓄。我是一名探鬼主播堕扶，決...
沈念sama閱讀 40,330評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼梭依！你這毒婦竟也來了稍算？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,244評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤役拴，失蹤者是張志新（化名）和其女友劉穎糊探，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體河闰，經(jīng)...
沈念sama閱讀 45,693評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡科平，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,885評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了姜性。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瞪慧。...
茶點(diǎn)故事閱讀 40,001評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖部念，靈堂內(nèi)的尸體忽然破棺而出弃酌，到底是詐尸還是另有隱情，我是刑警寧澤儡炼，帶...
沈念sama閱讀 35,723評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布妓湘，位于F島的核電站，受9級(jí)特大地震影響乌询，放射性物質(zhì)發(fā)生泄漏多柑。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,343評(píng)論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一楣责、第九天我趴在偏房一處隱蔽的房頂上張望竣灌。院中可真熱鬧聂沙，春花似錦、人聲如沸初嘹。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,919評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽屯烦。三九已至坷随，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間驻龟，已是汗流浹背温眉。一陣腳步聲響...
開封第一講書人閱讀 33,042評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留翁狐，地道東北人类溢。一個(gè)月前我還...
沈念sama閱讀 48,191評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像露懒，于是被迫代替她去往敵國和親闯冷。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,955評(píng)論 2贊 355