學了大半個月的統(tǒng)計榕栏,這里總結一下畔勤,順便整理一遍扒磁。
首先定義一些名詞,樣本與總體妨托。假設有一個關于某大學學生對食堂滿意度的問卷調查,全體學生為500人兰伤,要求全校學生都要做一份問卷。隨機從全校學生抽取10人做訪問問卷敦腔。那么這里的總體的全校學生,樣本是10人会烙。
標準偏差與樣本標準偏差(標準誤差):
首先標準偏差是針對總體的筒捺,樣本標準偏差是對樣本的柏腻,從名字就能看出系吭,他們分別代表什么意思呢,我們來看看公式
解釋一下∑是求和的意思,所以上部分可以分解成這樣
等于
X拔(上面一橫的)是平均值躯枢,x1~Xn為每個獨立樣本的值槐臀,下面的n為樣本量锄蹂,
公式意思是求每個獨立樣本與平均值直接的差距水慨,至于為什么要平方得糜,再開根號晰洒,就是樣本值有可能小于均值導致為負數(shù),所以要平方谍珊,去除負數(shù),再開根號將值還原砌滞。
除以n表示平均每個樣本的標準差,為什么樣本標準偏差要除以n-1呢贝润,因為抽樣有差異性,所要減去一题暖。
假設我們的問卷調查滿分為10分按傅,最低分為0分胧卤,隨機得到10張問卷分數(shù)分別為【4,5枝誊,6,5叶撒,8,4祠够,5,8古瓤,9腺阳,6】
假設500人的問卷調查結果平均值為6,我們也算出樣本平均值為6亭引,根據(jù)上面公式我們可以得知樣本標準偏差約為3.1。(500人的隨機數(shù)我懶得做出來皮获,有興趣的可以自己嘗試)
正態(tài)分布與Z臨界值:
u為平均值,θ表示標準偏差主届,我們會發(fā)現(xiàn)68%的值會在正負一個θ之內,接近96的值會在正負兩個θ之內君丁。
假設均值u=6,θ=3.1绘闷,我們可以得知正負一個標準偏差在X軸上分別為9.1和2.9,兩個標準偏差值分別為12.2和-0.2印蔗。
Z臨界值為任何值距離平均值的標準偏差數(shù),公式為Z = (x-u)/θ
假設我們得到一份問卷調查為8丑勤,Z值約為0.645,我們可以在X軸上標出該Z臨界值法竞,然后我們看看Z Table
該圖可以計算出,Z臨界值為多少時薛躬,小于該Z臨界值的正態(tài)分布面積百分比為多少,因為我們的Z值為0.645型宝,所以對應的小于該值面積百分比為0.7389(面積百分比是0~1)
假設我們不知道樣本的值,只知道樣本量為10趴酣,總體均值為6,標準偏差為3.1坑夯,我們怎么知道樣本的標準偏差呢?
這里我們用到一個公式 :
有了這個公式我們就可以在不知道詳細樣本數(shù)據(jù)的時候估算樣本標準偏差胸私。
根據(jù)Z Table我們也可以根據(jù)百分比去判斷Z值
例如我們定義紅色區(qū)域為α鳖谈,α=5%岁疼,即0.05缆娃,那么Z的臨界值為多少捷绒?因為α為0.05贯要,剩下橙色的為0.95,所以通過Z Table可以得知最接近Z臨界為1.64崇渗。這叫單尾驗證。雙尾驗證比這個復雜一點看下圖:
同樣地α=5%宅广,但是雙尾驗證的話,兩邊要攤分5%跟狱,所以兩邊分別是0.025,從Z Table可以找到Z臨界值為正負1.96
T分布和檢驗:
以上都是我們知道總體參數(shù)(總體的平均值u驶臊,標準偏差θ)的情況下才能得出的結果,但大多數(shù)情況下我們只知道樣本关翎,或者幾個樣本,這些樣本可以是獨立笤休,也可以是非獨立的尖飞。只根據(jù)樣本得出的分布是T分布店雅,該分布比較容易跟總體分布有較大的誤差。
T分布通常用自由度來定義闹啦,什么是自由度?舉個例子窍奋,我們隨意挑選三個整數(shù)(可以為負數(shù))酱畅,讓這三個數(shù)加起來為10,
假設我們第一個數(shù)是100江场,第一個通常沒限制,是自由的
第二個數(shù)同樣是自由的址否,我們隨便選個111
但第三個數(shù)不能自由,因為三個數(shù)加起來必須等于10佑附,所以第三個數(shù)只能是-201
根據(jù)這個例子,隨意挑選三個數(shù)音同,3是n,我們只能自由挑選2個权均,所以自由度邊際總數(shù)為n-1。
對于T分布螺句,我們需要新的表格 T表格
T表格左邊是自由度,上面表示大于T臨界值面積百分比蛇尚。T分布的單尾和雙尾驗證是跟上面是差不多的,這里就不敘述了取劫。
跟Z值一樣,T統(tǒng)計量值也可以通過公式求出:
當對比均值時惦银,衡量效應大小常見標準之一就是Cohen's d,公式為:
確定系數(shù)r^2 迅栅,一般用來衡量兩個變量之間的關系程度,公式為r^2 = ?t2/(t2+df)读存。其中df為自由度呕屎。
假設與檢驗:
首先假設有兩種,零假設和對立假設秀睛,我們用Ho表示零假設,Ha表示對立假設琅催。例子我們研發(fā)一種新藥物對付癌癥居凶,我們想知道這種新藥對比舊藥對患者治療究竟有沒有顯著提高,我們進行實驗得出結果侠碧。
這里我們的零假設就是:新藥對比舊藥,治療效果差不多弄兜。對立假設為:新藥效果對比舊藥更加好,或者比舊藥差很多替饿。可以用下圖來表示
兩個樣本的時候如何計算標準誤差:
以上所說的都是單個樣本的情況,如果我們有兩個獨立樣本据过,我們應該如何求出獨立樣本的新標準誤差呢?
假設兩個樣本的標準偏差分別為S1绳锅,S2,樣本量分別為n1鳞芙,n2眷柔,那么我們可以用新的標準誤差公式計算出標準誤差:
首先這個公式怎么來的呢原朝?首先我們要從兩個樣本的標準差求出一個新的標準,用下面公式
然后根據(jù)之前所知道的標準誤差公式竿拆,得出下面推導過程
兩個樣本的量差別很大時候:
以上假設都是在兩個樣本量大致相同的時候(n1與n2大致相同),假如一個樣本量為100丙笋,一個樣本量為10煌贴,兩本量差距太大锥忿,我們需要合并方差來糾正樣本量
得出合并方差之后再用它計算出校正的標準誤差:
以上純碎個人總結,只是方便自己以后回憶一下敬鬓。