要點(diǎn)一:從直方圖到概率密度圖
1才菠、直方圖 histogram
-
直方圖是一種直觀的,對數(shù)據(jù)分布情況的圖形表示烙丛,如下圖加入為某校隨機(jī)抽取50位教師平均年齡
histogram - 如上么伯,直方圖最主要的是矩形bins寬度的設(shè)置,對應(yīng)的高度即代表數(shù)據(jù)在bins范圍內(nèi)的分布情況绝骚。
- 直方圖很好地反映了這組數(shù)據(jù)的分布情況,但換一組同類型數(shù)據(jù)(再抽50位老師)直方圖很大可能存在差異祠够,但大體分布情況相同压汪。
針對分類變量的分布情況觀察一般采用條形圖bar chart(可認(rèn)為等同于柱狀圖 column chart)展現(xiàn)
2、概率密度函數(shù) probability distribution function哪审,PDF6昶恰虑瀑!劃重點(diǎn)
-
根據(jù)直方圖分布湿滓,想象下,我們把bins寬度盡可能變猩喙贰(實(shí)際上難以實(shí)現(xiàn))叽奥,然后嘗試用一條曲線進(jìn)行擬合。
fit example1 - 擬合分布情況曲線最主要的目的就是推而廣之痛侍,從而描述/預(yù)測從總體中任意抽樣樣本分布情況朝氓。
- 簡單來說魔市,概率密度函數(shù)就是這條曲線(y軸為概率變換,對應(yīng)縱坐標(biāo)除以數(shù)據(jù)總數(shù))赵哲。用來描述一組數(shù)據(jù)范圍中待德,隨機(jī)變量在某個確定的取值點(diǎn)附近的可能性的函數(shù)。
概率密度函數(shù)可理解通過復(fù)雜的方程式里的關(guān)鍵的若干個參數(shù)約定曲線的形狀與位置
-
一般用f(x)表示
fit example2 - 通常所說的正態(tài)分布枫夺、二項(xiàng)分布将宪、泊松分布等都是概率密度函數(shù)(也被稱為概率分布函數(shù)),最主要的特征就是曲線下面積為1橡庞,即總概率一定為1
-
拿到一組數(shù)據(jù)后较坛,一般首先繪制數(shù)據(jù)的直方圖與密度圖(根據(jù)數(shù)據(jù))。然后嘗試尋找最合適的扒最,已知公式的概率密度函數(shù)(形狀固定)丑勤。而第二步往往就要基于足夠的統(tǒng)計學(xué)知識的積累。
6 Common Probability Distributions
3吧趣、累計分布函數(shù) cumulative distribution function法竞,CDF
- 一般用F(x)表示
-
CDF:結(jié)合直觀圖形來看,就是用來描述在x點(diǎn)左側(cè)事件發(fā)生的總和强挫,所以從左到右爪喘,點(diǎn)的縱坐標(biāo)從0到1。
右圖CDF -
從數(shù)學(xué)角度來看纠拔,PDF是CDF的微分(求導(dǎo):CDF點(diǎn)的斜率值為PDF對應(yīng)點(diǎn)的縱坐標(biāo))秉剑;
CDF是PDF的積分(面積:PDF點(diǎn)至左側(cè)的線下面積為CDF對應(yīng)點(diǎn)的縱坐標(biāo))
CDF & PDF
以上重點(diǎn)還是介紹概率分布函數(shù)。主要目的是使用一條已知參數(shù)(確定分布)限制的曲線代表數(shù)據(jù)分布情況稠诲,用于后續(xù)深入的預(yù)測等研究侦鹏。在下面結(jié)合最常見的概率分布模型說明確定分布的意義。
要點(diǎn)二:正態(tài)分布 Normal distribution
也稱為高斯分布(Gaussian distribution)
1臀叙、基本特征 basic feature
函數(shù)
-
作為一個函數(shù)密度函數(shù)略水,其函數(shù)方程如下圖
f(x) -
而一般只關(guān)注兩個參數(shù)均值μ、標(biāo)準(zhǔn)差σ劝萤,因此常簡記為下圖形式
f(x)
一般概率密度函數(shù)都采用這種簡記方法渊涝,例如泊松分布poisson distribution:X ~ P(λ)
曲線
- 正態(tài)分布的概率密度函數(shù)描述了圍繞均值波動的一組數(shù)據(jù)分布情況,分布曲線呈鐘形床嫌,因此人們又經(jīng)常稱之為鐘形曲線跨释。
-
正態(tài)分布描述的分布情況確實(shí)是實(shí)際生活中最常見的一種分布,故稱為normal厌处,例如一般情況下的大學(xué)生身高情況鳖谈,全班考試成績等
Normal Distribution
參數(shù)
- 均值μ:位置參數(shù),決定了曲線的基于X軸的位置阔涉;
-
標(biāo)準(zhǔn)差σ:形狀參數(shù)缆娃,想象下標(biāo)準(zhǔn)差越小捷绒,即數(shù)據(jù)變異越少,數(shù)據(jù)越集中在中間的均值贯要,曲線就越瘦高暖侨。
Normal Distribution Parameter
許多概率分布都有類似性質(zhì)的參數(shù),有的只有形狀參數(shù)
分布規(guī)律
經(jīng)前人總結(jié)一組符合正態(tài)分布的數(shù)據(jù)分布曲線線下面積:以均值為中心崇渗,
- ±1σ面積為68.2%它碎;
- ±2σ面積為95.4%
- ±3σ面積為99.7%
當(dāng)從均數(shù)往左右各1.96倍標(biāo)準(zhǔn)差時,左右兩側(cè)的面積之和為0.05%显押,即在一組符合正態(tài)分布的數(shù)據(jù)中(假設(shè)有100個)扳肛,只有5個分布在該區(qū)域。這里先記住它乘碑,之后再學(xué)習(xí)P值時挖息,還會用到這個知識點(diǎn)。
2兽肤、標(biāo)準(zhǔn)正態(tài)分布 Standardized Normal Distribution
特征
- 簡單來說均值為0套腹,標(biāo)準(zhǔn)差為1的正態(tài)分布。
-
其特殊之處在于:探尋正態(tài)分布的規(guī)律更加簡單资铡。
均值為0电禀,左右對應(yīng)的x橫坐標(biāo)絕對值相等;
標(biāo)準(zhǔn)差為1笤休,橫坐標(biāo)1,2,3則直接表示1σ尖飞、2σ、3σ店雅,例如可以說標(biāo)準(zhǔn)正態(tài)分部總政基,±2范圍內(nèi)面積為95.4%
standardized mormal distribution
Z值轉(zhuǎn)換
-
任何一個正態(tài)分布都可以轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布,方法就是計算Z值
Z score -
從公式來說:計算正態(tài)分布的數(shù)據(jù)與均值的差值闹啦,再與標(biāo)準(zhǔn)差的比沮明。它反映了某個值x偏離均數(shù)μ的標(biāo)準(zhǔn)差倍數(shù)。
transformation -
將數(shù)據(jù)轉(zhuǎn)為標(biāo)準(zhǔn)正態(tài)分布后窍奋,觀察數(shù)據(jù)分布位置更簡單荐健。例如若Z值大于1.96(<-1.96),則可以判斷分布區(qū)域面積
大于0.025(兩側(cè)即0.05)琳袄。
probability of Z score
經(jīng)常在統(tǒng)計檢驗(yàn)結(jié)果中看到Z值江场,即指代轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布的結(jié)果。
3挚歧、中心極限定理central limit theorem扛稽,CLT
定義
假定有一個總體數(shù)據(jù),如果從該總體中多次抽樣滑负,那么理論上在张,每次抽樣所得的統(tǒng)計量(如均數(shù))與總體參數(shù)應(yīng)該差別不大,大致圍繞在總體參數(shù)中心矮慕,并且呈正態(tài)分布帮匾。
關(guān)鍵點(diǎn)
- 無論原總體數(shù)據(jù)是什么分布,多次抽樣的樣本統(tǒng)計量都呈正態(tài)分布痴鳄;
注意是樣本統(tǒng)計量瘟斜,常見的就是均值。所以CLT描述的是統(tǒng)計量的分布痪寻,而不是原始數(shù)據(jù)的分布螺句。 - 抽樣的樣本量越大(一般樣本量大于30),越容易得到一個接近總體參數(shù)的統(tǒng)計量橡类。
極端例子:把全部總體抽樣蛇尚,那么樣本統(tǒng)計量=總體統(tǒng)計量
4、由正態(tài)分布衍生的常見分布
這里簡單介紹下與正態(tài)分布有關(guān)的顾画,幾種常見分布取劫。在后面的統(tǒng)計方法中會經(jīng)常遇到。
4.1 t分布 t distribution
- 簡單理解:可以視為小樣本的標(biāo)準(zhǔn)正態(tài)分布研侣。
對于一個符合正態(tài)分布的總體谱邪,抽樣樣本量大,即符合標(biāo)準(zhǔn)正態(tài)分布(Z值轉(zhuǎn)換后)庶诡;抽樣樣本量小時即符合t分布惦银;
抽樣樣本量的大小有時對于統(tǒng)計結(jié)果影響很大,例如在之后假設(shè)檢驗(yàn)的p值也十分受樣本量影響
- 如下圖末誓,t分布相對于標(biāo)準(zhǔn)正態(tài)分布來說璧函,更扁平。
-
t分布的曲線形狀主要受自由度(樣本量-1)影響基显。自由度越小蘸吓,t分布與標(biāo)準(zhǔn)正態(tài)分布偏離就越大。
此前人們總結(jié):當(dāng)自由度=30時撩幽,t分布與標(biāo)準(zhǔn)正態(tài)分布就已經(jīng)十分接近了库继。
t distribubtion - 區(qū)別于標(biāo)準(zhǔn)正態(tài)分布的Z score相對固定的含義,t分布的t值含義隨自由度變化而變化(計算公式不再記錄窜醉,在學(xué)習(xí)t檢驗(yàn)時再學(xué)習(xí))
例如n-1=5時宪萄,則右側(cè)2.5%面積對應(yīng)t值為2.57
n-1=30時,則右側(cè)2.5%面積對應(yīng)t值為2.04榨惰,很接近1.96了
更多可見前人以總結(jié)好的t分布表拜英,網(wǎng)上很容易搜到,例如
由于一般生物實(shí)驗(yàn)設(shè)計樣本數(shù)不會很多琅催,因此t值計算相對于z值更有意義居凶,也更常見虫给。
4.2 χ2分布(卡方分布)
-
簡單理解:假設(shè)一組數(shù)據(jù)符合正態(tài)分布,那么轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布后侠碧,Z值的平方的分布情況就是自由度為1χ2分布抹估。
χ2分布 根據(jù)上述解釋,卡方分的一個特點(diǎn)就是非負(fù)性弄兜。
-
若有n組獨(dú)立的药蜻、均符合正態(tài)分布的數(shù)據(jù),經(jīng)Z值轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布√娑觯現(xiàn)從10組數(shù)據(jù)中分別抽取1個Z值语泽,令x=這10個Z值平方的和。重復(fù)抽取视卢、計算踱卵,得到一個新的x;一定次數(shù)后腾夯,則得到一組x數(shù)據(jù)颊埃,符合自由度為10的χ2分布。
formula 如上蝶俱,卡方分布的參數(shù)為自由度班利。自由度越小,χ2越呈偏態(tài)分布榨呆;自由度越大罗标,χ2偏態(tài)減小,趨于正態(tài)分布积蜻。
因此不同自由度對應(yīng)0.05面積的χ2值也不同闯割。
自由度=1,為3.84竿拆;
自由度=2宙拉,為5.99;詳見臨界值表
4.3 F分布
-
F分布簡單來說就是兩個獨(dú)立的卡方分布的比值的分布丙笋。
F distribution - 因此F分布取決于兩個自由度谢澈,即兩個卡方分布的自由度:分子自由度m,分母自由度n御板。簡記為F ~ Fm,n
- 如下圖锥忿,一般F分布為偏態(tài)分布,臨界值表
F distribution
綜上t分布怠肋、卡方分布以及F分布均衍生自正態(tài)分布敬鬓。t分布常用于均數(shù)的t檢驗(yàn);F分布常用于方差有關(guān)的統(tǒng)計檢驗(yàn);而卡方分布更多得用于分類資料的獨(dú)立檢驗(yàn)钉答。而正態(tài)分布都是這些統(tǒng)計方法的基礎(chǔ)础芍,因此十分重要。