統(tǒng)計學(xué)習(xí)02:概率分布及正態(tài)分布

要點(diǎn)一:從直方圖到概率密度圖

1才菠、直方圖 histogram

  • 直方圖是一種直觀的,對數(shù)據(jù)分布情況的圖形表示烙丛,如下圖加入為某校隨機(jī)抽取50位教師平均年齡


    histogram
  • 如上么伯,直方圖最主要的是矩形bins寬度的設(shè)置,對應(yīng)的高度即代表數(shù)據(jù)在bins范圍內(nèi)的分布情況绝骚。
  • 直方圖很好地反映了這組數(shù)據(jù)的分布情況,但換一組同類型數(shù)據(jù)(再抽50位老師)直方圖很大可能存在差異祠够,但大體分布情況相同压汪。

針對分類變量的分布情況觀察一般采用條形圖bar chart(可認(rèn)為等同于柱狀圖 column chart)展現(xiàn)

2、概率密度函數(shù) probability distribution function哪审,PDF6昶恰虑瀑!劃重點(diǎn)

  • 根據(jù)直方圖分布湿滓,想象下,我們把bins寬度盡可能變猩喙贰(實(shí)際上難以實(shí)現(xiàn))叽奥,然后嘗試用一條曲線進(jìn)行擬合。


    fit example1
  • 擬合分布情況曲線最主要的目的就是推而廣之痛侍,從而描述/預(yù)測從總體中任意抽樣樣本分布情況朝氓。
  • 簡單來說魔市,概率密度函數(shù)就是這條曲線(y軸為概率變換,對應(yīng)縱坐標(biāo)除以數(shù)據(jù)總數(shù))赵哲。用來描述一組數(shù)據(jù)范圍中待德,隨機(jī)變量在某個確定的取值點(diǎn)附近的可能性的函數(shù)。

概率密度函數(shù)可理解通過復(fù)雜的方程式里的關(guān)鍵的若干個參數(shù)約定曲線的形狀與位置

  • 一般用f(x)表示


    fit example2
  • 通常所說的正態(tài)分布枫夺、二項(xiàng)分布将宪、泊松分布等都是概率密度函數(shù)(也被稱為概率分布函數(shù)),最主要的特征就是曲線下面積為1橡庞,即總概率一定為1
  • 拿到一組數(shù)據(jù)后较坛,一般首先繪制數(shù)據(jù)的直方圖與密度圖(根據(jù)數(shù)據(jù))。然后嘗試尋找最合適的扒最,已知公式的概率密度函數(shù)(形狀固定)丑勤。而第二步往往就要基于足夠的統(tǒng)計學(xué)知識的積累。


    6 Common Probability Distributions

3吧趣、累計分布函數(shù) cumulative distribution function法竞,CDF

  • 一般用F(x)表示
  • CDF:結(jié)合直觀圖形來看,就是用來描述在x點(diǎn)左側(cè)事件發(fā)生的總和强挫,所以從左到右爪喘,點(diǎn)的縱坐標(biāo)從0到1。


    右圖CDF
  • 從數(shù)學(xué)角度來看纠拔,PDF是CDF的微分(求導(dǎo):CDF點(diǎn)的斜率值為PDF對應(yīng)點(diǎn)的縱坐標(biāo))秉剑;
    CDF是PDF的積分(面積:PDF點(diǎn)至左側(cè)的線下面積為CDF對應(yīng)點(diǎn)的縱坐標(biāo))


    CDF & PDF

以上重點(diǎn)還是介紹概率分布函數(shù)。主要目的是使用一條已知參數(shù)(確定分布)限制的曲線代表數(shù)據(jù)分布情況稠诲,用于后續(xù)深入的預(yù)測等研究侦鹏。在下面結(jié)合最常見的概率分布模型說明確定分布的意義。

要點(diǎn)二:正態(tài)分布 Normal distribution

也稱為高斯分布(Gaussian distribution)

1臀叙、基本特征 basic feature

函數(shù)
  • 作為一個函數(shù)密度函數(shù)略水,其函數(shù)方程如下圖


    f(x)
  • 而一般只關(guān)注兩個參數(shù)均值μ、標(biāo)準(zhǔn)差σ劝萤,因此常簡記為下圖形式


    f(x)

一般概率密度函數(shù)都采用這種簡記方法渊涝,例如泊松分布poisson distribution:X ~ P(λ)

曲線
  • 正態(tài)分布的概率密度函數(shù)描述了圍繞均值波動的一組數(shù)據(jù)分布情況,分布曲線呈鐘形床嫌,因此人們又經(jīng)常稱之為鐘形曲線跨释。
  • 正態(tài)分布描述的分布情況確實(shí)是實(shí)際生活中最常見的一種分布,故稱為normal厌处,例如一般情況下的大學(xué)生身高情況鳖谈,全班考試成績等


    Normal Distribution
參數(shù)
  • 均值μ:位置參數(shù),決定了曲線的基于X軸的位置阔涉;
  • 標(biāo)準(zhǔn)差σ:形狀參數(shù)缆娃,想象下標(biāo)準(zhǔn)差越小捷绒,即數(shù)據(jù)變異越少,數(shù)據(jù)越集中在中間的均值贯要,曲線就越瘦高暖侨。


    Normal Distribution Parameter

許多概率分布都有類似性質(zhì)的參數(shù),有的只有形狀參數(shù)

分布規(guī)律

經(jīng)前人總結(jié)一組符合正態(tài)分布的數(shù)據(jù)分布曲線線下面積:以均值為中心崇渗,

  • ±1σ面積為68.2%它碎;
  • ±2σ面積為95.4%
  • ±3σ面積為99.7%
分布規(guī)律

當(dāng)從均數(shù)往左右各1.96倍標(biāo)準(zhǔn)差時,左右兩側(cè)的面積之和為0.05%显押,即在一組符合正態(tài)分布的數(shù)據(jù)中(假設(shè)有100個)扳肛,只有5個分布在該區(qū)域。這里先記住它乘碑,之后再學(xué)習(xí)P值時挖息,還會用到這個知識點(diǎn)。

2兽肤、標(biāo)準(zhǔn)正態(tài)分布 Standardized Normal Distribution

特征
  • 簡單來說均值為0套腹,標(biāo)準(zhǔn)差為1的正態(tài)分布。
  • 其特殊之處在于:探尋正態(tài)分布的規(guī)律更加簡單资铡。
    均值為0电禀,左右對應(yīng)的x橫坐標(biāo)絕對值相等;
    標(biāo)準(zhǔn)差為1笤休,橫坐標(biāo)1,2,3則直接表示1σ尖飞、2σ、3σ店雅,例如可以說標(biāo)準(zhǔn)正態(tài)分部總政基,±2范圍內(nèi)面積為95.4%


    standardized mormal distribution
Z值轉(zhuǎn)換
  • 任何一個正態(tài)分布都可以轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布,方法就是計算Z值


    Z score
  • 從公式來說:計算正態(tài)分布的數(shù)據(jù)與均值的差值闹啦,再與標(biāo)準(zhǔn)差的比沮明。它反映了某個值x偏離均數(shù)μ的標(biāo)準(zhǔn)差倍數(shù)。


    transformation
  • 將數(shù)據(jù)轉(zhuǎn)為標(biāo)準(zhǔn)正態(tài)分布后窍奋,觀察數(shù)據(jù)分布位置更簡單荐健。例如若Z值大于1.96(<-1.96),則可以判斷分布區(qū)域面積
    大于0.025(兩側(cè)即0.05)琳袄。


    probability of Z score

經(jīng)常在統(tǒng)計檢驗(yàn)結(jié)果中看到Z值江场,即指代轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布的結(jié)果。

3挚歧、中心極限定理central limit theorem扛稽,CLT

定義

假定有一個總體數(shù)據(jù),如果從該總體中多次抽樣滑负,那么理論上在张,每次抽樣所得的統(tǒng)計量(如均數(shù))與總體參數(shù)應(yīng)該差別不大,大致圍繞在總體參數(shù)中心矮慕,并且呈正態(tài)分布帮匾。


central limit theorem
關(guān)鍵點(diǎn)
  • 無論原總體數(shù)據(jù)是什么分布,多次抽樣的樣本統(tǒng)計量都呈正態(tài)分布痴鳄;
    注意是樣本統(tǒng)計量瘟斜,常見的就是均值。所以CLT描述的是統(tǒng)計量的分布痪寻,而不是原始數(shù)據(jù)的分布螺句。
  • 抽樣的樣本量越大(一般樣本量大于30),越容易得到一個接近總體參數(shù)的統(tǒng)計量橡类。
    極端例子:把全部總體抽樣蛇尚,那么樣本統(tǒng)計量=總體統(tǒng)計量

4、由正態(tài)分布衍生的常見分布

這里簡單介紹下與正態(tài)分布有關(guān)的顾画,幾種常見分布取劫。在后面的統(tǒng)計方法中會經(jīng)常遇到。

4.1 t分布 t distribution
  • 簡單理解:可以視為小樣本的標(biāo)準(zhǔn)正態(tài)分布研侣。
    對于一個符合正態(tài)分布的總體谱邪,抽樣樣本量大,即符合標(biāo)準(zhǔn)正態(tài)分布(Z值轉(zhuǎn)換后)庶诡;抽樣樣本量小時即符合t分布惦银;

抽樣樣本量的大小有時對于統(tǒng)計結(jié)果影響很大,例如在之后假設(shè)檢驗(yàn)的p值也十分受樣本量影響

  • 如下圖末誓,t分布相對于標(biāo)準(zhǔn)正態(tài)分布來說璧函,更扁平。
  • t分布的曲線形狀主要受自由度(樣本量-1)影響基显。自由度越小蘸吓,t分布與標(biāo)準(zhǔn)正態(tài)分布偏離就越大。
    此前人們總結(jié):當(dāng)自由度=30時撩幽,t分布與標(biāo)準(zhǔn)正態(tài)分布就已經(jīng)十分接近了库继。


    t distribubtion
  • 區(qū)別于標(biāo)準(zhǔn)正態(tài)分布的Z score相對固定的含義,t分布的t值含義隨自由度變化而變化(計算公式不再記錄窜醉,在學(xué)習(xí)t檢驗(yàn)時再學(xué)習(xí))
    例如n-1=5時宪萄,則右側(cè)2.5%面積對應(yīng)t值為2.57
    n-1=30時,則右側(cè)2.5%面積對應(yīng)t值為2.04榨惰,很接近1.96了
    更多可見前人以總結(jié)好的t分布表拜英,網(wǎng)上很容易搜到,例如

由于一般生物實(shí)驗(yàn)設(shè)計樣本數(shù)不會很多琅催,因此t值計算相對于z值更有意義居凶,也更常見虫给。

4.2 χ2分布(卡方分布)
  • 簡單理解:假設(shè)一組數(shù)據(jù)符合正態(tài)分布,那么轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布后侠碧,Z值的平方的分布情況就是自由度為1χ2分布抹估。


    χ2分布
  • 根據(jù)上述解釋,卡方分的一個特點(diǎn)就是非負(fù)性弄兜。

  • 若有n組獨(dú)立的药蜻、均符合正態(tài)分布的數(shù)據(jù),經(jīng)Z值轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布√娑觯現(xiàn)從10組數(shù)據(jù)中分別抽取1個Z值语泽,令x=這10個Z值平方的和。重復(fù)抽取视卢、計算踱卵,得到一個新的x;一定次數(shù)后腾夯,則得到一組x數(shù)據(jù)颊埃,符合自由度為10的χ2分布。


    formula
  • 如上蝶俱,卡方分布的參數(shù)為自由度班利。自由度越小,χ2越呈偏態(tài)分布榨呆;自由度越大罗标,χ2偏態(tài)減小,趨于正態(tài)分布积蜻。

  • 因此不同自由度對應(yīng)0.05面積的χ2值也不同闯割。
    自由度=1,為3.84竿拆;
    自由度=2宙拉,為5.99;詳見臨界值表

4.3 F分布
  • F分布簡單來說就是兩個獨(dú)立的卡方分布的比值的分布丙笋。


    F distribution
  • 因此F分布取決于兩個自由度谢澈,即兩個卡方分布的自由度:分子自由度m,分母自由度n御板。簡記為F ~ Fm,n
  • 如下圖锥忿,一般F分布為偏態(tài)分布,臨界值表
    F distribution

綜上t分布怠肋、卡方分布以及F分布均衍生自正態(tài)分布敬鬓。t分布常用于均數(shù)的t檢驗(yàn);F分布常用于方差有關(guān)的統(tǒng)計檢驗(yàn);而卡方分布更多得用于分類資料的獨(dú)立檢驗(yàn)钉答。而正態(tài)分布都是這些統(tǒng)計方法的基礎(chǔ)础芍,因此十分重要。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末希痴,一起剝皮案震驚了整個濱河市者甲,隨后出現(xiàn)的幾起案子春感,更是在濱河造成了極大的恐慌砌创,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,542評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鲫懒,死亡現(xiàn)場離奇詭異嫩实,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)窥岩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評論 3 394
  • 文/潘曉璐 我一進(jìn)店門甲献,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人颂翼,你說我怎么就攤上這事晃洒。” “怎么了朦乏?”我有些...
    開封第一講書人閱讀 163,912評論 0 354
  • 文/不壞的土叔 我叫張陵球及,是天一觀的道長。 經(jīng)常有香客問我呻疹,道長吃引,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,449評論 1 293
  • 正文 為了忘掉前任刽锤,我火速辦了婚禮镊尺,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘并思。我一直安慰自己庐氮,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,500評論 6 392
  • 文/花漫 我一把揭開白布宋彼。 她就那樣靜靜地躺著弄砍,像睡著了一般。 火紅的嫁衣襯著肌膚如雪宙暇。 梳的紋絲不亂的頭發(fā)上输枯,一...
    開封第一講書人閱讀 51,370評論 1 302
  • 那天,我揣著相機(jī)與錄音占贫,去河邊找鬼桃熄。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的瞳收。 我是一名探鬼主播碉京,決...
    沈念sama閱讀 40,193評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼螟深!你這毒婦竟也來了谐宙?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,074評論 0 276
  • 序言:老撾萬榮一對情侶失蹤界弧,失蹤者是張志新(化名)和其女友劉穎凡蜻,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體垢箕,經(jīng)...
    沈念sama閱讀 45,505評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡划栓,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,722評論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了条获。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片忠荞。...
    茶點(diǎn)故事閱讀 39,841評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖帅掘,靈堂內(nèi)的尸體忽然破棺而出委煤,到底是詐尸還是另有隱情,我是刑警寧澤修档,帶...
    沈念sama閱讀 35,569評論 5 345
  • 正文 年R本政府宣布碧绞,位于F島的核電站,受9級特大地震影響萍悴,放射性物質(zhì)發(fā)生泄漏头遭。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,168評論 3 328
  • 文/蒙蒙 一癣诱、第九天 我趴在偏房一處隱蔽的房頂上張望计维。 院中可真熱鬧,春花似錦撕予、人聲如沸鲫惶。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,783評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽欠母。三九已至,卻和暖如春吆寨,著一層夾襖步出監(jiān)牢的瞬間赏淌,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,918評論 1 269
  • 我被黑心中介騙來泰國打工啄清, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留六水,地道東北人。 一個月前我還...
    沈念sama閱讀 47,962評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像掷贾,于是被迫代替她去往敵國和親睛榄。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,781評論 2 354

推薦閱讀更多精彩內(nèi)容