正態(tài)分布(Normal distribution)是統(tǒng)計(jì)學(xué)里最常見的分布之一。
In probability theory, the normal (or Gaussian or Gauss or Laplace–Gauss) distribution is a very common continuous probability distribution.
正態(tài)分布概念是由德國的數(shù)學(xué)家和天文學(xué)家Moivre于1733年首次提出的,但由于德國數(shù)學(xué)家Gauss率先將其應(yīng)用于天文學(xué)家研究,故正態(tài)分布又叫高斯分布(Gauss distribution)唯蝶。
這里簡單介紹一下,統(tǒng)計(jì)學(xué)的分布類型包括連續(xù)型奢啥、離散型兩類诀黍。 針對連續(xù)型數(shù)據(jù),有正態(tài)分布咙崎、均勻分布优幸、指數(shù)分布、伽瑪分布褪猛、貝塔分布等网杆,其連續(xù)型隨機(jī)變量X的分布函數(shù)是連續(xù)的。 針對離散型數(shù)據(jù)伊滋,二項(xiàng)分布碳却、泊松分布、幾何分布笑旺、負(fù)二項(xiàng)分布等昼浦,其隨機(jī)變量X的所有可能的取值是離散的。如在某次射擊考核中筒主,總共射擊10次关噪,命中的次數(shù)X服從二項(xiàng)分布B( 10迷帜,P)(p為射擊命中率),該分布函數(shù)只有0-10共11個可能的取值色洞,屬于離散分布戏锹。
正態(tài)的英文單詞是“Normal”,意思是“常見的火诸,典型的”锦针,主要是因?yàn)檫@種分布能恰當(dāng)代表多種多樣的數(shù)據(jù)類型。
正態(tài)分布的奇妙之處就在于它是自然分布置蜀,任何看似沒有規(guī)律可尋的隨機(jī)事件其實(shí)是服從一個表達(dá)式就能表達(dá)的正態(tài)分布奈搜,不受人為影響。 以數(shù)學(xué)理解為中心極限定理盯荤,即所有的隨機(jī)事件取樣本均值足夠多的情況下都服從正態(tài)分布馋吗,所以就產(chǎn)生了對變量正態(tài)分布的假設(shè)(這個理解主要來自于中心極限定理概念里面提出的當(dāng)隨機(jī)變量受綜合因素影響,且每一個因素影響較小時秋秤,該變量都服從正態(tài)分布的定理)
例如宏粤,對人類的智商評估結(jié)果做一個分析,發(fā)現(xiàn)大部分人都在100這一平均值附近波動灼卢,75%聚集在85~115之間绍哎。這就是一個典型的正態(tài)分布,是自然形成的鞋真,不受人為因素左右崇堰。只有少數(shù),比如莫扎特涩咖、愛因斯坦等少數(shù)天才達(dá)到160海诲,也就成為分布中的奇異值(outlier)。再如《阿甘正傳》里的主人公阿甘檩互,他的智商只有70特幔,則是處于正態(tài)分布的邊緣(曲線一側(cè)的尾端)。
正態(tài)曲線呈鐘型盾似,大部分?jǐn)?shù)據(jù)集中在平均值敬辣,小部分在兩端,中間高零院,兩頭低溉跃,左右對稱因其曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線告抄。
在統(tǒng)計(jì)學(xué)里撰茎,很多場景都需要符號正態(tài)分布的假設(shè)。 比如打洼,對一組數(shù)據(jù)做t-test龄糊,z-test逆粹,或者對兩組數(shù)據(jù)做two-sample t-test, paired t-test等,都要求樣本數(shù)據(jù)符合正態(tài)分布炫惩。 再如僻弹,對一組連續(xù)型數(shù)據(jù)進(jìn)行回歸分析,要求殘差值符合正態(tài)分布他嚷,在此基礎(chǔ)上得到的模型及結(jié)果才具有可靠性蹋绽。
后續(xù)我們將講解如何檢測正態(tài)性(Normality test)。