正態(tài)分布大概是醫(yī)學中(也可能是所有社會現(xiàn)象中)最常見的一種分布了橘券,它描述了某些比較穩(wěn)定但又受一些偶然因素影響的現(xiàn)象净刮。
(1)正態(tài)分布的曲線是怎樣得到的呢?
假定有1 0000 人的身高數(shù)據(jù)悔捶,我們根據(jù)所有數(shù)值繪制頻數(shù)分布圖:
柱子寬度是1CM,讓柱子寬度逐漸變窄响迂,是不是就是正態(tài)分布圖呢?
其實渗勘,正態(tài)分布沐绒,很難用現(xiàn)實數(shù)據(jù)模擬的,我們不過是為了一個”相似“而已旺坠,統(tǒng)計統(tǒng)計乔遮,無非也是概率的問題。
只要理解凡是類似這種樣子的形狀取刃,都可以用相應的參數(shù)進行描述蹋肮。
(2)正態(tài)分布的概率密度函數(shù)
我貼一個解釋的圖片,以上圖身高正態(tài)分布為例解釋:
我認為這樣分開講解璧疗,有利于理解坯辩,但是不嚴謹?shù)摹L貏e是最后一段里崩侠,密度變化是有拐點的漆魔,σ作為變量的時候,它是在兩部分都起作用的却音,也就是即使是瘦高改抡,但是并不是概率密度是一直高的。下圖中系瓢,胖正態(tài)初始階段是較高的阿纤。
(3)正態(tài)分布的規(guī)律及應用
這是個大招!對于理解GWAS有很大用處八拱!
正態(tài)分布中的均數(shù)和標準差可以取多個值阵赠,所以正態(tài)分布的形狀也是多種多樣的涯塔。但無論形狀如何變化,其規(guī)律都是一定的清蚀。在正態(tài)分布中匕荸,以均數(shù)為中心,往左或往右l 倍標準差的面積各約為34.1% 枷邪。
為什么士1 倍標準差的面積是68 . 2%而不是78.2%?好問題榛搔!
答曰:前人總結好且驗證。
在統(tǒng)計學檢驗中东揣,很多推斷都基于正態(tài)分布的規(guī)律践惑,比如我們經(jīng)常說P<0.05 認為差異有統(tǒng)計學意義,實際上說的就是正態(tài)分布的兩側面積嘶卧。確切地說尔觉,當從均數(shù)往左或往右各1.96 倍標準差的時候,對應的左側和右側面積之和就是5% 芥吟。因為這種概率不是很高侦铜,所以認為其是小概率事件。當然根據(jù)不同的基數(shù)钟鸵,還有6倍標準差钉稍!不詳細討論,后續(xù)會講解棺耍。
(4)標準正態(tài)分布
在各種形狀的正態(tài)分布中贡未,有一種非常實用的分布,就是標準正態(tài)分布蒙袍,如下圖:
當我們把原始數(shù)據(jù)進行了標準化后俊卤,對標準化數(shù)據(jù)擬合正態(tài)分布,這種正態(tài)分布就是標準正態(tài)分布左敌。
由于標準化將數(shù)據(jù)轉換成以0為均數(shù)瘾蛋、以1為標準差的值,所以標準正態(tài)分布就是一個以0為中心矫限、以1為標準差的分布哺哼。
其實,標準正態(tài)分布相當于把正態(tài)分布的規(guī)律簡化了叼风,因為它的標準差是1取董,對應的橫軸上的數(shù)值1 、2 直接就是1 倍標準差无宿、2 倍標準差茵汰。所以利用標準正態(tài)分布來說明面積規(guī)律就更簡單了,可以直接說孽鸡,以0為中心蹂午,在正負2的范圍內面積約為95.4%; 也可以說栏豺,當橫坐標的值等于1.96 (或-1.96) 時,對應的右側(或左側)面積約為0.025 豆胸。