開始前硕舆,先看幾個(gè)重要概念:
概率函數(shù):把事件概率表示成關(guān)于事件變量的函數(shù)
概率分布函數(shù):一個(gè)隨機(jī)變量ξ取值小于某一數(shù)值x的概率,這概率是x的函數(shù)慕的,稱這種函數(shù)為隨機(jī)變量ξ的分布函數(shù)古胆,簡稱分布函數(shù),記作F(x)香罐,即F(x)=P(ξ
概率密度函數(shù):
概率密度等于變量在一個(gè)區(qū)間(事件的取值范圍)的總的概率除以該段區(qū)間的長度。
概率密度函數(shù)是一個(gè)描述隨機(jī)變量在某個(gè)確定的取值點(diǎn)附近的可能性的函數(shù)时肿。
概率分布函數(shù)與概率密度函數(shù)的關(guān)系:
連續(xù)型隨機(jī)變量X的概率分布函數(shù)F(x)庇茫,如果存在非負(fù)可積函數(shù)f(x),使得對任意實(shí)數(shù)x,有
f(x)為X的概率密度
高斯分布
通過概率密度函數(shù)來定義高斯分布:
高斯分布的概率密度函數(shù)是:
均值為μ螃成,標(biāo)準(zhǔn)差為σ
高斯分布的概率分布函數(shù)是:
高斯分布標(biāo)準(zhǔn)差在概率密度分布的數(shù)據(jù)意義
高斯分布重要量的性質(zhì)
密度函數(shù)關(guān)于平均值對稱平均值是它的眾數(shù)(statistical mode)以及中位數(shù)(median)函數(shù)曲線下68.268949%的面積在平均值左右的一個(gè)標(biāo)準(zhǔn)差范圍內(nèi)95.449974%的面積在平均值左右兩個(gè)標(biāo)準(zhǔn)差2σ的范圍內(nèi)99.730020%的面積在平均值左右三個(gè)標(biāo)準(zhǔn)差3σ的范圍其中第3-5條稱為68-95-99.7法則
舉一個(gè)例子:
檢查一些示例數(shù)據(jù):
女性體重的平均值= 127.8
標(biāo)準(zhǔn)偏差(SD)= 15.5
一個(gè)標(biāo)準(zhǔn)差的范圍
兩個(gè)標(biāo)準(zhǔn)差的范圍
如何檢查你的數(shù)據(jù)是不是高斯分布
·?看直方圖旦签! 是不是看起來像鐘形查坪?
·?計(jì)算描述性匯總度量 - 平均值,中位數(shù)和模式是否相似宁炫?
·?2/3的觀察是否位于平均值的±標(biāo)準(zhǔn)差1內(nèi)偿曙? 95%的觀察值是否在平均值的±2標(biāo)準(zhǔn)差范圍內(nèi)?
中心極限定理
正態(tài)分布有一個(gè)很重要的性質(zhì):在特定條件下羔巢,大量統(tǒng)計(jì)獨(dú)立的隨機(jī)變量的和的分布趨于正態(tài)分布望忆,這就是中心極限定理。中心極限定理的重要意義在于竿秆,依據(jù)這一定理的結(jié)論启摄,其它概率分布能夠用正態(tài)分布作為近似。
高斯分布可以從二項(xiàng)式(或泊松)推導(dǎo)出假設(shè):
p不接近1或者0時(shí)幽钢,n非常大
我們有一個(gè)連續(xù)變量而不是一個(gè)離散變量
考慮扔一次硬幣10,000次歉备。
p(頭)= 0.5,N = 10,000
對于二項(xiàng)分布:
平均數(shù)為μ = np=5000匪燕,標(biāo)準(zhǔn)差為σ = [np(1 p)] 1/2=50威创。
此二項(xiàng)分布的概率在μ±1范圍內(nèi):
高斯分布均值±一個(gè)標(biāo)準(zhǔn)差的概率積分:
高斯分布線性組合的重要性質(zhì)