知識(shí)點(diǎn):數(shù)據(jù)分布
-
正態(tài)分布
正態(tài)分布(英語(yǔ):normal distribution)又名高斯分布(英語(yǔ):Gaussian distribution)仓手,是一個(gè)非常常見(jiàn)的連續(xù)概率分布莉掂。正態(tài)分布在統(tǒng)計(jì)學(xué)上十分重要战授,經(jīng)常用在自然和社會(huì)科學(xué)來(lái)代表一個(gè)不明的隨機(jī)變量盆犁。
一般正態(tài)分布是在標(biāo)準(zhǔn)正態(tài)分布基礎(chǔ)上平移或縮放得到的。如縮放
(標(biāo)準(zhǔn)差)后平移
(期望)得到概率密度函數(shù)公式為:
正態(tài)分布的概率密度函數(shù)曲線呈鐘形猾漫,因此人們又經(jīng)常稱之為鐘形曲線(類似于寺廟里的大鐘年鸳,因此得名)省撑。我們通常所說(shuō)的標(biāo)準(zhǔn)正態(tài)分布是位置參數(shù)
,
的正態(tài)分布赌蔑。
正態(tài)分布像一只倒扣的鐘俯在。兩頭低竟秫,中間高,左右對(duì)稱跷乐。大部分?jǐn)?shù)據(jù)集中在平均值肥败,小部分在兩端。實(shí)際上人的身高就是符合正態(tài)分布的愕提。
神奇的是馒稍,正態(tài)分布是普遍規(guī)律。不管是人的身高浅侨,手臂長(zhǎng)度纽谒,肺活量,還是他們的考試成績(jī)如输,都符合正態(tài)分布鼓黔。
符合正態(tài)分布的商業(yè)現(xiàn)象也很多央勒。大部分員工的業(yè)績(jī),都是一般的澳化,做得特別好的非常少崔步,做得特別差的也不多見(jiàn)。這就是為什么績(jī)效管理領(lǐng)域中平均水平占絕大數(shù)缎谷。
大部分人的智商是正常的井濒,正態(tài)分布有點(diǎn)像2/8原則。少數(shù)像愛(ài)伊斯坦老爺子這樣的智商太超常了
正態(tài)分布中一些值得注意的量:
密度函數(shù)關(guān)于平均值對(duì)稱
平均值是它的眾數(shù)(statistical mode)以及中位數(shù)(median)
函數(shù)曲線下68.268949%的面積在平均值左右的一個(gè)標(biāo)準(zhǔn)差范圍內(nèi)
95.449974%的面積在平均值左右兩個(gè)標(biāo)準(zhǔn)差2σ的范圍內(nèi)
99.730020%的面積在平均值左右三個(gè)標(biāo)準(zhǔn)差3σ的范圍內(nèi)
99.993666%的面積在平均值左右四個(gè)標(biāo)準(zhǔn)差4σ的范圍內(nèi)
σ描述正態(tài)分布資料數(shù)據(jù)分布的離散程度列林,σ越大瑞你,數(shù)據(jù)分布越分散,σ越小希痴,數(shù)據(jù)分布越集中捏悬。也稱為是正態(tài)分布的形狀參數(shù),σ越大润梯,曲線越扁平过牙,反之,σ越小纺铭,曲線越瘦高寇钉。
-
伯努利分布
伯努利分布亦稱“零一分布”、“兩點(diǎn)分布”舶赔。
如果隨機(jī)變量X只取0和1兩個(gè)值扫倡,并且相應(yīng)的概率為:
則稱隨機(jī)變量X服從參數(shù)為p的伯努利分布,若令q=1一p竟纳,則X的概率函數(shù)可寫(xiě)為:
-
二項(xiàng)分布
二項(xiàng)分布就是重復(fù)n次獨(dú)立的伯努利試驗(yàn)撵溃。
舉個(gè)實(shí)例,最簡(jiǎn)單的拋硬幣試驗(yàn)就是伯努利試驗(yàn)锥累,在一次試驗(yàn)中硬幣要么正面朝上缘挑,要么反面朝上,每次正面朝上的概率都一樣p=0.5桶略,且每次拋硬幣的事件相互獨(dú)立语淘,即每次正面朝上的概率不受其他試驗(yàn)的影響。如果獨(dú)立重復(fù)拋n=10次硬幣际歼,正面朝上的次數(shù)k可能為0,1,2,3,4,5,6,7,8,9,10中的任何一個(gè)惶翻,那么k顯然是一個(gè)隨機(jī)變量,這里就稱隨機(jī)變量k服從二項(xiàng)分布鹅心。
n次拋硬幣中恰好出現(xiàn)k次的概率為
P(X=k) = C(n,k) * pk*(1-p)n-k
記作X~B(n,p)吕粗。
總結(jié):伯努利分布、兩點(diǎn)分布旭愧、0-1分布這三種分布是同一個(gè)分布的不同名稱颅筋,又都是二項(xiàng)分布在n=1時(shí)的特例虐秋。
-
泊松分布
公式推導(dǎo)(馬同學(xué)高等數(shù)學(xué)強(qiáng)推!@佟)
泊松分布的理解:
日常生活中客给,大量事件是有固定頻率的:超市平均每天銷售包奶粉;網(wǎng)站平均每分鐘有次訪問(wèn)肢簿;
特點(diǎn)就是我們可以預(yù)估這些事件的總數(shù)靶剑,但沒(méi)法知道具體的發(fā)生時(shí)間。已知平均每分鐘有2次訪問(wèn)池充,下分鐘有幾次訪問(wèn)是無(wú)法知道的桩引。
泊松分布就是描述某段時(shí)間內(nèi),事件具體的發(fā)生概率收夸。
一個(gè)事件在一段時(shí)間內(nèi)隨機(jī)發(fā)生坑匠,其服從泊松分布的條件為:
(1)將該時(shí)間段無(wú)限分隔成很多個(gè)小的時(shí)間段,在這個(gè)小的時(shí)間段內(nèi)卧惜,事件發(fā)生的概率非常小厘灼,不發(fā)生的概率非常大。
(2)在每個(gè)小的時(shí)間段內(nèi)咽瓷,事件發(fā)生的概率是穩(wěn)定的设凹,且與小的時(shí)間段的長(zhǎng)度成正比。
(3)該事件在不同的小時(shí)間段里茅姜,發(fā)生與否相互獨(dú)立闪朱。
-
均勻分布
-
伽馬函數(shù)
這個(gè)可以形象理解為用一個(gè)伽馬刀,對(duì)x動(dòng)了一刀钻洒,于是指數(shù)為x-1,動(dòng)完刀需要扶著梯子(-t)才能走下來(lái)奋姿。這樣,就記住了關(guān)鍵的
,?t素标。
性質(zhì):
-
卡方分布
-
Beta分布
Beta分布是一個(gè)定義在[0,1]區(qū)間上的連續(xù)概率分布族称诗,它有兩個(gè)正值參數(shù),稱為形狀參數(shù)糯钙,一般用
和
表示粪狼。在貝葉斯推斷中退腥,Beta分布是Bernoulli任岸、二項(xiàng)分布、負(fù)二項(xiàng)分布和幾何分布的共軛先驗(yàn)分布狡刘。Beta分布的概率密度函數(shù)形式如下:
這里的表示gamma函數(shù)享潜。
Beta分布的均值是:
方差是:
Beta分布可以看作一個(gè)概率的概率分布,當(dāng)你不知道一個(gè)東西的具體概率是多少時(shí)嗅蔬,它可以給出所有概率出現(xiàn)的可能性大小剑按。Beta分布是一個(gè)連續(xù)分布疾就,由于它描述概率p的分布,因此其取值范圍為0到1艺蝴。
??