1. 什么是數(shù)學期望
?舉個例子:某城市有10萬個家庭玖姑,沒有孩子的家庭有1000個平委,有一個孩子的家庭有9萬個淹朋,有兩個孩子的家庭有6000個绞灼,有3個孩子的家庭有3000個
(0 * 1000 + 1 * 90000 + 2 * 6000 + 3 * 3000) / 100000 = 1.11
?數(shù)學期望(mean)(或均值片挂,亦簡稱期望)是試驗中每次可能結果的概率乘以其結果的總和
0 * 0.01 + 1 * 0.9 + 2 * 0.06 + 3 * 0.03 = 1.11
2. 概率密度與累積分布
?概率密度一般的寫法是:P(X=a) = …幻林,即X等于某個值a的可能性
?累積分布一般的寫法是:P(X<=a) = …,即X小于等于某個值a的所有可能性累加之和
?這二者千萬別弄混音念,否則就會被各種公式繞暈沪饺。下圖是增量分布的概率密度圖(橙色)和累積分布圖(藍色)。
3. 常見的分布
(1) 離散分布:
?伯努利分布(零一分布闷愤,兩點分布)整葡,二項分布,幾何分布讥脐,泊松分布(Poisson分布)
(2) 連續(xù)分布:
?指數(shù)分布遭居,正態(tài)分布(高斯分布)啼器,均勻分布
(3) 抽樣分布:
?卡方分布(X2分布),F(xiàn)分布俱萍,T分布
(4) 其它分布:
?多項分布端壳,Beta分布,Dirichlet分布
4. 伯努利分布
(1) 應用場景
?應用于兩種實驗結果枪蘑。要么成功损谦,要么失敗,一定程度上是二元的性質(zhì)岳颇。比如:一個硬幣拋一次人結果照捡。
(2) 描述
?進行一次事件試驗,該事件發(fā)生的概率為p话侧,不發(fā)生的概率為1-p栗精,任何一個只有兩種結果的隨機現(xiàn)象都服從0-1分布。
5. 二項分布
(1) 應用場景
?在獨立n次實驗中成功次數(shù)瞻鹏,比如:一個硬幣拋n次悲立,k次正面朝上。
(2) 描述
?上圖是n=100, p=0.5(拋硬100次, 每一枚硬幣正面朝上的概率為0.5)新博,圖中橫軸為正面朝上的次數(shù)级历,縱軸為概率,可以看出正面朝上50次的可能性最大叭披,為0.08左右寥殖。
6. 泊松分布
(1) 應用場景
?某一區(qū)間內(nèi)發(fā)生隨機事件次數(shù)的概率分布,比如:每小時出生3個嬰兒涩蜘,某網(wǎng)站平均每分鐘有2次訪問嚼贡。
(2) 描述
?一個離散型隨機變量X 滿足:
?這樣看起來就很抽象了,推薦看一看參考中的《如何通俗理解泊松分布》同诫,簡單地說一下上述公式怎么用粤策,以出生嬰兒為例,λ是每小時出生的嬰兒的平均數(shù)误窖,k是3個嬰兒叮盘,P(X=3)是每小時出生3個嬰兒的概率。從λ中我們就能看出單位時間和發(fā)生事件的大概關系霹俺。
?上圖是λ=2時(平均每小時出生2個嬰兒)柔吼,出生0個的概率為0.14,出生1個的概率為0.27…
7. 幾何分布
(1) 應用場景
?第一次成功所進行的試驗次數(shù)丙唧,比如:考幾次能通過愈魏,拋幾次硬幣能出現(xiàn)正面。
(2) 描述
?幾何分布由n次伯努利分布構成,隨機變量X表示第一次成功所進行試驗的次數(shù)
?從公式中很容易看出培漏,經(jīng)歷了k-1次不中溪厘,和一次命中,以拋硬幣為例牌柄,P(X=3)是拋三次能拋到一次正面向上概率畸悬,前兩次都是背面朝上,第三次正面朝上珊佣。如果單個硬幣正面朝上的概率為0.5傻昙,那么期望是2次。 與二項分布相比彩扔,二項分布是拋n次硬幣,有幾次正面朝上僻爽,幾何分布是拋幾次出現(xiàn)第一次正布朝上虫碉。
?上圖是p=0.5時的幾何分布,橫軸是次數(shù)胸梆,可見拋一次就中的可能性最大為0.5敦捧,兩次中的可能性為0.25…,次數(shù)越多碰镜,概率越小兢卵,整體平均下來基本是兩次左右,因此绪颖,期望為2秽荤。從期望就可以看出,拋第幾次能出正面柠横,主要還是取決于硬幣本身正面朝上的概率窃款。
8. 指數(shù)分布
(1) 應用場景
?兩次隨機事件發(fā)生時間間隔的概率分布,比如:嬰兒出生的時間間隔牍氛,網(wǎng)站訪問的時間間隔晨继。
(2) 描述
?指數(shù)分布滿足以下概率密度函數(shù)公式
?λ> 0是分布的一個參數(shù),常被稱為率參數(shù)(rate parameter)搬俊。即每單位時間內(nèi)發(fā)生某事件的次數(shù)紊扬,還是生小孩為例,公式中的x是生兩個孩子的時間間隔唉擂。
?假設平均每一小時出生兩個嬰兒餐屎,則單位時間1小時出生2個嬰兒,λ=2玩祟,期望e=0.5(平均間隔0.5小時)啤挎,如左圖所示。
?假設平均每兩小時出生一個嬰兒,則單位時間1小時出生0.5個嬰兒庆聘,λ=0.5胜臊,期望E=2(平均間隔2小時),如右圖所示伙判。 λ越大象对,曲線下降越快,可見宴抚,指數(shù)分布是幾何分布的加強版勒魔。
?上圖中x軸是時間間隔,y軸是概率菇曲,不是說概率之和為1嗎冠绢?為什么間隔為0的概率大于1呢?因為這是連續(xù)分布常潮,某一點概率大于1(但它所在區(qū)域很窄)弟胀,也不影響函數(shù)線下面積之和為1。
9. 正態(tài)分布
(1) 應用場景
?連續(xù)型數(shù)據(jù)或者數(shù)據(jù)離散性小喊式,數(shù)據(jù)基本符合正態(tài)分布特點孵户。比如:群體的身高,智商岔留,考試分數(shù)(中間多兩邊少)夏哭。
(2) 描述
?若隨機變量X服從一個數(shù)學期望為μ、方差o^2 為的高斯分布献联,記為N(μ竖配,o^2)
?上圖是μ=1, o=2.0的正態(tài)分布,簡單地說里逆,就是基本都分布在以μ為中心械念,分散在o范圍之內(nèi),比如:全班平均分80分运悲,考100的也少龄减,不及格的也少。
10. 抽樣分布
(1) 一些概率
i. 抽樣
?如果整體樣本可以一個一個判斷叫普查班眯,如果整體樣本太多希停,沒法一個一個判斷,只能取一部分代表整體署隘,叫抽樣宠能。
ii. 統(tǒng)計量
?統(tǒng)計量是根據(jù)樣本數(shù)據(jù)計算出來的一個量,他是樣本的函數(shù)磁餐,通常我們所關心的樣本統(tǒng)計量有品均數(shù)违崇、樣本標準差等等阿弃。
iii. 抽樣分布
?抽樣分布也稱統(tǒng)計量分布,以樣本平均數(shù)為例羞延,它是總體平均數(shù)的一個估計量渣淳,如果按照相同的樣本容量,相同的抽樣方式伴箩,反復地抽取樣本入愧,每次可以計算一個平均數(shù),所有可能樣本的平均數(shù)所形成的分布嗤谚,就是樣本平均數(shù)的抽樣分布棺蛛。卡方分布巩步,T分布旁赊,F(xiàn)分布都是抽樣分布。
(2) 卡方分布
?設 X1,X2,......Xn相互獨立, 都服從標準正態(tài)分布N(0,1), 則稱隨機變量χ2=X12+X22+......+Xn2所服從的分布為自由度為 n 的χ2分布.
(3) T分布
?設X1服從標準正態(tài)分布N(0,1)椅野,X2服從自由度為n的χ2分布终畅,且X1、X2相互獨立鳄橘,則稱變量t=X1/((X2/n)^(1/2)) 所服從的分布為自由度為n的t分布。
(4) F分布
?設X1服從自由度為m的χ2分布,X2服從自由度為n的χ2分布芒炼,且X1瘫怜、X2相互獨立,則稱變量F=(X1/m)/(X2/n)所服從的分布為F分布本刽,其中第一自由度為m,第二自由度為n 鲸湃。
11. 參考
(1) 幾種常見的分布
https://wenku.baidu.com/view/dc16311a777f5acfa1c7aa00b52acfc789eb9f04.html
(2) 如何通俗理解泊松分布
https://blog.csdn.net/ccnt_2012/article/details/81114920