隨機(jī)變量是對(duì)試驗(yàn)結(jié)果的數(shù)值化處理潮峦,即以數(shù)值型數(shù)據(jù)來(lái)表示試驗(yàn)的結(jié)果谭期。之所以采用這種處理方式是希望可以將取值及其概率用一個(gè)函數(shù)的形式來(lái)表示,以方便的使用數(shù)學(xué)工具定量的對(duì)概率分布進(jìn)行研究,在實(shí)際應(yīng)用中可以按照一定的規(guī)則將類別型數(shù)據(jù)轉(zhuǎn)化成數(shù)值型數(shù)據(jù)结胀。基于試驗(yàn)結(jié)果的不同责循,可以將隨機(jī)變量分為離散型隨機(jī)變量和連續(xù)性隨機(jī)變量:
離散型 discrete 隨機(jī)變量:結(jié)果為有限個(gè)數(shù)值或者無(wú)限個(gè)序列值
連續(xù)型 continuous 隨機(jī)變量:結(jié)果可以在某一個(gè)或多個(gè)取值區(qū)間取得任意值钧栖,例如時(shí)間,重量拍埠,距離豌蟋,溫度等
概率分布 Probability distribution 則是對(duì)于隨機(jī)變量取得各個(gè)值的概率的一個(gè)描述,對(duì)于離散型隨機(jī)變量可以定義一個(gè)概率分布函數(shù) Probability mass fuction ?(x) 來(lái)描繪隨機(jī)變量取得某個(gè)值時(shí)的概率歹垫,其要求:
?(x) ≥ 0
Σ?(x) = 1
離散型隨機(jī)變量概率分布的獲取
離散型隨機(jī)變量的經(jīng)驗(yàn)分布 Empirical discrete distribution
當(dāng)已獲得的樣本的數(shù)據(jù)量較大時(shí)剥汤,可以通過(guò)對(duì)于各個(gè)隨機(jī)變量的取值的相對(duì)頻率來(lái)近似其概率,這種方法獲得的概率分布稱為經(jīng)驗(yàn)分布排惨。
離散型均勻概率分布 Discrete uniform probability distribution
如果隨機(jī)變量的可能取值有 n 個(gè)吭敢,且取得每一個(gè)值的概率均等,那么這種概率分布稱為均勻概率分布:
- ?(x) = 1 / n
離散型隨機(jī)變量的期望和方差
離散型隨機(jī)變量的期望值:
- E(x) = μ = Σx?(x)
離散型隨機(jī)變量的方差:
- Var(x) = σ2 = Σ(x - μ)2?(x)
由公式可知暮芭,隨機(jī)變量的方差值計(jì)算公式是一個(gè)對(duì)于隨機(jī)變量與均值的偏差的平方的加權(quán)平均鹿驼,相應(yīng)的權(quán)重系數(shù)是各個(gè)取值的概率。
雙變量概率分布 Bivariate probability distribution
當(dāng)研究對(duì)象為兩個(gè)隨機(jī)變量時(shí)辕宏,相應(yīng)的概率分布稱為 Bivariate probability distribution畜晰,也稱為 Joint probability distribution,可以通過(guò)歷史數(shù)據(jù)并采用表格的形式來(lái)統(tǒng)計(jì)概率分布情況:
除概率分布外瑞筐,一般也會(huì)通過(guò)計(jì)算協(xié)方差和相關(guān)系數(shù)了解這兩個(gè)隨機(jī)變量的關(guān)系凄鼻,且對(duì)于兩個(gè)離散型隨機(jī)變量 x,y 來(lái)說(shuō),如果已知 x块蚌,y 的各自取值及概率分布闰非,可以有兩種方法來(lái)計(jì)算隨機(jī)變量的協(xié)方差:
通過(guò)隨機(jī)變量的聯(lián)合分布直接計(jì)算協(xié)方差:σxy = ΣΣ[xi - E(x)][yj - E(y)]?(xi, yj)
通過(guò) x,y 的聯(lián)合概率分布匈子,可以獲取 s = x + y 這個(gè)隨機(jī)變量的取值及相應(yīng)的概率河胎,在此基礎(chǔ)上可以計(jì)算 s 的期望、方差值虎敦,此時(shí)有:σxy = [Var(x + y) - Var(x) - Var(y)] / 2
更一般地游岳,有:
E(ax + by) = aE(x) + bE(y)
Var(ax + by) = a2Var(x) + b2Var(y) + 2abσxy
前述離散型隨機(jī)變量可以通過(guò)采用列表的形式進(jìn)行統(tǒng)計(jì)頻數(shù)來(lái)獲得相應(yīng)的概率,最終獲取取值的概率分布其徙,還有一類離散型隨機(jī)變量的概率分布可以通過(guò)一定的數(shù)學(xué)公式來(lái)描述胚迫。
二項(xiàng)分布 Bionomial distribution
二項(xiàng)分布最早的研究出自數(shù)學(xué)史上的一個(gè)著名的家族——伯努利家族,因此也叫伯努利概型唾那,其主要特點(diǎn)為:
試驗(yàn)考察的是對(duì)一個(gè)現(xiàn)象的多次重復(fù)觀察
每一次實(shí)驗(yàn)的可能結(jié)果都只有兩個(gè):我們可以定義其中的一個(gè)為“成功”访锻,并將其概率用 p 表示,而相反的結(jié)果則可以認(rèn)為是“失敗”闹获,其概率用 1 - p 表示
p 在每一次實(shí)驗(yàn)中是保持不變的
這些 n 次試驗(yàn)之間是彼此獨(dú)立的
我們感興趣的是在這 n 次實(shí)驗(yàn)中成功的次數(shù) x 是多少期犬,很明顯這里 x 是一個(gè)離散型隨機(jī)變量,對(duì)應(yīng)的成功次數(shù) x 的概率分布稱為二項(xiàng)概率分布避诽。
可以認(rèn)為二項(xiàng)分布的多次試驗(yàn)是一個(gè)分步進(jìn)行的過(guò)程龟虎,因此可以采用樹(shù)狀圖來(lái)可視化多次試驗(yàn)的結(jié)果的組合:
由于 n 次試驗(yàn)產(chǎn)生的所有可能的試驗(yàn)結(jié)果的數(shù)量為 2n,當(dāng)我們考慮這所有的結(jié)果中成功的次數(shù) x 時(shí)沙庐,是將結(jié)果中出現(xiàn) x 次成功的試驗(yàn)從 2n 個(gè)結(jié)果中進(jìn)行抽取鲤妥,且 x 內(nèi)部對(duì)于次序沒(méi)有要求,因此所有結(jié)果中出現(xiàn)成功次數(shù)為 x 的結(jié)果的次數(shù)可以采用組合的知識(shí)進(jìn)行計(jì)算:
- Cnx = n! / [x!(n - x)!]
每一個(gè)連續(xù) n 次試驗(yàn)的結(jié)果組合中有 x 次成功的概率為:
- px(1-p)n-x
將上述兩個(gè)公式組合起來(lái)就是所有 n 次試驗(yàn)中出現(xiàn) x 次成功的概率拱雏,也即二項(xiàng)分布的概率分布函數(shù):
- ?(x) = px(1-p)n-x n! / [x!(n - x)!]
由于二項(xiàng)分布非常常用棉安,且其計(jì)算中包含了大量的常數(shù)項(xiàng),所以為了方便使用铸抑,已經(jīng)針對(duì)不同的 n贡耽,x 及 p 建立了二項(xiàng)分布表,可以從表格中查取鹊汛。
當(dāng) n = 1 時(shí)菇爪,由于 x = 1 表示成功,x = 0 表示失敗柒昏,所以二項(xiàng)分布是對(duì) 0 - 1 分布的一個(gè)多次試驗(yàn)。對(duì)于 0 - 1 分布來(lái)說(shuō)熙揍,可以按照定義計(jì)算其期望值為 p职祷,方差為 p(1 - p),由于在二項(xiàng)分布中 n 次試驗(yàn)彼此獨(dú)立,因此有 n 次實(shí)驗(yàn)的期望及方差為:
E(x) = μ = np
Var(x) = σ2 = np(1 - p)
泊松分布 Poisson probability distribution
泊松分布的命名也來(lái)自于其最早的研究者 Simeon Poisson有梆,這個(gè)分布是對(duì)某個(gè)具有一定發(fā)生頻率的事件在某個(gè)時(shí)間和空間跨度內(nèi)發(fā)生的次數(shù)的一個(gè)描述是尖,例如一小時(shí)內(nèi)前來(lái)某個(gè)洗車場(chǎng)的客戶的數(shù)量,飛機(jī)每 100000 公里所需要的維修的次數(shù)泥耀,符合泊松分布的隨機(jī)變量的特點(diǎn)為:
事件在兩個(gè)相同間隔(時(shí)間饺汹、空間)長(zhǎng)度內(nèi)發(fā)生的概率是相同的
某一個(gè)時(shí)間間隔內(nèi)事件是否發(fā)生與另一個(gè)時(shí)間間隔內(nèi)事件是否發(fā)生是獨(dú)立的
這一分布研究是基于日常生活中大量現(xiàn)象的發(fā)生是有一定頻數(shù) Frequency 可循的,通過(guò)對(duì)于歷史數(shù)據(jù)的統(tǒng)計(jì)痰催,我們可以得到這個(gè)頻數(shù)兜辞。這個(gè)頻數(shù)是對(duì)事件發(fā)生的頻繁程度的一個(gè)總體水平的衡量,實(shí)際上某一個(gè)時(shí)間間隔內(nèi)發(fā)生的次數(shù) x 是不確定的夸溶,因而是個(gè)隨機(jī)變量逸吵。
如果我們用 λ 表示單位時(shí)間內(nèi)出現(xiàn)的頻數(shù),t 表示需要考察的時(shí)間缝裁,難么這個(gè)時(shí)間間隔內(nèi)發(fā)生 x 次的概率為:
- ?(x) = (λt)xe-λt / x!
從上式中可以看出這個(gè)概率盡管從理論上 x 可以取得任何值扫皱,但當(dāng) x 非常大的時(shí)候,可以通過(guò)計(jì)算得知其概率趨近于 0捷绑,即基本不可能發(fā)生韩脑。
泊松分布的期望和方差均為 λ,其可以認(rèn)為是 n 很大而 p 很小的二項(xiàng)分布的一個(gè)極限形式粹污,對(duì)于泊松分布和下一節(jié) 指數(shù)分布 的理解我參考了 阮一峰的博客 和 QUETAL 的博客段多,在此表示感謝!
免責(zé)聲明
我寫這個(gè)筆記是為了系統(tǒng)的復(fù)習(xí)概率論中的一些概念厕怜,閱讀的是 Statistics for Business and Economics, 12th Edition 英文原版衩匣,這是一本非常經(jīng)典的參考書(shū),毫無(wú)保留的滿分推薦粥航。盡管書(shū)名暗示了是在商業(yè)和經(jīng)濟(jì)學(xué)中的統(tǒng)計(jì)學(xué)琅捏,但根本的統(tǒng)計(jì)學(xué)知識(shí)是不變量,并且和很多優(yōu)秀的原版書(shū)一樣递雀,作者時(shí)刻注意用實(shí)例來(lái)講解統(tǒng)計(jì)學(xué)概念柄延,基本上每一個(gè)新的概念的定義都建立在日常生活的實(shí)例的基礎(chǔ)上,在此基礎(chǔ)上還保留了精美的排版和精心設(shè)計(jì)的插圖缀程,十分便于理解搜吧。
筆記最重要的一個(gè)目的就是記錄者復(fù)習(xí)的重要資料,如果能對(duì)別人也有所幫助那就是額外的獎(jiǎng)賞了杨凑,所以為了復(fù)習(xí)方便我擅自截取了書(shū)中的很多插圖滤奈,這些插圖僅限于個(gè)人學(xué)習(xí)使用。其他人請(qǐng)勿直接轉(zhuǎn)載撩满,如轉(zhuǎn)載請(qǐng)刪除插圖并附帶這則免責(zé)聲明蜒程,否則由此而產(chǎn)生的版權(quán)問(wèn)題绅你,請(qǐng)轉(zhuǎn)載者自行承擔(dān)。