離散型隨機(jī)變量 Discrete Random Variables 及其分布

隨機(jī)變量是對(duì)試驗(yàn)結(jié)果的數(shù)值化處理潮峦,即以數(shù)值型數(shù)據(jù)來(lái)表示試驗(yàn)的結(jié)果谭期。之所以采用這種處理方式是希望可以將取值及其概率用一個(gè)函數(shù)的形式來(lái)表示,以方便的使用數(shù)學(xué)工具定量的對(duì)概率分布進(jìn)行研究,在實(shí)際應(yīng)用中可以按照一定的規(guī)則將類別型數(shù)據(jù)轉(zhuǎn)化成數(shù)值型數(shù)據(jù)结胀。基于試驗(yàn)結(jié)果的不同责循,可以將隨機(jī)變量分為離散型隨機(jī)變量和連續(xù)性隨機(jī)變量:

  • 離散型 discrete 隨機(jī)變量:結(jié)果為有限個(gè)數(shù)值或者無(wú)限個(gè)序列值

  • 連續(xù)型 continuous 隨機(jī)變量:結(jié)果可以在某一個(gè)或多個(gè)取值區(qū)間取得任意值钧栖,例如時(shí)間,重量拍埠,距離豌蟋,溫度等

概率分布 Probability distribution 則是對(duì)于隨機(jī)變量取得各個(gè)值的概率的一個(gè)描述,對(duì)于離散型隨機(jī)變量可以定義一個(gè)概率分布函數(shù) Probability mass fuction ?(x) 來(lái)描繪隨機(jī)變量取得某個(gè)值時(shí)的概率歹垫,其要求:

  • ?(x) ≥ 0

  • Σ?(x) = 1

離散型隨機(jī)變量概率分布的獲取

離散型隨機(jī)變量的經(jīng)驗(yàn)分布 Empirical discrete distribution

當(dāng)已獲得的樣本的數(shù)據(jù)量較大時(shí)剥汤,可以通過(guò)對(duì)于各個(gè)隨機(jī)變量的取值的相對(duì)頻率來(lái)近似其概率,這種方法獲得的概率分布稱為經(jīng)驗(yàn)分布排惨。

離散型均勻概率分布 Discrete uniform probability distribution

如果隨機(jī)變量的可能取值有 n 個(gè)吭敢,且取得每一個(gè)值的概率均等,那么這種概率分布稱為均勻概率分布:

  • ?(x) = 1 / n

離散型隨機(jī)變量的期望和方差

離散型隨機(jī)變量的期望值:

  • E(x) = μ = Σx?(x)

離散型隨機(jī)變量的方差:

  • Var(x) = σ2 = Σ(x - μ)2?(x)

由公式可知暮芭,隨機(jī)變量的方差值計(jì)算公式是一個(gè)對(duì)于隨機(jī)變量與均值的偏差的平方的加權(quán)平均鹿驼,相應(yīng)的權(quán)重系數(shù)是各個(gè)取值的概率。

雙變量概率分布 Bivariate probability distribution

當(dāng)研究對(duì)象為兩個(gè)隨機(jī)變量時(shí)辕宏,相應(yīng)的概率分布稱為 Bivariate probability distribution畜晰,也稱為 Joint probability distribution,可以通過(guò)歷史數(shù)據(jù)并采用表格的形式來(lái)統(tǒng)計(jì)概率分布情況:

Bivariate emperical distribution

除概率分布外瑞筐,一般也會(huì)通過(guò)計(jì)算協(xié)方差和相關(guān)系數(shù)了解這兩個(gè)隨機(jī)變量的關(guān)系凄鼻,且對(duì)于兩個(gè)離散型隨機(jī)變量 x,y 來(lái)說(shuō),如果已知 x块蚌,y 的各自取值及概率分布闰非,可以有兩種方法來(lái)計(jì)算隨機(jī)變量的協(xié)方差:

  • 通過(guò)隨機(jī)變量的聯(lián)合分布直接計(jì)算協(xié)方差:σxy = ΣΣ[xi - E(x)][yj - E(y)]?(xi, yj)

  • 通過(guò) x,y 的聯(lián)合概率分布匈子,可以獲取 s = x + y 這個(gè)隨機(jī)變量的取值及相應(yīng)的概率河胎,在此基礎(chǔ)上可以計(jì)算 s 的期望、方差值虎敦,此時(shí)有:σxy = [Var(x + y) - Var(x) - Var(y)] / 2

更一般地游岳,有:

  • E(ax + by) = aE(x) + bE(y)

  • Var(ax + by) = a2Var(x) + b2Var(y) + 2abσxy

前述離散型隨機(jī)變量可以通過(guò)采用列表的形式進(jìn)行統(tǒng)計(jì)頻數(shù)來(lái)獲得相應(yīng)的概率,最終獲取取值的概率分布其徙,還有一類離散型隨機(jī)變量的概率分布可以通過(guò)一定的數(shù)學(xué)公式來(lái)描述胚迫。

二項(xiàng)分布 Bionomial distribution

二項(xiàng)分布最早的研究出自數(shù)學(xué)史上的一個(gè)著名的家族——伯努利家族,因此也叫伯努利概型唾那,其主要特點(diǎn)為:

  1. 試驗(yàn)考察的是對(duì)一個(gè)現(xiàn)象的多次重復(fù)觀察

  2. 每一次實(shí)驗(yàn)的可能結(jié)果都只有兩個(gè):我們可以定義其中的一個(gè)為“成功”访锻,并將其概率用 p 表示,而相反的結(jié)果則可以認(rèn)為是“失敗”闹获,其概率用 1 - p 表示

  3. p 在每一次實(shí)驗(yàn)中是保持不變的

  4. 這些 n 次試驗(yàn)之間是彼此獨(dú)立的

我們感興趣的是在這 n 次實(shí)驗(yàn)中成功的次數(shù) x 是多少期犬,很明顯這里 x 是一個(gè)離散型隨機(jī)變量,對(duì)應(yīng)的成功次數(shù) x 的概率分布稱為二項(xiàng)概率分布避诽。

可以認(rèn)為二項(xiàng)分布的多次試驗(yàn)是一個(gè)分步進(jìn)行的過(guò)程龟虎,因此可以采用樹(shù)狀圖來(lái)可視化多次試驗(yàn)的結(jié)果的組合:

Tree diagram for bionomial distribution

由于 n 次試驗(yàn)產(chǎn)生的所有可能的試驗(yàn)結(jié)果的數(shù)量為 2n,當(dāng)我們考慮這所有的結(jié)果中成功的次數(shù) x 時(shí)沙庐,是將結(jié)果中出現(xiàn) x 次成功的試驗(yàn)從 2n 個(gè)結(jié)果中進(jìn)行抽取鲤妥,且 x 內(nèi)部對(duì)于次序沒(méi)有要求,因此所有結(jié)果中出現(xiàn)成功次數(shù)為 x 的結(jié)果的次數(shù)可以采用組合的知識(shí)進(jìn)行計(jì)算:

  • Cnx = n! / [x!(n - x)!]

每一個(gè)連續(xù) n 次試驗(yàn)的結(jié)果組合中有 x 次成功的概率為:

  • px(1-p)n-x

將上述兩個(gè)公式組合起來(lái)就是所有 n 次試驗(yàn)中出現(xiàn) x 次成功的概率拱雏,也即二項(xiàng)分布的概率分布函數(shù):

  • ?(x) = px(1-p)n-x n! / [x!(n - x)!]

由于二項(xiàng)分布非常常用棉安,且其計(jì)算中包含了大量的常數(shù)項(xiàng),所以為了方便使用铸抑,已經(jīng)針對(duì)不同的 n贡耽,x 及 p 建立了二項(xiàng)分布表,可以從表格中查取鹊汛。

Bionomial probability table

當(dāng) n = 1 時(shí)菇爪,由于 x = 1 表示成功,x = 0 表示失敗柒昏,所以二項(xiàng)分布是對(duì) 0 - 1 分布的一個(gè)多次試驗(yàn)。對(duì)于 0 - 1 分布來(lái)說(shuō)熙揍,可以按照定義計(jì)算其期望值為 p职祷,方差為 p(1 - p),由于在二項(xiàng)分布中 n 次試驗(yàn)彼此獨(dú)立,因此有 n 次實(shí)驗(yàn)的期望及方差為:

  • E(x) = μ = np

  • Var(x) = σ2 = np(1 - p)

泊松分布 Poisson probability distribution

泊松分布的命名也來(lái)自于其最早的研究者 Simeon Poisson有梆,這個(gè)分布是對(duì)某個(gè)具有一定發(fā)生頻率的事件在某個(gè)時(shí)間和空間跨度內(nèi)發(fā)生的次數(shù)的一個(gè)描述是尖,例如一小時(shí)內(nèi)前來(lái)某個(gè)洗車場(chǎng)的客戶的數(shù)量,飛機(jī)每 100000 公里所需要的維修的次數(shù)泥耀,符合泊松分布的隨機(jī)變量的特點(diǎn)為:

  • 事件在兩個(gè)相同間隔(時(shí)間饺汹、空間)長(zhǎng)度內(nèi)發(fā)生的概率是相同的

  • 某一個(gè)時(shí)間間隔內(nèi)事件是否發(fā)生與另一個(gè)時(shí)間間隔內(nèi)事件是否發(fā)生是獨(dú)立的

這一分布研究是基于日常生活中大量現(xiàn)象的發(fā)生是有一定頻數(shù) Frequency 可循的,通過(guò)對(duì)于歷史數(shù)據(jù)的統(tǒng)計(jì)痰催,我們可以得到這個(gè)頻數(shù)兜辞。這個(gè)頻數(shù)是對(duì)事件發(fā)生的頻繁程度的一個(gè)總體水平的衡量,實(shí)際上某一個(gè)時(shí)間間隔內(nèi)發(fā)生的次數(shù) x 是不確定的夸溶,因而是個(gè)隨機(jī)變量逸吵。

如果我們用 λ 表示單位時(shí)間內(nèi)出現(xiàn)的頻數(shù),t 表示需要考察的時(shí)間缝裁,難么這個(gè)時(shí)間間隔內(nèi)發(fā)生 x 次的概率為:

  • ?(x) = (λt)xe-λt / x!

從上式中可以看出這個(gè)概率盡管從理論上 x 可以取得任何值扫皱,但當(dāng) x 非常大的時(shí)候,可以通過(guò)計(jì)算得知其概率趨近于 0捷绑,即基本不可能發(fā)生韩脑。

泊松分布的期望和方差均為 λ,其可以認(rèn)為是 n 很大而 p 很小的二項(xiàng)分布的一個(gè)極限形式粹污,對(duì)于泊松分布和下一節(jié) 指數(shù)分布 的理解我參考了 阮一峰的博客 QUETAL 的博客段多,在此表示感謝!

免責(zé)聲明

我寫這個(gè)筆記是為了系統(tǒng)的復(fù)習(xí)概率論中的一些概念厕怜,閱讀的是 Statistics for Business and Economics, 12th Edition 英文原版衩匣,這是一本非常經(jīng)典的參考書(shū),毫無(wú)保留的滿分推薦粥航。盡管書(shū)名暗示了是在商業(yè)和經(jīng)濟(jì)學(xué)中的統(tǒng)計(jì)學(xué)琅捏,但根本的統(tǒng)計(jì)學(xué)知識(shí)是不變量,并且和很多優(yōu)秀的原版書(shū)一樣递雀,作者時(shí)刻注意用實(shí)例來(lái)講解統(tǒng)計(jì)學(xué)概念柄延,基本上每一個(gè)新的概念的定義都建立在日常生活的實(shí)例的基礎(chǔ)上,在此基礎(chǔ)上還保留了精美的排版和精心設(shè)計(jì)的插圖缀程,十分便于理解搜吧。

筆記最重要的一個(gè)目的就是記錄者復(fù)習(xí)的重要資料,如果能對(duì)別人也有所幫助那就是額外的獎(jiǎng)賞了杨凑,所以為了復(fù)習(xí)方便我擅自截取了書(shū)中的很多插圖滤奈,這些插圖僅限于個(gè)人學(xué)習(xí)使用。其他人請(qǐng)勿直接轉(zhuǎn)載撩满,如轉(zhuǎn)載請(qǐng)刪除插圖并附帶這則免責(zé)聲明蜒程,否則由此而產(chǎn)生的版權(quán)問(wèn)題绅你,請(qǐng)轉(zhuǎn)載者自行承擔(dān)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末昭躺,一起剝皮案震驚了整個(gè)濱河市忌锯,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌领炫,老刑警劉巖偶垮,帶你破解...
    沈念sama閱讀 222,807評(píng)論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異帝洪,居然都是意外死亡似舵,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,284評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門碟狞,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)啄枕,“玉大人,你說(shuō)我怎么就攤上這事族沃∑底#” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 169,589評(píng)論 0 363
  • 文/不壞的土叔 我叫張陵脆淹,是天一觀的道長(zhǎng)常空。 經(jīng)常有香客問(wèn)我,道長(zhǎng)盖溺,這世上最難降的妖魔是什么漓糙? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 60,188評(píng)論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮烘嘱,結(jié)果婚禮上昆禽,老公的妹妹穿的比我還像新娘。我一直安慰自己蝇庭,他們只是感情好醉鳖,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,185評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著哮内,像睡著了一般盗棵。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上北发,一...
    開(kāi)封第一講書(shū)人閱讀 52,785評(píng)論 1 314
  • 那天纹因,我揣著相機(jī)與錄音,去河邊找鬼琳拨。 笑死瞭恰,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的狱庇。 我是一名探鬼主播惊畏,決...
    沈念sama閱讀 41,220評(píng)論 3 423
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼是牢,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了陕截?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 40,167評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤批什,失蹤者是張志新(化名)和其女友劉穎农曲,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體驻债,經(jīng)...
    沈念sama閱讀 46,698評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡乳规,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,767評(píng)論 3 343
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了合呐。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片暮的。...
    茶點(diǎn)故事閱讀 40,912評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖淌实,靈堂內(nèi)的尸體忽然破棺而出冻辩,到底是詐尸還是另有隱情,我是刑警寧澤拆祈,帶...
    沈念sama閱讀 36,572評(píng)論 5 351
  • 正文 年R本政府宣布恨闪,位于F島的核電站,受9級(jí)特大地震影響放坏,放射性物質(zhì)發(fā)生泄漏咙咽。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,254評(píng)論 3 336
  • 文/蒙蒙 一淤年、第九天 我趴在偏房一處隱蔽的房頂上張望钧敞。 院中可真熱鬧,春花似錦麸粮、人聲如沸溉苛。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,746評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)炊昆。三九已至,卻和暖如春威根,著一層夾襖步出監(jiān)牢的瞬間凤巨,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,859評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工洛搀, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留敢茁,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,359評(píng)論 3 379
  • 正文 我出身青樓留美,卻偏偏與公主長(zhǎng)得像彰檬,于是被迫代替她去往敵國(guó)和親伸刃。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,922評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容