一碴开、基本概念
隨機試驗,可以在相同條件下重復(fù)進(jìn)行眶掌,每次試驗的結(jié)果不止一個朴爬,事先知道所有可能的結(jié)果但不確定是哪一個的試驗橡淆。
隨機變量逸爵,隨機試驗可能的結(jié)果形成了樣本空間S,隨機事件就是樣本空間S的某個子集构韵,而樣本空間S中每個元素e都會對應(yīng)一個實數(shù)疲恢,這種映射關(guān)系可以定義為一個函數(shù)f(e)瓷胧,那么這個函數(shù)就稱為隨機變量抖单。
隨機變量是隨機試驗樣本空間上的單值實數(shù)函數(shù)矛绘,分為離散型隨機變量 與 連續(xù)型隨機變量。
離散型隨機變量:取值可以一一列舉羊精,有限個或者可列舉的無限多個喧锦。
連續(xù)型隨機變量:取值不能一一列舉抓督,可能取值連續(xù)的充滿了某一區(qū)間铃在。
連續(xù)型隨機變量奉狈,連續(xù)型隨機變量的取值要么包括整個實數(shù)集(?∞,+∞)仁期,要么在一個區(qū)間內(nèi)連續(xù)跛蛋,總之這類隨機變量的可能取值要比離散型隨機變量的取值多得多,它們的個數(shù)是無限不可數(shù)的押框。
古典概率橡伞,古典概率通常又叫事前概率晋被,是指當(dāng)隨機事件中各種可能發(fā)生的結(jié)果及其出現(xiàn)的次數(shù)都可以由演繹或外推法得知羡洛,而無需經(jīng)過任何統(tǒng)計試驗即可計算各種可能發(fā)生結(jié)果的概率。
條件概率崭闲,條件概率是指事件A在事件B發(fā)生的條件下發(fā)生的概率刁俭。條件概率表示為:P(A|B)韧涨,讀作“A在B發(fā)生的條件下發(fā)生的概率”。若只有兩個事件A,B舀奶,那么育勺,
期望值涧至,又稱均值南蓬,由隨機變量X的概率分布確定。
對于一個離散型隨機變量X烧颖,其分布律為P{ X= } = ,k=1,2,…炕淮,則其期望為:
例子:某城市有10萬個家庭涂圆,沒有孩子的家庭有1000個润歉,有一個孩子的家庭有9萬個套硼,有兩個孩子的家庭有6000個邪意,有3個孩子的家庭有3000個。
則此城市中任一個家庭中孩子的數(shù)目是一個隨機變量萌朱,記為X晶疼。它可取值0翠霍,1,2零如,3考蕾。
其中肖卧,X取0的概率為0.01掸鹅,取1的概率為0.9河劝,取2的概率為0.06赎瞎,取3的概率為0.03。
則牡辽,它的數(shù)學(xué)期望
對于一個連續(xù)型隨機變量X凹蜈,其概率密度函數(shù)為f(x),則其期望為:
二计雌、離散變量概率分布
伯努利分布,又稱0-1分布,如果隨機變量X只取0和1兩個值白粉,并且相應(yīng)的概率為:
則稱隨機變量X服從參數(shù)為p的伯努利分布,若令q=1一p拦盹,則X的概率函數(shù)可寫
為:
二項分布,假設(shè)某個試驗是伯努利試驗普舆,其成功概率用p表示沼侣,那么失敗的概率為q=1-p歉秫。進(jìn)行n次這樣的試驗雁芙,成功了x次兔甘,則失敗次數(shù)為n-x洞焙,發(fā)生這種情況的概率可用下面公式來計算:
泊松分布,解決的是在特定時間里發(fā)生n個事件的機率仙蛉,
觀察事物平均發(fā)生m次的條件下荠瘪,實際發(fā)生x次的概率P(x)可用下式表示:
三、連續(xù)變量概率分布
均勻分布喷兼,均勻分布的特征是數(shù)據(jù)在一個區(qū)間中均勻地分布季惯,最小值為 a臀突,最大值為 b候学。概率密度函數(shù)是:
分布函數(shù):
正態(tài)分布隐圾,第一參數(shù)μ是服從正態(tài)分布的隨機變量的均值暇藏,第二個參數(shù)σ2是此隨機變量的方差濒蒋,所以正態(tài)分布記作N(μ沪伙,σ2 ),服從正態(tài)分布的隨機變量的概率規(guī)律為取 μ鄰近的值的概率大 焰坪,而取離μ越遠(yuǎn)的值的概率越心呈巍;σ越小诫尽,分布越集中在μ附近牧嫉,σ越大,分布越分散曹洽。
概率密度函數(shù):
當(dāng) 送淆,=1 偷崩,正態(tài)分布就成為標(biāo)準(zhǔn)正態(tài)分布
正態(tài)分布中一些值得注意的量:
- 密度函數(shù)關(guān)于平均值對稱
- 平均值與它的眾數(shù)(statistical mode)以及中位數(shù)(median)同一數(shù)值。
- 函數(shù)曲線下68.268949%的面積在平均數(shù)左右的一個標(biāo)準(zhǔn)差
范圍內(nèi)智听。
- 95.449974%的面積在平均數(shù)左右兩個標(biāo)準(zhǔn)差2
的范圍內(nèi)。
- 99.730020%的面積在平均數(shù)左右三個標(biāo)準(zhǔn)差3
的范圍內(nèi)考赛。
- 99.993666%的面積在平均數(shù)左右四個標(biāo)準(zhǔn)差4
的范圍內(nèi)颜骤。
- 函數(shù)曲線的拐點(inflection point)為離平均數(shù)一個標(biāo)準(zhǔn)差
距離的位置唧喉。
指數(shù)分布,描述泊松過程中的事件之間的時間的概率分布,即事件以恒定平均速率連續(xù)且獨立地發(fā)生的過程忍抽。一個重要特征是無記憶性(Memoryless Property八孝,又稱遺失記憶性)。例如燈泡的使用壽命服從指數(shù)分布鸠项,無論他已經(jīng)使用多長一段時間干跛,假設(shè)為s,只要還沒有損壞祟绊,它能再使用一段時間t 的概率與一件新產(chǎn)品使用時間t 的概率一樣
分布律公式:
伽瑪分布,
指數(shù)分布解決的問題是“要等到一個隨機事件發(fā)生牧抽,需要經(jīng)歷多久時間”
伽瑪分布解決的問題是“要等到n個隨機事件都發(fā)生嘉熊,需要經(jīng)歷多久時間”
假設(shè)隨機變量X為 等到第α件事發(fā)生所需之等候時間,
密度函數(shù)為:
貝塔分布,是一個作為伯努利分布和二項式分布的共軛先驗分布的密度函數(shù)。
1.先驗概率就是事情尚未發(fā)生前扬舒,我們對該事發(fā)生概率的估計阐肤。利用過去歷史資料計算得到的先驗概率,稱為客觀先驗概率; 當(dāng)歷史資料無從取得或資料不完全時孕惜,憑人們的主觀經(jīng)驗來判斷而得到的先驗概率愧薛,稱為主觀先驗概率。例如拋一枚硬幣頭向上的概率為0.5诊赊,這就是主觀先驗概率厚满。
2.后驗概率是指通過調(diào)查或其它方式獲取新的附加信息,利用貝葉斯公式對先驗概率進(jìn)行修正碧磅,而后得到的概率碘箍。
3.先驗概率和后驗概率的區(qū)別:先驗概率不是根據(jù)有關(guān)自然狀態(tài)的全部資料測定的,而只是利用現(xiàn)有的材料(主要是歷史資料)計算的鲸郊;后驗概率使用了有關(guān)自然狀態(tài)更加全面的資料丰榴,既有先驗概率資料,也有補充資料秆撮。另外一種表述:先驗概率是在缺乏某個事實的情況下描述一個變量四濒;而后驗概率是在考慮了一個事實之后的條件概率。
4.共軛分布(conjugacy):后驗概率分布函數(shù)與先驗概率分布函數(shù)具有相同形式职辨。
威布爾分布盗蟆,Weibull Distribution是連續(xù)性的概率分布,其概率密度為
卡方分布:
F分布,