數(shù)據(jù)分析之?dāng)?shù)據(jù)分布

概率分布用以表達(dá)隨機(jī)變量取值的概率規(guī)律瑟枫,根據(jù)隨機(jī)變量所屬類型的不同祖乳,概率分布取不同的表現(xiàn)形式遥皂,主要分為離散變量概率分布連續(xù)變量概率分布力喷。

離散型分布:二項(xiàng)分布、多項(xiàng)分布渴肉、伯努利分布冗懦、泊松分布。
連續(xù)型分布:均勻分布仇祭、正態(tài)分布、指數(shù)分布颈畸、伽瑪分布乌奇、偏態(tài)分布、貝塔分布眯娱、威布爾分布礁苗、卡方分布、F分布徙缴。

連續(xù)型隨機(jī)變量:若隨機(jī)變量X的分布函數(shù)F(X)可以表示為一個非負(fù)可積函數(shù)f(x)的積分试伙,則稱X為連續(xù)型隨機(jī)變量,f(x)稱為x的概率密度函數(shù)于样,積分值為X的數(shù)學(xué)期望


一疏叨、離散型分布
(一)伯努利分布
伯努利分布只有兩種可能的結(jié)果,1-成功和0-失敗穿剖,具有伯努利分布特征的隨機(jī)變量X可以取值為1的概率為p蚤蔓,取值為0的概率1-p,其中成功和失敗的概率不一定相等糊余。
來自伯努利分布的隨機(jī)變量X的期望值為:E(X)=1p+0(1-p)=p
方差為:V(X)=E(X2)–[E(X)]2 =p–p2

(二)二項(xiàng)分布
如果做n次伯努利試驗(yàn)秀又,每次結(jié)果只有0,1兩種結(jié)果贬芥,如果n=1的話顯然是伯努利分布吐辙。二項(xiàng)分布的每一次嘗試都是獨(dú)立的,前一次投擲的結(jié)果不能決定或影響當(dāng)前投擲的結(jié)果蘸劈,只有兩個可能結(jié)果并且重復(fù)n次的實(shí)驗(yàn)叫做二項(xiàng)式昏苏。二項(xiàng)分布的參數(shù)是n和p,其中n是試驗(yàn)的總數(shù),p是每次試驗(yàn)成功的概率捷雕。n次獨(dú)立重復(fù)事件發(fā)生k次的概率為:


q=1-p
均值和方差:np椒丧、npq

(三)多項(xiàng)分布
多項(xiàng)分布是二項(xiàng)分布的推廣擴(kuò)展,在n次獨(dú)立實(shí)驗(yàn)中每次只輸出k種結(jié)果中的一個救巷,且每種結(jié)果都有一個確定概率壶熏,多項(xiàng)分布給出在多種輸出狀態(tài)的情況下,關(guān)于成功次數(shù)的各種組合的概率浦译。

舉例投擲n次骰子棒假,這個骰子共有6種結(jié)果輸出,且1點(diǎn)出現(xiàn)概率為p1精盅,2點(diǎn)出現(xiàn)概率p2帽哑,…多項(xiàng)分布給出了在n次試驗(yàn)中,骰子1點(diǎn)出現(xiàn)x1次叹俏,2點(diǎn)出現(xiàn)x2次,3點(diǎn)出現(xiàn)x3次妻枕,…,6點(diǎn)出現(xiàn)x6次粘驰。這個結(jié)果組合的概率公式為:


xi為第i種狀態(tài)輸出結(jié)果的頻度屡谐,根據(jù)多項(xiàng)分布的極大似然估計得:

(四)泊松分布
大量事件是有固定頻率的。特點(diǎn):可以預(yù)估這些事件的總數(shù)蝌数,但是沒法知道具體的發(fā)生時間和發(fā)生地點(diǎn)愕掏。已知平均每小時出生3個嬰兒,請問下一個小時顶伞,會出生幾個饵撑?

泊松分布是個計數(shù)過程,通常用于模擬一個非連續(xù)事件連續(xù)時間中的發(fā)生次數(shù)唆貌。
主要特點(diǎn):
1.任何一個成功事件不能影響其它的成功事件(N(t+s)-N(t)增量之間互相獨(dú)立)滑潘;
2.經(jīng)過短時間間隔的成功概率必須等于經(jīng)過長時間間隔的成功概率;
3.時間間隔趨向于無窮小的時候挠锥,一個時間間隔內(nèi)的成功概率趨近零众羡;

泊松分布即描述某段時間內(nèi),事件具體的發(fā)生頻率蓖租。
泊松分布的概率分布函數(shù)公式如下所示:


等號左邊P表示概率粱侣,N表示某種函數(shù)關(guān)系,t表示時間蓖宦,n表示數(shù)量齐婴,1小時內(nèi)出生3個嬰兒的概率,就表示為 P(N(1)=3)等號的右邊稠茂,λ表示事件的頻率(如平均每小時出生3個)柠偶,λt表示長度為t的時間間隔中的平均事件數(shù)情妖。
泊松分布的均值和方差均為λt。

二诱担、連續(xù)型分布
(一)均勻分布
均勻分布所有可能結(jié)果n個數(shù)的發(fā)生概率是相等的毡证,均勻分布變量X的概率密度函數(shù)([概率密度函數(shù)]概念是針對連續(xù)分布的,求積分即發(fā)生概率)為:



均勻分布密度函數(shù)曲線的形狀是一個矩形蔫仙,這也是均勻分布又稱為矩形分布的原因料睛,a和b是參數(shù)。例子:花店每天銷售的花束數(shù)量是均勻分布的摇邦,最多為40恤煞,最少為10,計算日銷售量在15到30之間的概率(即密度函數(shù)曲線下的面積):(30-15)*(1/(40-10))=0.5施籍。遵循均勻分布的變量X的期望和方差為:(a+b)/2居扒、(b-a)^2/12

(二)正態(tài)分布
正態(tài)分布的特征:1.分布的平均值、中位數(shù)和眾數(shù)一致丑慎;2.分布曲線是鐘形的喜喂,關(guān)于線x=μ對稱;3.曲線下的總面積為1竿裂;4.兩個正態(tài)分布之積仍為正態(tài)分布夜惭;5.兩個獨(dú)立且服從正態(tài)分布的隨機(jī)變量的和服從正態(tài)分布。
若隨機(jī)變量X服從位置參數(shù)μ,尺度參數(shù)sigma^2 的概率分布N(μ,sigma^2)铛绰,且其概率密度函數(shù)為:


正態(tài)曲線下橫軸上一定區(qū)間的面積反映該區(qū)間的例數(shù)占總例數(shù)的百分比,或變量值落在該區(qū)間的概率:

“小概率事件”通常指發(fā)生概率小于5%的事件(認(rèn)為在一次實(shí)驗(yàn)中幾乎不可能發(fā)生)产喉,X落在3倍標(biāo)準(zhǔn)差以外的概率小于3%捂掰,在實(shí)際問題中常認(rèn)為相應(yīng)的事件不會發(fā)生,

看作是隨機(jī)變量X實(shí)際可能的取值區(qū)間(3sigma法則)曾沈。

(三)指數(shù)分布
指數(shù)分布是獨(dú)立事件發(fā)生的時間間隔这嚣。例如嬰兒出生的時間間隔、來電的時間間隔塞俱、奶粉銷售的時間間隔姐帚、網(wǎng)站訪問的時間間隔

指數(shù)分布的公式可以從泊松分布推斷出來。如果下一個嬰兒出生要間隔時間t障涯,就等同于t之內(nèi)沒有任何嬰兒出生

反過來罐旗,事件在時間t之內(nèi)發(fā)生的概率,就是1減去上面的值(即累計分布函數(shù)公式)
指數(shù)分布的圖形大體如下:隨著間隔時間變長唯蝶,事件的發(fā)生概率急劇下降九秀,呈現(xiàn)指數(shù)式衰減。
指數(shù)分布

(四)伽瑪分布
Gamma分布即多個獨(dú)立且相同分布的指數(shù)分布變量和的分布粘我,即從頭開始到第n次事件的發(fā)生時間鼓蜒。



(五)共軛先驗(yàn)分布
共軛是選取一個函數(shù)作為似然函數(shù)的先驗(yàn)概率分布,使得后驗(yàn)分布函數(shù)和先驗(yàn)分布函數(shù)形式一致(Beta分布是二項(xiàng)式分布的共軛先驗(yàn)概率分布,而狄利克雷分布(Dirichlet分布)是多項(xiàng)式分布的共軛先驗(yàn)概率分布)都弹。

貝葉斯規(guī)則:后驗(yàn)分布=似然函數(shù)*先驗(yàn)概率分布

(六)貝塔分布
貝塔分布(Beta Distribution) 是一個作為伯努利分布和二項(xiàng)式分布的共軛先驗(yàn)分布的密度函數(shù)娇豫,在機(jī)器學(xué)習(xí)和數(shù)理統(tǒng)計學(xué)中有重要應(yīng)用。在概率論中畅厢,貝塔分布也稱Β分布冯痢,是指一組定義在(0,1) 區(qū)間的連續(xù)概率分布。當(dāng)不知道某個具體事件的發(fā)生概率時或详,貝塔分布可以給出所有概率出現(xiàn)的可能性大小系羞。
例如 α=0.99,β=0.5霸琴,貝塔分布B(α,β)如下圖所示:


栗子:https://www.cnblogs.com/shixisheng/p/7197623.html?utm_source=itdadao&utm_medium=referral

(七)卡方分布


三椒振、分布之間的關(guān)系
(一)伯努利分布和二項(xiàng)分布的關(guān)系:
1.伯努利分布是二項(xiàng)分布的單次試驗(yàn)的特例,即單次二項(xiàng)分布試驗(yàn)梧乘;
2.二項(xiàng)分布和伯努利分布的每次試驗(yàn)都只有兩個可能的結(jié)果澎迎;
3.二項(xiàng)分布每次試驗(yàn)都是互相獨(dú)立的,每一次試驗(yàn)都可以看作一個伯努利分布选调。

(二)泊松分布和二項(xiàng)分布的關(guān)系:
以下條件下夹供,泊松分布是二項(xiàng)分布的極限形式:
1.試驗(yàn)次數(shù)非常大或者趨近無窮,即n→∞仁堪;
2.每次試驗(yàn)的成功概率相同且趨近零哮洽,即p→0;
3.np=λ是有限值弦聂。

(三)正態(tài)分布和二項(xiàng)分布的關(guān)系&正態(tài)分布和泊松分布的關(guān)系:
以下條件下鸟辅,正態(tài)分布是二項(xiàng)分布的一種極限形式:
1.試驗(yàn)次數(shù)非常大或者趨近無窮,即n→∞莺葫;
2.p和q都不是無窮小

當(dāng)參數(shù)λ→∞的時候匪凉,正態(tài)分布是泊松分布的極限形式。

(四)指數(shù)分布和泊松分布的關(guān)系:
如果隨機(jī)事件的時間間隔服從參數(shù)為λ的指數(shù)分布捺檬,那么在時間周期t內(nèi)事件發(fā)生的總次數(shù)服從泊松分布再层,相應(yīng)的參數(shù)為λt。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末堡纬,一起剝皮案震驚了整個濱河市聂受,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌隐轩,老刑警劉巖饺饭,帶你破解...
    沈念sama閱讀 218,546評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異职车,居然都是意外死亡瘫俊,警方通過查閱死者的電腦和手機(jī)鹊杖,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,224評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來扛芽,“玉大人骂蓖,你說我怎么就攤上這事〈猓” “怎么了登下?”我有些...
    開封第一講書人閱讀 164,911評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長叮喳。 經(jīng)常有香客問我被芳,道長,這世上最難降的妖魔是什么馍悟? 我笑而不...
    開封第一講書人閱讀 58,737評論 1 294
  • 正文 為了忘掉前任畔濒,我火速辦了婚禮,結(jié)果婚禮上锣咒,老公的妹妹穿的比我還像新娘侵状。我一直安慰自己,他們只是感情好毅整,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,753評論 6 392
  • 文/花漫 我一把揭開白布趣兄。 她就那樣靜靜地躺著,像睡著了一般悼嫉。 火紅的嫁衣襯著肌膚如雪艇潭。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,598評論 1 305
  • 那天戏蔑,我揣著相機(jī)與錄音暴区,去河邊找鬼。 笑死辛臊,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的房交。 我是一名探鬼主播彻舰,決...
    沈念sama閱讀 40,338評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼候味!你這毒婦竟也來了刃唤?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,249評論 0 276
  • 序言:老撾萬榮一對情侶失蹤白群,失蹤者是張志新(化名)和其女友劉穎尚胞,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體帜慢,經(jīng)...
    沈念sama閱讀 45,696評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡笼裳,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,888評論 3 336
  • 正文 我和宋清朗相戀三年唯卖,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片躬柬。...
    茶點(diǎn)故事閱讀 40,013評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡拜轨,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出允青,到底是詐尸還是另有隱情橄碾,我是刑警寧澤,帶...
    沈念sama閱讀 35,731評論 5 346
  • 正文 年R本政府宣布颠锉,位于F島的核電站法牲,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏琼掠。R本人自食惡果不足惜拒垃,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,348評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望眉枕。 院中可真熱鬧恶复,春花似錦、人聲如沸速挑。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,929評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽姥宝。三九已至翅萤,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間腊满,已是汗流浹背套么。 一陣腳步聲響...
    開封第一講書人閱讀 33,048評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留碳蛋,地道東北人胚泌。 一個月前我還...
    沈念sama閱讀 48,203評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像肃弟,于是被迫代替她去往敵國和親玷室。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,960評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 隨機(jī)變量是根據(jù)偶然性取值的變量笤受。我們在談到隨機(jī)變量時穷缤,通常是以“概率分布”的形式來描述他們。也即:隨機(jī)變量落在每一...
    小貍投資閱讀 5,365評論 1 7
  • 第一章 隨機(jī)事件及其概率 1.1隨機(jī)事件 一箩兽、隨機(jī)現(xiàn)象 并不總是出現(xiàn)相同的結(jié)果津肛,結(jié)果并不只一個,哪個結(jié)果出現(xiàn)是未知...
    Black_Eye閱讀 5,607評論 0 6
  • 一汗贫、基本概念 1. 隨機(jī)變量 隨機(jī)變量是試驗(yàn)結(jié)果的實(shí)值函數(shù)身坐。舉例來說秸脱,擲一枚質(zhì)地均勻的骰子,可能出現(xiàn)的結(jié)果有1掀亥,2...
    Vicky_1ecd閱讀 3,351評論 0 1
  • 故事全篇:《妖說妖話之夢未央》目錄 上一篇:《妖說妖話之夢未央》四十四搪花、欠我一個人情 依稀記得莉姐曾經(jīng)說過遏片,...
    慕顏未央閱讀 594評論 0 0
  • 這是我第二次來簡書,第一次在過年前后撮竿。 雖然天天流水賬似的寫吮便,沒有一篇精致,從來寫完就拉倒幢踏,看都不看髓需,改更甭提,都...
    碎影舞斜陽1閱讀 178評論 0 1