總結(jié)了一些常見的概率與統(tǒng)計類的數(shù)據(jù)分析面試題,不定期更新......
隨機(jī)變量的含義
一個隨機(jī)事件的所有可能的值X谐檀,且每個可能值X都有確定的概率P声畏,X就是P(X)的隨機(jī)變量。比如擲骰子中出現(xiàn)的點數(shù)
隨機(jī)變量和隨機(jī)試驗間有什么關(guān)系
- 隨機(jī)試驗:相同條件下對某隨機(jī)現(xiàn)象進(jìn)行的大量重復(fù)觀測的試驗唇聘,如擲硬幣100次統(tǒng)計正面朝上的次數(shù)
- 隨機(jī)變量是用來描述隨機(jī)試驗結(jié)果的。
劃分連續(xù)型隨機(jī)變量和離散型隨機(jī)變量的依據(jù)
- 離散型隨機(jī)變量:隨機(jī)變量X能被一一列舉出來柱搜,如一批產(chǎn)品中次品的數(shù)量迟郎,某地區(qū)人口的出生數(shù)等。
- 連續(xù)型隨機(jī)變量:隨機(jī)變量X不能被一一列舉出來聪蘸,如一批電子元器件的壽命宪肖,身高、體重等健爬。
所以劃分二者的依據(jù)是隨機(jī)變量是否可數(shù)
變量獨立和不相關(guān)的區(qū)別
若X和Y不相關(guān)控乾,通常認(rèn)為X和Y之間是沒有線性關(guān)系,但不排除沒有其他關(guān)系
若X和Y獨立娜遵,是沒有關(guān)系蜕衡,互不干擾
因此,“不相關(guān)”是一個比“獨立”要弱的概念
常見分布的分布函數(shù)/概率密度函數(shù)设拟,以及分布的特性慨仿。
分別從離散型和連續(xù)型兩方面說:
離散型隨機(jī)變量的分布
- 二項分布
進(jìn)行一系列獨立試驗 -> 每一次試驗都存在成功和失敗的可能,且成功的概率相同 -> 試驗次數(shù)有限纳胧。
二項分布記做X~B(n,p)镰吆,X表示n次試驗中的成功次數(shù),我們要求的是成功的次數(shù)
如發(fā)放100張優(yōu)惠券,其中x張優(yōu)惠券被使用的概率就是一個二項分布跑慕。
- 伯努利分布
0-1分布万皿,每次試驗的結(jié)果只有2種,是n=1的二項分布的特殊情況
如擲硬幣核行,只有正面朝上或反面朝上兩種情況
幾何分布
獨立試驗->拿到一種卡片的概率相同->為了集齊卡片要進(jìn)行多少次試驗泊松分布
單獨事件在給定區(qū)間內(nèi)隨機(jī)牢硅、獨立地發(fā)生(給定區(qū)間可以是時間或空間) -> 已知該區(qū)間內(nèi)的事件平均發(fā)生次數(shù),且為有限數(shù)值芝雪。
如某加油站减余,平均每小時來加油的車輛為10輛,泊松分布求的這個加油站每小時前來加油的車輛次數(shù)的概率
關(guān)于離散型隨機(jī)變量分布可參考:
連續(xù)型隨機(jī)變量的分布
-
正態(tài)分布
又叫高斯分布绵脯,正態(tài)分布通過參數(shù)平均值和方差確定
-
均勻分布
也叫矩形分布佳励,概率密度函數(shù)的結(jié)果是一個固定的數(shù)值
均勻分布在自然情況下極為罕見休里,它的概率密度函數(shù)為:
- 指數(shù)分布
指數(shù)分布是描述泊松過程中的事件之間的時間的概率分布薯鳍,即事件以恒定平均速率連續(xù)且獨立地發(fā)生的過程圾旨。如旅客進(jìn)機(jī)場的時間間隔,還有許多電子產(chǎn)品的壽命分布一般服從指數(shù)分布是整。
其概率密度函數(shù)為:
指數(shù)分布具有無記憶的關(guān)鍵性質(zhì)瞧剖。這表示如果一個隨機(jī)變量呈指數(shù)分布拭嫁,當(dāng)s,t>0時有P(T>t+s|T>t)=P(T>s)。即抓于,如果T是某一元件的壽命做粤,已知元件使用了t小時,它總共使用至少s+t小時的條件概率捉撮,與從開始使用時算起它使用至少s小時的概率相等怕品。
關(guān)于連續(xù)型隨機(jī)變量的分布,可參考:
協(xié)方差和相關(guān)系數(shù)的區(qū)別
- 協(xié)方差
只表示相關(guān)的方向
衡量兩個變量的總體誤差巾遭,方差是協(xié)方差的特殊情況肉康,即當(dāng)兩個變量是相同的情況。
如果兩個變量的變化趨勢一致灼舍,也就是說如果其中一個大于自身的期望值吼和,另外一個也大于自身的期望值,那么兩個變量之間的協(xié)方差就是正值(你變大骑素,我也變大炫乓,協(xié)方差就是正的)。 如果兩個變量的變化趨勢相反献丑,即其中一個大于自身的期望值末捣,另外一個卻小于自身的期望值,那么兩個變量之間的協(xié)方差就是負(fù)值阳距。
也就是說塔粒,協(xié)方差為正结借,表示兩個變量同變化筐摘,為負(fù),不同變化
并且協(xié)方差的絕對值不反映線性相關(guān)的程度(其絕對值與變量的取值范圍有關(guān)系)
但是嘞協(xié)方差為0的兩個隨機(jī)變量是不相關(guān)的
- 相關(guān)系數(shù)
不僅表示線性相關(guān)的方向船老,還能衡量其相關(guān)程度
研究變量之間線性相關(guān)程度的量咖熟,取值范圍是[-1,1]。
相關(guān)系數(shù)也可以看成協(xié)方差:一種剔除了兩個變量量綱影響柳畔、標(biāo)準(zhǔn)化后的特殊協(xié)方差馍管。
中位數(shù)是否等于期望
標(biāo)準(zhǔn)正態(tài)分布中位數(shù)等于期望
右偏(正偏)態(tài)時,中位數(shù)小于期望
左偏(負(fù)偏)態(tài)時薪韩,中位數(shù)大于期望
正態(tài)分布的基本特征是什么
正態(tài)分布又叫高斯分布确沸,是一個鐘形曲線捌锭,曲線對稱,中央部分的概率密度最大罗捎,越往兩邊观谦,概率密度越小。μ決定了曲線的中央位置桨菜,σ決定了曲線的分散性豁状,σ越大,曲線越平緩倒得,σ越小泻红,曲線越陡峭。
很多實際問題都是符合正態(tài)分布的霞掺,如身高谊路、體重等。正態(tài)分布在質(zhì)量管理中也應(yīng)用的非常廣泛菩彬,“3σ原則”就是在正態(tài)分布的原理上建立的凶异。
3σ原則是:
- 數(shù)值分布在(μ—σ,μ+σ)中的概率為0.6826
- 數(shù)值分布在(μ—2σ,μ+2σ)中的概率為0.9544
- 數(shù)值分布在(μ—3σ,μ+3σ)中的概率為0.9974
因此可以認(rèn)為,Y 的取值幾乎全部集中在(μ—3σ,μ+3σ)]區(qū)間內(nèi),超出這個范圍的可能性僅占不到0.3%,這是一個小概率事件挤巡,通常在一次試驗中是不會發(fā)生的剩彬,一旦發(fā)生就可以認(rèn)為質(zhì)量出現(xiàn)了異常。
列舉常用的大數(shù)定律及其區(qū)別
在隨機(jī)事件的大量重復(fù)出現(xiàn)中矿卑,往往呈現(xiàn)幾乎必然的規(guī)律喉恋,這個規(guī)律就是大數(shù)定律。通俗地說母廷,這個定理就是轻黑,在試驗不變的條件下,重復(fù)試驗多次琴昆,隨機(jī)事件的頻率近似于它的概率氓鄙。偶然中包含著某種必然。
在重復(fù)投擲一枚硬幣的隨機(jī)試驗中业舍,觀測投擲了n次硬幣中出現(xiàn)正面的次數(shù)抖拦。不同的n次試驗,出現(xiàn)正面的頻率可能不同舷暮,但當(dāng)試驗的次數(shù)n越來越大時态罪,出現(xiàn)正面的頻率將大體上逐漸接近于1/2。這就是大數(shù)定律下面。
隨機(jī)變量X隨著試驗次數(shù)的增加复颈,X的均值會越發(fā)趨近于E(X)
中心極限定理
假設(shè)一組隨機(jī)變量相互獨立且同分布,當(dāng)n足夠大時沥割,均值的分布接近于正態(tài)分布
中心極限定理作用:
(1)在沒有辦法得到總體全部數(shù)據(jù)的情況下耗啦,我們可以用樣本來估計總體凿菩。
(2)根據(jù)總體的平均值和標(biāo)準(zhǔn)差,判斷某個樣本是否屬于總體帜讲。
假設(shè)檢驗的基本思想
小概率反證法蓄髓。即為了檢驗一個假設(shè)是否成立,我們先假設(shè)它成立舒帮,在原假設(shè)成立的前提下会喝,如果出現(xiàn)了不合理的事件,則說明樣本與總體的差異是顯著的玩郊,就拒絕原假設(shè)肢执,如果沒有出現(xiàn)不合理的事件,就不拒絕原假設(shè)译红。
這里所述的不合理的事件指的就是小概率事件预茄,通常情況下我們認(rèn)為一個小概率事件基本上不會發(fā)生,如果發(fā)生了侦厚,說明它就不是一個小概率事件了耻陕,所以要拒絕原假設(shè)。
假設(shè)檢驗中的兩類錯誤
第I類錯誤:棄真刨沦,原假設(shè)為真诗宣,卻被我們拒絕了。
第II類錯誤:取偽想诅,原假設(shè)為假召庞,卻沒被拒絕。
[圖片上傳失敗...(image-f8f498-1605564475501)]
如何平衡這兩類錯誤来破?
我們要盡可能地將犯兩類錯誤的概率降到最低篮灼。但是,在樣本容量固定的前提下徘禁,減少犯第I類錯誤的概率诅诱,必然會增加犯第II類錯誤的概率,一般來說送朱,我們總是先控制犯第I類錯誤的概率娘荡,使它不大于顯著性水平。而犯第II類錯誤的概率依賴于樣本容量的大小骤菠,因此對樣本容量的選擇上它改,也要有所考量。
解釋P值顯著性水平
- P值:當(dāng)原假設(shè)為真時商乎,樣本觀察結(jié)果或更極端的結(jié)果出現(xiàn)的概率就是P值
區(qū)分顯著性水平和置信區(qū)間
- 顯著性水平:希望在樣本結(jié)果的不可能程度達(dá)到多大時,就拒絕原假設(shè)祭阀,也就是小概率事件發(fā)生的概率鹉戚。則是假設(shè)真值是多少鲜戒,然后檢驗這個假設(shè)是否可能為真。
- 置信區(qū)間抹凳,目的是根據(jù)樣本構(gòu)造一個區(qū)間遏餐,然后希望這個區(qū)間可以把真值包含進(jìn)去,但是并不知道這個真值是多少赢底?
條件概率
P(A|B)=P(AB)/P(B)失都,條件概率P(A|B) 指在事件B發(fā)生的條件下事件A發(fā)生的概率,P(AB)表示事件A和B同時發(fā)生的概率幸冻,P(B)是事件B發(fā)生的概率粹庞,其演化式可以得到:P(A|B)P(B)=P(B|A)P(A)
全概率公式
假設(shè)事件B有兩種發(fā)生方式,與事件A一起發(fā)生洽损;不與事件A一起發(fā)生庞溜,那么可以用下面的公式得到事件B發(fā)生的概率:
又由條件概率可以推導(dǎo)出:
代入得到:
這就是全概率公式,由條件概率計算一個特定事件的概率碑定。
貝葉斯公式
假如已知的條件概率是P(B|A)流码,那么貝葉斯公式則提供了一種計算逆條件概率的方法,也就是要求P(A|B)的概率延刘。
首先條件概率:
剛剛也推導(dǎo)了
再將全概率公式P(B)代入漫试,就得到:
發(fā)現(xiàn)一個有趣的案例
一日某超市發(fā)生盜竊案,嫌疑人甲發(fā)生盜竊的可能性為10%碘赖,嫌疑人乙發(fā)生盜竊的可能性為90%商虐,目擊者稱盜竊者是甲,目擊者證言可信度為80%崖疤,那么現(xiàn)在請估算出目擊者證言的準(zhǔn)確度秘车。
嫌疑人甲盜竊的概率為P(A)=10%
嫌疑人乙盜竊的概率為P(B)=P(A)=90% 目擊者證言可信度的概率為P(C) 在甲盜竊的前提下目擊者稱盜竊者是甲的概率為P(C|A)=80% 在甲盜竊的前提下目擊者稱盜竊者不是甲的概率為P(C|A
)=20%
現(xiàn)在要求的是P(A|C)也就是目擊者證言可信度準(zhǔn)確的前提下甲盜竊的概率。
我們要求的是一個條件概率P(A|C)劫哼,已知的一個條件概率P(C|A)剛好是要求的條件概率的逆概率叮趴,這里就要用到貝葉斯公式了。
P(A|C)=P(A)P(C|A)/(P(A)P(C|A)+P(A)P(C|A
))
=10%80% / 10%80%+ 90%*20%
=30.77%