18個常見的數(shù)據(jù)分析面試題-概率統(tǒng)計類

總結(jié)了一些常見的概率與統(tǒng)計類的數(shù)據(jù)分析面試題,不定期更新......

隨機(jī)變量的含義

一個隨機(jī)事件的所有可能的值X谐檀,且每個可能值X都有確定的概率P声畏,X就是P(X)的隨機(jī)變量。比如擲骰子中出現(xiàn)的點數(shù)

隨機(jī)變量和隨機(jī)試驗間有什么關(guān)系

  • 隨機(jī)試驗:相同條件下對某隨機(jī)現(xiàn)象進(jìn)行的大量重復(fù)觀測的試驗唇聘,如擲硬幣100次統(tǒng)計正面朝上的次數(shù)
  • 隨機(jī)變量是用來描述隨機(jī)試驗結(jié)果的。

劃分連續(xù)型隨機(jī)變量和離散型隨機(jī)變量的依據(jù)

  • 離散型隨機(jī)變量:隨機(jī)變量X能被一一列舉出來柱搜,如一批產(chǎn)品中次品的數(shù)量迟郎,某地區(qū)人口的出生數(shù)等。
  • 連續(xù)型隨機(jī)變量:隨機(jī)變量X不能被一一列舉出來聪蘸,如一批電子元器件的壽命宪肖,身高、體重等健爬。

所以劃分二者的依據(jù)是隨機(jī)變量是否可數(shù)

變量獨立和不相關(guān)的區(qū)別

若X和Y不相關(guān)控乾,通常認(rèn)為X和Y之間是沒有線性關(guān)系,但不排除沒有其他關(guān)系

若X和Y獨立娜遵,是沒有關(guān)系蜕衡,互不干擾

因此,“不相關(guān)”是一個比“獨立”要弱的概念

常見分布的分布函數(shù)/概率密度函數(shù)设拟,以及分布的特性慨仿。

分別從離散型和連續(xù)型兩方面說:

離散型隨機(jī)變量的分布

  • 二項分布
    進(jìn)行一系列獨立試驗 -> 每一次試驗都存在成功和失敗的可能,且成功的概率相同 -> 試驗次數(shù)有限纳胧。

二項分布記做X~B(n,p)镰吆,X表示n次試驗中的成功次數(shù),我們要求的是成功的次數(shù)

如發(fā)放100張優(yōu)惠券,其中x張優(yōu)惠券被使用的概率就是一個二項分布跑慕。

  • 伯努利分布
    0-1分布万皿,每次試驗的結(jié)果只有2種,是n=1的二項分布的特殊情況

如擲硬幣核行,只有正面朝上或反面朝上兩種情況

  • 幾何分布
    獨立試驗->拿到一種卡片的概率相同->為了集齊卡片要進(jìn)行多少次試驗

  • 泊松分布
    單獨事件在給定區(qū)間內(nèi)隨機(jī)牢硅、獨立地發(fā)生(給定區(qū)間可以是時間或空間) -> 已知該區(qū)間內(nèi)的事件平均發(fā)生次數(shù),且為有限數(shù)值芝雪。

如某加油站减余,平均每小時來加油的車輛為10輛,泊松分布求的這個加油站每小時前來加油的車輛次數(shù)的概率

關(guān)于離散型隨機(jī)變量分布可參考:

連續(xù)型隨機(jī)變量的分布

  • 正態(tài)分布
    又叫高斯分布绵脯,正態(tài)分布通過參數(shù)平均值和方差確定


  • 均勻分布
    也叫矩形分布佳励,概率密度函數(shù)的結(jié)果是一個固定的數(shù)值


均勻分布在自然情況下極為罕見休里,它的概率密度函數(shù)為:


image
  • 指數(shù)分布
    指數(shù)分布是描述泊松過程中的事件之間的時間的概率分布薯鳍,即事件以恒定平均速率連續(xù)且獨立地發(fā)生的過程圾旨。如旅客進(jìn)機(jī)場的時間間隔,還有許多電子產(chǎn)品的壽命分布一般服從指數(shù)分布是整。

其概率密度函數(shù)為:

image

指數(shù)分布具有無記憶的關(guān)鍵性質(zhì)瞧剖。這表示如果一個隨機(jī)變量呈指數(shù)分布拭嫁,當(dāng)s,t>0時有P(T>t+s|T>t)=P(T>s)。即抓于,如果T是某一元件的壽命做粤,已知元件使用了t小時,它總共使用至少s+t小時的條件概率捉撮,與從開始使用時算起它使用至少s小時的概率相等怕品。

關(guān)于連續(xù)型隨機(jī)變量的分布,可參考:

協(xié)方差和相關(guān)系數(shù)的區(qū)別

  • 協(xié)方差

只表示相關(guān)的方向

衡量兩個變量的總體誤差巾遭,方差是協(xié)方差的特殊情況肉康,即當(dāng)兩個變量是相同的情況。

如果兩個變量的變化趨勢一致灼舍,也就是說如果其中一個大于自身的期望值吼和,另外一個也大于自身的期望值,那么兩個變量之間的協(xié)方差就是正值(你變大骑素,我也變大炫乓,協(xié)方差就是正的)。 如果兩個變量的變化趨勢相反献丑,即其中一個大于自身的期望值末捣,另外一個卻小于自身的期望值,那么兩個變量之間的協(xié)方差就是負(fù)值阳距。

也就是說塔粒,協(xié)方差為正结借,表示兩個變量同變化筐摘,為負(fù),不同變化

并且協(xié)方差的絕對值不反映線性相關(guān)的程度(其絕對值與變量的取值范圍有關(guān)系)

但是嘞協(xié)方差為0的兩個隨機(jī)變量是不相關(guān)的

  • 相關(guān)系數(shù)

不僅表示線性相關(guān)的方向船老,還能衡量其相關(guān)程度

研究變量之間線性相關(guān)程度的量咖熟,取值范圍是[-1,1]。

相關(guān)系數(shù)也可以看成協(xié)方差:一種剔除了兩個變量量綱影響柳畔、標(biāo)準(zhǔn)化后的特殊協(xié)方差馍管。

中位數(shù)是否等于期望

標(biāo)準(zhǔn)正態(tài)分布中位數(shù)等于期望
右偏(正偏)態(tài)時,中位數(shù)小于期望
左偏(負(fù)偏)態(tài)時薪韩,中位數(shù)大于期望

正態(tài)分布的基本特征是什么

正態(tài)分布又叫高斯分布确沸,是一個鐘形曲線捌锭,曲線對稱,中央部分的概率密度最大罗捎,越往兩邊观谦,概率密度越小。μ決定了曲線的中央位置桨菜,σ決定了曲線的分散性豁状,σ越大,曲線越平緩倒得,σ越小泻红,曲線越陡峭。

很多實際問題都是符合正態(tài)分布的霞掺,如身高谊路、體重等。正態(tài)分布在質(zhì)量管理中也應(yīng)用的非常廣泛菩彬,“3σ原則”就是在正態(tài)分布的原理上建立的凶异。
3σ原則是:

  • 數(shù)值分布在(μ—σ,μ+σ)中的概率為0.6826
  • 數(shù)值分布在(μ—2σ,μ+2σ)中的概率為0.9544
  • 數(shù)值分布在(μ—3σ,μ+3σ)中的概率為0.9974
    因此可以認(rèn)為,Y 的取值幾乎全部集中在(μ—3σ,μ+3σ)]區(qū)間內(nèi),超出這個范圍的可能性僅占不到0.3%,這是一個小概率事件挤巡,通常在一次試驗中是不會發(fā)生的剩彬,一旦發(fā)生就可以認(rèn)為質(zhì)量出現(xiàn)了異常。
image

列舉常用的大數(shù)定律及其區(qū)別

在隨機(jī)事件的大量重復(fù)出現(xiàn)中矿卑,往往呈現(xiàn)幾乎必然的規(guī)律喉恋,這個規(guī)律就是大數(shù)定律。通俗地說母廷,這個定理就是轻黑,在試驗不變的條件下,重復(fù)試驗多次琴昆,隨機(jī)事件的頻率近似于它的概率氓鄙。偶然中包含著某種必然。

在重復(fù)投擲一枚硬幣的隨機(jī)試驗中业舍,觀測投擲了n次硬幣中出現(xiàn)正面的次數(shù)抖拦。不同的n次試驗,出現(xiàn)正面的頻率可能不同舷暮,但當(dāng)試驗的次數(shù)n越來越大時态罪,出現(xiàn)正面的頻率將大體上逐漸接近于1/2。這就是大數(shù)定律下面。

隨機(jī)變量X隨著試驗次數(shù)的增加复颈,X的均值會越發(fā)趨近于E(X)

中心極限定理

假設(shè)一組隨機(jī)變量相互獨立且同分布,當(dāng)n足夠大時沥割,均值的分布接近于正態(tài)分布

中心極限定理作用:
(1)在沒有辦法得到總體全部數(shù)據(jù)的情況下耗啦,我們可以用樣本來估計總體凿菩。
(2)根據(jù)總體的平均值和標(biāo)準(zhǔn)差,判斷某個樣本是否屬于總體帜讲。

假設(shè)檢驗的基本思想

小概率反證法蓄髓。即為了檢驗一個假設(shè)是否成立,我們先假設(shè)它成立舒帮,在原假設(shè)成立的前提下会喝,如果出現(xiàn)了不合理的事件,則說明樣本與總體的差異是顯著的玩郊,就拒絕原假設(shè)肢执,如果沒有出現(xiàn)不合理的事件,就不拒絕原假設(shè)译红。

這里所述的不合理的事件指的就是小概率事件预茄,通常情況下我們認(rèn)為一個小概率事件基本上不會發(fā)生,如果發(fā)生了侦厚,說明它就不是一個小概率事件了耻陕,所以要拒絕原假設(shè)。

假設(shè)檢驗中的兩類錯誤

第I類錯誤:棄真刨沦,原假設(shè)為真诗宣,卻被我們拒絕了。
第II類錯誤:取偽想诅,原假設(shè)為假召庞,卻沒被拒絕。
[圖片上傳失敗...(image-f8f498-1605564475501)]

如何平衡這兩類錯誤来破?

我們要盡可能地將犯兩類錯誤的概率降到最低篮灼。但是,在樣本容量固定的前提下徘禁,減少犯第I類錯誤的概率诅诱,必然會增加犯第II類錯誤的概率,一般來說送朱,我們總是先控制犯第I類錯誤的概率娘荡,使它不大于顯著性水平。而犯第II類錯誤的概率依賴于樣本容量的大小骤菠,因此對樣本容量的選擇上它改,也要有所考量。

解釋P值顯著性水平

  • P值:當(dāng)原假設(shè)為真時商乎,樣本觀察結(jié)果或更極端的結(jié)果出現(xiàn)的概率就是P值

區(qū)分顯著性水平和置信區(qū)間

  • 顯著性水平:希望在樣本結(jié)果的不可能程度達(dá)到多大時,就拒絕原假設(shè)祭阀,也就是小概率事件發(fā)生的概率鹉戚。則是假設(shè)真值是多少鲜戒,然后檢驗這個假設(shè)是否可能為真。
  • 置信區(qū)間抹凳,目的是根據(jù)樣本構(gòu)造一個區(qū)間遏餐,然后希望這個區(qū)間可以把真值包含進(jìn)去,但是并不知道這個真值是多少赢底?

條件概率

P(A|B)=P(AB)/P(B)失都,條件概率P(A|B) 指在事件B發(fā)生的條件下事件A發(fā)生的概率,P(AB)表示事件A和B同時發(fā)生的概率幸冻,P(B)是事件B發(fā)生的概率粹庞,其演化式可以得到:P(A|B)P(B)=P(B|A)P(A)

全概率公式

假設(shè)事件B有兩種發(fā)生方式,與事件A一起發(fā)生洽损;不與事件A一起發(fā)生庞溜,那么可以用下面的公式得到事件B發(fā)生的概率:



又由條件概率可以推導(dǎo)出:



代入得到:
全概率公式

這就是全概率公式,由條件概率計算一個特定事件的概率碑定。

貝葉斯公式

假如已知的條件概率是P(B|A)流码,那么貝葉斯公式則提供了一種計算逆條件概率的方法,也就是要求P(A|B)的概率延刘。
首先條件概率:



剛剛也推導(dǎo)了



再將全概率公式P(B)代入漫试,就得到:
貝葉斯公式

發(fā)現(xiàn)一個有趣的案例
一日某超市發(fā)生盜竊案,嫌疑人甲發(fā)生盜竊的可能性為10%碘赖,嫌疑人乙發(fā)生盜竊的可能性為90%商虐,目擊者稱盜竊者是甲,目擊者證言可信度為80%崖疤,那么現(xiàn)在請估算出目擊者證言的準(zhǔn)確度秘车。
嫌疑人甲盜竊的概率為P(A)=10%
嫌疑人乙盜竊的概率為P(B)=P(A)=90% 目擊者證言可信度的概率為P(C) 在甲盜竊的前提下目擊者稱盜竊者是甲的概率為P(C|A)=80% 在甲盜竊的前提下目擊者稱盜竊者不是甲的概率為P(C|A)=20%
現(xiàn)在要求的是P(A|C)也就是目擊者證言可信度準(zhǔn)確的前提下甲盜竊的概率。

我們要求的是一個條件概率P(A|C)劫哼,已知的一個條件概率P(C|A)剛好是要求的條件概率的逆概率叮趴,這里就要用到貝葉斯公式了。
P(A|C)=P(A)P(C|A)/(P(A)P(C|A)+P(A)P(C|A))
=10%80% / 10%80%+ 90%*20%
=30.77%

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末权烧,一起剝皮案震驚了整個濱河市眯亦,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌般码,老刑警劉巖妻率,帶你破解...
    沈念sama閱讀 206,968評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異板祝,居然都是意外死亡宫静,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來孤里,“玉大人伏伯,你說我怎么就攤上這事“仆啵” “怎么了说搅?”我有些...
    開封第一講書人閱讀 153,220評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長虏等。 經(jīng)常有香客問我弄唧,道長,這世上最難降的妖魔是什么霍衫? 我笑而不...
    開封第一講書人閱讀 55,416評論 1 279
  • 正文 為了忘掉前任候引,我火速辦了婚禮,結(jié)果婚禮上慕淡,老公的妹妹穿的比我還像新娘背伴。我一直安慰自己,他們只是感情好峰髓,可當(dāng)我...
    茶點故事閱讀 64,425評論 5 374
  • 文/花漫 我一把揭開白布傻寂。 她就那樣靜靜地躺著,像睡著了一般携兵。 火紅的嫁衣襯著肌膚如雪疾掰。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,144評論 1 285
  • 那天徐紧,我揣著相機(jī)與錄音静檬,去河邊找鬼。 笑死并级,一個胖子當(dāng)著我的面吹牛拂檩,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播嘲碧,決...
    沈念sama閱讀 38,432評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼稻励,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了愈涩?” 一聲冷哼從身側(cè)響起望抽,我...
    開封第一講書人閱讀 37,088評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎履婉,沒想到半個月后煤篙,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,586評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡毁腿,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,028評論 2 325
  • 正文 我和宋清朗相戀三年辑奈,在試婚紗的時候發(fā)現(xiàn)自己被綠了苛茂。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,137評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡身害,死狀恐怖味悄,靈堂內(nèi)的尸體忽然破棺而出草戈,到底是詐尸還是另有隱情塌鸯,我是刑警寧澤,帶...
    沈念sama閱讀 33,783評論 4 324
  • 正文 年R本政府宣布唐片,位于F島的核電站丙猬,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏费韭。R本人自食惡果不足惜茧球,卻給世界環(huán)境...
    茶點故事閱讀 39,343評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望星持。 院中可真熱鬧抢埋,春花似錦、人聲如沸督暂。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽逻翁。三九已至饥努,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間八回,已是汗流浹背酷愧。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留缠诅,地道東北人溶浴。 一個月前我還...
    沈念sama閱讀 45,595評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像管引,于是被迫代替她去往敵國和親士败。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,901評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 統(tǒng)計學(xué)中常用的數(shù)據(jù)分析方法匯總 01. 描述統(tǒng)計 描述統(tǒng)計是通過圖表或數(shù)學(xué)方法汉匙,對數(shù)據(jù)資料進(jìn)行整理拱烁、分析,并對數(shù)據(jù)...
    羋學(xué)僧閱讀 895評論 0 5
  • 歷史尋根概率論的前世今生 人類所有的知識來源都與生活息息相關(guān)的的并非是憑空捏造的噩翠,數(shù)學(xué)知識更是如此與其說數(shù)學(xué)是一門...
    羅澤坤閱讀 7,756評論 9 39
  • 久違的晴天戏自,家長會。 家長大會開好到教室時伤锚,離放學(xué)已經(jīng)沒多少時間了擅笔。班主任說已經(jīng)安排了三個家長分享經(jīng)驗。 放學(xué)鈴聲...
    飄雪兒5閱讀 7,495評論 16 22
  • 創(chuàng)業(yè)是很多人的夢想,多少人為了理想和不甘選擇了創(chuàng)業(yè)來實現(xiàn)自我價值猛们,我就是其中一個念脯。 創(chuàng)業(yè)后,我由女人變成了超人弯淘,什...
    亦寶寶閱讀 1,802評論 4 1
  • 今天感恩節(jié)哎绿店,感謝一直在我身邊的親朋好友。感恩相遇庐橙!感恩不離不棄假勿。 中午開了第一次的黨會,身份的轉(zhuǎn)變要...
    迷月閃星情閱讀 10,551評論 0 11