-
描述性統(tǒng)計(jì):平均值/標(biāo)準(zhǔn)差/中位數(shù)
描述性統(tǒng)計(jì)是指運(yùn)用制表和分類(lèi)睛廊,圖形以及計(jì)算概括性數(shù)據(jù)來(lái)描述數(shù)據(jù)特征的各項(xiàng)活動(dòng)形真。
描述性統(tǒng)計(jì)分析要對(duì)調(diào)查總體所有變量的有關(guān)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)性描述,主要包括數(shù)據(jù)的頻數(shù)分析超全、集中趨勢(shì)分析咆霜、離散程度分析、分布以及一些基本的統(tǒng)計(jì)圖形嘶朱。
①數(shù)據(jù)的頻數(shù)分析蛾坯。在數(shù)據(jù)的預(yù)處理部分,利用頻數(shù)分析和交叉頻數(shù)分析可以檢驗(yàn)異常值疏遏。
②數(shù)據(jù)的集中趨勢(shì)分析脉课。用來(lái)反映數(shù)據(jù)的一般水平,常用的指標(biāo)有平均值财异、中位數(shù)和眾數(shù)等倘零。
③數(shù)據(jù)的離散程度分析。主要是用來(lái)反映數(shù)據(jù)之間的差異程度戳寸,常用的指標(biāo)有方差和標(biāo)準(zhǔn)差呈驶。
④數(shù)據(jù)的分布。在統(tǒng)計(jì)分析中疫鹊,通常要假設(shè)樣本所屬總體的分布屬于正態(tài)分布袖瞻,因此需要用偏度和峰度兩個(gè)指標(biāo)來(lái)檢查樣本數(shù)據(jù)是否符合正態(tài)分布。
⑤繪制統(tǒng)計(jì)圖拆吆。用圖形的形式來(lái)表達(dá)數(shù)據(jù)聋迎,比用文字表達(dá)更清晰、更簡(jiǎn)明。
-
概率:獨(dú)立事件/相關(guān)事件/期望/貝葉斯
概率,亦稱(chēng)“或然率”,它是反映隨機(jī)事件出現(xiàn)的可能性(likelihood)大小。
隨機(jī)事件:是指在相同條件下削祈,可能出現(xiàn)也可能不出現(xiàn)的事件。
互斥事件:事件A和B的交集為空曹铃,就是互斥事件妓局,也叫互不相容事件。不可能同時(shí)發(fā)生的事件哺眯。
對(duì)立事件:其中必有一個(gè)發(fā)生的兩個(gè)互斥事件叫做對(duì)立事件谷浅。
獨(dú)立事件:在一次實(shí)驗(yàn)中,一個(gè)事件的發(fā)生不會(huì)影響到另一個(gè)事件發(fā)生的概率。
數(shù)學(xué)期望(mean):(或均值一疯,亦簡(jiǎn)稱(chēng)期望)是試驗(yàn)中每次可能結(jié)果的概率乘以其結(jié)果的總和撼玄,是最基本的數(shù)學(xué)特征之一。它反映隨機(jī)變量平均取值的大小墩邀。
貝葉斯定理:能利用有限的信息掌猛,幫助我們預(yù)測(cè)出概率。
貝葉斯定理
P(A)稱(chēng)為先驗(yàn)概率(Prior probability)
P(B|A)/P(B)稱(chēng)為可能性函數(shù)(Likelyhood)
P(A|B)稱(chēng)為后驗(yàn)概率(Posterior probability)
-
概率分布:離散概率分布/連續(xù)概率分布
離散型隨機(jī)變量:可以取有限多個(gè)數(shù)值或無(wú)限可數(shù)多個(gè)數(shù)值的隨機(jī)變量
連續(xù)型隨機(jī)變量:可以在某一區(qū)間或多個(gè)區(qū)間內(nèi)任意取值的隨機(jī)變量
4種離散概率分布:二項(xiàng)分布眉睹、泊松分布荔茬、幾何分布、超幾何分布
1種連續(xù)概率分布:正態(tài)分布
離散型概率函數(shù)的基本條件
(1)對(duì)于任意隨機(jī)變量的取值竹海,函數(shù)值都是大于等于0
(2)隨機(jī)變量的所有取值對(duì)應(yīng)的概率之和為1
數(shù)學(xué)期望:隨機(jī)變量的數(shù)學(xué)期望或均值是對(duì)隨機(jī)變量中心位置的一種度量慕蔚。
方差:方差用來(lái)描述隨機(jī)變量取值的變異性。
離差():度量了隨機(jī)變量某一特定值與數(shù)學(xué)期望或均值u的距離斋配。
標(biāo)準(zhǔn)差:度量了數(shù)據(jù)與數(shù)據(jù)中心的數(shù)學(xué)期望的距離孔飒。標(biāo)準(zhǔn)差取方差的平方根。
線性變換的通用公式
若隨機(jī)變量為X:
二項(xiàng)分布
二項(xiàng)試驗(yàn)(binomial experiment)具有以下四個(gè)性質(zhì):
(1)試驗(yàn)由一系列相同的n個(gè)試驗(yàn)組成
(2)每次試驗(yàn)由兩種可能的結(jié)果艰争,即試驗(yàn)結(jié)果由兩個(gè)值構(gòu)成坏瞄,其中每個(gè)值與一個(gè)隨機(jī)變量對(duì)應(yīng)。我們把其中一個(gè)稱(chēng)為成功园细,另一個(gè)稱(chēng)為失敗
(3)每次試驗(yàn)成功的概率都是相同的惦积,用p來(lái)表示;失敗的概率也是相同猛频,用 1–p表示
(4)試驗(yàn)是相互獨(dú)立的
數(shù)學(xué)期望:
方差:
進(jìn)行次數(shù)固定的獨(dú)立試驗(yàn)時(shí)可使用二項(xiàng)分布狮崩,每一次試驗(yàn)都存在成功或失敗的可能,而你感興趣的是成功或失敗的次數(shù)鹿寻。
泊松分布
泊松分布主要用于估計(jì)某事件在特定時(shí)間段或空間中發(fā)生的次數(shù)睦柴。
如果事件出現(xiàn)的次數(shù)滿(mǎn)足以下兩個(gè)性質(zhì),則隨機(jī)變量服從泊松概率分布:
(1)在任意兩個(gè)相等長(zhǎng)度的區(qū)間上毡熏,事件發(fā)生的概率相等
(2)事件在任一區(qū)間上是否發(fā)生坦敌,于事件在其他區(qū)間上是否發(fā)生是獨(dú)立的
在遇到獨(dú)立事件時(shí),若已知(即給定區(qū)間內(nèi)的事件平均發(fā)生次數(shù)(發(fā)生率))痢法,而你很感興趣的是一個(gè)特定區(qū)間內(nèi)的發(fā)生次數(shù)狱窘,我們就可以根據(jù)給出的參數(shù)u得到泊松概率分布函數(shù)。
如果X滿(mǎn)足二項(xiàng)分布财搁,當(dāng)n較大而p較小時(shí)蘸炸,X可以近似滿(mǎn)足泊松分布。
幾何分布
幾何分布包含以下條件:
(1)試驗(yàn)由一系列相同的n個(gè)試驗(yàn)組成
(2)每次試驗(yàn)由兩種可能的結(jié)果尖奔,即試驗(yàn)結(jié)果由兩個(gè)值構(gòu)成搭儒,其中每個(gè)值與一個(gè)隨機(jī)變量對(duì)應(yīng)穷当。我們把其中一個(gè)稱(chēng)為成功,另一個(gè)稱(chēng)為失敗
(3)每次試驗(yàn)成功的概率都是相同的淹禾,用p來(lái)表示馁菜;失敗的概率也是相同,用q表示
(4)試驗(yàn)是相互獨(dú)立的
數(shù)學(xué)期望:
方差:
伯努利試驗(yàn)(Bernoulli experiment)是在同樣的條件下重復(fù)地铃岔、相互獨(dú)立地進(jìn)行的一種隨機(jī)試驗(yàn)汪疮,其特點(diǎn)是該隨機(jī)試驗(yàn)只有兩種可能結(jié)果:發(fā)生或者不發(fā)生。
在n次伯努利試驗(yàn)中毁习,試驗(yàn)k次才得到第一次成功的機(jī)率铲咨。詳細(xì)地說(shuō),是:前k-1次皆失敗蜓洪,第k次成功的概率纤勒。
幾何分布感興趣的是,為了取得第一次成功需要進(jìn)行多少次試驗(yàn)隆檀。
超幾何分布
超幾何概率分布于二項(xiàng)分布聯(lián)系密切摇天。
這兩種概率分布主要有兩處不同:在超幾何概率分布中,各次試驗(yàn)不是獨(dú)立的恐仑,并且各次試驗(yàn)中成功的概率不等泉坐。
正態(tài)分布
正態(tài)分布(Normal distribution),也稱(chēng)“常態(tài)分布”裳仆,又名高斯分布腕让。正態(tài)曲線呈鐘型,兩頭低歧斟,中間高纯丸,左右對(duì)稱(chēng)因其曲線呈鐘形,因此人們又經(jīng)常稱(chēng)之為鐘形曲線静袖。
數(shù)學(xué)期望:
方差:
當(dāng)觉鼻,
時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。
正態(tài)分布兩側(cè)尾部長(zhǎng)度對(duì)稱(chēng)队橙。若以bs表示偏度坠陈。bs<0稱(chēng)分布具有負(fù)偏離,也稱(chēng)左偏態(tài)捐康,此時(shí)數(shù)據(jù)位于均值左邊的比位于右邊的少仇矾,直觀表現(xiàn)為左邊的尾部相對(duì)于與右邊的尾部要長(zhǎng),因?yàn)橛猩贁?shù)變量值很小解总,使曲線左側(cè)尾部拖得很長(zhǎng)贮匕;bs>0稱(chēng)分布具有正偏離,也稱(chēng)右偏態(tài)倾鲫,此時(shí)數(shù)據(jù)位于均值右邊的比位于左邊的少粗合,直觀表現(xiàn)為右邊的尾部相對(duì)于與左邊的尾部要長(zhǎng),因?yàn)橛猩贁?shù)變量值很大乌昔,使曲線右側(cè)尾部拖得很長(zhǎng)隙疚;而bs接近0則可認(rèn)為分布是對(duì)稱(chēng)的。
若知道分布有可能在偏度偏離正態(tài)分布時(shí)磕道,可用偏離來(lái)檢驗(yàn)分布的正態(tài)性供屉。右偏時(shí)一般算術(shù)平均數(shù)>中位數(shù)>眾數(shù),左偏時(shí)相反溺蕉,即眾數(shù)>中位數(shù)>平均數(shù)伶丐。正態(tài)分布三者相等。
偏度(skewness)疯特,是統(tǒng)計(jì)數(shù)據(jù)分布偏斜方向和程度的度量哗魂,是統(tǒng)計(jì)數(shù)據(jù)分布非對(duì)稱(chēng)程度的數(shù)字特征。
峰度(peakedness;kurtosis)表征概率密度分布曲線在平均值處峰值高低的特征數(shù)漓雅。直觀看來(lái)录别,峰度反映了峰部的尖度。樣本的峰度是和正態(tài)分布相比較而言統(tǒng)計(jì)量邻吞,如果峰度大于三组题,峰的形狀比較尖,比正態(tài)分布峰要陡峭抱冷。反之亦然崔列。
在統(tǒng)計(jì)學(xué)中,峰度(Kurtosis)衡量實(shí)數(shù)隨機(jī)變量概率分布的峰態(tài)旺遮。峰度高就意味著方差增大是由低頻度的大于或小于平均值的極端差值引起的赵讯。
正態(tài)分布用「期望」描述集中趨勢(shì),用「標(biāo)準(zhǔn)差」描述離散程度;偏態(tài)分布用「中值median」描述集中趨勢(shì)耿眉。
正態(tài)分布的3σ原則
實(shí)際工作中瘦癌,正態(tài)曲線下橫軸上一定區(qū)間的面積反映該區(qū)間的例數(shù)占總例數(shù)的百分比,或變量值落在該區(qū)間的概率(概率分布)跷敬。不同范圍內(nèi)正態(tài)曲線下的面積可用公式計(jì)算讯私。
正態(tài)曲線下,橫軸區(qū)間(μ-σ,μ+σ)內(nèi)的面積為68.268949%西傀。
橫軸區(qū)間(μ-2.58σ,μ+2.58σ)內(nèi)的面積為95.449974%斤寇。
橫軸區(qū)間(μ-3σ,μ+3σ)內(nèi)的面積為99.730020%。
由于“小概率事件”和假設(shè)檢驗(yàn)的基本思想 “小概率事件”通常指發(fā)生的概率小于5%的事件拥褂,認(rèn)為在一次試驗(yàn)中該事件是幾乎不可能發(fā)生的娘锁。由此可見(jiàn)X落在(μ-3σ,μ+3σ)以外的概率小于千分之三,在實(shí)際問(wèn)題中常認(rèn)為相應(yīng)的事件是不會(huì)發(fā)生的饺鹃,基本上可以把區(qū)間(μ-3σ,μ+3σ)看作是隨機(jī)變量X實(shí)際可能的取值區(qū)間莫秆,這稱(chēng)之為正態(tài)分布的3σ原則间雀。 -
統(tǒng)計(jì)推斷:抽樣/置信區(qū)間/假設(shè)檢驗(yàn)
統(tǒng)計(jì)推斷是通過(guò)樣本推斷總體的統(tǒng)計(jì)方法∧魇海總體是通過(guò)總體分布的數(shù)量特征即參數(shù) (如期望和方差) 來(lái)反映的惹挟。因此,統(tǒng)計(jì)推斷包括: 對(duì)總體的未知參數(shù)進(jìn)行估計(jì)缝驳;對(duì)關(guān)于參數(shù)的假設(shè)進(jìn)行檢查连锯;對(duì)總體進(jìn)行預(yù)測(cè)預(yù)報(bào)等∮糜科學(xué)的統(tǒng)計(jì)推斷所使用的樣本运怖,通常通過(guò)隨機(jī)抽樣方法得到。
置信區(qū)間的計(jì)算公式取決于所用到的統(tǒng)計(jì)量夏伊。置信區(qū)間是在預(yù)先確定好的顯著性水平下計(jì)算出來(lái)的摇展,顯著性水平通常稱(chēng)為α(希臘字母alpha),如前所述溺忧,絕大多數(shù)情況會(huì)將α設(shè)為0.05吗购。置信度為(1-α),或者100×(1-α)%砸狞。于是捻勉,如果α=0.05,那么置信度則是0.95或95%刀森,后一種表示方式更為常用踱启。置信區(qū)間的常用計(jì)算方法如下:
其中:α是顯著性水平(例:0.05或0.10);Pr表示概率研底,是單詞probablity的縮寫(xiě)埠偿;100%*(1-α)或(1-α)或指置信水平(例如:95%或0.95);
表達(dá)方式:interval(c1,c2) - 置信區(qū)間榜晦。
假設(shè)檢驗(yàn)中的第一類(lèi)錯(cuò)誤冠蒋,即H0正確而被否定,選擇的顯著性水平α越大乾胶,范第一類(lèi)錯(cuò)誤的概率越大抖剿。對(duì)應(yīng)的第二類(lèi)錯(cuò)誤:H0錯(cuò)誤而被接受,選擇的顯著性水平α越小识窿,范第二類(lèi)錯(cuò)誤的概率越大斩郎。95%的置信區(qū)間表示得到的實(shí)驗(yàn)數(shù)據(jù)落在該區(qū)間的概率為95%,或者說(shuō)在得到的大量實(shí)驗(yàn)數(shù)據(jù)中喻频,有95%的落在該區(qū)間內(nèi)缩宜。