變量的分類
分類變量霍转,是說(shuō)明事物類別的一個(gè)名稱偿衰,取值是分類數(shù)據(jù)
順序變量宗收,是說(shuō)明事物有序類別的一個(gè)名稱漫拭,取值是順序數(shù)據(jù)
數(shù)值型變量,是說(shuō)明事物數(shù)字特征的一個(gè)名稱镜雨,取值是數(shù)值型數(shù)據(jù)嫂侍。
數(shù)據(jù)分布的特征可以從三個(gè)方面進(jìn)行測(cè)度和描述:
集中趨勢(shì):反映各數(shù)據(jù)向中心值靠攏或聚集的程度
離散程度:反映各數(shù)據(jù)遠(yuǎn)離其中心值的趨勢(shì)
分布的形狀:反映數(shù)據(jù)分布的偏態(tài)和峰態(tài)
集中趨勢(shì)的度量
分類數(shù)據(jù):眾數(shù)
順序數(shù)據(jù):中位數(shù)和分位數(shù)
數(shù)值型數(shù)據(jù):平均數(shù),包括簡(jiǎn)單平均數(shù)荚坞、加權(quán)平均數(shù)挑宠、 幾何平均數(shù)(是n個(gè)變量值乘積的n次方根。用G表示實(shí)際應(yīng)用中颓影,主要計(jì)算現(xiàn)象的平均增長(zhǎng)率)
離散程度的度量
根據(jù)數(shù)據(jù)性的不同主要有異眾比率各淀、四分位差、方差诡挂、標(biāo)準(zhǔn)差碎浇。此外還有極差、平均差以及測(cè)度相對(duì)離散程度的離散系數(shù)璃俗。
分類數(shù)據(jù):異眾比率(非眾數(shù)組的頻數(shù)占總頻數(shù)的比例)
順序數(shù)據(jù):四分位差(=上四分位數(shù)-下四分位數(shù)奴璃,反映了中間50%的數(shù)據(jù)的離散程度,值越小說(shuō)明中間的數(shù)據(jù)越集中)
數(shù)值型數(shù)據(jù):方差和標(biāo)準(zhǔn)差城豁,還有極差和平均差苟穆、
極差(全距):一組數(shù)據(jù)的最大值與最小值之差
平均差(平均絕對(duì)離差)::各變量值與其平均數(shù)離差絕對(duì)值的平均數(shù)。平均差以平均數(shù)為中心,反映了每個(gè)數(shù)據(jù)與平均數(shù)的平均差異程度雳旅,它能全面準(zhǔn)確的反映一組數(shù)據(jù)的離散程度跟磨。值越小數(shù)據(jù)的離散程度越小。
(離差:?jiǎn)雾?xiàng)數(shù)值與平均值之間的差)
方差和標(biāo)準(zhǔn)差:實(shí)際問(wèn)題中更多使用標(biāo)準(zhǔn)差攒盈,方差的平方根稱為標(biāo)準(zhǔn)差抵拘。方差是各變量值與其平均數(shù)離差平方的平均數(shù)。它在數(shù)學(xué)的方法上消去離差的正負(fù)號(hào)型豁,然后再進(jìn)行平均僵蛛。能較好的反映出數(shù)據(jù)的離散程度,是應(yīng)用最廣的離散程度測(cè)度值迎变。
樣本方差:自由度為樣本個(gè)數(shù)-1(n-1)
相對(duì)位置的度量:
a.標(biāo)準(zhǔn)分?jǐn)?shù)(標(biāo)準(zhǔn)化值或者Z分?jǐn)?shù)):變量值與其平均數(shù)的離差除以標(biāo)準(zhǔn)差的值墩瞳。標(biāo)準(zhǔn)分?jǐn)?shù)給出了一組數(shù)據(jù)中各數(shù)據(jù)的相對(duì)位置,標(biāo)準(zhǔn)分?jǐn)?shù)=-1.5即該數(shù)據(jù)比平均數(shù)低1.5個(gè)標(biāo)準(zhǔn)差氏豌。
標(biāo)準(zhǔn)分?jǐn)?shù)具有平均數(shù)為0,標(biāo)準(zhǔn)差為1的特性热凹。實(shí)際上Z分?jǐn)?shù)只是將原始數(shù)據(jù)進(jìn)行了線性變換泵喘,沒(méi)有改變一個(gè)數(shù)據(jù)在該組數(shù)據(jù)中的位置,也沒(méi)有改變?cè)摻M數(shù)據(jù)的分布形狀般妙,只是將該組數(shù)據(jù)變?yōu)槠骄鶖?shù)為0纪铺,標(biāo)準(zhǔn)差為1.
b.經(jīng)驗(yàn)法則:
約有68%的數(shù)據(jù)在平均數(shù)±1個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)
約有95%的數(shù)據(jù)在平均數(shù)±2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)
約有99%的數(shù)據(jù)在平均數(shù)±3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)
在±3個(gè)標(biāo)準(zhǔn)差的范圍之外的數(shù)據(jù),稱為離群點(diǎn)碟渺。
c.切比雪夫不等式
經(jīng)驗(yàn)法則適用于對(duì)稱分布數(shù)據(jù)鲜锚,而切比雪夫不等式對(duì)任何分布形態(tài)的數(shù)據(jù)都適用
切比雪夫不等式提供的是下界,也就是所占比例至少是多少
對(duì)于任意分布形態(tài)的數(shù)據(jù)苫拍,至少有(1-1/k^2)的數(shù)據(jù)落在±k個(gè)標(biāo)準(zhǔn)差之內(nèi)(k為大于1的任意值芜繁,不一定是整數(shù))
k=2,至少有75%的數(shù)據(jù)在平均數(shù)±2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)
k=3绒极,至少有89%的數(shù)據(jù)在平均數(shù)±3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)
k=4骏令,至少有94%的數(shù)據(jù)在平均數(shù)±4個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)
離散系數(shù)(變異系數(shù)):
為消除變量值水平高低和計(jì)量單位不同對(duì)離散程度測(cè)度值的影響,需要計(jì)算離散系數(shù)垄提。
離散系數(shù)主要用于比較不同樣本數(shù)據(jù)的離散程度榔袋。是一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的平均數(shù)之比。
偏態(tài)與峰態(tài)的度量
偏態(tài)和峰態(tài)是對(duì)分布形狀的測(cè)度:數(shù)據(jù)分布的形狀是否對(duì)稱铡俐,偏斜程度凰兑,扁平程度。
偏態(tài)及其測(cè)度:
對(duì)數(shù)據(jù)分布對(duì)稱性的測(cè)度审丘,測(cè)度偏態(tài)的統(tǒng)計(jì)量是偏態(tài)系數(shù)吏够,記為SK。
根據(jù)分組數(shù)據(jù)計(jì)算偏態(tài)系數(shù),可采用離差三次方的平均數(shù)再除以標(biāo)準(zhǔn)差的三次方稿饰。除以s^3這是為了將偏態(tài)系數(shù)轉(zhuǎn)換為相對(duì)數(shù)锦秒。
SK=0,數(shù)據(jù)對(duì)稱分布喉镰。
SK>1||SK<-1旅择,高度偏態(tài)分布。
0.5<SK<1||-1<SK<-0.5侣姆,中等偏態(tài)分布生真。
峰態(tài)及其測(cè)度:
對(duì)數(shù)據(jù)分布平峰或者尖峰程度的測(cè)度,測(cè)度峰態(tài)的統(tǒng)計(jì)量是峰態(tài)系數(shù)捺宗,記為K柱蟀。
根據(jù)分組數(shù)據(jù)計(jì)算偏態(tài)系數(shù),可采用離差四次方的平均數(shù)除以標(biāo)準(zhǔn)差的四次方蚜厉。除以s^4這是為了將偏態(tài)系數(shù)轉(zhuǎn)換為相對(duì)數(shù)长已。
K=0,正態(tài)分布昼牛。
K>0术瓮,尖峰分布,數(shù)據(jù)分布更集中贰健。
K<0胞四,平峰分布,數(shù)據(jù)分布更分散伶椿。
一組數(shù)據(jù)的分布特征可以從哪幾個(gè)方面進(jìn)行測(cè)度辜伟?
可以從數(shù)據(jù)分布的集中趨勢(shì)、離散程度和分布的偏態(tài)與峰態(tài)三個(gè)方面進(jìn)行測(cè)量脊另。集中趨勢(shì)反映了各數(shù)據(jù)向其中心支靠攏或聚集的程度导狡;離散程度反映了各數(shù)據(jù)原理其中心值的趨勢(shì);偏態(tài)與峰態(tài)反映了數(shù)據(jù)分布的圖像形狀尝蠕。
簡(jiǎn)述眾數(shù)烘豌、中位數(shù)和平均數(shù)的特點(diǎn)和應(yīng)用場(chǎng)合。
眾數(shù)是一組數(shù)據(jù)分布的峰值看彼,不受極端值的影響廊佩,缺點(diǎn)是具有不唯一性。眾數(shù)只有在數(shù)據(jù)量較多時(shí)才有意義靖榕。主要適合作為分類數(shù)據(jù)的集中趨勢(shì)測(cè)度值标锄。
中位數(shù)是一組數(shù)據(jù)中間位置上的代表值,不受極端值影響茁计,當(dāng)數(shù)據(jù)分布的偏斜較大時(shí)料皇,可以使用中位數(shù)谓松。主要適合作為順序數(shù)據(jù)的集中趨勢(shì)測(cè)度值。
平均數(shù)是針對(duì)數(shù)值型數(shù)據(jù)計(jì)算的践剂,而且利用了全部數(shù)據(jù)信息鬼譬。當(dāng)數(shù)據(jù)呈對(duì)稱分布或接近對(duì)稱分布時(shí),三個(gè)代表值相等或接近相等逊脯,這時(shí)應(yīng)選平均數(shù)作為集中趨勢(shì)的代表值优质。但平均數(shù)的主要缺點(diǎn)是易受極端值的影響;對(duì)于偏態(tài)分布的數(shù)據(jù)军洼,平均數(shù)的代表性較差巩螃。
簡(jiǎn)述異眾比率、四分位差匕争、方差或標(biāo)準(zhǔn)差的應(yīng)用場(chǎng)合避乏。
異眾比率主要用于測(cè)量分類數(shù)據(jù)的離散程度;四分位差主要用于測(cè)量順序數(shù)據(jù)的離散程度甘桑;方差或標(biāo)準(zhǔn)差主要用于測(cè)量數(shù)值型數(shù)據(jù)的離散程度拍皮。
標(biāo)準(zhǔn)分?jǐn)?shù)有哪些用途?
標(biāo)準(zhǔn)分?jǐn)?shù)給出了一組數(shù)據(jù)中各數(shù)值的相對(duì)位置跑杭。在對(duì)多個(gè)具有不同量綱的變量進(jìn)行處理時(shí)春缕,常需要對(duì)各變量進(jìn)行標(biāo)準(zhǔn)化處理。它還可以用來(lái)判斷一組數(shù)據(jù)是否有離群數(shù)據(jù)艘蹋。
為什么要計(jì)算離散系數(shù)?
方差和標(biāo)準(zhǔn)差是反映數(shù)據(jù)離散程度的絕對(duì)值票灰,一方面其數(shù)值大小受原變量值本身水平高低的影響女阀;另一方面,他們與原變量的計(jì)量單位相同屑迂,采用不同計(jì)量單位的變量值浸策,其離散程度的測(cè)度值也就不同。
測(cè)度數(shù)據(jù)分布形狀的統(tǒng)計(jì)量有哪些惹盼?
對(duì)于分布形狀的測(cè)度有偏態(tài)和峰態(tài)庸汗。測(cè)度偏態(tài)的統(tǒng)計(jì)量是偏態(tài)系數(shù);測(cè)度峰態(tài)的統(tǒng)計(jì)量是峰態(tài)系數(shù)手报。
拋擲一顆篩骰子蚯舱,出現(xiàn)的點(diǎn)數(shù)是一個(gè)離散型隨機(jī)變量,點(diǎn)數(shù)的概率分布如下所示
E(x) = 1*1/6+2*1/6+3*1/6+4*1/6+5*1/6+6*1/6=3.5掩蛤,即各種可能點(diǎn)數(shù)的均值為3.5
D(x) = (1-3.5)^2*1/6+(2-3.5)^2*1/6+(3-3.5)^2*1/6+(4-3.5)^2*1/6+(5-3.5)^2*1/6+(6-3.5)^2*1/6 = 2.9167
標(biāo)準(zhǔn)差σ = 1.7078 枉昏,即每次投擲的點(diǎn)數(shù)與平均點(diǎn)數(shù)3.5平均相距1.7078點(diǎn)。
離散系數(shù)V不同期望的總體之間的離中趨勢(shì),V=σ/E(x)