引言:在數(shù)據(jù)分析時(shí)瘫拣,對(duì)大量信息進(jìn)行歸納是最基本的任務(wù)详羡,而這就需要用到描述統(tǒng)計(jì)方法耕渴。
變量
變量的概念
變量(Variable):指在研究對(duì)象中某種令人感興趣的邮破、取值會(huì)有變化的特征酱酬,比如研究對(duì)象是全體大學(xué)生壶谒,那么變量可以是身高、體重等特征膳沽。
變量的分類
首先變量可以分為:
1.定性型(分類)變量
分類變量的取值可能是數(shù)值型或是非數(shù)值型的汗菜。比如,對(duì)于某產(chǎn)品的滿意度調(diào)查挑社,那么可以得到“滿意-不滿意”的非數(shù)值型結(jié)果陨界,也可以得到“5-1”的數(shù)值型結(jié)果,而且這兩者是可以人為進(jìn)行轉(zhuǎn)換的痛阻,并無(wú)本質(zhì)上的區(qū)別菌瘪。
2.定量型變量
定量型變量的取值一定是數(shù)值型的。既然是數(shù)值型的阱当,那就可以分為:
- 連續(xù)性變量:在某個(gè)區(qū)間內(nèi)俏扩,取值不斷變化的量;
- 離散型變量:變量的可能取值構(gòu)成的是一個(gè)不相連的數(shù)字集合弊添。
實(shí)際中录淡,因測(cè)量方法的限制,連續(xù)和離散的界限有時(shí)是模糊的表箭。統(tǒng)計(jì)分析時(shí)所講的離散赁咙,一般是指定量型變量只能取很少幾個(gè)值的情況钮莲。
描述統(tǒng)計(jì)方法
描述統(tǒng)計(jì)的目標(biāo)是總結(jié)、提煉數(shù)據(jù)彼水,一共有3種方法:制表法崔拥、繪圖法和數(shù)值法,根據(jù)變量類型的不同凤覆,描述方法也會(huì)有所不同链瓦。
制表法
制表法其實(shí)就是基于頻數(shù)分布表的方法,對(duì)于定性型變量和定量型變量都有效盯桦。
- 頻數(shù)慈俯,就是該觀測(cè)值的數(shù)量;
- 相對(duì)頻數(shù)拥峦,就是該類別數(shù)量占總體數(shù)量的比例贴膘。
定性型變量
下圖是關(guān)于是否同意“男性的能力天生比女性強(qiáng)”的說(shuō)法的頻數(shù)分布表。
定量型變量
定量型變量一般都會(huì)先把原始數(shù)據(jù)進(jìn)行分組略号,然后再繪制成頻數(shù)分布表刑峡,下圖是一個(gè)學(xué)生成績(jī)的頻數(shù)分布表。
分組原則:不重不漏玄柠。
不重指的是每個(gè)數(shù)值都只能出現(xiàn)在一個(gè)分組中突梦,不漏指的是分組應(yīng)該包含所有數(shù)值,不能漏了任何一個(gè)羽利。
繪圖法
定性型變量
定性型變量在繪圖時(shí)宫患,基本上只有兩種常用的圖形,分別是條形圖和餅圖这弧。
定量型變量
繪圖時(shí)需要關(guān)注的主要特征
- 集中趨勢(shì)
- 離散程度
- 分布形狀
- 異常值
直方圖
直方圖適用于大量的數(shù)據(jù)娃闲,其形狀和分組有很大的關(guān)系。
直方圖v.s.柱狀圖
條形圖和直方圖看起來(lái)十分類似当宴,但實(shí)際上存在很大的區(qū)別畜吊,直方圖不同的組別之間是沒(méi)有間隙的,所以適用于連續(xù)型變量户矢。
箱線圖
說(shuō)明:
- 四分位差I(lǐng)QR = Q3 - Q1
- 上邊緣 = Q3 + 1.5IQR
- 下邊緣 = Q1 - 1.5IQR
- 注意:上下邊緣并非最大最小值玲献,一般超過(guò)上下邊緣的稱為異常值。
數(shù)值法
注意:數(shù)值法一般只用于定量型變量梯浪。
數(shù)值法需要關(guān)注的主要特征
- 集中趨勢(shì)
- 離散程度
- 相對(duì)位置
集中趨勢(shì)的度量
集中趨勢(shì)是指一組數(shù)據(jù)向某一中心值靠攏的程度捌年,反映了一組數(shù)據(jù)中心點(diǎn)的位置所在。
均值
與總體相關(guān)的描述統(tǒng)計(jì)量一般用希臘字母表示挂洛,而與樣本相關(guān)的一般用英文字母表示礼预。
均值容易受異常值的影響,所以一般跟財(cái)富相關(guān)的指標(biāo)虏劲,都不適合采用均值托酸,因?yàn)樨?cái)務(wù)情況一般都是符合二八定律的褒颈。
二八定律:20%的人掌握著80%的財(cái)富,剩下20%的人掌握著20%的財(cái)富励堡。
二八定律中的“二”表示的是少數(shù)谷丸,而非精確的20%,“八”也同理应结,該定律同樣適用于其他很多領(lǐng)域刨疼。
均值計(jì)算公式
中位數(shù)
中位數(shù)不易受到異常值的影響。
相對(duì)位置的度量
百分位數(shù)
百分位數(shù)
百分位數(shù)將所有觀測(cè)值分成100份鹅龄,反映的是一個(gè)數(shù)據(jù)在所有觀測(cè)值中的相對(duì)位置揩慕。
第p百分位數(shù):表明有p%的數(shù)據(jù)小于或等于這個(gè)數(shù),有(100-p)%的數(shù)據(jù)大于或等于這個(gè)值扮休。
比如迎卤,在某次考試中,某位考生取得了70分肛炮,他的成績(jī)?nèi)绾尾⒉蝗菀字乐雇拢侨绻?0分對(duì)應(yīng)的是第90百分位數(shù),我們就能知道大約90%的學(xué)生的考分比他低侨糟,而約10%的學(xué)生考分比他高。
如何計(jì)算第p百分位數(shù)瘩燥?
Step1:將所有觀測(cè)值從小到大排列秕重。
Step2:計(jì)算i = (p/100)n
p是所求的百分位數(shù)的位置,n是項(xiàng)數(shù)厉膀。
Step3:
- 若i不是整數(shù)溶耘,則將i向上取整,所得的數(shù)字即為第p百分位數(shù)的位置服鹅;
- 若i是整數(shù)凳兵,則第p百分位數(shù)是第i項(xiàng)和第(i+1)項(xiàng)數(shù)據(jù)的平均值。
四分位數(shù)
四分位數(shù)其實(shí)就是特殊的百分位數(shù)企软,將數(shù)據(jù)劃分為4個(gè)部分庐扫,每一個(gè)部分大約包含有1/4即25%的數(shù)據(jù)項(xiàng)。
Q1 = 第1四分位數(shù)仗哨,即第25百分位數(shù)
Q2 = 第2四分位數(shù)形庭,即第50百分位數(shù)
Q3 = 第3四分位數(shù),即第75百分位數(shù)
注意:要把四分位數(shù)的上下限厌漂,和箱線圖的上下限區(qū)分開萨醒。
如何求四分位數(shù)?
四分位數(shù)是特殊的百分位數(shù)苇倡,因此富纸,計(jì)算百分位數(shù)的方法可以直接用來(lái)計(jì)算四分位數(shù)囤踩。
注:四分位數(shù)位置的確定方法有幾種,每種方法得到的結(jié)果會(huì)略有差異晓褪,但不會(huì)很大堵漱。而且不同的計(jì)算方法其本質(zhì)都是將數(shù)據(jù)大概分為4個(gè)部分。
本計(jì)算方法參考:《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)(第11版)》
注:i的結(jié)果同樣存在整數(shù)和非整數(shù)兩種情況辞州,具體參考計(jì)算百分位數(shù)的方法怔锌。
計(jì)算四分位數(shù)的例子
題目:
答案:
離散程度的度量
離散程度在有的書里也叫變異性,波動(dòng)大小变过,其實(shí)都是表達(dá)同一個(gè)意思埃元,反映的是各變量值遠(yuǎn)離其中心值的程度。
極差(全距)
極差 = 最大值 - 最小值
極差非常簡(jiǎn)單媚狰,但容易受到極端值的影響岛杀。
四分位差(四分位矩)
四分位差 IQR = Q3 - Q1
四分位差反映了中間50%的數(shù)據(jù)的離散程度,較難受到極端值的影響崭孤。
標(biāo)準(zhǔn)差和方差
標(biāo)準(zhǔn)差計(jì)算公式
注:如果只是單純的想要計(jì)算樣本的標(biāo)準(zhǔn)差类嗤,那么應(yīng)該使用公式(2);如果是想通過(guò)樣本標(biāo)準(zhǔn)差推斷總體標(biāo)準(zhǔn)差辨宠,那么就應(yīng)該使用公式(1)遗锣。
方差就是標(biāo)準(zhǔn)差的平方。
Z分?jǐn)?shù)(標(biāo)準(zhǔn)計(jì)分)
上面的所有指標(biāo)度量的都是所有觀測(cè)值的離散程度嗤形,而Z分?jǐn)?shù)能夠度量單獨(dú)一個(gè)數(shù)據(jù)的離散程度精偿,常用來(lái)比較來(lái)自于不同分布(不同總體)或不同量級(jí)的觀測(cè)值。
Z分?jǐn)?shù)計(jì)算公式
Z分?jǐn)?shù)應(yīng)用例子
從Z分?jǐn)?shù)的大小即可判斷這個(gè)溫度在North Bend更奇怪赋兵。
利用Python進(jìn)行統(tǒng)計(jì)描述
繪圖法:Matplotlib
用Python繪制條形圖
# 導(dǎo)入需要用到的庫(kù)
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 準(zhǔn)備數(shù)據(jù)
x = ['Cat1', 'Cat2', 'Cat3', 'Cat4', 'Cat5']
y = [5, 4, 8, 12, 7]
# 用 Matplotlib 畫條形圖
plt.bar(x, y)
plt.show()
用Python繪制餅圖
# 導(dǎo)入需要用到的庫(kù)(代碼同條形圖)
# 數(shù)據(jù)準(zhǔn)備
nums = [25, 37, 33, 37, 6]
labels = ['High-school', 'Bachelor', 'Master', 'Ph.d', 'Others']
# 用 Matplotlib 畫餅圖
plt.pie(x=nums, labels=labels)
plt.show()
用Python繪制直方圖
# 數(shù)據(jù)準(zhǔn)備
a = np.random.randn(100) # 從標(biāo)準(zhǔn)正態(tài)分布中隨機(jī)抽取了100個(gè)數(shù)值
s = pd.Series(a)
# 用 Matplotlib 畫直方圖
plt.hist(s)
plt.show()
用Python繪制箱線圖
# 數(shù)據(jù)準(zhǔn)備
data = np.random.normal(size=(10,4)) # 生成 0-1 之間的 10*4 維度數(shù)據(jù)
labels = ['A', 'B', 'C', 'D']
# 用 Matplotlib 畫箱線圖
plt.boxplot(data, labels=labels)
plt.show()
數(shù)值法:pandas
用Python計(jì)算和中位數(shù)
import pandas as pd
# 準(zhǔn)備數(shù)據(jù)
s = pd.Series([3, 3, 6, 7, 7, 10, 10, 10, 11, 13, 30])
s.mean() # 求均值
s.median() # 求中位數(shù)
用Python計(jì)算四分位數(shù)
import pandas as pd
# 準(zhǔn)備數(shù)據(jù)
s = pd.Series([3, 3, 6, 7, 7, 10, 10, 10, 11, 13, 30])
s.quantile([0.25, 0.5, 0.75]) # Q1,Q2,Q3
如果覺(jué)得上面一個(gè)一個(gè)函數(shù)的調(diào)用太麻煩笔咽,那么可以使用describe( )
函數(shù),一次性輸出多個(gè)統(tǒng)計(jì)指標(biāo)霹期。
df = pd.DataFrame([3, 3, 6, 7, 7, 10, 10, 10, 11, 13, 30])
df.describe() # 一次性輸出多個(gè)統(tǒng)計(jì)指標(biāo)
參考資料:
- 基于R語(yǔ)言的社會(huì)統(tǒng)計(jì)學(xué)分析
- 《深入淺出統(tǒng)計(jì)學(xué)》
- 《統(tǒng)計(jì)學(xué)》
- 《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)(第11版)》