利用Python進(jìn)行描述統(tǒng)計(jì)

引言:在數(shù)據(jù)分析時(shí)瘫拣,對(duì)大量信息進(jìn)行歸納是最基本的任務(wù)详羡,而這就需要用到描述統(tǒng)計(jì)方法耕渴。

變量

變量的概念

變量(Variable):指在研究對(duì)象中某種令人感興趣的邮破、取值會(huì)有變化的特征酱酬,比如研究對(duì)象是全體大學(xué)生壶谒,那么變量可以是身高、體重等特征膳沽。

變量的分類

首先變量可以分為:

1.定性型(分類)變量
分類變量的取值可能是數(shù)值型或是非數(shù)值型的汗菜。比如,對(duì)于某產(chǎn)品的滿意度調(diào)查挑社,那么可以得到“滿意-不滿意”的非數(shù)值型結(jié)果陨界,也可以得到“5-1”的數(shù)值型結(jié)果,而且這兩者是可以人為進(jìn)行轉(zhuǎn)換的痛阻,并無(wú)本質(zhì)上的區(qū)別菌瘪。

2.定量型變量
定量型變量的取值一定是數(shù)值型的。既然是數(shù)值型的阱当,那就可以分為:

  • 連續(xù)性變量:在某個(gè)區(qū)間內(nèi)俏扩,取值不斷變化的量;
  • 離散型變量:變量的可能取值構(gòu)成的是一個(gè)不相連的數(shù)字集合弊添。

實(shí)際中录淡,因測(cè)量方法的限制,連續(xù)和離散的界限有時(shí)是模糊的表箭。統(tǒng)計(jì)分析時(shí)所講的離散赁咙,一般是指定量型變量只能取很少幾個(gè)值的情況钮莲。

描述統(tǒng)計(jì)方法

描述統(tǒng)計(jì)的目標(biāo)是總結(jié)、提煉數(shù)據(jù)彼水,一共有3種方法:制表法崔拥、繪圖法和數(shù)值法,根據(jù)變量類型的不同凤覆,描述方法也會(huì)有所不同链瓦。

制表法

制表法其實(shí)就是基于頻數(shù)分布表的方法,對(duì)于定性型變量和定量型變量都有效盯桦。

  • 頻數(shù)慈俯,就是該觀測(cè)值的數(shù)量;
  • 相對(duì)頻數(shù)拥峦,就是該類別數(shù)量占總體數(shù)量的比例贴膘。

定性型變量

下圖是關(guān)于是否同意“男性的能力天生比女性強(qiáng)”的說(shuō)法的頻數(shù)分布表。

定量型變量

定量型變量一般都會(huì)先把原始數(shù)據(jù)進(jìn)行分組略号,然后再繪制成頻數(shù)分布表刑峡,下圖是一個(gè)學(xué)生成績(jī)的頻數(shù)分布表。
分組原則:不重不漏玄柠。
不重指的是每個(gè)數(shù)值都只能出現(xiàn)在一個(gè)分組中突梦,不漏指的是分組應(yīng)該包含所有數(shù)值,不能漏了任何一個(gè)羽利。

繪圖法

定性型變量

定性型變量在繪圖時(shí)宫患,基本上只有兩種常用的圖形,分別是條形圖餅圖这弧。

定量型變量

繪圖時(shí)需要關(guān)注的主要特征

  • 集中趨勢(shì)
  • 離散程度
  • 分布形狀
  • 異常值

直方圖

直方圖適用于大量的數(shù)據(jù)娃闲,其形狀和分組有很大的關(guān)系。

直方圖v.s.柱狀圖
條形圖和直方圖看起來(lái)十分類似当宴,但實(shí)際上存在很大的區(qū)別畜吊,直方圖不同的組別之間是沒(méi)有間隙的,所以適用于連續(xù)型變量户矢。

箱線圖

說(shuō)明:

  • 四分位差I(lǐng)QR = Q3 - Q1
  • 上邊緣 = Q3 + 1.5IQR
  • 下邊緣 = Q1 - 1.5IQR
  • 注意:上下邊緣并非最大最小值玲献,一般超過(guò)上下邊緣的稱為異常值

數(shù)值法

注意:數(shù)值法一般只用于定量型變量梯浪。

數(shù)值法需要關(guān)注的主要特征

  • 集中趨勢(shì)
  • 離散程度
  • 相對(duì)位置

集中趨勢(shì)的度量

集中趨勢(shì)是指一組數(shù)據(jù)向某一中心值靠攏的程度捌年,反映了一組數(shù)據(jù)中心點(diǎn)的位置所在。

均值

與總體相關(guān)的描述統(tǒng)計(jì)量一般用希臘字母表示挂洛,而與樣本相關(guān)的一般用英文字母表示礼预。

均值容易受異常值的影響,所以一般跟財(cái)富相關(guān)的指標(biāo)虏劲,都不適合采用均值托酸,因?yàn)樨?cái)務(wù)情況一般都是符合二八定律的褒颈。

二八定律:20%的人掌握著80%的財(cái)富,剩下20%的人掌握著20%的財(cái)富励堡。
二八定律中的“二”表示的是少數(shù)谷丸,而非精確的20%,“八”也同理应结,該定律同樣適用于其他很多領(lǐng)域刨疼。

均值計(jì)算公式

中位數(shù)

中位數(shù)不易受到異常值的影響。

相對(duì)位置的度量

百分位數(shù)

百分位數(shù)
百分位數(shù)將所有觀測(cè)值分成100份鹅龄,反映的是一個(gè)數(shù)據(jù)在所有觀測(cè)值中的相對(duì)位置揩慕。

第p百分位數(shù):表明有p%的數(shù)據(jù)小于或等于這個(gè)數(shù),有(100-p)%的數(shù)據(jù)大于或等于這個(gè)值扮休。

比如迎卤,在某次考試中,某位考生取得了70分肛炮,他的成績(jī)?nèi)绾尾⒉蝗菀字乐雇拢侨绻?0分對(duì)應(yīng)的是第90百分位數(shù),我們就能知道大約90%的學(xué)生的考分比他低侨糟,而約10%的學(xué)生考分比他高。

如何計(jì)算第p百分位數(shù)瘩燥?
Step1:將所有觀測(cè)值從小到大排列秕重。

Step2:計(jì)算i = (p/100)n
p是所求的百分位數(shù)的位置,n是項(xiàng)數(shù)厉膀。

Step3:

  • 若i不是整數(shù)溶耘,則將i向上取整,所得的數(shù)字即為第p百分位數(shù)的位置服鹅;
  • 若i是整數(shù)凳兵,則第p百分位數(shù)是第i項(xiàng)和第(i+1)項(xiàng)數(shù)據(jù)的平均值。

四分位數(shù)

四分位數(shù)其實(shí)就是特殊的百分位數(shù)企软,將數(shù)據(jù)劃分為4個(gè)部分庐扫,每一個(gè)部分大約包含有1/4即25%的數(shù)據(jù)項(xiàng)。


Q1 = 第1四分位數(shù)仗哨,即第25百分位數(shù)
Q2 = 第2四分位數(shù)形庭,即第50百分位數(shù)
Q3 = 第3四分位數(shù),即第75百分位數(shù)
注意:要把四分位數(shù)的上下限厌漂,和箱線圖的上下限區(qū)分開萨醒。

如何求四分位數(shù)?
四分位數(shù)是特殊的百分位數(shù)苇倡,因此富纸,計(jì)算百分位數(shù)的方法可以直接用來(lái)計(jì)算四分位數(shù)囤踩。
注:四分位數(shù)位置的確定方法有幾種,每種方法得到的結(jié)果會(huì)略有差異晓褪,但不會(huì)很大堵漱。而且不同的計(jì)算方法其本質(zhì)都是將數(shù)據(jù)大概分為4個(gè)部分。

本計(jì)算方法參考:《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)(第11版)》

注:i的結(jié)果同樣存在整數(shù)和非整數(shù)兩種情況辞州,具體參考計(jì)算百分位數(shù)的方法怔锌。

計(jì)算四分位數(shù)的例子
題目:

答案:


離散程度的度量

離散程度在有的書里也叫變異性,波動(dòng)大小变过,其實(shí)都是表達(dá)同一個(gè)意思埃元,反映的是各變量值遠(yuǎn)離其中心值的程度。

極差(全距)

極差 = 最大值 - 最小值
極差非常簡(jiǎn)單媚狰,但容易受到極端值的影響岛杀。

四分位差(四分位矩)

四分位差 IQR = Q3 - Q1
四分位差反映了中間50%的數(shù)據(jù)的離散程度,較難受到極端值的影響崭孤。

標(biāo)準(zhǔn)差和方差

標(biāo)準(zhǔn)差計(jì)算公式

注:如果只是單純的想要計(jì)算樣本的標(biāo)準(zhǔn)差类嗤,那么應(yīng)該使用公式(2);如果是想通過(guò)樣本標(biāo)準(zhǔn)差推斷總體標(biāo)準(zhǔn)差辨宠,那么就應(yīng)該使用公式(1)遗锣。

方差就是標(biāo)準(zhǔn)差的平方。

Z分?jǐn)?shù)(標(biāo)準(zhǔn)計(jì)分)

上面的所有指標(biāo)度量的都是所有觀測(cè)值的離散程度嗤形,而Z分?jǐn)?shù)能夠度量單獨(dú)一個(gè)數(shù)據(jù)的離散程度精偿,常用來(lái)比較來(lái)自于不同分布(不同總體)或不同量級(jí)的觀測(cè)值。

Z分?jǐn)?shù)計(jì)算公式

Z分?jǐn)?shù)應(yīng)用例子

從Z分?jǐn)?shù)的大小即可判斷這個(gè)溫度在North Bend更奇怪赋兵。

利用Python進(jìn)行統(tǒng)計(jì)描述

繪圖法:Matplotlib

用Python繪制條形圖

# 導(dǎo)入需要用到的庫(kù)
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 準(zhǔn)備數(shù)據(jù)
x = ['Cat1', 'Cat2', 'Cat3', 'Cat4', 'Cat5']
y = [5, 4, 8, 12, 7]

# 用 Matplotlib 畫條形圖
plt.bar(x, y)
plt.show()

用Python繪制餅圖

# 導(dǎo)入需要用到的庫(kù)(代碼同條形圖)

# 數(shù)據(jù)準(zhǔn)備
nums = [25, 37, 33, 37, 6]
labels = ['High-school', 'Bachelor', 'Master', 'Ph.d', 'Others']

# 用 Matplotlib 畫餅圖
plt.pie(x=nums, labels=labels)
plt.show()

用Python繪制直方圖

# 數(shù)據(jù)準(zhǔn)備
a = np.random.randn(100)    # 從標(biāo)準(zhǔn)正態(tài)分布中隨機(jī)抽取了100個(gè)數(shù)值
s = pd.Series(a)

# 用 Matplotlib 畫直方圖
plt.hist(s)
plt.show()

用Python繪制箱線圖

# 數(shù)據(jù)準(zhǔn)備
data = np.random.normal(size=(10,4))    # 生成 0-1 之間的 10*4 維度數(shù)據(jù)
labels = ['A', 'B', 'C', 'D']

# 用 Matplotlib 畫箱線圖
plt.boxplot(data, labels=labels)
plt.show()

數(shù)值法:pandas

用Python計(jì)算和中位數(shù)

import pandas as pd

# 準(zhǔn)備數(shù)據(jù)
s = pd.Series([3, 3, 6, 7, 7, 10, 10, 10, 11, 13, 30])

s.mean()    # 求均值
s.median()    # 求中位數(shù)

用Python計(jì)算四分位數(shù)

import pandas as pd

# 準(zhǔn)備數(shù)據(jù)
s = pd.Series([3, 3, 6, 7, 7, 10, 10, 10, 11, 13, 30])

s.quantile([0.25, 0.5, 0.75])    # Q1,Q2,Q3

如果覺(jué)得上面一個(gè)一個(gè)函數(shù)的調(diào)用太麻煩笔咽,那么可以使用describe( )函數(shù),一次性輸出多個(gè)統(tǒng)計(jì)指標(biāo)霹期。

df = pd.DataFrame([3, 3, 6, 7, 7, 10, 10, 10, 11, 13, 30])
df.describe()    # 一次性輸出多個(gè)統(tǒng)計(jì)指標(biāo)

參考資料:

  • 基于R語(yǔ)言的社會(huì)統(tǒng)計(jì)學(xué)分析
  • 《深入淺出統(tǒng)計(jì)學(xué)》
  • 《統(tǒng)計(jì)學(xué)》
  • 《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)(第11版)》
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末叶组,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子历造,更是在濱河造成了極大的恐慌甩十,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,222評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件帕膜,死亡現(xiàn)場(chǎng)離奇詭異枣氧,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)垮刹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,455評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門达吞,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人荒典,你說(shuō)我怎么就攤上這事酪劫⊥萄迹” “怎么了?”我有些...
    開封第一講書人閱讀 157,720評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵覆糟,是天一觀的道長(zhǎng)刻剥。 經(jīng)常有香客問(wèn)我,道長(zhǎng)滩字,這世上最難降的妖魔是什么造虏? 我笑而不...
    開封第一講書人閱讀 56,568評(píng)論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮麦箍,結(jié)果婚禮上漓藕,老公的妹妹穿的比我還像新娘。我一直安慰自己挟裂,他們只是感情好享钞,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,696評(píng)論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著诀蓉,像睡著了一般栗竖。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上渠啤,一...
    開封第一講書人閱讀 49,879評(píng)論 1 290
  • 那天狐肢,我揣著相機(jī)與錄音,去河邊找鬼沥曹。 笑死处坪,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的架专。 我是一名探鬼主播,決...
    沈念sama閱讀 39,028評(píng)論 3 409
  • 文/蒼蘭香墨 我猛地睜開眼玄帕,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼部脚!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起裤纹,我...
    開封第一講書人閱讀 37,773評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤委刘,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后鹰椒,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體锡移,經(jīng)...
    沈念sama閱讀 44,220評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,550評(píng)論 2 327
  • 正文 我和宋清朗相戀三年漆际,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了淆珊。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,697評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡奸汇,死狀恐怖施符,靈堂內(nèi)的尸體忽然破棺而出往声,到底是詐尸還是另有隱情,我是刑警寧澤戳吝,帶...
    沈念sama閱讀 34,360評(píng)論 4 332
  • 正文 年R本政府宣布浩销,位于F島的核電站,受9級(jí)特大地震影響听哭,放射性物質(zhì)發(fā)生泄漏慢洋。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,002評(píng)論 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望跃巡。 院中可真熱鬧橘荠,春花似錦、人聲如沸斑芜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,782評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)杏头。三九已至,卻和暖如春沸呐,著一層夾襖步出監(jiān)牢的瞬間醇王,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,010評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工崭添, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留寓娩,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,433評(píng)論 2 360
  • 正文 我出身青樓呼渣,卻偏偏與公主長(zhǎng)得像棘伴,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子屁置,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,587評(píng)論 2 350