3.1.1 定量變量的圖表示:直方圖、盒形圖黄锤、莖葉圖、散點圖食拜。
3.1.2 定性變量的圖表示:餅圖和條形圖鸵熟。
3.1.3 其它圖描述法:Chernoff面孔圖、星圖负甸、Lorenz曲線
3.2如何用少量數字來概括數據
由于定性變量主要是計數流强,比較簡單痹届,最常用的概括就是比例或百分比,所以下面主要介紹關于定量變量的數字描述打月。
除了圖表队腐,還可以用匯總統計量或概括統計量來描述定量變量的數據。
3.2.1 數據的“位置”
與“位置”有關的統計量被稱為位置統計量奏篙。
最常用的位置統計量為小學學到的算數平均值柴淘,在統計學中被稱為均值,更嚴格叫樣本均值秘通。
均值容易被少數極端值影響为严,但不會對中位數影響太大(因此次稱中位數比均值穩(wěn)健)肺稀。(樣本)中位數是數據按大小排列后位于中間的那個數(若為偶數第股,則為其兩個的平均值)。
除了中位數之外盹靴,還有上下四分位數炸茧。
在樣本中出現最多的某一數目被稱為眾數。在定性變量中稿静,由于記錄的是頻數梭冠,因此眾數比較常用。
3.2.2 數據的尺度
理解數據的尺度:不患寡而患不均改备。
尺度統計量是描述數據散布控漠,即描述數據集中與分散程度或變化的度量。
最簡單的尺度統計量是極差悬钳,即極大值和極小值之間的差盐捷。由此可以推出四分位數極差或四分位數間距的定義,它描述了中間半數觀測值的散布情況默勾。
另一個常用的統計量為(樣本)標準差碉渡。它度量樣本中各個數值到均值距離的一種平均。標準差實際上是方差的平方根母剥。樣本方差是各觀測值到均值距離的平方和除以減去1的樣本量滞诺。
顯然,如果標準差越大环疼,數據中的觀測值就越分散习霹,如果還左右對稱,則是單峰數據對稱炫隶。
即便出于同一個總體淋叶,樣本量相同的不同樣本也會有不同的均值,這種來自許多不同樣本的均值的標準差稱為標準誤差伪阶,也叫均值的標準誤差煞檩。
標準誤差定義為標準差除以樣本量的平方根处嫌。
3.2.3 數據的標準得分
標準化Normalizition,又稱為數據歸一化形娇。
均值和標準差不同的數據不能直接比較锰霜,但是可以把它們進行標準化之后,在比較標準化后的數據桐早。
標準化的方法有很多癣缅,需要依據意圖而選用。一個標準化最常見的標準化方法是把某樣本原始觀測值(亦稱得分哄酝,score)和該樣本之差除以該樣本的標準差友存,把各個樣本的觀測值轉換為標準得分,就可以進行比較了陶衅。
標準化之后屡立,數據總的尺度和位置會變化,但是數據內部點的相對位置沒有變化搀军。
數據標準化是有確切的理論基礎和實際目的膨俐,不能隨意進行。