第2章 描述統(tǒng)計學(xué)Ⅰ:表格法和圖形法
分類型數(shù)據(jù)是用標(biāo)簽或名稱來識別項目的類型鳍侣。數(shù)量型數(shù)據(jù)是表示多少或大小的數(shù)據(jù)这揣。
術(shù)語數(shù)據(jù)可視化(data visualization)常常用于描述匯總和表述一個數(shù)據(jù)集信息的圖形顯示的效用云挟。
1狈孔、匯總分類變量的數(shù)據(jù)
1.1頻數(shù)分布
頻數(shù)分布(frequency distribution)是一種數(shù)據(jù)的表格匯總,表示在幾個互不重疊組別中的每一組項目的個數(shù)(頻數(shù))罪郊。
條形圖(bar chart)是一種圖形方法版确,用來描繪已匯總的分類型數(shù)據(jù)的頻數(shù)分布扣囊、相對頻數(shù)分布或百分?jǐn)?shù)頻數(shù)分布乎折。
2.2 數(shù)量型數(shù)據(jù)匯總
2.2.1 頻數(shù)分布
三個步驟:1、確定互不重疊組的組數(shù)侵歇。
2骂澄、確定組寬。
3惕虑、確定組限坟冲。選擇組限必須使每一個數(shù)據(jù)值屬于且只屬于一組。
直方圖(histogram)是一種常用的數(shù)量型數(shù)據(jù)的圖形描述方式枷遂。
直方圖中鄰近的長方形是互相連接的樱衷,屬于條形圖。
直方圖的一個最重要應(yīng)用是提供了分布形態(tài)的信息酒唉。左偏表示圖形的尾部向左延伸一些矩桂。考試成績就是典型痪伦,大多數(shù)成績常常在70%之上侄榴。
2.3 用表格方式匯總兩個變量的數(shù)據(jù)
2.3.1 交叉分組表
辛普森悖論:從兩個或多個單獨(dú)的交叉分組表得到的結(jié)論與一個綜合的交叉分組表數(shù)據(jù)得到的結(jié)論可能截然相反。舉例子兩位法官网沾,分析綜合數(shù)據(jù)時癞蚕,應(yīng)該審查是否存在可能影響結(jié)論的隱藏變量,使得分開的交叉分組表提供不同的辉哥、可能更好的見解和結(jié)論桦山。
2.4 用圖形顯示方式匯總兩個變量的數(shù)據(jù)
2.4.1 散點(diǎn)圖和趨勢線
散點(diǎn)圖(scatter diagram),趨勢線(trendline)是顯示相關(guān)性近似程度的一條直線醋旦。它們會一起出現(xiàn)恒水。
2.4.2 復(fù)合條形圖和結(jié)構(gòu)條形圖
復(fù)合條形圖是對已匯總的多個條形圖同時顯示的一種圖形顯示方式。結(jié)構(gòu)條形圖:沒一個長條被分解成不同顏色的矩形段饲齐,與餅形圖類似的方式顯示每一組的相對頻數(shù)钉凌。
2.5 數(shù)據(jù)可視化:創(chuàng)建有效圖形顯示的最佳實(shí)踐
遵循如下的一般性準(zhǔn)則,可以增強(qiáng)你的顯示有效地表述數(shù)據(jù)中重要信息的可能性:
給予圖形顯示一個清晰捂人、簡明的標(biāo)題御雕。
使圖形顯示保持簡潔,當(dāng)能用二維表示時不要用三維表示滥搭。
每個坐標(biāo)軸有清楚的標(biāo)記酸纲,并給出測量的單位。
如果使用顏色來區(qū)分類別瑟匆,要確保顏色是不同的福青。
如果使用多種顏色或線型,用圖例來標(biāo)明時脓诡,要將圖例靠近所表示的數(shù)據(jù)无午。
2.5.3 數(shù)據(jù)儀表板