通過各種渠道將數(shù)據(jù)收集上來之后,接下來的任務(wù)就是對數(shù)據(jù)進(jìn)行加工整理银亲。使之符合統(tǒng)計分析的需要,同時對數(shù)據(jù)進(jìn)行圖標(biāo)展示纽匙,以發(fā)現(xiàn)數(shù)據(jù)中的一些基本特征务蝠,為進(jìn)一步分析提供思路。
1數(shù)據(jù)的的預(yù)處理:審核-篩選-排序
數(shù)據(jù)的審核
數(shù)據(jù)的審核就是檢查數(shù)據(jù)中是否有錯誤烛缔。
對于通過調(diào)查獲取的原始數(shù)據(jù)(raw data)馏段,應(yīng)主要從完整性和準(zhǔn)確性兩個方面去審核。完整性審核主要是檢查應(yīng)調(diào)查單位或個體是否有遺漏践瓷,所有的調(diào)查項目是否填寫齊全等院喜。準(zhǔn)確性審核主要檢查數(shù)據(jù)是否有錯誤,是否存在異常值等当窗。對于異常值要仔細(xì)的鑒別:如果異常值屬于記錄時的錯粗够坐,在分析之前應(yīng)該予以糾正;如果異常值是一個正確的值,則應(yīng)該予以保留元咙。
對于通過其他渠道得來的二手?jǐn)?shù)據(jù)梯影,應(yīng)著重審核數(shù)據(jù)的適用性和時效性。
數(shù)據(jù)的篩選(data filter):包含兩方面的內(nèi)容:一是將某些部分和要求的數(shù)據(jù)或有明顯錯誤的數(shù)據(jù)予以剔除庶香;而是將符合某種特定條件的數(shù)據(jù)篩選出來甲棍,而不符合特定條件的數(shù)據(jù)予以剔除,數(shù)據(jù)的篩選可借助計算機自動完成赶掖。
透視表的計算與練習(xí)
2品質(zhì)數(shù)據(jù)的整理與展示
對品質(zhì)數(shù)據(jù)主要做分類整理感猛,對數(shù)值型數(shù)據(jù)則主要做分組整理。品質(zhì)數(shù)據(jù)包括分類數(shù)據(jù)和順序數(shù)據(jù)奢赂。
分類數(shù)據(jù)的整理與圖示
分類數(shù)據(jù)本身就是對事物的一種分類陪白,因此,在整理時首先列出所分的類別膳灶,然后計算出每一類別的頻數(shù)咱士、頻率或比例、比率等轧钓,即可形成一張頻數(shù)分布表序厉,最后根據(jù)需要選擇適當(dāng)?shù)膱D形進(jìn)行展示,以便對數(shù)據(jù)即其特征有一個初步的了解毕箍。
由連個個或兩個以上變量交叉分類的頻數(shù)分布表也稱為列聯(lián)表(contingency ?table);二維的列聯(lián)表(兩個變量交叉分類)也稱為交叉表(cross table)弛房。
分類數(shù)據(jù)相關(guān)圖標(biāo)介紹
(1)條形圖(bar chart)是用寬度相同的條形的高度或長短來表示數(shù)據(jù)多少的圖形。當(dāng)條形圖橫置或縱置時稱為柱狀圖(column chart)而柑。
(2)帕累托圖(pareto chart)該圖是按照各類數(shù)據(jù)出現(xiàn)的頻數(shù)多少排序后繪制的條形圖文捶。
(3)餅圖(pie chart)
(4)環(huán)形圖 (doughnut ?chart)
順序數(shù)據(jù)的整理與圖示
上面介紹的分類數(shù)據(jù)的頻數(shù)分布和圖示方法,如頻數(shù)牺堰、比例拄轻、百分比颅围、比率伟葫、條形圖和餅圖,也都是用于順序數(shù)據(jù)的整理與顯示院促。對于順序數(shù)據(jù)筏养,除了可使用上面整理和顯示技術(shù),還可以計算累計頻數(shù)和累計頻率常拓。
累計頻數(shù)(cumulative frequencies)是將各累有序類別或組的頻數(shù)逐級累加起來得到的頻數(shù)渐溶。通過累積頻數(shù),可以很容易看出某一類別(或數(shù)值)一下或某一類別(或數(shù)值)以上的頻數(shù)之和弄抬。
累計頻率或累積百分比(cumulative percentages)是將各有序類別或組的百分比逐級累加起來茎辐,它也有向上累積和向下累積兩種方法。
3數(shù)值型數(shù)據(jù)的整理與展示
數(shù)據(jù)的分組
將原始數(shù)據(jù)按照某種標(biāo)準(zhǔn)化分成不同組別,分組后的數(shù)據(jù)成為分組數(shù)(grouped data)拖陆。數(shù)據(jù)分組的主要目的是觀察數(shù)據(jù)的分布特征弛槐。數(shù)據(jù)經(jīng)分組后再計算出各組中數(shù)據(jù)出現(xiàn)的頻數(shù),就形成了一張頻數(shù)分布表依啰。數(shù)據(jù)精分組后再計算出各組中數(shù)據(jù)出現(xiàn)的頻數(shù)乎串,就形成了一個頻數(shù)分布表。數(shù)據(jù)分組的方法有單變量分組和組距分組兩種速警。單變量分組是把每一個變量值作為一組叹誉,這種分組通常只適合離散變量,且唉變量值較少的情況下使用闷旧。在連續(xù)變量或變量值較多的情況下长豁,通常采取組距分組。它是將全部變量值一次劃分為若干個區(qū)間忙灼,并將這一區(qū)間的變量值作為一組蕉斜。在組距分組中,一個組的最小值成為下限(lower limit)缀棍;一個組的最大值稱為上限(upper limited)
第一步:組數(shù)的確定宅此。一般情況下:5到15組
第二步:確定各組的組距。組距(class width)是一個上限與下限的差爬范。
第三步:根據(jù)分組整理頻數(shù)分布表父腕。
采用組距分組時,需要遵循不重不漏的原則青瀑。補充是指一項數(shù)據(jù)只能在其中的某一組璧亮,不能在其他組中重復(fù)出現(xiàn);不漏是指組別能夠窮盡斥难,即在所分的全部組別中沒想數(shù)據(jù)能分在其中的某一組枝嘶,不能遺漏。
為了解決不重的問題哑诊,統(tǒng)計分組時習(xí)慣上規(guī)定“上組限不在內(nèi)”群扶。
在組距分組時,如果個組的組距相等則成為等距分組镀裤。有時竞阐,對于某些特殊現(xiàn)象或為了特定的研究需要,也可以采用不等距分組暑劝。
組距分組掩蓋了各組內(nèi)的數(shù)據(jù)分布狀況骆莹,為了反映各組數(shù)據(jù)的一般水平,我們通常采用組中值作為給組數(shù)據(jù)的一個代表值担猛。組中值(classmidpoint)
需要注意的是試用組中值代表一組數(shù)據(jù)時有一個必要的假設(shè)條件幕垦,即各組數(shù)據(jù)在本組內(nèi)呈均勻分布或在組中值兩側(cè)呈對稱分布丢氢。如果實際數(shù)據(jù)的分布不符合這一假設(shè),用組中值作為一組數(shù)據(jù)的代表會有一定的誤差先改。
為了統(tǒng)計分析的需要卖丸,有時需要觀察某一數(shù)值一下或者以上的頻數(shù)或頻率之和,這時候可以計算出了極品書或者累積頻率盏道。
數(shù)值型數(shù)據(jù)的圖示
(1)分組數(shù)據(jù):直方圖(histogram)
(2)未分組數(shù)據(jù):莖葉圖和箱線圖
莖葉圖 (tem and leafdisplay)是反映原始數(shù)據(jù)分布的圖形稍浆。它由莖和葉兩部分組成。通過莖葉圖猜嘱,可以看出數(shù)據(jù)的分布形狀即數(shù)據(jù)的離散狀況衅枫。比如,分布是否對稱朗伶,數(shù)據(jù)是否集中弦撩,是否有離散等等。
繪制莖葉圖的關(guān)鍵是設(shè)計好樹莖论皆,而且也上只保留該數(shù)值的最后一個數(shù)字益楼。例如,125分成12/5,12分成1/2,1.25分成12/5(單位:0.01)点晴,等等感凤。前部分是樹精,后部分是樹葉粒督。樹莖一旦確定陪竿,樹葉就自然地長在相應(yīng)的樹莖上了。
莖葉圖類似與橫置直方圖屠橄,與直方圖相比族跛,莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個原是數(shù)值锐墙,即保留了原始數(shù)據(jù)信息礁哄。在應(yīng)用方面,直方圖通常適用于大批量數(shù)據(jù)溪北,莖葉圖通常適用于小批量數(shù)據(jù)桐绒。
箱線圖(box plot)是一組數(shù)據(jù)的最大值(maxiumu)、最小值(minimum)刻盐、中位數(shù)(median)和四分衛(wèi)數(shù)(quartiles)掏膏。這五個特征值繪制而成的箱線圖劳翰,主要反映原始數(shù)據(jù)的特征,還可以進(jìn)行多組數(shù)據(jù)分布特征的比較。
(3)時間序列數(shù)據(jù):線圖(line plot)
如果數(shù)值型數(shù)據(jù)是在不同的時間上取得的脖祈,即時間序列數(shù)據(jù)逻谦,則可以繪制線圖颖变。線圖主要用于反映現(xiàn)象隨時間變化的特征。
4多變量數(shù)據(jù)的圖表
上面介紹的一些圖形描述都是單變量數(shù)據(jù)听想。當(dāng)有兩個或兩個以上變量時腥刹,可以采取用多變量的圖示方法,常見的有散點圖汉买、氣泡圖衔峰、雷達(dá)圖等。
(1)散點圖(scattered diagram)
(2)氣泡圖(bubble chart)可用于展示三個變量之間的關(guān)系蛙粘。它與散點圖繪制時候類似垫卤,將一個變量放在橫軸,另一個變量放在縱軸出牧,而第三個變量則用旗袍的大小來表示穴肘。
(3)雷達(dá)圖(radar chart)是顯示多個變量常用的圖示方法,也稱為蜘蛛圖(spider chart)舔痕。
4合理使用圖標(biāo)表
一個好的圖標(biāo)具備的特征:
(1)顯示數(shù)據(jù)
(2)讓讀者把注意力集中在圖形的內(nèi)容上评抚,而不是制作圖形的程序上
(3)避免歪曲
(4)強調(diào)數(shù)據(jù)之間的比較
(5)服務(wù)于一個明確的目的
(6)有對圖形的統(tǒng)計描述和文字說明
統(tǒng)計表的設(shè)計
統(tǒng)計表主要由四部分組成:即表頭、航標(biāo)題伯复、列標(biāo)題和數(shù)字資料慨代,此外在有必要的收購可以在統(tǒng)計表的下方加上表外附加。