一、數(shù)據(jù)質(zhì)量分析
臟數(shù)據(jù):
缺失值
異常值
不一致的值
重要數(shù)據(jù)含有特殊符號(hào)的數(shù)據(jù)
1.異常值分析
(1)簡單統(tǒng)計(jì)量分析马篮,最常用的統(tǒng)計(jì)量是最大值和最小值沾乘,用來判斷這個(gè)變量是否超過了合理的范圍。
(2)3theta原則
(3)箱型圖分析
2.一致性分析
3.2數(shù)據(jù)特征分析
3.2.1分布分析
1.定量數(shù)據(jù)的分布分析
對(duì)于定量變量而言浑测,選擇“組數(shù)”和“組寬”是做頻率分布分析時(shí)最主要的問題翅阵,一般按照以下步驟進(jìn)行:
(1)求極差
(2)決定組距與組數(shù)
(3)決定分點(diǎn)
(4)列出頻率分布表
(5)繪制頻率分布直方圖
遵循的主要原則如下:
(1)各組之間必須時(shí)互相排斥的
(2)各組必須將所有的數(shù)據(jù)包含在內(nèi)
(3)各組的組寬最好相等
2.定性數(shù)據(jù)的分布分析