通過檢驗數據集的數據質量媚赖、繪制圖表铛铁、計算某些特征量等手段,對樣本數據集的結構和規(guī)律進行分析的過程就是數據探索坑资。
1 數據質量分析
數據質量分析的主要任務時檢查原始數據中是否存在臟數據运敢,臟數據一般指不符合要求校仑,以及不能直接進行相應分析的數據。臟數據包括以下內容:
□缺失值
□異常值
□不一致的值
□重復數據以及含有特殊符號(%者冤,#)的數據
1.1 缺失值分析
(1)缺失值的影響
數據建模丟掉大量有用的信息肤视,模型中蘊含的規(guī)律更難把握。包含空值得數據會使得建模過程陷入混亂涉枫,導致不可靠的輸出。
(2)缺失值分析
統(tǒng)計含有缺失值屬性的個數腐螟,以及每個屬性的未缺失數愿汰。缺失數與缺失率等。從總體上說乐纸,缺失值的處理分為刪除存在的缺失值的記錄衬廷、對可能值進行插補和不處理三種情況。
1.2 異常值分析
異常值分析師檢驗數據是否有錄入錯誤以及含有不合常理的數據汽绢。忽視異常值的存在是十分危險的吗跋,不加剔除地把異常值包括進數據的計算分析過程中,對結果產生不良影響,重視異常值的出現跌宛,分析其產生的原因酗宋,常常成為發(fā)現問題進而改進決策的契機
異常值指的是樣本中的個別值,其數值明顯偏離其余的預測值疆拘。異常值也稱為離群點蜕猫,異常值分析也稱為離群點分析。
(1)簡單統(tǒng)計量分析
先對變量做一個描述性的統(tǒng)計哎迄,進而查看哪些數據是不合理的回右。最常用的統(tǒng)計量是最大值和最小值。比如年齡屬性中的最大值為199漱挚,則該變量取值異常翔烁。
(2)3σ原則
如果數據服從正太分布,異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值旨涝。如果數據不服從正太分布租漂,也可以用遠離平均值的多少倍標準差來描述。
(3)箱型圖分析
1.3 一致性分析
數據不一致颊糜,來源不同或者其他方式導致的數據不一致
2 數據特征分析
對數據進行質量分析以后哩治,接下來可以通過繪制圖表、計算某些特征量等手段進行數據的特征分析衬鱼。
2.1 分布分析
分布分析揭示數據的分布特征和分布類型业筏。
定量數據:繪制頻率分布圖,頻率分布直方圖來直觀分析 分布形式是對稱的還是非對稱的鸟赫,發(fā)現某些特大或特小的可疑值蒜胖。
定性數據:可用餅圖和條形圖顯示分布情況
1 定量數據的分布分析
2 定性數據的分布分析
對于定性數據抛蚤,常常根據變量的分類類型來分組台谢,可以采用餅圖和條形圖來描述定性變量的分布。
2.2 對比分析
比如根據時間上來進行對比岁经,對比不同部分在各個月份的銷售額
2.3 統(tǒng)計量分析
常從集中趨勢和離中趨勢兩個方面進行分析朋沮。
平均水平反應個體集中趨勢的度量,常用均值和中位數缀壤。反映個體離開平均水平的度量樊拓,使用較為廣泛的是標準差,四分位間距
1集中趨勢度量
2 離中趨勢度量
2.4 周期性分析
2.5 貢獻度分析
2.6 相關性分析
分析連續(xù)變量之間線性相關程度的強弱塘慕,并用適當的統(tǒng)計指標表示出來的過程成為相關分析筋夏。
2 計算相關系數
衡量線性相關:Pearson相關系數,Spearman秩相關系數和判定系數
(1)協方差就是兩個樣本分別減去均值图呢,然后取平均===》E((x-E(x))(Y-E(Y)))
衡量了線性相關性条篷,pearson相關系數就是對數據進行標準化之后的相乘
(2)判定系數就是相關系數的平方