簡介
探索性數(shù)據(jù)分析(exploratory data analysis, EDA):使用可視化方法和數(shù)據(jù)轉(zhuǎn)換來系統(tǒng)化地探索數(shù)據(jù)钾军。EDA 是一個可迭代的循環(huán)過程除嘹,具有以下作用:
(1) 對數(shù)據(jù)提出問題。
(2) 對數(shù)據(jù)進(jìn)行可視化屿衅、轉(zhuǎn)換和建模,進(jìn)而找出問題的答案莹弊。
(3) 使用上一個步驟的結(jié)果來精煉問題涤久,并提出新問題涡尘。
術(shù)語
? 變量:一種可測量的數(shù)量、質(zhì)量或?qū)傩浴?br>
? 值:變量在測量時的狀態(tài)响迂。變量值在每次測量之間可以發(fā)生改變考抄。
? 觀測:或稱個案,指在相同條件下進(jìn)行的一組測量(通常蔗彤,一個觀測中的所有測量是在同一時間對同一對象進(jìn)行的)川梅。一個觀測會包含多個值,每個值關(guān)聯(lián)到不同的變量然遏。有時我們會將觀測稱為數(shù)據(jù)點贫途。
? 表格數(shù)據(jù):一組值的集合,其中每個值都關(guān)聯(lián)一個變量和一個觀測待侵。如果每個值都有自己所屬的“單元”丢早,每個變量都有自己所屬的列,每個觀測都有自己所屬的行秧倾,那么表格數(shù)據(jù)就是整潔的怨酝。
變動
變動是每次測量時數(shù)據(jù)值的變化趨勢。
對分布進(jìn)行可視化表示
條形圖適合用于對分類變量的分布進(jìn)行展示
典型值和異常值
條形圖和直方圖都用比較高的條形表示變量中的常見值那先,而用比較矮的條形表示變量中不常見的值凫碌。沒有條形的位置表示數(shù)據(jù)中沒有這樣的值。
異常值是與眾不同的觀測或者是模式之外的數(shù)據(jù)點胃榕。有時異常值是由于數(shù)據(jù)錄入錯誤而產(chǎn)生的盛险;有時異常值則能開辟出一塊重要的新科學(xué)領(lǐng)域。
缺失值
如果在數(shù)據(jù)集中發(fā)現(xiàn)異常值勋又,但只想繼續(xù)進(jìn)行其余的分析工作苦掘,那么有 2 種選擇:
? 將帶有可疑值的行全部丟棄
?使用缺失值來代替異常值
ifelse()函數(shù)有三個參數(shù):第一個參數(shù) test 應(yīng)該是一個邏輯向量,如果 test 為 TRUE楔壤,函數(shù)結(jié)果就是第二個參數(shù) yes 的值鹤啡;如果 test 為 FALSE,函數(shù)結(jié)果就是第三個參數(shù) no 的值蹲嚣。
有缺失值存在時递瑰,在作圖時會發(fā)出警告,可以使用na.rm = TRUE使作圖時自動出去na值:
相關(guān)變動
如果變動描述的是一個變量內(nèi)部的行為隙畜,那么相關(guān)變動描述的就是多個變量之間的行為抖部。相關(guān)變動是兩個或多個變量以相關(guān)的方式共同變化所表現(xiàn)出的趨勢。
分類變量與連續(xù)變量
分類變量可以將連續(xù)變量分為不同的組议惰,然后展示不同分組情況下的連續(xù)變量分布慎颗。展示分布的方式包括直方圖,密度曲線圖,箱線圖等俯萎。
直方圖:
密度曲線圖:
箱線圖:
箱線圖是對變量值分布的一種簡單可視化表示傲宜,這種圖在統(tǒng)計學(xué)家中非常流行。每張箱線圖都包括以下內(nèi)容夫啊。
? 一個長方形箱子函卒,下面的邊表示分布的第 25 個百分位數(shù),上面的邊表示分布的第 75 個百分位數(shù)撇眯, 上下兩邊的距離稱為四分位距报嵌。箱子的中部有一條橫線, 表示分布的中位數(shù)叛本,也就是分布的第 50 個百分位數(shù)。這三條線可以表示分布的分散情況彤钟,還可以幫助我們明確數(shù)據(jù)是關(guān)于中位數(shù)對稱的来候,還是偏向某一側(cè)。
? 圓點表示落在箱子上下兩邊 1.5 倍四分位距外的觀測逸雹,這些離群點就是異常值营搅,因此需要單獨繪出。
? 從箱子上下兩邊延伸出的直線(或稱為須)可以到達(dá)分布中最遠(yuǎn)的非離群點處梆砸。
將箱線圖旋轉(zhuǎn)90度:
兩個分類變量
要想對兩個分類變量間的相關(guān)變動進(jìn)行可視化表示转质,需要計算出每個變量組合中的觀測數(shù)量。
geom_count() 函數(shù):
dplyr中的count()函數(shù):
兩個連續(xù)變量
對于兩個連續(xù)變量間的相關(guān)變動的可視化表示帖世,一般來說散點圖展示兩個連續(xù)變量之間的相關(guān)性是最合適不過的休蟹。
如果相關(guān)性較好,可以繪制其他的可視化圖形日矫,其可視化效果也會呈現(xiàn)出較好的相關(guān)性赂弓。
模式與模型
模式是數(shù)據(jù)科學(xué)中最有效的工具之一,因為其可以揭示相關(guān)變動哪轿。如果說變動會生成不確定性盈魁,那么相關(guān)變動就是減少不確定性。如果兩個變量是共同變化的窃诉,就可以使用一個變量的值來更好地預(yù)測另一個變量的值杨耙。如果相關(guān)變動可以歸因于一種因果關(guān)系(一種特殊情況),那么就可以使用一個變量的值來控制另一個變量的值飘痛。
模型是用于從數(shù)據(jù)中抽取模式的一種工具珊膜,擬合出一個較好的模型是一個很復(fù)雜的過程,需要大量的數(shù)據(jù)作為鋪墊宣脉。
ggplot2調(diào)用
ggplot() 函數(shù)的前兩個參數(shù)是 data 和 mapping辅搬, aes() 函數(shù)的前兩個參數(shù)是 x 和 y。