第五章 探索性數(shù)據(jù)分析

簡介
探索性數(shù)據(jù)分析(exploratory data analysis, EDA):使用可視化方法和數(shù)據(jù)轉(zhuǎn)換來系統(tǒng)化地探索數(shù)據(jù)钾军。EDA 是一個可迭代的循環(huán)過程除嘹,具有以下作用:
(1) 對數(shù)據(jù)提出問題。
(2) 對數(shù)據(jù)進(jìn)行可視化屿衅、轉(zhuǎn)換和建模,進(jìn)而找出問題的答案莹弊。
(3) 使用上一個步驟的結(jié)果來精煉問題涤久,并提出新問題涡尘。
術(shù)語
? 變量:一種可測量的數(shù)量、質(zhì)量或?qū)傩浴?br> ? 值:變量在測量時的狀態(tài)响迂。變量值在每次測量之間可以發(fā)生改變考抄。
? 觀測:或稱個案,指在相同條件下進(jìn)行的一組測量(通常蔗彤,一個觀測中的所有測量是在同一時間對同一對象進(jìn)行的)川梅。一個觀測會包含多個值,每個值關(guān)聯(lián)到不同的變量然遏。有時我們會將觀測稱為數(shù)據(jù)點贫途。
? 表格數(shù)據(jù):一組值的集合,其中每個值都關(guān)聯(lián)一個變量和一個觀測待侵。如果每個值都有自己所屬的“單元”丢早,每個變量都有自己所屬的列,每個觀測都有自己所屬的行秧倾,那么表格數(shù)據(jù)就是整潔的怨酝。
變動
變動是每次測量時數(shù)據(jù)值的變化趨勢。
對分布進(jìn)行可視化表示
條形圖適合用于對分類變量的分布進(jìn)行展示




典型值和異常值
條形圖和直方圖都用比較高的條形表示變量中的常見值那先,而用比較矮的條形表示變量中不常見的值凫碌。沒有條形的位置表示數(shù)據(jù)中沒有這樣的值。
異常值是與眾不同的觀測或者是模式之外的數(shù)據(jù)點胃榕。有時異常值是由于數(shù)據(jù)錄入錯誤而產(chǎn)生的盛险;有時異常值則能開辟出一塊重要的新科學(xué)領(lǐng)域。
缺失值
如果在數(shù)據(jù)集中發(fā)現(xiàn)異常值勋又,但只想繼續(xù)進(jìn)行其余的分析工作苦掘,那么有 2 種選擇:
? 將帶有可疑值的行全部丟棄
?使用缺失值來代替異常值
ifelse()函數(shù)有三個參數(shù):第一個參數(shù) test 應(yīng)該是一個邏輯向量,如果 test 為 TRUE楔壤,函數(shù)結(jié)果就是第二個參數(shù) yes 的值鹤啡;如果 test 為 FALSE,函數(shù)結(jié)果就是第三個參數(shù) no 的值蹲嚣。



有缺失值存在時递瑰,在作圖時會發(fā)出警告,可以使用na.rm = TRUE使作圖時自動出去na值:


相關(guān)變動
如果變動描述的是一個變量內(nèi)部的行為隙畜,那么相關(guān)變動描述的就是多個變量之間的行為抖部。相關(guān)變動是兩個或多個變量以相關(guān)的方式共同變化所表現(xiàn)出的趨勢。
分類變量與連續(xù)變量
分類變量可以將連續(xù)變量分為不同的組议惰,然后展示不同分組情況下的連續(xù)變量分布慎颗。展示分布的方式包括直方圖,密度曲線圖,箱線圖等俯萎。
直方圖:

密度曲線圖:

箱線圖:
箱線圖是對變量值分布的一種簡單可視化表示傲宜,這種圖在統(tǒng)計學(xué)家中非常流行。每張箱線圖都包括以下內(nèi)容夫啊。
? 一個長方形箱子函卒,下面的邊表示分布的第 25 個百分位數(shù),上面的邊表示分布的第 75 個百分位數(shù)撇眯, 上下兩邊的距離稱為四分位距报嵌。箱子的中部有一條橫線, 表示分布的中位數(shù)叛本,也就是分布的第 50 個百分位數(shù)。這三條線可以表示分布的分散情況彤钟,還可以幫助我們明確數(shù)據(jù)是關(guān)于中位數(shù)對稱的来候,還是偏向某一側(cè)。
? 圓點表示落在箱子上下兩邊 1.5 倍四分位距外的觀測逸雹,這些離群點就是異常值营搅,因此需要單獨繪出。
? 從箱子上下兩邊延伸出的直線(或稱為須)可以到達(dá)分布中最遠(yuǎn)的非離群點處梆砸。


將箱線圖旋轉(zhuǎn)90度:



兩個分類變量
要想對兩個分類變量間的相關(guān)變動進(jìn)行可視化表示转质,需要計算出每個變量組合中的觀測數(shù)量。
geom_count() 函數(shù):

dplyr中的count()函數(shù):

兩個連續(xù)變量
對于兩個連續(xù)變量間的相關(guān)變動的可視化表示帖世,一般來說散點圖展示兩個連續(xù)變量之間的相關(guān)性是最合適不過的休蟹。

如果相關(guān)性較好,可以繪制其他的可視化圖形日矫,其可視化效果也會呈現(xiàn)出較好的相關(guān)性赂弓。

模式與模型
模式是數(shù)據(jù)科學(xué)中最有效的工具之一,因為其可以揭示相關(guān)變動哪轿。如果說變動會生成不確定性盈魁,那么相關(guān)變動就是減少不確定性。如果兩個變量是共同變化的窃诉,就可以使用一個變量的值來更好地預(yù)測另一個變量的值杨耙。如果相關(guān)變動可以歸因于一種因果關(guān)系(一種特殊情況),那么就可以使用一個變量的值來控制另一個變量的值飘痛。
模型是用于從數(shù)據(jù)中抽取模式的一種工具珊膜,擬合出一個較好的模型是一個很復(fù)雜的過程,需要大量的數(shù)據(jù)作為鋪墊宣脉。
ggplot2調(diào)用
ggplot() 函數(shù)的前兩個參數(shù)是 data 和 mapping辅搬, aes() 函數(shù)的前兩個參數(shù)是 x 和 y。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市堪遂,隨后出現(xiàn)的幾起案子介蛉,更是在濱河造成了極大的恐慌,老刑警劉巖溶褪,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件币旧,死亡現(xiàn)場離奇詭異,居然都是意外死亡猿妈,警方通過查閱死者的電腦和手機(jī)吹菱,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來彭则,“玉大人鳍刷,你說我怎么就攤上這事「┒叮” “怎么了输瓜?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長芬萍。 經(jīng)常有香客問我尤揣,道長,這世上最難降的妖魔是什么柬祠? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任北戏,我火速辦了婚禮,結(jié)果婚禮上漫蛔,老公的妹妹穿的比我還像新娘嗜愈。我一直安慰自己,他們只是感情好莽龟,可當(dāng)我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布芝硬。 她就那樣靜靜地躺著,像睡著了一般轧房。 火紅的嫁衣襯著肌膚如雪拌阴。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天奶镶,我揣著相機(jī)與錄音迟赃,去河邊找鬼。 笑死厂镇,一個胖子當(dāng)著我的面吹牛纤壁,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播捺信,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼酌媒,長吁一口氣:“原來是場噩夢啊……” “哼欠痴!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起秒咨,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤喇辽,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后雨席,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體菩咨,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年陡厘,在試婚紗的時候發(fā)現(xiàn)自己被綠了抽米。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡糙置,死狀恐怖云茸,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情谤饭,我是刑警寧澤标捺,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站网持,受9級特大地震影響宜岛,放射性物質(zhì)發(fā)生泄漏长踊。R本人自食惡果不足惜功舀,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望身弊。 院中可真熱鬧辟汰,春花似錦、人聲如沸阱佛。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽凑术。三九已至翩蘸,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間淮逊,已是汗流浹背催首。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留泄鹏,地道東北人郎任。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像备籽,于是被迫代替她去往敵國和親舶治。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容