1、EDA:Exploratory Data Analysis
使用tidyverse+ggplot2
2哗咆、探索性數(shù)據(jù)分析先從問題開始蜘欲,從一大串問題開始,不斷找答案:變量的variation 晌柬、變量的 covariation
區(qū)分概念:變量姥份、值 、觀測(cè)年碘、列表數(shù)據(jù)
3殿衰、variation:變量如何改變(變化趨勢(shì)),比如盛泡,同一個(gè)對(duì)象闷祥,測(cè)量?jī)纱螘?huì)有不一樣的結(jié)果
3.1先探索變零值的分布趨勢(shì)
如果是分類變量,用geom_bar()或count()
ggplot(data = diamonds) + geom_bar(mapping = aes(x = cut))
diamonds %>% count(cut)
如果是連續(xù)變量傲诵,用geom_histogram()或count(),要設(shè)置計(jì)算的間隔:
ggplot(data =diamonds)+ geom_histogram(mapping =aes(x =carat),binwidth =0.5)
diamonds %>% count(cut_width(carat, 0.5))
如果查看多個(gè)連續(xù)變量的分布:
ggplot(data = diamonds, mapping = aes(x = carat, colour = cut)) + geom_freqpoly(binwidth = 0.1)
3.2同一變量凯砍,什么情況下分布多,什么情況下分布少(clusters)拴竹,思考什么原因?qū)е碌?/p>
比如悟衩,為什么carat(鉆石重量)大于3的值很少呢?
3.3異常值栓拜, coord_cartesian將縱坐標(biāo)壓縮座泳,可以清晰個(gè)別離群值
ggplot(diamonds) + geom_histogram(mapping = aes(x = y), binwidth = 0.5) + coord_cartesian(ylim = c(0, 50))
發(fā)現(xiàn)惠昔,異常值0,~30挑势,~60
查看異常值
unusual <- diamonds %>% filter(y < 3 | y > 20) %>% select(price, x, y, z) %>% arrange(y)