在高效數(shù)據(jù)整理工具——dplyr(一)中,簡(jiǎn)要介紹使用dplyr對(duì)但數(shù)據(jù)表的處理鳖擒,在本節(jié)中將會(huì)學(xué)習(xí)如何使用dplyr對(duì)多數(shù)據(jù)表進(jìn)行處理溉浙。主要函數(shù)有如下圖所示。
1蒋荚、數(shù)據(jù)框合并
兩個(gè)數(shù)據(jù)框合并可分別使用bind_rows(y, z)
和bind_cols(y, z)
進(jìn)行行或者列合并戳稽。
> df1 <- data.frame(a=1:2,b=3:4);df1
a b
1 1 3
2 2 4
> df2 <-data.frame(a=5:6,b=7:8);df2
a b
1 5 7
2 6 8
> bind_rows(df1,df2)
a b
1 1 3
2 2 4
3 5 7
4 6 8
> bind_cols(df1,df2)
a b a1 b1
1 1 3 5 7
2 2 4 6 8
此外,也可以使用R自帶的rbind()
和cbind()
進(jìn)行數(shù)據(jù)框的合并期升。
2惊奇、數(shù)據(jù)框連接
dplyr提供了left_join()
, right_join()
, inner_join()
, full_join()
來(lái)提供不同的連接方式。
left_join()
以左邊數(shù)據(jù)框?yàn)榛鶞?zhǔn)播赁,將右邊數(shù)據(jù)框連接進(jìn)去颂郎,可存在一對(duì)多的映射關(guān)系,保留左邊數(shù)據(jù)框的所有行容为。
> df1 <- data.frame(x = c(1, 2), y = 2:1)
> df2 <- data.frame(x = c(1, 3), a = 10, b = "a")
> df1;df2
x y
1 1 2
2 2 1
x a b
1 1 10 a
2 3 10 a
> left_join(df1,df2)
Joining, by = "x"
x y a b
1 1 2 10 a
2 2 1 NA <NA>
right_join()
用法與left_join()
相似乓序,只是以右邊為基準(zhǔn),連接左側(cè)數(shù)據(jù)框坎背。
> right_join(df1,df2)
Joining, by = "x"
x y a b
1 1 2 10 a
2 3 NA 10 a
inner_join()
則是選取連接后兩個(gè)數(shù)據(jù)框都有的記錄保留替劈。
> inner_join(df1,df2)
Joining, by = "x"
x y a b
1 1 2 10 a
full_join()
則是保留兩個(gè)數(shù)據(jù)框的所有記錄。
> inner_join(df1,df2)
Joining, by = "x"
x y a b
1 1 2 10 a
除了上面四種常見(jiàn)的連接方式外得滤,dplyr還提供了另外兩個(gè)函數(shù)通過(guò)共有記錄來(lái)篩選數(shù)據(jù):semi_join(x,y)
只保留x中能與y匹配的記錄抬纸;而anti_join(x,y)
則是丟掉x中與y匹配的記錄。
3耿戚、數(shù)據(jù)框間的交集湿故、差集與并集
dplyr提供了intersect(x,y)
,union(x,y)
膜蛔,setdiff(x,y)
三個(gè)函數(shù)來(lái)分別進(jìn)行求交集坛猪、并集和差集。
> df1 <- data_frame(x = 1:2, y = c(1L, 1L))
> df2 <- data_frame(x = 1:2, y = 1:2)
> df1;df2
# A tibble: 2 x 2
x y
<int> <int>
1 1 1
2 2 1
# A tibble: 2 x 2
x y
<int> <int>
1 1 1
2 2 2
> df1;df2
# A tibble: 2 x 2
x y
<int> <int>
1 1 1
2 2 1
# A tibble: 2 x 2
x y
<int> <int>
1 1 1
2 2 2
# 交集
> intersect(df1,df2)
# A tibble: 1 x 2
x y
<int> <int>
1 1 1
# 并集
> union(df1,df2)
# A tibble: 3 x 2
x y
<int> <int>
1 1 1
2 2 1
3 2 2
# 差集
> setdiff(df1,df2)
# A tibble: 1 x 2
x y
<int> <int>
1 2 1
4皂股、多個(gè)數(shù)據(jù)框的連接
對(duì)于多個(gè)數(shù)據(jù)框的連接可以使用purrr
包中的reduce
函數(shù):
library(dplyr)
x <- data_frame(i = c("a","b","c"), j = 1:3)
y <- data_frame(i = c("b","c","d"), k = 4:6)
z <- data_frame(i = c("c","d","a"), l = 7:9)
list(x, y, z) %>% reduce(full_join, by = "i")
# A tibble: 4 x 4
# i j k l
# <chr> <int> <int> <int>
# 1 a 1 NA 9
# 2 b 2 4 NA
# 3 c 3 5 7
# 4 d NA 6 8
list(x, y, z) %>% reduce(inner_join, by = "i")
# A tibble: 1 x 4
# i j k l
# <chr> <int> <int> <int>
# 1 c 3 5 7