今天學(xué)習(xí)了r包的安裝
install.packages("dplyr")
library(dplyr)
install.packages("dplyr")
這個命令可以直接下載安裝dplyr包,非常神奇
dplyr包可以用于數(shù)據(jù)預(yù)處理、清洗等
dplyr五個基礎(chǔ)函數(shù)
1.mutate(),新增列
mutate(test01, new = Sepal.Length * Sepal.Width)
2.select(),按列篩選
select(test,Sepal.Length)
select(test,c(1,5))
3.filter()篩選行
filter(test, Species %in% c("setosa","versicolor"))
filter(test, Species == "setosa"&Sepal.Length > 5 )
4.arrange(),按某1列或某幾列對整個表格進(jìn)行排序
arrange(test, desc(Sepal.Length))
#用desc從大到小arrange(test, Sepal.Length)
#默認(rèn)從小到大排序
5.summarise():匯總
summarise(test, mean(Sepal.Length), sd(Sepal.Length))
# 計算Sepal.Length的平均值和標(biāo)準(zhǔn)差
summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))
或使用管道操作 ctrl+shift+M分步運(yùn)行
test %>%
group_by(Species) %>%
summarise(mean(Sepal.Length), sd(Sepal.Length))
dplyr處理關(guān)系數(shù)據(jù)
1.內(nèi)連inner_join,取交集
2.左連left_join
3.全連full_join
4.半連接:返回能夠與y表匹配的x表所有記錄semi_join
5.反連接:返回?zé)o法與y表匹配的x表的所記錄anti_join
6.簡單合并:bind_rows()函數(shù)需要兩個表格列數(shù)相同,而bind_cols()函數(shù)則需要兩個數(shù)據(jù)框有相同的行數(shù)
以上