dplyr包
5個基礎(chǔ)函數(shù)
- mutate() 新增列
eg: mutate(文件名, new = 新參數(shù)) - select() 按列篩選
eg: select(文件名, 列名/列號) - filter() 篩選行
eg:filter(文件名蜜葱,篩選條件)
filter(test, Species == "setosa")
filter(test, Species == "setosa"&Sepal.Length > 5 )
filter(test, Species %in% c("setosa","versicolor")) - arrange() 按某1列或某幾列對整個表格進(jìn)行排序
eg:arrange(文件名竟秫,列名)
arrange(test, desc(Sepal.Length)) desc降序排列 - summarise() 匯總 與group_by聯(lián)用
eg:summarise(group_by(test, Species),mean(Sepal.Length),sd(Sepal.Length)) 按物種分類
dplyr兩個實(shí)用技能
- 管道操作 %>% (cmd/ctr + shift + M)
eg:test %>%
group_by(Species) %>%
summarise(mean(Sepal.Length), sd(Sepal.Length))
文件 %>% 命令1 %>% 命令2 - count統(tǒng)計某列的unique值
count(test,Species)
dplyr處理關(guān)系數(shù)據(jù)
- inner_join內(nèi)連接擎值,取交集
inner_join(數(shù)據(jù)集1, 數(shù)據(jù)集2, by = "變量") - left_join 左連
left_join(數(shù)據(jù)集1, 數(shù)據(jù)集2, by = "變量") 數(shù)據(jù)集位置有順序 向數(shù)據(jù)集1中添加數(shù)據(jù)集2中的非公有部分 - full_join( test1, test2, by = 'x') 全聯(lián)接 將兩個數(shù)據(jù)集中的所有數(shù)據(jù)聯(lián)接在一起
- semi_join 半連接 返回能夠與y表匹配的x表所有記錄semi_join
semi_join(x = test1, y = test2, by = 'x') - anti_join 反連接:返回?zé)o法與y表匹配的x表的所記錄anti_join
anti_join(x = test2, y = test1, by = 'x') - bind_rows(數(shù)據(jù)集1疲陕,數(shù)據(jù)集2) 函數(shù)需要兩個表格列數(shù)相同
bind_cols()函數(shù)需要兩個表格列數(shù)相同