1.R包的安裝
首先
install.packages(“包”)
如果包不好安裝可以下載壓縮文件進(jìn)行本地安裝仿便。
然后選擇鏡像
最后(二者選一個)
library(包) require(包)
2. dplyr包中基本函數(shù)的學(xué)習(xí)
以iris數(shù)據(jù)集為例進(jìn)行說明
test1 <- iris[c(1:3,51:52,101:102),]#將iris包的1到3行,51到52行和101到102行提取出來,并賦值給test1
新增列函數(shù):mutate()
如新增一列命名為new,它的值為長/寬
mutate(test, new = Sepal.Length/Sepal.Width)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species new
1 5.1 3.5 1.4 0.2 setosa 1.457143
2 4.9 3.0 1.4 0.2 setosa 1.633333
3 7.0 3.2 4.7 1.4 versicolor 2.187500
4 6.4 3.2 4.5 1.5 versicolor 2.000000
5 6.3 3.3 6.0 2.5 virginica 1.909091
6 5.8 2.7 5.1 1.9 virginica 2.148148
按列篩選
select()
如
select(test1,1) #將第一列選出
select(test1,c(1,5)) #將第一列和第五列選出
select(test1, Petal.Length, Petal.Width) #將列名為Sepal.Length和Petal.Width的選出
a <- c("Petal.Length", "Petal.Width")# 將需要選出的列的列名全賦予給a
select(test1, one_of(a))#選出test1中包含a的列
篩選行
filter()
filter(test1, Species == "virginica")
filter(test1, Species == "setosa"&Sepal.Length > 6)
filter(test, Species %in% c("setosa","versicolor"))#注意%in%的意思
按某1列或某幾列對整個表格進(jìn)行排序
arrange()
arrange(test1, Sepal.Length)
#將按照長,從小到大排序進(jìn)行排序或在里面加上desc(Sepal.Length)按照從大到小排序
arrange(test1, Sepal.Length)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 4.7 3.2 1.3 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 5.1 3.5 1.4 0.2 setosa
4 5.8 2.7 5.1 1.9 virginica
5 6.3 3.3 6.0 2.5 virginica
6 6.4 3.2 4.5 1.5 versicolor
7 7.0 3.2 4.7 1.4 versicolor
匯總
summarise()
重要的
管道命令:%>%
如:將test1傳遞給group_by,再傳遞給 summarise
test1 %>%
group_by(Species) %>%
summarise(mean(Sepal.Length), sd(Sepal.Length))
等同于(注意體會和理解)
test1
group_by(test1,Species)
summarise(group_by(test1,Species), mean(Sepal.Length), sd(Sepal.Length))
count()
函數(shù):統(tǒng)計(jì)某列中多種重復(fù)值及其重復(fù)次數(shù)
將2個關(guān)系數(shù)據(jù)表進(jìn)行連接(注意理解!红伦!):
inner_join #內(nèi)連
left_join #左連
full_join #全連
semi_join #半連接
anti_join #反連接
最后cbind()
函數(shù)和rbind()
函數(shù):將兩個表合并(要求列相同或行相同)。