R包學習
R包的安裝和加載
1.設置下載地址的鏡像網(wǎng)站
options函數(shù)就是設置R運行過程中的一些選項設置
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) #對應清華源
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #對應中科大源;當然可以換成其他地區(qū)的鏡像
一勞永逸的R下載鏡像網(wǎng)站的設置
詳見生信星球微信公眾號:https://mp.weixin.qq.com/s/XvKb5FjAGM6gYsxTw3tcWw
2.安裝R包
CRAN網(wǎng)站中R包的安裝
install.packages(“names”)
Biocductor網(wǎng)站中R包的安裝
BiocManager::install(“names”)
3.加載R包
library(package)
require(package)
dplyr包的學習
五個基礎函數(shù)
library(dplyr) #dplyr加載
test <- iris[c(1:2,51:52,101:102),]
###mutate:新增一列###
mutate(test租冠,new=Sepal.Length * Sepal.Width)#新增一列,數(shù)據(jù)由Sepal.Length和Sepal.Width相乘得到
###select:按列篩選###
select(test,1) #篩選第一列
select(test,c(1,5)) #篩選第一列和第五列
select(test,Sepal.Length) #篩選名為Sepal.Length的列
select(test, Petal.Length, Petal.Width) #篩選名為Sepal.Length和 Petal.Width的列
vars <- c("Petal.Length", "Petal.Width")
select(test, one_of(vars))#選擇字符向量中的列努溃,select中不能直接使用字符向量篩選,需要使用one_of函數(shù)
###filter:按行篩選###
filter(test, Species == "setosa") #篩選Species列中為setosa的行
filter(test, Species == "setosa"&Sepal.Length > 5 ) #篩選Species列中為setosa的行喜喂,且該行中Sepal.Length > 5
filter(test, Species %in% c("setosa","versicolor")) #篩選Species列中為setosa和versicolor的行
###arrange:排序###
arrange(test, Sepal.Length) #將Sepal.Length這一列按從小到大排序
arrange(test, desc(Sepal.Length)) #將Sepal.Length這一列按從大到小排序
###summarise:匯總###
summarise(test, mean(Sepal.Length), sd(Sepal.Length)) # 計算Sepal.Length的平均值和標準差
group_by(test, Species) #先按照Species分組
summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length)) #計算按照Species分組后,每組Sepal.Length的平均值和標準差。
兩個實用技能
###管道符號:快捷鍵 (cmd/ctr + shift + M)###
test %>% group_by(Species) %>% summarise(mean(Sepal.Length), sd(Sepal.Length)) #將test數(shù)據(jù)框中的數(shù)據(jù)按照Species分組后計算每組Sepal.Length的平均值和標準差
###count:統(tǒng)計某列的unique值###
count(test,Species) #統(tǒng)計test中Species這一列的非重復值;相當于函數(shù)table瘸右。
多個數(shù)據(jù)框的處理
test1 <- data.frame(x = c('b','e','f','x'),
z = c("A","B","C",'D')) #創(chuàng)建一個名為test1的數(shù)據(jù)框称诗,包含x萍悴,z兩列。
test2 <- data.frame(x = c('a','b','c','d','e','f'),
y = c(1,2,3,4,5,6)) #創(chuàng)建一個名為test2的數(shù)據(jù)框寓免,包含x癣诱,y兩列。
###內連inner_join,取交集###
inner_join(test1, test2, by = "x") #將test1和test2數(shù)據(jù)集中按x列中共有元素合并為一個新的數(shù)據(jù)集袜香。
###左連left_join###
left_join(test1, test2, by = 'x') #將test1和test2數(shù)據(jù)集中按test1中x列的元素合并撕予,保留test1中x列的全部元素。
left_join(test2, test1, by = 'x') #將test1和test2數(shù)據(jù)集中按test2中x列的元素合并蜈首,保留test2中x列的全部元素实抡。
###全連full_join###
full_join( test1, test2, by = 'x') #將test1和test2數(shù)據(jù)集中x列的元素合并,保留test1和test2中x列的全部元素欢策。
###半連接:返回能夠與y表匹配的x表所有記錄semi_join###
semi_join(x = test1, y = test2, by = 'x') #保留test1中x列與test2中x列相匹配的所有元素
###反連接:返回無法與y表匹配的x表的所記錄anti_join###
anti_join(x = test2, y = test1, by = 'x') #丟棄test2中x列與test1中x列相匹配的所有元素
###簡單合并###
test1 <- data.frame(x = c(1,2,3,4), y = c(10,20,30,40)) #創(chuàng)建一個名為test1的數(shù)據(jù)框吆寨,包含x,y兩列
test2 <- data.frame(x = c(5,6), y = c(50,60)) #創(chuàng)建一個名為test2的數(shù)據(jù)框踩寇,包含x啄清,y兩列
test3 <- data.frame(z = c(100,200,300,400)) #創(chuàng)建一個名為test3的數(shù)據(jù)框,包含z一列
bind_rows(test1, test2) #按行合并test1和test2俺孙,要求列數(shù)相同
bind_cols(test1, test3) #按列合并test1和test2辣卒,要求行數(shù)相同