R包學習-dplyr
一朴恳、安裝和加載R包
1.鏡像設置:
2.安裝:
CRAN:install.packages(“包”)
或者 Biocductor: BiocManager::install(“包”)
3. 加載:
library(包)
或 require(包)
#示例:
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
install.packages("dplyr")
library(dplyr)
二邀摆、dplyr五個基礎函數(shù)
(以下示例數(shù)據(jù)皆為 內置數(shù)據(jù)集iris的簡化版: test <- iris[c(1:2,51:52,101:102),]
)
1. 新增列 :mutate()
2. 按列篩選 :select()
2.1 按列號篩選
2.2 按列名篩選
差別在這里:
選擇 字符向量 中的列鞍爱,select中不能直接使用字符向量篩選茬缩,需要使用
one_of
函數(shù)
3. 篩選行:filter()
4. 按某1列或某幾列對整個表格進行排序: arrange()
5.匯總/計算:summarise()
*結合group_by
使用實用性強
三献酗、dplyr兩個實用技能
1. 管道操作 %>%
(cmd/ctr + shift + M)
%>%管道操作符挣棕,運用起來特別方便宝泵,能夠連接前后兩個步驟丛肮,實現(xiàn)嵌套使用簡化代碼的同時還能避免存儲多余的中間值而節(jié)省內存空間墙牌。它的作用是把符號左側返回的結果涡驮,作為符號右側調用函數(shù)的第1個參數(shù)。
- 加載任意一個tidyverse包即可用管道符號
Tidyverse包是一個數(shù)據(jù)科學套件喜滨,讓數(shù)據(jù)工作流變得更加簡單和高效捉捅。包括:
- dplyr包:用于數(shù)據(jù)操作和處理,常用的函數(shù)filter(), select(), mutate(), arrange(), group_by()虽风, summarise()等棒口,非常高效地完成數(shù)據(jù)選擇、排序辜膝、聚合无牵。
- ggplot2包:用于數(shù)據(jù)可視化。
- tidyr包:用于數(shù)據(jù)的整潔厂抖。pivot_longer()函數(shù)把數(shù)據(jù)轉換為長數(shù)據(jù)茎毁;pivot_wider()函數(shù)把數(shù)據(jù)轉換為寬數(shù)據(jù)。
- readr包:用于數(shù)據(jù)的讀取忱辅。
- forcats包:用于因子類型的管理七蜘。
- purrr包:用于函數(shù)式編程
2. count
統(tǒng)計某列的unique值
四、dplyr處理關系數(shù)據(jù)
(以下示例數(shù)據(jù)設置)
1. 內連inner_join
:取交集
2. 左連left_join
3. 全連full_join
4. 半連接:返回能夠與y表匹配的x表所有記錄semi_join
5. 反連接:返回無法與y表匹配的x表的所記錄anti_join
6. 簡單合并
以上
From 生信星球學習小組第130期
參考: