tidyverse是進行數(shù)據(jù)科學的R包蚤假,是為數(shù)據(jù)科學設(shè)計的R軟件包的集合特石。 所有軟件包都共享基本的設(shè)計理念荐糜,語法和數(shù)據(jù)結(jié)構(gòu)宋舷。
安裝
install.packages("tidyverse")
library(tidyverse)
tidyverse核心軟件包
核心方法包括在日常數(shù)據(jù)分析中使用的軟件包绪撵。 從tidyverse 1.3.0開始,以下軟件包已包含在核心tidyverse中:
- ggplot2 是一個基于圖形語法的創(chuàng)建圖形的系統(tǒng)祝蝠。
- dplyr 提供了數(shù)據(jù)處理的語法音诈,提供了一組一致的動詞來解決最常見的數(shù)據(jù)處理難題。
- tidyr 提供了一組功能來整理數(shù)據(jù)绎狭。 整潔的數(shù)據(jù)是具有一致形式的數(shù)據(jù):簡單來說细溅,每個變量都在一個列中,并且每個列都是一個變量坟岔。
- readr 提供了一種快速而友好的方式來讀取矩形數(shù)據(jù)(如csv谒兄,tsv和fwf)摔桦。
- purrr 通過提供一套完整且一致的工具來處理函數(shù)和向量社付,增強了R的功能編程(FP)工具包承疲。 一旦掌握了基本概念,purrr便可以用更易于編寫和更具表現(xiàn)力的代碼替換許多for循環(huán)鸥咖。
- tibble 是對數(shù)據(jù)框的重新構(gòu)想燕鸽,保留了證明有效的時間,而舍棄了無效的時間啼辣。
- stringr 旨在使使用字符串盡可能容易啊研。 它建立在stringi之上,stringi使用ICU C庫提供常見字符串操作的快速實現(xiàn)鸥拧。
- forcats 可以解決因為因子導致的常見問題党远。 R使用因子來處理分類變量,即具有固定且已知的可能值集的變量富弦。
Import 導入其他包來讀取數(shù)據(jù)
tidyverse包安裝了一系列的包來讀取數(shù)據(jù):
- DBI 讀取關(guān)系型數(shù)據(jù)庫沟娱。需要將DBI與特定數(shù)據(jù)庫的后端配對,例如 RSQLite, RMariaDB, RPostgres, 或者 odbc.
- haven 用于 SPSS, Stata, 和 SAS 數(shù)據(jù).
- httr 用于網(wǎng)頁APIs.
-
readxl 用于
.xls
and.xlsx
表格數(shù)據(jù). - googlesheets4 通過 Sheets API v4 用于 Google Sheets .
- googledrive 用于 Google Drive 文件.
- rvest 用于網(wǎng)頁抓取.
- jsonlite 用于 JSON.
- xml2 用于 XML.
特殊數(shù)據(jù)軟件包
- lubridate 用于 日期 以及 日期-時間 數(shù)據(jù).
- hms 為一天中的時間值.
- blob 用于存儲Blob(二進制)數(shù)據(jù).
- dbplyr 通過將dplyr代碼轉(zhuǎn)換為SQL來使用遠程數(shù)據(jù)庫表腕柜。
- dtplyr 通過自動轉(zhuǎn)換為等效的但通常更快的data.table代碼來提供data.table后端济似。
程序
除了purrr提供了非常一致且自然的R對象迭代方法外,還有兩個附加的dydyverse程序包可幫助應對一般的編程挑戰(zhàn):
magrittr 提供了在整個tidyverse中使用的管道盏缤,%>%砰蠢。 它還提供了許多更專業(yè)的管道運營商(如%$%和%<>%)。
glue 提供了paste()的替代方法唉铜,使合并數(shù)據(jù)和字符串變得更加容易台舱。
參考:https://www.tidyverse.org/packages/