原文鏈接:《R數(shù)據(jù)科學》學習筆記|Note5:使用dplyr進行數(shù)據(jù)轉(zhuǎn)換(下)
3.4?使用?select()?選擇列
select()?函數(shù)對于航班數(shù)據(jù)不是特別有用闸英,因為其中只有 19 個變量出吹,但你還是可以通過這個數(shù)據(jù)集了解一下?select()?函數(shù)的大致用法:
1# 按名稱選擇列
2select(flights, year, month, day)
1# 選擇“year”和“day”之間的所有列(包括“year”和“day”)
2select(flights, year:day)
1# 選擇不在“year”和“day”之間的所有列(不包括“year”和“day”)
2select(flights, -(year:day))
還可以在 select () 函數(shù)中使用一些輔助函數(shù)秋麸。
??starts_with("abc")?:匹配以“abc”開頭的名稱。
??ends_with("xyz")?:匹配以“xyz”結(jié)尾的名稱。
??contains("ijk")?:匹配包含“ijk”的名稱。
??matches("(.)\\1")?:選擇匹配正則表達式的那些變量。這個正則表達式會匹配名稱中有重復字符的變量(后續(xù)會有正則表達式的知識)。
??num_range("x", 1:3)?:匹配 x1、x2 和 x3榛斯。
使用??select?命令可以獲取更多信息允跑。
select()?可以重命名變量,但我們很少這樣使用它,因為這樣會丟掉所有未明確提及的變量。我們應該使用?select()?函數(shù)的變體?rename()?函數(shù)來重命名變量舱权,以保留所有未明確提及的變量:
1rename(flights, tail_num = tailnum)
另一種用法是將?select()?函數(shù)和?everything()?輔助函數(shù)結(jié)合起來使用。當想要將幾個變量移到數(shù)據(jù)框開頭時,這種用法非常奏效:
1select(flights, time_hour, air_time, everything())
1> select(flights, time_hour, air_time, everything())
2# A tibble: 336,776 x 19
3? time_hour? ? ? ? ? air_time? year month? day dep_time sched_dep_time
4? <dttm>? ? ? ? ? ? ? ? <dbl> <int> <int> <int>? ? <int>? ? ? ? ? <int>
5 1 2013-01-01 05:00:00? ? ? 227? 2013? ? 1? ? 1? ? ? 517? ? ? ? ? ? 515
6 2 2013-01-01 05:00:00? ? ? 227? 2013? ? 1? ? 1? ? ? 533? ? ? ? ? ? 529
7 3 2013-01-01 05:00:00? ? ? 160? 2013? ? 1? ? 1? ? ? 542? ? ? ? ? ? 540
8 4 2013-01-01 05:00:00? ? ? 183? 2013? ? 1? ? 1? ? ? 544? ? ? ? ? ? 545
9 5 2013-01-01 06:00:00? ? ? 116? 2013? ? 1? ? 1? ? ? 554? ? ? ? ? ? 600
10 6 2013-01-01 05:00:00? ? ? 150? 2013? ? 1? ? 1? ? ? 554? ? ? ? ? ? 558
11 7 2013-01-01 06:00:00? ? ? 158? 2013? ? 1? ? 1? ? ? 555? ? ? ? ? ? 600
12 8 2013-01-01 06:00:00? ? ? 53? 2013? ? 1? ? 1? ? ? 557? ? ? ? ? ? 600
13 9 2013-01-01 06:00:00? ? ? 140? 2013? ? 1? ? 1? ? ? 557? ? ? ? ? ? 600
1410 2013-01-01 06:00:00? ? ? 138? 2013? ? 1? ? 1? ? ? 558? ? ? ? ? ? 600
15# ... with 336,766 more rows, and 12 more variables: dep_delay <dbl>,
16#? arr_time <int>, sched_arr_time <int>, arr_delay <dbl>, carrier <chr>,
17#? flight <int>, tailnum <chr>, origin <chr>, dest <chr>, distance <dbl>,
18#? hour <dbl>, minute <dbl>
3.5?使用?mutate()?添加新變量
除了選擇現(xiàn)有的列羡亩,我們還經(jīng)常需要添加新列吉殃,新列是現(xiàn)有列的函數(shù)鸠删。這就是?mutate()?函數(shù)的作用每界。
mutate()?總是將新列添加在數(shù)據(jù)集的最后,因此我們需要先創(chuàng)建一個更狹窄的數(shù)據(jù)集,以便能夠看到新變量。當使用 RStudio 時,查看所有列的最簡單的方法就是使用?View()函數(shù):
1flights_sml <- select(flights,
2? ? ? ? ? ? ? ? ? ? ? year:day,
3? ? ? ? ? ? ? ? ? ? ? ends_with("delay"),
4? ? ? ? ? ? ? ? ? ? ? distance,
5? ? ? ? ? ? ? ? ? ? ? air_time)
6
7mutate(flights_sml,
8? ? ? gain = arr_delay - dep_delay,
9? ? ? speed = distance / air_time * 60)
1> mutate(flights_sml,
2+? ? ? ? gain = arr_delay - dep_delay,
3+? ? ? ? speed = distance / air_time * 60)
4# A tibble: 336,776 x 9
5? ? year month? day dep_delay arr_delay distance air_time? gain speed
6? <int> <int> <int>? ? <dbl>? ? <dbl>? ? <dbl>? ? <dbl> <dbl> <dbl>
7 1? 2013? ? 1? ? 1? ? ? ? 2? ? ? ? 11? ? 1400? ? ? 227? ? 9? 370.
8 2? 2013? ? 1? ? 1? ? ? ? 4? ? ? ? 20? ? 1416? ? ? 227? ? 16? 374.
9 3? 2013? ? 1? ? 1? ? ? ? 2? ? ? ? 33? ? 1089? ? ? 160? ? 31? 408.
10 4? 2013? ? 1? ? 1? ? ? ? -1? ? ? -18? ? 1576? ? ? 183? -17? 517.
11 5? 2013? ? 1? ? 1? ? ? ? -6? ? ? -25? ? ? 762? ? ? 116? -19? 394.
12 6? 2013? ? 1? ? 1? ? ? ? -4? ? ? ? 12? ? ? 719? ? ? 150? ? 16? 288.
13 7? 2013? ? 1? ? 1? ? ? ? -5? ? ? ? 19? ? 1065? ? ? 158? ? 24? 404.
14 8? 2013? ? 1? ? 1? ? ? ? -3? ? ? -14? ? ? 229? ? ? 53? -11? 259.
15 9? 2013? ? 1? ? 1? ? ? ? -3? ? ? ? -8? ? ? 944? ? ? 140? ? -5? 405.
1610? 2013? ? 1? ? 1? ? ? ? -2? ? ? ? 8? ? ? 733? ? ? 138? ? 10? 319.
17# ... with 336,766 more rows
一旦創(chuàng)建翅敌,新列就可以立即使用:
1> mutate(flights_sml,
2+? ? ? ? gain = arr_delay - dep_delay,
3+? ? ? ? hours = air_time / 60,
4+? ? ? ? gain_per_hour = gain / hours)
5# A tibble: 336,776 x 10
6? ? year month? day dep_delay arr_delay distance air_time? gain hours
7? <int> <int> <int>? ? <dbl>? ? <dbl>? ? <dbl>? ? <dbl> <dbl> <dbl>
8 1? 2013? ? 1? ? 1? ? ? ? 2? ? ? ? 11? ? 1400? ? ? 227? ? 9 3.78
9 2? 2013? ? 1? ? 1? ? ? ? 4? ? ? ? 20? ? 1416? ? ? 227? ? 16 3.78
10 3? 2013? ? 1? ? 1? ? ? ? 2? ? ? ? 33? ? 1089? ? ? 160? ? 31 2.67
11 4? 2013? ? 1? ? 1? ? ? ? -1? ? ? -18? ? 1576? ? ? 183? -17 3.05
12 5? 2013? ? 1? ? 1? ? ? ? -6? ? ? -25? ? ? 762? ? ? 116? -19 1.93
13 6? 2013? ? 1? ? 1? ? ? ? -4? ? ? ? 12? ? ? 719? ? ? 150? ? 16 2.5?
14 7? 2013? ? 1? ? 1? ? ? ? -5? ? ? ? 19? ? 1065? ? ? 158? ? 24 2.63
15 8? 2013? ? 1? ? 1? ? ? ? -3? ? ? -14? ? ? 229? ? ? 53? -11 0.883
16 9? 2013? ? 1? ? 1? ? ? ? -3? ? ? ? -8? ? ? 944? ? ? 140? ? -5 2.33
1710? 2013? ? 1? ? 1? ? ? ? -2? ? ? ? 8? ? ? 733? ? ? 138? ? 10 2.3?
18# ... with 336,766 more rows, and 1 more variable: gain_per_hour <dbl>
如果只想保留新變量惕蹄,可以使用?transmute()?函數(shù):
1> transmute(flights,
2+? ? ? ? ? gain = arr_delay - dep_delay,
3+? ? ? ? ? hours = air_time / 60,
4+? ? ? ? ? gain_per_hour = gain / hours)
5# A tibble: 336,776 x 3
6? ? gain hours gain_per_hour
7? <dbl> <dbl>? ? ? ? <dbl>
8 1? ? 9 3.78? ? ? ? ? 2.38
9 2? ? 16 3.78? ? ? ? ? 4.23
10 3? ? 31 2.67? ? ? ? ? 11.6
11 4? -17 3.05? ? ? ? ? -5.57
12 5? -19 1.93? ? ? ? ? -9.83
13 6? ? 16 2.5? ? ? ? ? ? 6.4
14 7? ? 24 2.63? ? ? ? ? 9.11
15 8? -11 0.883? ? ? ? -12.5
16 9? ? -5 2.33? ? ? ? ? -2.14
1710? ? 10 2.3? ? ? ? ? ? 4.35
18# ... with 336,766 more rows
3.5.1?常用創(chuàng)建函數(shù)
創(chuàng)建新變量的多種函數(shù)可供你同?mutate()?一同使用蚯涮。最重要的一點是,這種函數(shù)必須是向量化的:它必須接受一個向量作為輸入卖陵,并返回一個向量作為輸出,而且輸入向量與輸出向量具有同樣數(shù)目的分量赶促。下面是比較常用的函數(shù)液肌。
算術(shù)運算符:+、-鸥滨、*嗦哆、/谤祖、^
模運算符:%/% 和 %%
%/%(整數(shù)除法)和 %%(求余)滿足 x == y * (x %/% y) + (x %% y)。模運算可以拆分整數(shù)老速。例如粥喜,在航班數(shù)據(jù)集中,你可以根據(jù) dep_time 計算出 hour
和 minute:
1> transmute(flights,
2+? ? ? ? ? dep_time,
3+? ? ? ? ? hour = dep_time %/% 100,
4+? ? ? ? ? minute = dep_time %% 100)
5# A tibble: 336,776 x 3
6? dep_time? hour minute
7? ? ? <int> <dbl>? <dbl>
8 1? ? ? 517? ? 5? ? 17
9 2? ? ? 533? ? 5? ? 33
10 3? ? ? 542? ? 5? ? 42
11 4? ? ? 544? ? 5? ? 44
12 5? ? ? 554? ? 5? ? 54
13 6? ? ? 554? ? 5? ? 54
14 7? ? ? 555? ? 5? ? 55
15 8? ? ? 557? ? 5? ? 57
16 9? ? ? 557? ? 5? ? 57
1710? ? ? 558? ? 5? ? 58
18# ... with 336,766 more rows
對數(shù)函數(shù):log()橘券、log2() 和 log10()
偏移函數(shù)
lead() 和 lag() 函數(shù)可以返回一個序列的領(lǐng)先值和滯后值额湘。它們可以計算出序列的移動差值(如 x – lag(x))或發(fā)現(xiàn)序列何時發(fā)生了變化(x != lag(x))。
1> (x <- 1:10)
2 [1]? 1? 2? 3? 4? 5? 6? 7? 8? 9 10
3> lag(x)
4 [1] NA? 1? 2? 3? 4? 5? 6? 7? 8? 9
5> lead(x)
6 [1]? 2? 3? 4? 5? 6? 7? 8? 9 10 NA
累加和滾動聚合
R 提供了計算累加和旁舰、累加積锋华、累加最小值和累加最大值的函數(shù):cumsum()、cumprod()箭窜、commin()?和?cummax()毯焕;dplyr 還提供了?cummean()?函數(shù)以計算累加均值。如果想要計算滾動聚合(即滾動窗口求和)磺樱,那么可以嘗試使用?RcppRoll?包:
1> x
2 [1]? 1? 2? 3? 4? 5? 6? 7? 8? 9 10
3> cumsum(x)
4 [1]? 1? 3? 6 10 15 21 28 36 45 55
5> cummean(x)
6 [1] 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
邏輯比較:<纳猫、<=、>竹捉、>= 和 !=
排秩
排秩函數(shù)有很多芜辕,最常用的是min_rank()函數(shù)。它可以完成最常用的排秩任務 (如第一块差、第二、第三、第四)起趾。默認的排秩方式是,最小的值獲得最前面的名次训裆,使用desc(x)?可以讓最大的值獲得最前面的名次:
1> y <- c(1, 2, 2, NA, 3, 4)
2> min_rank(y)
3[1]? 1? 2? 2 NA? 4? 5
4> min_rank(desc(y))
5[1]? 5? 3? 3 NA? 2? 1
如果?min_rank()?無法滿足需要蜀铲,那么可以看一下其變體row_number()边琉、dense_rank()变姨、percent_rank()定欧、cume_dist()?和?ntile()砍鸠∫瑁可以查看它們的幫助頁面以獲得更多信息
1> row_number(y)
2[1]? 1? 2? 3 NA? 4? 5
3> dense_rank(y)
4[1]? 1? 2? 2 NA? 3? 4
5> percent_rank(y)
6[1] 0.00 0.25 0.25? NA 0.75 1.00
7> cume_dist(y)
8[1] 0.2 0.6 0.6? NA 0.8 1.0
3.6?使用?summarize()?進行分組摘要
最后一個核心函數(shù)是?summarize()双饥,它可以將數(shù)據(jù)框折疊成一行:
1> summarize(flights, delay = mean(dep_delay, na.rm = TRUE))
2# A tibble: 1 x 1
3? delay
4? <dbl>
51? 12.6
group_by()?可以將分析單位從整個數(shù)據(jù)集更改為單個分組兢哭。接下來夫嗓,在分組后的數(shù)據(jù)框上使用?dplyr?函數(shù)時迟螺,
它們會自動地應用到每個分組矩父。例如窍株,如果對按日期分組的一個數(shù)據(jù)框應用與上面完全相同的代碼,那么我們就可以得到每日平均延誤時間:
1> by_day <- group_by(flights, year, month, day)
2> summarize(by_day, delay = mean(dep_delay, na.rm = TRUE))
3`summarise()` regrouping output by 'year', 'month' (override with `.groups` argument)
4# A tibble: 365 x 4
5# Groups:? year, month [12]
6? ? year month? day delay
7? <int> <int> <int> <dbl>
8 1? 2013? ? 1? ? 1 11.5
9 2? 2013? ? 1? ? 2 13.9
10 3? 2013? ? 1? ? 3 11.0
11 4? 2013? ? 1? ? 4? 8.95
12 5? 2013? ? 1? ? 5? 5.73
13 6? 2013? ? 1? ? 6? 7.15
14 7? 2013? ? 1? ? 7? 5.42
15 8? 2013? ? 1? ? 8? 2.55
16 9? 2013? ? 1? ? 9? 2.28
1710? 2013? ? 1? ? 10? 2.84
18# ... with 355 more rows
group_by()?和?summarize()?的組合構(gòu)成了使用 dplyr 包時最常用的操作之一:分組摘要。
3.6.1?使用管道組合多種操作
例子:每個目的地的距離和平均延誤時間之間的關(guān)系开睡。
1by_dest <- group_by(flights, dest) #按照目的地對航班進行分組
2delay <- summarize(by_dest,
3? ? ? ? ? ? ? ? ? count = n(),
4? ? ? ? ? ? ? ? ? dist = mean(distance, na.rm = TRUE),
5? ? ? ? ? ? ? ? ? delay = mean(arr_delay, na.rm = TRUE)
6) # 進行摘要統(tǒng)計,計算距離胁艰、平均延誤時間和航班數(shù)量醋虏。
7
8delay <- filter(delay, count > 20, dest != "HNL")
9#通過篩選除去噪聲點和火奴魯魯機場颈嚼,因為到達該機場的距離幾乎是到離它最近機場的
10#距離的 2 倍。
11ggplot(data = delay, mapping = aes(x = dist, y = delay)) +
12? geom_point(aes(size = count), alpha = 1/3) +
13? geom_smooth(se = FALSE) #畫圖并添加曲線
使用管道限煞,%>%,可以使代碼更加簡潔:
1delays <- flights %>%
2 group_by(dest) %>%
3 summarize(
4 count = n(),
5 dist = mean(distance, na.rm = TRUE),
6 delay = mean(arr_delay, na.rm = TRUE)
7) %>%
8filter(count > 20, dest != "HNL")
你可以將其讀作一串命令式語句:分組旺上,然后摘要統(tǒng)計,然后進行篩選征候。在閱讀代碼時,%>% 最好讀作“然后”跑揉。
使用這種方法時衣撬,x %>% f(y)?會轉(zhuǎn)換為?f(x, y)具练,x %>% f(y) %>% g(z)?會轉(zhuǎn)換為?g(f(x,
y), z)哥遮,以此類推奥帘。
3.6.2?缺失值
我們在前面使用了參數(shù)?na.rm?寨蹋。如果沒有設(shè)置這個參數(shù),會發(fā)生什么情況呢运褪?
1> flights %>%
2+? group_by(year, month, day) %>%
3+? summarize(mean = mean(dep_delay))
4`summarise()` regrouping output by 'year', 'month' (override with `.groups` argument)
5# A tibble: 365 x 4
6# Groups:? year, month [12]
7? ? year month? day? mean
8? <int> <int> <int> <dbl>
9 1? 2013? ? 1? ? 1? ? NA
10 2? 2013? ? 1? ? 2? ? NA
11 3? 2013? ? 1? ? 3? ? NA
12 4? 2013? ? 1? ? 4? ? NA
13 5? 2013? ? 1? ? 5? ? NA
14 6? 2013? ? 1? ? 6? ? NA
15 7? 2013? ? 1? ? 7? ? NA
16 8? 2013? ? 1? ? 8? ? NA
17 9? 2013? ? 1? ? 9? ? NA
1810? 2013? ? 1? ? 10? ? NA
19# ... with 355 more rows
我們會得到很多缺失值店读!這是因為聚合函數(shù)遵循缺失值的一般規(guī)則:如果輸入中有缺失值屯断,那么輸出也會是缺失值氧秘。好在所有聚合函數(shù)都有一個?na.rm?參數(shù),它可以在計算前除去缺失值灭忠。
1> flights %>%
2+? group_by(year, month, day) %>%
3+? summarize(mean = mean(dep_delay, na.rm = TRUE))
4`summarise()` regrouping output by 'year', 'month' (override with `.groups` argument)
5# A tibble: 365 x 4
6# Groups:? year, month [12]
7? ? year month? day? mean
8? <int> <int> <int> <dbl>
9 1? 2013? ? 1? ? 1 11.5
10 2? 2013? ? 1? ? 2 13.9
11 3? 2013? ? 1? ? 3 11.0
12 4? 2013? ? 1? ? 4? 8.95
13 5? 2013? ? 1? ? 5? 5.73
14 6? 2013? ? 1? ? 6? 7.15
15 7? 2013? ? 1? ? 7? 5.42
16 8? 2013? ? 1? ? 8? 2.55
17 9? 2013? ? 1? ? 9? 2.28
1810? 2013? ? 1? ? 10? 2.84
19# ... with 355 more rows
當然,我們也可以通過先去除缺失值(本例為取消的航班)來解決缺失值問題。
1not_cancelled <- flights %>%
2 filter(!is.na(dep_delay), !is.na(arr_delay))
3.6.3?計數(shù)
聚合操作中包括一個計數(shù)(n())或非缺失值的計數(shù)(sum(!is_na()))可以確保自己沒有基于非常少量的數(shù)據(jù)作出結(jié)論萨西。例如葱跋,我們查看一下具有最長平均延誤時間的飛機(通過機尾編號進行識別):
1delays <- not_cancelled %>% #去掉NA的數(shù)據(jù)
2? group_by(tailnum) %>%
3? summarize(
4? ? delay = mean(arr_delay)
5? )
6delays
7
8ggplot(data = delays, mapping = aes(x = delay)) +
9? geom_freqpoly(binwidth = 10)
我們可以畫一張航班數(shù)量和平均延誤時間的散點圖:
1delays <- not_cancelled %>%
2? group_by(tailnum) %>%
3? summarize(
4? ? delay = mean(arr_delay, na.rm = TRUE),
5? ? n = n()
6? )
7ggplot(data = delays, mapping = aes(x = n, y = delay)) +
8? geom_point(alpha = 1/10)
結(jié)果并不出乎意料咸产,當航班數(shù)量非常少時脑溢,平均延誤時間的變動特別大验庙。這張圖的形狀非常能夠說明問題:當繪制均值(或其他摘要統(tǒng)計量)和分組規(guī)模的關(guān)系時,你總能看到隨著樣本量的增加违寿,變動在不斷減小。
3.6.4?常用的摘要函數(shù)
只使用均值掂咒、計數(shù)和求和是遠遠不夠的,R 中還提供了很多其他的常用的摘要函數(shù)孩革。
位置度量:?mean(x),median(x)
分散程度度量:sd(x)彬檀、IQR(x)?和?mad(x)
均方誤差(又稱標準誤差,standard deviation,sd)是分散程度的標準度量方式深浮。四分位距 IQR() 和絕對中位差 mad(x) 基本等價,更適合有離群點的情況后室。
1# 為什么到某些目的地的距離比到其他目的地更多變忿等?
2not_cancelled %>%
3? group_by(dest) %>%
4? summarize(distance_sd = sd(distance)) %>%
5? arrange(desc(distance_sd))
6
7> not_cancelled %>%
8+? group_by(dest) %>%
9+? summarize(distance_sd = sd(distance)) %>%
10+? arrange(desc(distance_sd))
11`summarise()` ungrouping output (override with `.groups` argument)
12# A tibble: 104 x 2
13? dest? distance_sd
14? <chr>? ? ? <dbl>
15 1 EGE? ? ? ? 10.5
16 2 SAN? ? ? ? 10.4
17 3 SFO? ? ? ? 10.2
18 4 HNL? ? ? ? 10.0
19 5 SEA? ? ? ? ? 9.98
20 6 LAS? ? ? ? ? 9.91
21 7 PDX? ? ? ? ? 9.87
22 8 PHX? ? ? ? ? 9.86
23 9 LAX? ? ? ? ? 9.66
2410 IND? ? ? ? ? 9.46
25# ... with 94 more rows
秩的度量:min(x)贸街、quantile(x, 0.25)?和?max(x)
分位數(shù)是中位數(shù)的擴展狸相。例如卷哩,quantile(x, 0.25) 會找出 x 中按從小到大順序大于前 25% 而小于后 75% 的值
定位度量:first(x)、nth(x, 2)?和?last(x)
計數(shù):
n()?冷溶,它不需要任何參數(shù)逞频,并返回當前分組的大小栋齿。如果想要計算出非缺失值的數(shù)量,可以使用?sum(!is.na(x))歌亲。要想計算出唯一值的數(shù)量澜驮,可以使用?n_
distinct(x):
1# 哪個目的地具有最多的航空公司杂穷?
2not_cancelled %>%
3 group_by(dest) %>%
4 summarize(carriers = n_distinct(carrier)) %>%
5 arrange(desc(carriers))
dplyr?提供了一個簡單的輔助函數(shù)耐量,用于只需要計數(shù)的情況:
1not_cancelled %>%
2 count(dest)
還可以選擇提供一個加權(quán)變量。例如玷坠,你可以使用以下代碼算出每 架 飛 機飛行的總里程數(shù)(實際上就是求和):
1not_cancelled %>%
2 count(tailnum, wt = distance)
邏輯值的計數(shù)和比例:sum(x > 10)?和?mean(y == 0)
1# 多少架航班是在早上5點前出發(fā)的八堡?(這通常表明前一天延誤的航班數(shù)量)
2not_cancelled %>%
3 group_by(year, month, day) %>%
4 summarize(n_early = sum(dep_time < 500))
5
6# 延誤超過1小時的航班比例是多少聘芜?
7not_cancelled %>%
8 group_by(year, month, day) %>%
9 summarize(hour_perc = mean(arr_delay > 60))
3.6.5?按多個變量分組
當使用多個變量進行分組時汰现,每次的摘要統(tǒng)計會用掉一個分組變量瞎饲。這樣就可以輕松地對數(shù)據(jù)集進行循序漸進的分析:
1daily <- group_by(flights, year, month, day)
2(per_day <- summarize(daily, flights = n()))
3
4(per_month <- summarize(per_day, flights = sum(flights)))
5
6(per_year <- summarize(per_month, flights = sum(flights)))
在循序漸進地進行摘要分析時,需要小心:使用求和與計數(shù)操作是沒問題的嗅战,但如果想要使用加權(quán)平均和方差的話驮捍,就要仔細考慮一下,在基于秩的統(tǒng)計數(shù)據(jù)(如中位數(shù))上是無法進行這些操作的启具。換句話說鲁冯,對分組求和的結(jié)果再求和就是對整體求和,但分組中位數(shù)的中位數(shù)可不是整體的中位數(shù)撞芍。
3.6.6?取消分組
如果想要取消分組,并回到未分組的數(shù)據(jù)繼續(xù)操作好港,那么可以使用 ungroup() 函數(shù):
1daily %>%
2? ungroup() %>% # 不再按日期分組
3? summarize(flights = n()) # 所有航班
3.7?分組新變量(和篩選器)
雖然與?summarize()?函數(shù)結(jié)合起來使用是最有效的米罚,但分組也可以與?mutate()?和?filter()函數(shù)結(jié)合录择,以完成非常便捷的操作隘竭。
找出每個分組中最差的成員:
1flights_sml %>%
2 group_by(year, month, day) %>%
3 filter(rank(desc(arr_delay)) < 10)
找出大于某個閾值的所有分組:
1popular_dests <- flights %>%
2 group_by(dest) %>%
3 filter(n() > 365)
對數(shù)據(jù)進行標準化以計算分組指標:
1popular_dests %>%
2 filter(arr_delay > 0) %>%
3 mutate(prop_delay = arr_delay / sum(arr_delay)) %>%
4 select(year:day, dest, arr_delay, prop_delay)
— END —
往期 · 推薦
《R數(shù)據(jù)科學》學習筆記|Note2:使用ggplot2進行數(shù)據(jù)可視化(上)
《R數(shù)據(jù)科學》學習筆記|Note3:使用ggplot2進行數(shù)據(jù)可視化(下)
《R數(shù)據(jù)科學》學習筆記|Note4:使用dplyr進行數(shù)據(jù)轉(zhuǎn)換(上)
零基礎(chǔ)"機器學習"自學筆記|Note5:多變量線性回歸