Day 7 dplyr玩轉(zhuǎn)R數(shù)據(jù)處理

5個(gè)關(guān)鍵的dplyr函數(shù):

根據(jù)值選擇觀察(記錄),filter()####篩選行
對(duì)行重新排序,arrange() ######arrange()函數(shù)工作原理和filter()相似轴或,但它不是選擇行盯漂,而是改變行的順序库继。
根據(jù)名字選擇變量侍芝,select()   #####篩選列
根據(jù)已知的變量創(chuàng)建新的變量凉泄,mutate()
將許多值塌縮為單個(gè)描述性匯總辫呻,summarize()
重命名列rename()

舉例filter()

a <- filter(flights, month == 1, day == 1)
b<- filter(flights, month == 11 | month == 12)
c <- filter(flights, month %in% c(11, 12))

列舉arrange()

arrange(flights, year, month, day)
arrange(flights, desc(arr_delay))
select(flights, year, month, day)
select(flights, year:day) # 選擇year到day之間(包含本身)的所有列
select(flights, -(year:day))# 選擇那么除year到day的所有列
有很多幫助函數(shù)可以使用在select()函數(shù)中:
starts_with("abc")匹配以“abc”開頭的名字清钥。
ends_with("xyz")匹配以“xyz”結(jié)尾的名字。
contains("ijk")匹配包含“ijk”的名字印屁。
matches("(.)\\1")選擇符合正則表達(dá)式的變量循捺。這里是任意包含有重復(fù)字符的變量。
num_range("x", 1:3)匹配x1雄人,x2从橘,x3。

rename重命名列

rename(flights, tail_num = tailnum) ###rename()來給變量重新命名列名

使用mutate()添加新變量

flights_sml <- select(flights, year:day,
                      ends_with("delay"),
                      distance,
                      air_time)

mutate(flights_sml,
       gain = arr_delay - dep_delay,
       speed = distance / air_time * 60)
####再例如
mutate(flights_sml,
       gain = arr_delay - dep_delay,
       hours = air_time / 60,
       gain_per_hour = gain / hours)
####如果你僅僅想要保存新的變量础钠,使用transmute():
transmute(flights,
          gain = arr_delay - dep_delay,
          hours = air_time / 60,
          gain_per_hour = gain / hours)

summarize()與group_by()和管道符%>%配對(duì)使用

summarize()與group_by()配對(duì)使用
比如恰力,我們想要按日期分組,得到每個(gè)日期的平均延期:
by_day <- group_by(flights, year, month, day)
summarize(by_day, delay = mean(dep_delay, na.rm = TRUE))
#####探索每個(gè)位置距離和平均航班延遲的關(guān)系
delays <- flights %>%
    group_by(dest) %>%
    summarize(
        count = n(),
        dist = mean(distance, na.rm = TRUE),
        delay = mean(arr_delay, na.rm = TRUE)
    ) %>%
    filter(count > 20, dest != "HNL")
#####其中n()計(jì)數(shù)的作用
上述代碼分三步進(jìn)行了數(shù)據(jù)準(zhǔn)備:
1.按目的地將航班分組,計(jì)算了每一組的dist平均值和delay 的平均值旗吁。
2.匯總計(jì)算距離踩萎、平均延時(shí)和航班數(shù)目
3.移除噪聲點(diǎn)和Honolulu航班,它太遠(yuǎn)了很钓。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末香府,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子码倦,更是在濱河造成了極大的恐慌企孩,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,270評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件袁稽,死亡現(xiàn)場離奇詭異勿璃,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)幢竹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門灭袁,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人折砸,你說我怎么就攤上這事莲组≌锇” “怎么了?”我有些...
    開封第一講書人閱讀 165,630評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵胁编,是天一觀的道長厢钧。 經(jīng)常有香客問我,道長嬉橙,這世上最難降的妖魔是什么早直? 我笑而不...
    開封第一講書人閱讀 58,906評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮市框,結(jié)果婚禮上霞扬,老公的妹妹穿的比我還像新娘。我一直安慰自己枫振,他們只是感情好喻圃,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,928評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著粪滤,像睡著了一般斧拍。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上杖小,一...
    開封第一講書人閱讀 51,718評(píng)論 1 305
  • 那天肆汹,我揣著相機(jī)與錄音,去河邊找鬼予权。 笑死昂勉,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的扫腺。 我是一名探鬼主播岗照,決...
    沈念sama閱讀 40,442評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼笆环!你這毒婦竟也來了攒至?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,345評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤躁劣,失蹤者是張志新(化名)和其女友劉穎嗓袱,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體习绢,經(jīng)...
    沈念sama閱讀 45,802評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,984評(píng)論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了闪萄。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片梧却。...
    茶點(diǎn)故事閱讀 40,117評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖败去,靈堂內(nèi)的尸體忽然破棺而出放航,到底是詐尸還是另有隱情,我是刑警寧澤圆裕,帶...
    沈念sama閱讀 35,810評(píng)論 5 346
  • 正文 年R本政府宣布广鳍,位于F島的核電站,受9級(jí)特大地震影響吓妆,放射性物質(zhì)發(fā)生泄漏赊时。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,462評(píng)論 3 331
  • 文/蒙蒙 一行拢、第九天 我趴在偏房一處隱蔽的房頂上張望祖秒。 院中可真熱鬧,春花似錦舟奠、人聲如沸竭缝。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,011評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽抬纸。三九已至,卻和暖如春耿戚,著一層夾襖步出監(jiān)牢的瞬間湿故,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,139評(píng)論 1 272
  • 我被黑心中介騙來泰國打工溅话, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留晓锻,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,377評(píng)論 3 373
  • 正文 我出身青樓飞几,卻偏偏與公主長得像砚哆,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子屑墨,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,060評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 1. 數(shù)據(jù)操作:dplyr包應(yīng)用 dplyr包是為數(shù)據(jù)分析提供了一系列快捷有效的操作躁锁,其中有五個(gè)關(guān)鍵函數(shù)基本可以解...
    100gle閱讀 3,565評(píng)論 0 7
  • 在前面的數(shù)據(jù)處理筆記中提到了多個(gè)簡單的數(shù)據(jù)處理函數(shù)(包括R內(nèi)置的transform、aggregate卵史、by战转、su...
    井底蛙蛙呱呱呱閱讀 7,182評(píng)論 0 25
  • 迷茫的日子里也不能忘了要學(xué)習(xí)新知識(shí)技能以及總結(jié)歸納啊。最近開始學(xué)習(xí)《R數(shù)據(jù)科學(xué)》中文版以躯,這確實(shí)是本好書槐秧,有些知識(shí)點(diǎn)...
    Dawn_WangTP閱讀 1,095評(píng)論 0 4
  • 前言 正如前文提到的刁标,數(shù)據(jù)分析有一半以上的時(shí)間會(huì)花在對(duì)原始數(shù)據(jù)的整理及變換上颠通,包括選取特定的分析變量、匯總并篩選滿...
    胡阿白閱讀 1,780評(píng)論 1 13
  • 二十四年前膀懈,我們小學(xué)五年級(jí)分班變成同班同學(xué)顿锰。他的花名叫矮冬瓜,我的花名叫老千启搂。能記起的是他坐我前面硼控,還有一次課間吵...
    水在瓶4閱讀 173評(píng)論 0 1