Getting and Cleaning Data - Week3 Tidying Data with tidyr

tidy數(shù)據(jù)集特征:

  • 每個變量形成一個列
  • 每一個觀察都形成一行
  • 每一種觀測單位都形成一個表

untidy數(shù)據(jù)集特征

? 列是值蚊惯,而不是變量名 :
religion, income and frequency.

?多個變量存儲在一個列中
人口統(tǒng)計群體被sex(m, f)和age(0-14,15-25,25-34,35-44,45-54,55-64,55-64)劃分
?變量存儲在行和列中:
在各個列(id酥泞、年蘑斧、月)中有變量,分布在列(day, d1-d31)和跨行(tmin, tmax)(最小和最高溫度)。
?不同類型的觀察單元存儲在同一個表中:
billborad數(shù)據(jù)集實際上包含了對兩種觀察單元的觀察:歌曲信息和它在每個星期的排名。藝術家artist,年year和時間time被重復了很多次肖油。這個數(shù)據(jù)集需要細分為兩個部分:一個歌曲數(shù)據(jù)集,它存儲藝術家臂港、歌曲名稱和時間森枪,以及一個排名數(shù)據(jù)集,每個星期都給出歌曲的排名审孽。
?單個觀察單元存儲在多個表中:

PRACTICE

tidy data
# 處理方案
# 1. select() all columns that do NOT contain the word "total",
# since if we have the male and female data, we can always
# recreate the total count in a separate column, if we want it.
# Hint: Use the contains() function, which you'll
# find detailed in 'Special functions' section of ?select.
#
# 2. gather() all columns EXCEPT score_range, using
# key = part_sex and value = count.
#
# 3. separate() part_sex into two separate variables (columns),
# called "part" and "sex", respectively. You may need to check
# the 'Examples' section of ?separate to remember how the 'into'
# argument should be phrased.
#
sat1 <- sat[2:11] %>%
  select(-contains("total")) %>%
  gather(part_sex, count, -score_range) %>%
    separate(part_sex, c("part", "sex")) %>%
    group_by(part, sex)%>%
    mutate(total = sum(count),
           prop = count / total
    ) %>% 
  print

cleaned data

處理后結果

Week 3 Quiz

程序代碼
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末县袱,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子佑力,更是在濱河造成了極大的恐慌显拳,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,744評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件搓萧,死亡現(xiàn)場離奇詭異杂数,居然都是意外死亡宛畦,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,505評論 3 392
  • 文/潘曉璐 我一進店門揍移,熙熙樓的掌柜王于貴愁眉苦臉地迎上來次和,“玉大人,你說我怎么就攤上這事那伐√な” “怎么了?”我有些...
    開封第一講書人閱讀 163,105評論 0 353
  • 文/不壞的土叔 我叫張陵罕邀,是天一觀的道長畅形。 經(jīng)常有香客問我,道長诉探,這世上最難降的妖魔是什么日熬? 我笑而不...
    開封第一講書人閱讀 58,242評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮肾胯,結果婚禮上竖席,老公的妹妹穿的比我還像新娘。我一直安慰自己敬肚,他們只是感情好毕荐,可當我...
    茶點故事閱讀 67,269評論 6 389
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著艳馒,像睡著了一般憎亚。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上弄慰,一...
    開封第一講書人閱讀 51,215評論 1 299
  • 那天虽填,我揣著相機與錄音,去河邊找鬼曹动。 笑死,一個胖子當著我的面吹牛牲览,可吹牛的內容都是我干的墓陈。 我是一名探鬼主播,決...
    沈念sama閱讀 40,096評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼第献,長吁一口氣:“原來是場噩夢啊……” “哼贡必!你這毒婦竟也來了?” 一聲冷哼從身側響起庸毫,我...
    開封第一講書人閱讀 38,939評論 0 274
  • 序言:老撾萬榮一對情侶失蹤仔拟,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后飒赃,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體利花,經(jīng)...
    沈念sama閱讀 45,354評論 1 311
  • 正文 獨居荒郊野嶺守林人離奇死亡科侈,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,573評論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了炒事。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片臀栈。...
    茶點故事閱讀 39,745評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖挠乳,靈堂內的尸體忽然破棺而出权薯,到底是詐尸還是另有隱情,我是刑警寧澤睡扬,帶...
    沈念sama閱讀 35,448評論 5 344
  • 正文 年R本政府宣布盟蚣,位于F島的核電站,受9級特大地震影響卖怜,放射性物質發(fā)生泄漏屎开。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,048評論 3 327
  • 文/蒙蒙 一韧涨、第九天 我趴在偏房一處隱蔽的房頂上張望牍戚。 院中可真熱鬧,春花似錦虑粥、人聲如沸如孝。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,683評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽第晰。三九已至,卻和暖如春彬祖,著一層夾襖步出監(jiān)牢的瞬間茁瘦,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,838評論 1 269
  • 我被黑心中介騙來泰國打工储笑, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留甜熔,地道東北人。 一個月前我還...
    沈念sama閱讀 47,776評論 2 369
  • 正文 我出身青樓突倍,卻偏偏與公主長得像腔稀,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子羽历,可洞房花燭夜當晚...
    茶點故事閱讀 44,652評論 2 354

推薦閱讀更多精彩內容

  • 國家電網(wǎng)公司企業(yè)標準(Q/GDW)- 面向對象的用電信息數(shù)據(jù)交換協(xié)議 - 報批稿:20170802 前言: 排版 ...
    庭說閱讀 10,962評論 6 13
  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理焊虏,服務發(fā)現(xiàn),斷路器秕磷,智...
    卡卡羅2017閱讀 134,652評論 18 139
  • 轉 # https://www.cnblogs.com/easypass/archive/2010/12/ 08/...
    呂品?閱讀 9,723評論 0 44
  • 客戶需要陶還需要養(yǎng) 1.銷售是一場情報站诵闭,收集客戶信息,建立客戶資料卡幫助你接近你的客戶。 2.人人都是你的客戶...
    A_百度小曹閱讀 213評論 0 1
  • 胖真的是吃出來的嗎疏尿?那為什么還有的人喝口水都會胖瘟芝,為什么有的人怎么吃都不讓呢?食物表示很委屈润歉。 食物本身是...
    夢緣_21閱讀 295評論 0 0