R 語言實戰(zhàn)第一跟束,二章 R 語言版

這次的作業(yè)主要是以對一個非常簡單的數(shù)據(jù)分析問題進(jìn)行實踐的形式呈現(xiàn)出來莺奸,對于《R語言實戰(zhàn)》第一二章的內(nèi)容已經(jīng)體現(xiàn)在了對問題的解析的過程中,所以就不再將學(xué)習(xí)的過程貼出來了冀宴。

題目

題目的內(nèi)容大概如下:

有三個csv文件:

  1. users.csv, 用于存儲用戶ID和用戶的注冊日期:


  2. purchases.cvs, 存儲用戶的購買數(shù)量和用戶的購買日期灭贷。


  3. messages.csv, 用于存儲用戶收到的短信條數(shù)和收到的短信日期:


根據(jù)所給的數(shù)據(jù)回答以下三個問題:

  • 有多少百分比的用戶在注冊后的90天內(nèi)(不包括注冊日)購買了產(chǎn)品?
  • 注冊后90天內(nèi)購買的用戶中有多少百分比在注冊后購買前收到了短信通知花鹅?
  • 收到注冊90天內(nèi)收到的短信數(shù)量與用戶90天內(nèi)產(chǎn)品是否有關(guān)聯(lián)氧腰?

答案

第一題

加載必要的庫

library(Rcpp)
library(Amelia)
library(dplyr)

載入csv文件,去掉列名刨肃,并不需要將字符型的列轉(zhuǎn)為factor

users <- read.csv("~/Desktop/users.csv", stringsAsFactors = F, header = T, na.strings = c(""))
messages <- read.csv("~/Desktop/messages.csv", stringsAsFactors = F, header = T, na.strings = c(""))
purchases <- read.csv("~/Desktop/purchases.csv", stringsAsFactors = F, header = T, na.strings = c("”))

查看載入的數(shù)據(jù)結(jié)構(gòu)

str(users)
str(messages)
str(purchases)

查看數(shù)據(jù)總量

summary(users)
summary(messages)
summary(purchases)

直觀的查看一下是否有缺失值古拴,有208個注冊日期為空的記錄

missmap(users, main="user miss map")

去掉注冊日期為空的用戶,剩下的為已經(jīng)注冊的用戶

users_signup <- na.omit(users)

統(tǒng)計有多少注冊日期為空的行

sum(is.na(users$signup.date))

日期格式轉(zhuǎn)換

users_signup$signup.date <- as.Date(users_signup$signup.date)

載入購買數(shù)據(jù)

purchases = read.csv("~/Desktop/purchases.csv", stringsAsFactors = F, header = T)

查看是否有缺失值 (無缺失值)

missmap(purchases)

轉(zhuǎn)換日期格式

purchases$purchase.date <- as.Date(purchases$purchase.date)

過濾掉最早注冊日之前的購買

purchases <- purchases[(purchases$purchase.date >= as.Date("2013-04-28", "%Y-%m-%d")), ]

合并注冊用戶和購買數(shù)據(jù)的信息

in_90 <- merge(x=users_signup, y=purchases, all.y=T)
in_90 <- na.omit(in_90)

in_90 <- in_90[((in_90$purchase.date - in_90$signup.date) <=90 & (in_90$purchase.date - in_90$signup.date) >=1), ]
summary(unique(in_90$user.id))
6369 % 23841 = 26.71%

in_90 <- in_90[!duplicated(in_90$user.id), ]

讀取短信信息真友,并轉(zhuǎn)換短信數(shù)據(jù)框中的日期類型黄痪。

messages <- read.csv("~/Desktop/messages.csv", stringsAsFactors = F, header = T)
messages$message.date <- as.Date(messages$message.date)
messages <- messages[(messages$message.date > as.Date("2013-04-28", "%Y-%m-%d")),]

合并九十天內(nèi)購買用戶信息和短信通知信息,并填補空缺數(shù)據(jù)盔然,造成空缺的原因是有2個九十天內(nèi)購買的用戶從來都沒有收到過短信桅打。

in_90_message <- merge(x=in_90, y=messages, by="user.id", all.x = T)
in_90_message$message.date[is.na(in_90_message$message.date)] <- as.Date("2014-04-29", "%Y-%m-%d")
in_90_message$message.count[is.na(in_90_message$message.count)] <- 0

過濾出在注冊后收到短信并且在第一次購買前收到短信的用戶,并去除重復(fù)愈案。

in_90_message_1 <- in_90_message[((in_90_message$message.date > in_90_message$signup.date) & (in_90_message$purchase.date > in_90_message$message.date)) , ]

in_90_message_1 <- in_90_message_1[!duplicated(in_90_message_1$user.id), ]

結(jié)論

共23841名用戶注冊挺尾,6369名用戶在注冊90天內(nèi)購買,占比26.71%站绪,這6369名用戶中有2871名用戶在第一次購買前收到了短信遭铺。

第二題

載入dplyr庫,通過獲取全部注冊用戶和九十天內(nèi)購買用戶的差集恢准,拿到九天內(nèi)未購買用戶的數(shù)據(jù)魂挂。

require(dplyr)
not_in_90 <- anti_join(users_signup, in_90)

合并九十天內(nèi)的用戶信息和短信信息,并轉(zhuǎn)換日期格式馁筐,處理空缺值涂召。

not_in_90_message <- merge(x=not_in_90, y=messages, by="user.id", all.x = T)
not_in_90_message$message.date[is.na(not_in_90_message$message.date)] <- as.Date("2014-04-27", "%Y-%m-%d”)
not_in_90_message$message.count[is.na(not_in_90_message$message.count)] <- 0

查詢注冊后,且注冊九十天內(nèi)收到短信的用戶數(shù)量敏沉。

not_in_90_message_1 <- not_in_90_message[((not_in_90_message$message.date - not_in_90_message$signup.date) <= 90) & (not_in_90_message$message.date > not_in_90_message$signup.date), ]

summary(unique(not_in_90_message_1$user.id))

結(jié)論

17472個用戶在注冊后的90天內(nèi)(不包括注冊當(dāng)日)沒有發(fā)生購買行為果正。在這些17472個用戶中, 有93.996% (16423)人在注冊后的90天內(nèi)(不包括注冊當(dāng)日)收到了短信炎码。

第三題

將注冊日間從字符串轉(zhuǎn)換為double

user$signup.date <- as.Date(user$signup.date)

合并用戶和短信通知記錄

user_message <- merge(x=users, y=messages, all.y=T)

只保留注冊九十天內(nèi)的短信通知記錄

user_message <- filter(user_message, (user_message$message.date - user_message$signup.date) <91 & (user_message$message.date - user_message$signup.date) > 1 )

將所有短信通知記錄的短信條數(shù)求和

user_message <- ddply(user_message, 'user.id', function(x) data.frame(message.count.sum = sum(x$message.count)))

新增一個90到180天間購買的標(biāo)示

user_purchase$buy_in_180 <- 0
user_purchase$buy_in_180[(user_purchase$purchase.date - user_purchase$signup.date) <=180 & (user_purchase$purchase.date - user_purchase$signup.date) > 91 & (user_purchase$purchase.count > 1)] <- 1

按照新增標(biāo)識和用戶ID降序排序,來保證下一步獲取每個用戶ID的唯一記錄時舱卡,可以將90·180天內(nèi)購買的標(biāo)識為1的記錄保留下來

user_purchase <- user_purchase[order(user_purchase$user.id, user_purchase$buy_in_180, decreasing = F), ]

獲取每個用戶ID的唯一記錄

user_purchase_unique <- user_purchase[!duplicated(user_purchase$user.id, fromLast = T), ]

將短信數(shù)量信息和購買信息合并

user_purchase_unique_message <- merge(x=user_purchase_unique, y=user_message, all.x=T)

填補空缺的短信數(shù)量記錄

user_purchase_unique_message$message.count.sum[is.na(user_purchase_unique_message$message.count.sum)] <- 0

計算90天內(nèi)收到短信數(shù)量和90到180天間購買的關(guān)聯(lián)度辅肾。

cor(user_purchase_unique_message$buy_in_180, user_purchase_unique_message$message.count.sum)
 
[1] -0.008017904

結(jié)論

無關(guān)聯(lián)队萤。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末轮锥,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子要尔,更是在濱河造成了極大的恐慌舍杜,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,039評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件赵辕,死亡現(xiàn)場離奇詭異既绩,居然都是意外死亡,警方通過查閱死者的電腦和手機还惠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評論 3 395
  • 文/潘曉璐 我一進(jìn)店門饲握,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人蚕键,你說我怎么就攤上這事救欧。” “怎么了锣光?”我有些...
    開封第一講書人閱讀 165,417評論 0 356
  • 文/不壞的土叔 我叫張陵笆怠,是天一觀的道長。 經(jīng)常有香客問我誊爹,道長蹬刷,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,868評論 1 295
  • 正文 為了忘掉前任频丘,我火速辦了婚禮办成,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘搂漠。我一直安慰自己迂卢,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,892評論 6 392
  • 文/花漫 我一把揭開白布状答。 她就那樣靜靜地躺著冷守,像睡著了一般。 火紅的嫁衣襯著肌膚如雪惊科。 梳的紋絲不亂的頭發(fā)上拍摇,一...
    開封第一講書人閱讀 51,692評論 1 305
  • 那天,我揣著相機與錄音馆截,去河邊找鬼充活。 笑死蜂莉,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的混卵。 我是一名探鬼主播映穗,決...
    沈念sama閱讀 40,416評論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼幕随!你這毒婦竟也來了蚁滋?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,326評論 0 276
  • 序言:老撾萬榮一對情侶失蹤赘淮,失蹤者是張志新(化名)和其女友劉穎辕录,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體梢卸,經(jīng)...
    沈念sama閱讀 45,782評論 1 316
  • 正文 獨居荒郊野嶺守林人離奇死亡走诞,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,957評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了蛤高。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蚣旱。...
    茶點故事閱讀 40,102評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖戴陡,靈堂內(nèi)的尸體忽然破棺而出塞绿,到底是詐尸還是另有隱情,我是刑警寧澤猜欺,帶...
    沈念sama閱讀 35,790評論 5 346
  • 正文 年R本政府宣布位隶,位于F島的核電站,受9級特大地震影響开皿,放射性物質(zhì)發(fā)生泄漏涧黄。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,442評論 3 331
  • 文/蒙蒙 一赋荆、第九天 我趴在偏房一處隱蔽的房頂上張望笋妥。 院中可真熱鬧,春花似錦窄潭、人聲如沸春宣。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,996評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽月帝。三九已至,卻和暖如春幽污,著一層夾襖步出監(jiān)牢的瞬間嚷辅,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,113評論 1 272
  • 我被黑心中介騙來泰國打工距误, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留簸搞,地道東北人扁位。 一個月前我還...
    沈念sama閱讀 48,332評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像趁俊,于是被迫代替她去往敵國和親域仇。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,044評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 這是之前使用R語言完成的一道簡單的數(shù)據(jù)統(tǒng)計題目鏈接:https://zhuanlan.zhihu.com/p/27...
    blackpiglet閱讀 346評論 0 3
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,170評論 25 707
  • 《易效能時間管理100講》聽課筆記(51-60講) 總覺得時間不夠用寺擂。每天都在忙個不停暇务,但總也完不成工作。一件事總...
    撿丹閱讀 248評論 0 1
  • 時常在我一個人很安靜的時候,或是漫步在江灘的蘆葦蕩爽雄,或是蹲坐在江水拍打的青石板,一邊享受著如此靜謐的漫時光沐鼠,一邊沉...
    筆默書生閱讀 242評論 0 1
  • 博弈論挚瘟,又稱為對策論,主要研究: 公式化后的激勵結(jié)構(gòu)間的相互關(guān)系饲梭;(標(biāo)準(zhǔn)規(guī)則下乘盖,參與者之間的明爭暗斗) 具有斗爭或...
    火山僧閱讀 5,105評論 0 2