2017京東登錄識(shí)別-R代碼
GitHub:https://github.com/hallo128/Compete/tree/master/jd_game
(注:簡(jiǎn)書的排版不太友好,很多內(nèi)容沒(méi)有顯示出來(lái)晨炕,而我也不準(zhǔn)備死磕來(lái)調(diào)格式衫画。如果對(duì)代碼或者更細(xì)致的內(nèi)容感興趣的,可以前往上面的GitHub下載這篇完整的PDF瓮栗,當(dāng)然了里面也會(huì)有數(shù)據(jù)和代碼削罩,也可以練練手)
處理數(shù)據(jù)前:先用SPSS和Excel進(jìn)行數(shù)據(jù)的查看(排序瞄勾、描述統(tǒng)計(jì)、類別數(shù)弥激、比例进陡、異常等)
1、代碼實(shí)現(xiàn)功能介紹
R實(shí)現(xiàn)部分微服,我將主要解釋說(shuō)明趾疚,特征構(gòu)建和結(jié)果導(dǎo)出部分;模型構(gòu)建的話以蕴,不限于R語(yǔ)言做出的結(jié)果盗蟆。
構(gòu)建特征表【時(shí)間類型轉(zhuǎn)換、分組統(tǒng)計(jì)特征舒裤、數(shù)據(jù)集合并】-訓(xùn)練集喳资、測(cè)試集
輸入:賽題給定數(shù)據(jù).csv
輸出:可用于建模的特征表.csv
模型構(gòu)建【平衡樣本、分訓(xùn)練集和驗(yàn)證集腾供、模型(選參數(shù)仆邓、預(yù)測(cè)結(jié)果)】
輸入:用于建模的特征表.csv
輸出:測(cè)試集的預(yù)測(cè)數(shù)據(jù).csv
結(jié)果導(dǎo)出【數(shù)據(jù)匹配、按指定格式導(dǎo)出】
輸入:測(cè)試集的預(yù)測(cè)數(shù)據(jù).csv(適用于不同軟件做出的結(jié)果)
輸出:可用于提交的數(shù)據(jù).csv
2伴鳖、構(gòu)建特征表
(1)代碼文件:
由于構(gòu)建特征的時(shí)候节值,我們有過(guò)很多思路,按天榜聂、按1/4天搞疗、按ip,但都是基于一開(kāi)始的文件演變的须肆。
而且最后結(jié)果顯示第一個(gè)文件的特征說(shuō)明也比較好匿乃,所以我只特別介紹一個(gè)文件。
文件2:“構(gòu)建特征6個(gè)小時(shí)-訓(xùn)練集.R”豌汇、“構(gòu)建特征6個(gè)小時(shí)-測(cè)試集.R”?
特別地幢炸,登錄數(shù)據(jù)“按id,按1/4天”進(jìn)行切分
文件3:“構(gòu)建特征6個(gè)小時(shí)-訓(xùn)練集+ip.R”拒贱、“構(gòu)建特征6個(gè)小時(shí)-測(cè)試集+ip.R”
特別地宛徊,在文件2的基礎(chǔ)上,添加了ip數(shù)據(jù)的信息
R編程方法介紹【時(shí)間類型轉(zhuǎn)換逻澳、分組統(tǒng)計(jì)特征闸天、數(shù)據(jù)集合并】
1、時(shí)間類型轉(zhuǎn)換
時(shí)間類型轉(zhuǎn)換【字符串-時(shí)間戳-取時(shí)間】
R語(yǔ)言中可以方便實(shí)現(xiàn)這3個(gè)內(nèi)容的相互轉(zhuǎn)換
(1)為什么需要轉(zhuǎn)換?
實(shí)際記錄需要:
很多比賽都會(huì)給出時(shí)間戳或時(shí)刻點(diǎn)斜做,這個(gè)指標(biāo)存在的原因:一方面苞氮,是由于系統(tǒng)在記錄用戶行為的時(shí)候,肯定會(huì)記錄下用戶是什么時(shí)刻發(fā)生了這樣的行為陨享;另一方面葱淳,很多時(shí)候我們考慮和觀測(cè)到的都是一個(gè)隨著時(shí)間變化的行為,正因?yàn)橛辛藭r(shí)間的記錄和排序抛姑,從而讓我們有可能隨著時(shí)間來(lái)得到有用的信息赞厕。
建模構(gòu)建特征需要:
首先,時(shí)間戳有利于你將數(shù)據(jù)按時(shí)間排序定硝。
其次皿桑,時(shí)間戳便于你提取時(shí)間特征(年、月蔬啡、日诲侮、小時(shí)、分鐘箱蟆、周)
最后沟绪,時(shí)間戳便于計(jì)算時(shí)間差(只需要2個(gè)時(shí)間戳相減)和平均時(shí)刻
(2)R語(yǔ)言如何實(shí)現(xiàn)
R語(yǔ)言中重點(diǎn)介紹2個(gè)函數(shù):as.POSIXct()和strptime(),下面是這2個(gè)函數(shù)的具體使用方法
2空猜、分組統(tǒng)計(jì)特征
這個(gè)內(nèi)容對(duì)于經(jīng)常使用數(shù)據(jù)庫(kù)绽慈,寫SQL語(yǔ)言的同學(xué),應(yīng)該不陌生辈毯。寫R代碼時(shí)坝疼,查到過(guò)好幾包,目前我選擇了dplyr包谆沃。接下來(lái)我將說(shuō)明它的具體用法钝凶。?
(1)步驟:
先把需要分組的關(guān)鍵字轉(zhuǎn)換為“因子型”
group_by()——數(shù)據(jù)沒(méi)有變化,為第三步做準(zhǔn)備
對(duì)第二步的數(shù)據(jù)集調(diào)用summarise()唁影,可以進(jìn)行的統(tǒng)計(jì)指標(biāo)耕陷,如右圖所示【缺點(diǎn):只能調(diào)用右圖的函數(shù)】
(2)例子?
(3)特別地,結(jié)合dplyr::filter()使用据沈,可以按條件進(jìn)行分組統(tǒng)計(jì)
3啃炸、數(shù)據(jù)集合并及相關(guān)數(shù)據(jù)處理方法
合并數(shù)據(jù)集——merge()
過(guò)濾數(shù)據(jù)集——subset()與dplyr::filter()
檢查數(shù)據(jù)完整性并填充——complete.cases()、na.omit()卓舵、is.na()
多指標(biāo)排序——order()
縱向合并數(shù)據(jù)——cbind()
對(duì)某列數(shù)據(jù)進(jìn)行切分——splitstackshape::cSplit()
導(dǎo)出數(shù)據(jù)——write.csv()?
4南用、結(jié)果導(dǎo)出
為了使測(cè)試集的預(yù)測(cè)數(shù)據(jù)與用于提交的數(shù)據(jù)進(jìn)行匹配,按照我們構(gòu)建特征的思路掏湾。就是“按id裹虫,按小時(shí)”進(jìn)行匹配,即可融击。
對(duì)導(dǎo)出數(shù)據(jù)的格式進(jìn)行查看(通過(guò)notepad++或者任何編輯器)筑公。
需要注意的是,R語(yǔ)言中導(dǎo)出的數(shù)值很有可能是字符型尊浪,那么可以通過(guò)如下公式進(jìn)行轉(zhuǎn)換匣屡。
kk$y <- as.numeric(as.character(kk$y))
t1 = 1428641659? ? ? ? ? ? ? ? #時(shí)間戳(數(shù)值)
time1 = '2015-04-10 12:54:19'? #時(shí)刻(字符串)?
#----------------時(shí)間轉(zhuǎn)換
#----法一:as.POSIXct()
#用法:輸入-時(shí)間戳/字符串封救,先轉(zhuǎn)換為日期型;再按需要捣作,轉(zhuǎn)換為字符串/時(shí)間戳
#用法1:將時(shí)間戳轉(zhuǎn)換字符串
l0 = as.POSIXct(t1, origin="1970-01-01 00:00:00")? ? #將時(shí)間戳轉(zhuǎn)換為日期型
lc = as.character(l0)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? #將日期型轉(zhuǎn)換為字符串
#用法2:將字符串轉(zhuǎn)換時(shí)間戳
l1 = as.POSIXct(time1, origin="1970-01-01 00:00:00")? #將字符串轉(zhuǎn)換為日期型
l2 = as.numeric(l1)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? #將日期型轉(zhuǎn)換為時(shí)間戳
l3 = as.numeric(as.POSIXct(time1, origin="1970-01-01 00:00:00"))? #將字符串轉(zhuǎn)換為時(shí)間戳(最常用)
#----法二:strptime()
#特別地:輸入-只能為字符串
l4 = as.numeric(strptime(time1,"%Y-%m-%d %H:%M:%S"))? #將字符串轉(zhuǎn)換為時(shí)間戳(用法類似)
#特點(diǎn):任意取出時(shí)間點(diǎn)
hour = strftime(time1, format = "%m-%d %H")